中华人民 发表于 2009-5-19 11:56:09

谈谈百度也中了H1N1病毒

  最近H1N1闹得沸沸扬扬,全民皆知。这不前几日连百度也中了H1N1病毒。
  在搜索引擎的更新速度中百度对于门户新闻网站以及其他更新量大的网站索引速度都很快,基本上当天更新。但是对于更新量小的网站,例如医院网站,两者就有较大区别,比如google对于高权重并提交sitemaps和ping的网站,其索引速度可以达到分钟级别,有时刚刚更新完一篇文章,几分钟后就能在google中找到,但对于百度来说,索引速度较慢,通常仅仅是爬去了网站的首页,搜索标题,或者目录页,而对于文章的内容页很少。
  根据我对www.wznanke.com这个新站的观察,该网站主要是一个医疗类型的服务网站,从收录的快照中可以看出百度对于网站首页的关注似乎特别高。我是在网站首页改版固定内容未曾完善的情况下,首先通过外部软文链接,以及百度的知道,贴吧为辅助。不到一个周的时间被百度所收录,通过对相关医疗网站分析,通常情况下。半个月之内发布的文章,使用百度搜索文章标题,排在前面的基本上都是门户网站转载或集合来的文章,而医院站点的文章大多千篇一律,所以文章的内容含量在搜索引擎中显得很小,那么如何提高针对专业内容更新少,行业特征明显的类似万众男科网这样的网站流量呢?如果百度也是不幸中了H1N1病毒或许我们能找到一些原因吧!
  一、模拟抓取分析
  (1)根据百度在该站5.16的一次爬虫记录显示:
  #Software: Microsoft Internet Information Services 6.0
  #Version: 1.0
  #Date: 2009-05-16 14:42:56
  #Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
  2009-05-16 14:42:55 W3SVC490114653 61.129.14.17 GET /robots.txt - 80 - 61.135.190.55 Baiduspider ( http://www.baidu.com/search/spider.htm) 404 0 64
  首先爬虫找到的是网站首页顶部导航信息,百度在读取了一次robots返回404以后就暂停。由于网站内页内容还没有完善的情况下,百度在读取首页后,又会间隔较长时间才会访问内页。根据模拟显示,百度的第一次有效访问是:
  2009-05-16 01:23:32 W3SVC490114653 61.129.14.17 GET /index.htm - 80 - 61.135.162.212 Baiduspider ( http://www.baidu.com/search/spider.htm) 200 0 0
  其次百度的下一次读取很可能是继续先读取首页内容,在site:wznanke.com中我们可以通过快照显示出,不过在第二次爬取首页的时候,没有读取robots(模拟爬虫显示)。
  2009-05-16 08:24:26 W3SVC490114653 61.129.14.17 GET /index.htm - 80 - 61.135.162.212 Baiduspid er ( http://www.baidu.com/search/spider.htm) 200 0 0
  在接下来,可能百度会对首页的链接进行稍多的读取,由于该网站在逐步完善中所有接下来,网站应该完善相关内部链接,拒绝死链接的出现,根据模拟爬虫记录:
  2009-05-1608:26:01W3SVC490114653 61.129.14.17 GET /remensousuo/RuHeJianFei/index.htm - 80 - 61.135.162.212 Baiduspider ( http://www.baidu.com/search/spider.htm) 200 0 0
  根据百度baiduspider的每一阶段爬取网内容的不同,我们可以及时根据相关规则调整网站的相关布局。特别针对新站上线,百度不会很快就给与收录,只有当你的网站在搜索引擎有了一定得权重的时候,并且有一定高质量的反相链接,百度会给该网站一个阈值,随着该阈值的提升,这时候百度才会开始收录相关内容页面,这时候网站才会有更多来自百度的流量。
  特别是对网站内容还在逐步完善中,而又急切希望百度收录的站长来说,切莫盲目提交各大搜索引擎。在这中间我首先通过的是相关外链的文章来宣传网站,通过百度给予权重较高的百度空间、贴吧、知道、配合百度经常光顾更新时间较快的门户网站,诸如:新浪、网易、tom在相关社区重点撰写一定质量的文章,这样百度视为该网站获得的外部权重较高,于是自愿收录其中。
  当然百度也不会仅仅是H1N1病毒的传播者,只要我们找到了百度收取规则的法宝,这种H1N1病毒也将被广大站长同志清除掉。
  本文由www.wznanke.com站长友情供稿 联系QQ309067036
页: [1]
查看完整版本: 谈谈百度也中了H1N1病毒