注册
 找回密码
 注册
江西广告网
查看: 153|回复: 0
打印 上一主题 下一主题

自己分析网站日志出现的九种蜘蛛

[复制链接]

该用户从未签到

1
跳转到指定楼层
发表于 2008-12-2 09:23:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?注册

x
  这是我在空间IIS日志上分析出来的各大搜索引擎的蜘蛛名称   可能大家除了第一个都经常见。   1.Gigabot/3.0 (http://www.gigablast.com/spider.html) 这个搜索了一下,好像是Gigabot搜索引擎爬虫。已被google收购了吗?   2.(compatible; MSIE 7.0; Windows NT 5.1; Embedded Web Browser from: http://bsalsa.com/; Mozilla/4.0(Compatible Mozilla/4.0(Compatible-EmbeddedWB 14.59 http://bsalsa.com/ EmbeddedWB- 14.59 from: http://bsalsa.com/ ; .NET CLR 1.1.4322)   这个我一开始以为是蜘蛛,查询了之后,有人说是bsalsa.com开发WINDOWS平台上DELPHI相关软件的,Win主机都会有记录的,不知那位能给解释一下。   3.Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )   这个是网易的有道机器人了,不看见日志,我还想不起有道搜索呢。   4.Sogou web spider/4.0( http://www.sogou.com/docs/help/webmasters.htm#07)   这是搜狗的蜘蛛了,每天都扫描我网站(http://www.aistxt.com)几百次,抓了2,438 个网页   ,每天带来的IP平均是3个。SouGou Rank值也不算很低,刚到的43。   扫描量很大,对动态链接网站负担很大。   5.iaskspider/2.0( http://iask.com/help/help_index.html)   Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)   新浪爱问爬虫 和搜狗差不多,没什么意义。   6.Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)   这个是中文雅虎,下面的是美国总部的爬虫   http://help.yahoo.com/help/us/ysearch/slurp)   7.Mediapartners-Google 这个是GG点击广告爬虫   下面的才是主角Google爬虫   8.Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)   9.Baiduspider ( http://www.baidu.com/search/spider.htm)   最后一个是让我最头疼的,每天首页都访问几十次,但内页很少访问。   有人分析说是百度算法问题,导致百度爬虫对相同页面会多次发出请求(尤其是首页)。   10.未在日志上发现的蜘蛛:MSN爬虫 和Alexa排名爬虫   微软是否已经放弃搜索项目了?   search.live.com   这个网址已经打不开了,出现的是中国网通提示不存在的网址,有点让人吃惊.   至于Alexa排名爬虫,我的网站排名还不够,人家是自然不回来的了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表