江西广告网

标题: 百度的原罪:人工干预搜索结果 [打印本页]

作者: 樱花樱花     时间: 2009-2-7 10:44
标题: 百度的原罪:人工干预搜索结果
  首先,可以作个实验,试着分别百度和谷歌一下“阑夕”,看看第一页的结果。   在对比结果之前,我先介绍一下搜索引擎的工作原理吧。在互联网海量的信息空间中,搜索引擎会释放出蜘蛛(Spider),依照自身的检索程序(Indexer),蜘蛛在网络上四处爬行,将获得的信息不断的回报给服务器数据库,然后再由搜索引擎根据自己的核心算法来建立起与用户查询条件相匹配的记录,最后返回排序结果给进行查询操作的用户。   从最到的雅虎,到Google,再到百度,它们之所以能够成为举世闻名的搜索引擎公司,不可缺少的一个条件就是各自都拥有自己的核心算法,这是搜索引擎赖以生存的基石,例如Google的PageRank专利和百度的超链分析专利。   打个比方,当用户搜索“火箭对爵士”时,互联网上可能存在四个带有这五个字的网页,这四个网页的内容分别是:   1、一篇博客里的一句话“在看完火箭对爵士的比赛之后我就跟老杜打电话去了,我跟他说……”;   2、门户网站为火箭对爵士的比赛制作的专题直播及评论;   3、该门户网站该项专题直播及评论的镜像站点;   4、该门户网站在上个赛季为火箭对爵士的比赛制作的专题直播及评论;   当蜘蛛爬到了这四个结果后,会将结果反馈给搜索引擎的数据库,这时搜索引擎就要给这四个网页进行排序了,根据它的核心算法,排列出给用户带来最佳体验的搜索结果顺序。这个排序并不是绝对的,但最优秀的搜索引擎应该排列出用户最想看到的顺序,比如在这个举例中,完美的搜索引擎应该排出的是“2-3-4-1”或“2-3-1-4”这样的结果,因为用户“火箭对爵士”时,多数想要了解的是比赛的信息,所以“2”显然应该列为第一项;“3”等同于“2”的复制站点,权重低于“2”但内容依然充足,所以列为第二项;“4”的内容虽然足够充分,但信息陈旧,列为第三或第四项;而“1”的关键词与文章内容很明显匹配度不高,所以同样也列为靠后的第三或第四项。如果结果排序并非如此,那么这就说明这个搜索引擎的算法还不够完善。   那么,现在回到本文开头的实验结果上来,“阑夕”是我在互联网上的笔名,同时是个十分偏罕的词语,很少为人所用到,受干扰较小。在谷歌的搜索结果中,第一页第一项就是我在新浪的主博客首页,往下依次有我在TechWeb的次博客、我在豆瓣的主页、我在鲜果的博客抓取频道、我在天涯来吧的个人资料,中间穿插了一些署名转载文章,主次分明一目了然。但是再看看百度的搜索结果,排第一和第三的是两个署名转载,第二项是我在豆瓣的主页,第四项是个采集站(用来采集抓取QQ空间内容),第五、第七项“阑夕”都只是文章中频率很低的词语,我的主博客和次博客的首页都未出现。   谷歌和百度所使用的算法是不同的,所以它们两家搜索引擎的搜索结果也不会相同。但由此看去,提供结果更加准确的定然是谷歌无疑,假如有用户要搜索我的笔名,优先推送的很显然应该是我的博客和主页,而百度所推送的结果杂乱无章,给搜索者所提供的是一份十分糟糕的解决方案。   为什么说我的博客就一定要排在“阑夕”搜索结果的第一位呢?这不是我的自恋情节做怪,而是因为我在互联网上身为“阑夕”的信息更新全部都在博客上完成,这份速度和权重都是没有其他网页可以相比的,当然“阑夕”这个词汇的冷僻性也保证了这一点。换句话说,假如在搜索“韩寒”时,搜索引擎给出的结果第一项是韩寒的某个粉丝团网站,而不是韩寒的博客,我们也可以说这个搜索引擎是不称职的,因为尽管韩寒的这个粉丝团网站可能一天会产生超过1000篇带有“韩寒”这两个字的内容,而韩寒数天才更新一次博客,但用户搜索“韩寒”时更为关注的显然是韩寒这个人物,同时韩寒的博客也拥有着数量巨大的反向链接,它的权重将高于其他与他有关的网页。   但是我在本文所使用的标题是《百度的原罪:人工干预》,而非《百度的原罪:糟糕的算法》。这是因为我并不质疑百度的算法导致它在建立检索“阑夕”的数据库及结果排序时出现了混乱与落后,这不是百度算法的原因。   因为在2008年12月之前,百度搜索“阑夕”我的主博客都是排在前三项以内的。然而,去年12月之后,我的博客就从百度消失了,权重变得很低,很多相关搜索结果都排得非常靠后。11月24日,我在天涯和博客上发表了一篇名为《从牛根生、李彦宏、黄光裕的危机看中国企业家的道德》的评论文章,我没有说百度因为我说了它董事长的坏话就把我的博客给斩草除根了,但从事情的发展过程来看,这篇文章无疑是个显著的分界点。   我也当然不相信百度的算法技术能够判断文章的倾向。唯一解释得通的是,百度数量庞大的人工编辑在日常工作中对“阑夕”这个关键词做了处理,就和他们平日里重复操作的上万次处理那样。   同时也正是因为百度有着人工干预搜索结果的策略,所以才会有三鹿与百度的危机公关合作、拒绝百度营销人员推销竞价排名后网站突然从百度搜索结果上消失、甚至你用国外的IP在百度MP3搜索格莱美的部分音乐试听下载都全无结果——但是用国内的IP搜索结果却是完好无损的一抓一大把。   我肯定人工干预搜索结果是有着好处的,人永远比机器要更加人性化、更加具备机动性,比如中国的法律不容许色情信息的存在,但是搜索算法和蜘蛛都无法判断词汇及图片的性质,所以人工干预能够及时的清除一些搜索引擎照常抓取的违法色情信息。但百度的人工干预手段更多的是使用在助力其营销或保护其口碑上面,这也使搜索引擎丧失了其根本理念:客观、中立、公正。   Google则是始终主张技术第一,算法不够完善,OK,没问题,我不断的研发、完善Google的算法,它不可能成为人脑,但我尽全力使它无限接近人脑的程度。面对海量的信息,人工永远是弱小的,只有通过人工开发出技术和工具,运用到检索信息上,产生有序和有益的结构,这才是最符合科技的本质的。   同时,人工干预也大大的降低了百度的舆论口碑,这是百度无论在它的搜索结果中隐藏多少骂声都无法改变的事实。很简单,如果网上出现一篇批评百度的文章,很少有人会说作者是谷歌的枪手,但如果网上出现一篇批评谷歌的文章,可能会有不少人将作者指为谷歌的枪手。这是一个印象问题,制造这种印象的就是百度和谷歌自己。   最近,有不少博客在义务的推广谷歌的“一个鸡蛋”公益活动,有位推荐这项活动的博客(赖宝)因为汶川捐款结果(政府官员的华宫豪车)而对“一个鸡蛋”这类捐助活动也是持有着怀疑和犹豫,我在文后留言说:“汶川捐款的实际操作打击了很多人,你也是其中一个。但愚以为Google的一个鸡蛋公益活动不会如你所怀疑的那样是作秀或者有存在暗箱,如果在这个互联网连Google都无法相信,那么就没哪个公司能够被信任了。”他的回复是:“同。我就是看到是Google的才转过来的。要是Baidu的话……”   同样的还有百度和Google在做产品上的差异。百度利用人工干预结果将自己的贴吧、知道、百科等网页权重调得相当之高,以至于在搜索某些关键词(比如“张靓颖”),第一页甚至有超过一般都是百度自己的产品网页,这也被某些网友戏称为“百度站内搜索”。换而言之,百度利用搜索入口来强行推广自己的产品增强用户黏性,体现的是对自己产品的不自信,它并不相信自己能够做到让网友输入tieba.baidu.com、zhidao.baidu.com、baike.baidu.com来进入这些产品页面。但Google的电子邮箱产品G-Mail则让人看到了什么叫做卓越,当G-Mail刚刚推出时,利用邀请注册的病毒式推广很快的获得了一批为数不少的基础用户,可是紧接着为了应对Google的挑战各大邮箱服务企业都将邮箱的储存空间扩大到了1G甚至超过1G,使G-Mail最吸引人的优势立刻荡然无存,而G-Mail在设计上的一些缺陷(结构混乱,速度缓慢)也使Google的投资者建议Google应该干掉这个项目,重新启动做客户端式的企业邮箱,G-Mail也被预言永远不会超过100万用户。2008年,G-mail有了1亿用户,而且它的用户增长速度超过了40%,Yahoo只有2%,Microsoft Mail也只有7%。出于对Google的信任,几乎所有G-Mail的使用者都相信Google有能力且即将改善G-Mail的服务和质量,而他们最终感受到了,并向好友传播G-Mail的好处。从头到尾,Google没有删掉任何“G-Mail真是糟透了”这样的评论,它们都挂在Google的搜索结果那里,Google只是沉下心来把G-Mail进行了改善和更新,然后赞誉G-Mail的数量巨大的结果很迅速的淹没了那些负面言论。   过分的依赖人工干预对百度来说是颗不定时的炸弹,这和传说中鸵鸟在遇到险情时将脑袋埋进沙堆是一样的结果,有些危机信息并不是百度将其在搜索结果中予以屏蔽就是不存在了的,相反,当网友使用百度搜索不到客观、丰富的结果,他会认为百度的搜索水准很差劲。   不论是不给钱就封站,还是竞价排名,这些2008年年底让人诟病的缺点也都是百度的人工干预所产生的。在电影《魔鬼代言人》的片尾,阿尔·帕西诺再次化身撒旦,面对再度受到诱惑的基努李维斯的背影,英俊而邪魅的笑说,“啊,虚荣,是我最爱的原罪”。当百度将人工操作视为提供搜索结果的“核心技术”时,谷歌、搜狗、有道以及其他百度的竞争对手都露出了同样的笑容,没有什么比目睹自己最大的竞争对手自掘坟墓要更加愉快的感受了。   另外附上随州网友论坛www.suizhou8.com寻求友情连接




欢迎光临 江西广告网 (http://bbs.jxadw.com/) Powered by Discuz! X3.2