必应搜索产品建议
根据微软小学者项目的要求,我要给必应的产品提一些建议。我注意到,在 MSRA,似乎大多数人用的是 Google,为什么大家不用微软自家的 bing 呢?下面是一些技术层面的比较。
精确匹配能力
搜索关键词是 “b4: experience with a globally-deployed software defined wan”,是 SIGCOMM 2013 的一篇 paper,大约6月时被公布出来。
在 Google 中,只输入了三个关键词,自动补全就已经出来,结果第一条是 paper 本身,第二条是 SIGCOMM 官方网站,第一页的10条结果全部是相关的。
bing 搜索对这个关键词不能自动补全,输入完整的关键词并回车后,第一条与 Google 的结果相同,第一页的10条结果中只有3条是相关的。
在关键词中加入 “SIGCOMM 2013”,bing 的首页10条结果中有9条相关,可见 bing 已经索引了这些网页,但由于长句精确匹配能力不强,没能把它们查出来。
在搜索引擎中,长句匹配是一件困难的事,因为难以高效地建立索引。在传统的搜索引擎技术中,是以“词”为单位对文章和查询进行分割,尽管相关度排序算法中可以考虑关键词的临近程度,但要达到整句搜索的效果还是很难的。我没做过这方面的研究,所以还是要留待 bing 的同事们研究了 :)
复杂页面抓取能力
仍以上面的论文为例,下面这个链接是 SIGCOMM 2013 日程表,列出了所有被录用的论文。
http://conferences.sigcomm.org/sigcomm/2013/program.php
这个页面在 Google 搜索结果中排第二,但在 bing 中无论如何搜不出来。直接输入这个链接,发现 bing 是收录了这个页面的,但 cached page 中只有导航栏而没有内容。问题很明显了:这个页面的主体内容是 Ajax 载入的,爬虫要模拟用户的点击并执行 JavaScript,才能获取到这个页面的主体内容。bing 显然没有这样做。当下采用 Ajax 载入的网页越来越多,如果不能有效抓取,对搜索引擎的查全率将有很大的影响。
“框计算”
分别在 Google 和 bing 里搜索 “中国科大”:
显然,Google 比 bing 的搜索结果好看很多。右侧有与中国科大相关的结构化信息,搜索结果部分还有 “News for 中国科大”,聚合了有关中国科大的一些新闻。在 Google 里搜算式、股票、天气、体育赛事等,都有结构化信息,很方便。这里借用百度“框计算”的说法,从原理上说就是对一些特定的关键词匹配后显示一些结构化信息。百度把结构化信息展示和搜索引擎推广结合起来,既让用户感觉到方便,又能从中盈利,还不会给人“操纵搜索结果”的口实。如果 bing 能展示更多的结构化信息,页面就不显得那么单调了。
Query Expansion
继续上面“中国科大”的例子。在搜索结果的页面摘要中,Google 高亮显示了“中国科大”和“中国科学技术大学”,这证明 Google 把它们看成同一个词,做了 query expansion。bing 只高亮了“中国科大”这四个字。更深入的搜索可以发现,bing 其实也做了 query expansion,会把中国科大、中国科学技术大学、USTC 看成同义词,但至少在这个页面没有这样做。
Query expansion 的失败使得 bing 在抽取页面摘要时没有足够的信息,显示的页面摘要似乎是随机抽取的字句。
页面权重与内容质量
继续上面的例子。Google 搜索给 wiki、百科类网站较高的权重,因此得到的信息比较有营养。至于为什么 wiki、百科类网站有较高权重,我就不知道了……不知道 bing 是否使用了 PageRank(似乎是 Google 的专利)或类似算法。
中文分词
下面是一个中文整句查询,据说曾经有人搜出一些“不和谐”的内容。**
**
对于这类整句查询,分词的好坏很关键。bing 把这句话分成了 “MP3/被/水洗/过后/能/不/能/用”,有效的查询词只有 MP3、水洗,还有好几个常见词在干扰(似乎 bing 没把这几个常见词列入 stop word),搜索效果当然无法恭维。
为了体现分词的重要性,按照 bing 的分词方式将分词后的句子输入 Google,搜索结果一落千丈。
只要把“能不能”看成一个词(即“mp3 被 水洗 过后 能不能 用”),Google 的搜索结果就基本上恢复原状了:
必应词典
跑题一下,还想说说必应词典的一个小问题。下面的广告有时显示不出来,出来的就是IE错误页被截掉一块的样子。建议当广告图片无法载入时,换成一个装饰图片或者干脆空白。