互联网搜索的未来

The Road Ahead十年前,微软帝国的缔造者比尔-盖茨(Bill Gates)曾写过一本在当时轰动一时的书——《未来之路》,他在这本276页的书中预测了微软乃至整个科技产业未来的走势。十年后,人们又一次开始对科技产业的未来展开了预测,不过这一次预测完全集中在盖茨10年前没有预测到的重要产业领域:搜索引擎。2006年5月19日和20日,雅虎欧洲研究中心和Universitat Pompeu Fabrah大学网络搜索研究组合办的“互联网搜索的未来”(Future of Web Search)研讨会在西班牙召开,来自17个国家的150名搜索前沿的探索者们济济一堂,对未来搜索的各种主题进行了展望。

著名搜索专家、智利科学家Ricardo Baeza-Yates在会上作了《互联网查询词挖掘的应用》(Applications of Mining Web Queries的主题报告。今年1月,Ricardo正式加盟雅虎,负责雅虎在欧洲及拉美的研发中心。他与Berthier Ribeiro-Neto曾一起合作编写了《现代信息检索》(Modern Information Retrieval一书,成为信息检索领域的经典教科书而广泛流传。Ricardo在加盟雅虎前是智利大学计算机科学系教授,同时也是世界上多所大学的客座教授,被公认为信息检索领域少数几位顶级专家之一。在这份报告中,他介绍了对用户搜索时使用的关键词进行分析后的各种应用:通过对查询词的聚类,借此了解用户搜索的动机,从而可以向用户推荐更好的查询词,或者对搜索结果的相关性进行改进,或者根据查询词对用户点击的网页进行分类。

另一位雅虎搜索研究专家Andrei Broder作了主题报告:《从信息检索到信息推送》(From query based Information Retrieval to context driven Information Supply的报告。大家对于Andrei可能并不陌生,搜索日志在此前曾刊登了《对话Andrei Broder》系列文章123,初步接触了他对未来“没有搜索框的搜索”的一些畅想。

Andrei Broder

Andrei认为互联网的搜索发展可以分成四个阶段。第一个阶段是1994年到1997年,当时的搜索引擎都采用的是传统信息检索方法,只使用网页自身带有的文字信息(例如:词出现的频率,网页内容的语言等),比较典型的搜索引擎包括Altavista、Excite、Lycos等。1998年后,进入第二个阶段,搜索引擎开始大量采用网页之外的信息,包括各种超链分析算法、用户点击的跟踪和链接文字(Anchor Text)的应用等,该阶段搜索引擎代表是Google和Inktomi。目前我们正处在第三个阶段,搜索引擎开始关注用户查询词背后的需求,而不再是查询词本身,这包括语义的分析,相关内容的整合,对用户的查询提供更多帮助(例如:友好的界面、拼写纠错、相关搜索、搜索提示等)。2000年,在《互联网搜索的分类》这篇论文中,Andrei在分析后把人们上网搜索的需求分成三类:对信息的需求(例如:找新闻、找评论、找帖子等)、对导航的需求(找某个特定网站)和对交易的需求(例如:下载软件、在线购物、订机票等)。第三代搜索引擎必须根据用户的需求,进行结果的优化,比较典型的例子是Yahoo Shortcuts。例如:搜索“北京 天气”时,除相关网页搜索结果外,还会显示当前北京的天气情况。

Yahoo Weather Shortcuts

第三代搜索引擎大量利用与时空相关的Context信息,如:地理位置、查询历史、个人档案等。通过对这些相关信息的利用,可帮助筛选出不合适的结果,结果的排序可以更加个性化。随着Context信息的不断发展,Andrei认为到第四代搜索引擎后,用户的搜索将不在需要他们输入查询词,而是搜索引擎可以根据用户的行为和Context信息,主动进行信息的推送(Information Supply)。

Information Supply Engine

其实,在目前的互联网上,已经有一些信息推送的例子。例如,对周期性需求的信息推送,像订阅服务(电子邮件、RSS等)或者新闻邮件提示等。再比如对一些临时性需求的信息推送,像电子商务(推送商品的配件信息、用户评论和相关商品信息等)、在线旅游(推送机票、酒店、租车等信息)以及上下文相关的广告推送。在Andrei看来,选择显示什么广告时不仅仅要看查询的关键词,还要针对用户的背景、查询的历史、用户所处的地理位置(大到国家,小到街道)和广告的显示历史进行优化匹配。在这个过程中,信息推送引擎(ISE)将对三个信息源要素进行匹配,即对用户(如:注册的档案和背景信息)、活动(如:用户操作历史和浏览网页的内容)和广告(如:广告的统计)进行匹配,排序显示最合适的广告。当用户执行了相应操作(如:点击某条广告)后,此信息会反馈到三个信息源以及信息推送引擎,以便进行下一次的广告推送,从而周而复始,成为闭环。雅虎今年7月推出的搜索广告系统Panama和微软计划开发的adCenter (微软10年后终于意识到了搜索引擎的重要性),原理大体与此类似。

整个研讨会共有17个主题报告,除上面两个外,还包括:链接型Spam的对策P2P搜索的相关性搜索的个性化用于语义搜索的XML信息检索等,喜欢搜索的朋友可以下载后慢慢研读(都是英文的)。

Photo of Richardo and Javier Rodriguez Zapatero and Ron Brachman

会议期间,还举行了雅虎在巴塞罗纳研究中心的开幕仪式。上图(由左到右)为身材魁梧的大胡子Richardo和雅虎西班牙负责人Javier Rodriguez Zapatero、雅虎美国研究院副总裁Ron Brachman在开幕式上的合影。

(原文发于雅虎搜索日志

This entry was posted in 互联网 and tagged , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>