Taglines:一条流过记忆的河

Web2.0应用的普及和标签(Tag)的出现使得网友可以自由标注各种类型的文档,无论是照片(Flickr),网址(del.icio.us),还是DV短片(Youtube)。大量的标签日积月累,如果对其进行挖掘,必然会有很多有趣的发现。最简单的方法就是以时间为单位,通过观察网友的标签,发现整个网络社区关注兴趣的变化。这个想法促成了雅虎研究院几位研究人员的一项有趣的研究。

研究小组收集了雅虎照片共享网站Flickr上的标签信息,时间跨度是2004年6月3日到2005年9月17日,标签数量累计8680万个,平均每周有 120万个标签。在这些多标签中,完全不同的标签有126万个(即平均每个标签被重复使用了70次)。我们的目标是找出这472天中不同时间段中最受关注的主题(即标签)。这里时间段的大小可以短到一天,也可以长至一周、一月乃至一年。但是时间段不同,网友关注的主题性质也会不同:一天的结果往往是短暂不可复制的,而一周或者一月的结果则表现出更广阔和持久的变化模式(如:季节性的体育活动或节日)。

在前端展现上,采取了两种显示模式:横向的“河流”或者纵向的“瀑布”,屏幕上还有一些操作按钮:

  • 顶部的时间轴上显示出当前的时间段(默认时间单位是一天)。如果你想查看某一天的标签,可以通过鼠标拖动时间轴上的指针到特定的日期。
  • 左下方的控制按钮用来操作播放、暂停、快进和快退(时间单位是一个月)以及标签移动速度的快慢。
  • 右下方的按钮可以在“河流”和“瀑布”两种显示模式间进行切换。

Taglines by river mode

河流模式的Taglines

在河流模式下,每个标签从右到左依次显示,字体大小代表了它的受关注程度。在每个标签下面,都有Flickr上与此标签对应的一张照片。用鼠标单击标签后,会显示更多的相关照片。

Taglines by waterfall mode

瀑布模式的Taglines

在瀑布模式下,屏幕分成左右两块,该时间段最受关注的8个标签显示在左边,字体大小代表了不同的关注程度;右边显示的是该标签下的照片。标签变化的时间段是一天,如果某个标签出现了好几天,那么它的位置保持不变的,但右边的照片会相应增加。例如,上图中的2005年2月14日,情人节和中国春节的标签都持续了三天以上。

不过,项目最大的挑战是从大量的数据中,实时计算和展现最受关注的标签。研究组利用数据库、文本和区段等不同范围的索引技术,提出了“化整为零”和“化零为整”两个巧妙的算法,解决了实时性的难题。对搜索技术和算法关心的网友,可以下载研究组在WWW2006会议上的主题论文《标签的时序图像化》(Visualizing Tag over Time,文中的技术和算法思想可以扩展到更多与时间相关的内容展现上,例如:新闻标题、查询日志、网址收藏,或者音乐下载等。

当然,如果你对技术没有兴趣,那么现在就可以泡一杯咖啡,走进标签的河流,静静回味时间的流逝。

(原文发于雅虎搜索日志)

This entry was posted in 互联网 and tagged , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>