从Social Graph到Semantic Web

The web is more a social creation than a technical one. I designed it for a social effect — to help people work together — and not as a technical toy. The ultimate goal of the Web is to support and improve our weblike existence in the world. We clump into families, associations, and companies. We develop trust across the miles and distrust around the corner.

—Tim Berners-Lee, Weaving The Web

Google发布了Social Graph API,利用其抓取的网页,通过分析XFN (XHTML Friends Network)或者FOAF (The Friend of a Friend)标记来提供关系元信息。这些标记在某些博客站点已经自动加入到源代码中,例如:WordPress,Twitter等。

Google Social Graph

关系挖掘其实是搜索引擎一直在进行的工作,比如PageRank就是用来分析网页之间的链接关系,目前则演变为对网页上面主体(例如:人名、地名、机构名等)之间关系的数据挖掘。雅虎全能搜索在去年8月30日推出的人物搜索就是通过对新闻、博客等网页上面包含人名信息的挖掘,总结出不同人物之间的关系。比如下面是刘若英的网络关系图(PeopleMap):

PeopleMap of Yahoo! China OmniSearch

与Google的Social Graph更类似的是博客搜索里面的博主粉丝团,就是通过对博客页面上Blogroll或友情链接里面的信息挖掘,发现不同博客作者直接的关系。

Blog SRP

其实,从更大的角度看,上面的几个产品形式都属于Semantic Web的范畴,让网页上的信息变得可被机器所理解,只不过采取了由上到下(Top Down)或由下到上(Bottom Up)的不同方式。Alex Iskold对此有详细的解释:

  • 由下到上:自主在网页里面嵌入语义的标注信息(元数据)
  • 有上到下:依赖自然语言处理技术对现有数据进行分析,提取出语义信息

Semantic Web Approaches

从目前看,由上到下的方式比较具有现实意义,因为现有的网页数据量已经到达百亿级别,不可能从头再来标注。当然,由下到上的方式也会在新的网站里面越来越多。或许很快,Tim Berners-Lee所梦想的Semantic Web就真的会到来。

This entry was posted in 互联网 and tagged , , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>