Freebase是个类似wikipedia的
创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用。两者之间最大的不同在于,Freebase中的条目都采用
结构化数据的形式,而wikipedia不是。
作用
比如,已故美国总统肯尼迪的条目。可以发现其中所有的内容都是格式化的,一条一条的,有点像履历表,包括出生时间、死亡时间、性别、职业、国籍、配偶等等。
这一套格式是固定的,所有人物条目都包含同样的字段。这样一来,数据之间就可以很容易地联系在一起,为信息的查询和处理提供了巨大的方便。
举例来说,将来可以很方便地在Freebase中查到“出生于1946年的美国电影导演的名单”,然后你就可以根据这份名单,立即从Freebase中提取他们每个人的简历。要想在wikipedia中完成类似的查询是非常困难的,事实上,wikipedia最大的缺点就是它的数据不是结构化的,因此难于引用和处理。
推而广之,Freebase的目标是包含地球上的所有信息,因此可以设想,理论上,将来可以从freebase中得到任何信息。我立刻能想到的一个应用是,将来在电脑上播放DVD或mp3时,播放器可以到Freebase中获取光盘或专辑的出版信息。这件事情最难的地方,倒还不是收集地球上的所有信息,而是怎样确定数据结构,换言之,怎样用一种格式描述出所有信息。
结构
Freebase的结构分为三层:Domain -> Type-> Topic。
(1) 在Freebase中,每个条目叫做一个Topic,每个Topic中的固定字段,叫做“属性”(Property);
(2) 所有同类的Topic组成一个Type,比如所有电影Topic就属于同一个Type,每个Type都有一套固定的Property,因此同类信息可以直接比较和关联;
(3) 所有相关的Type组成一个“域”(Domain),比如电影和音乐都属于“艺术和娱乐“ Domain。
截至2007年5月30日,Freebase中共有61个DOMAIN、765个Type,2,312,676个Topic。
元数据的威力
如果你熟悉图书馆学的话,其实可以看出来,Freebase的核心功能就是为每一类条目(Type)定义了一套
元数据。元数据是否准确和适用,是影响Freebase成败的关键。
Freebase最强大的地方就在于,它里面的元数据是可变的,具有弹性。
具体的操作机制,我还没有完全搞清楚,好像是用户可以定义自己私人的元数据,然后在某些条件下,某些私有元数据的Property可以变为共有的Property。
评价
现在Freebase全站完全都是用Ajax搭建的,HTML页面中根本不包含具体数据,完全要靠Javascript去读取。这等于拒绝了搜索引擎,我认为是极其不智的。
不管怎样,Freebase是一个革命性的网站,就像一个国外程序员所说:“Freebase是2007年迄今互联网上最激动人心的东西”(This is the most exciting Web thingy 2007 until now.)我想我将在这个网站里面,继续花费大量的时间,四处逛逛,熟悉整个系统。