Search Engine分类的最新日记
百度百科今天正式上线。根据CNET的报道,百度百科很明显是要和wikipedia竞争。
虽然走着wiki化的模式,但是浏览一下就可以发现,版权问题随处都是。其上的内容大多来自其他地方,而不像wikipedia原创,搞笑的是“中国国民党”已经不能编辑,“词条已锁定”。
最严重也最可笑的问题就是版权声明中cc-by-nc-nd和GFDL协议共存。要知道这两个协议之间根本不兼容,而且性质完全矛盾。cc-by-nc-nd不允许商业使用,禁止改作,而GFDL允许商业使用,允许改作,而且后续版本也必须遵循GFDL。
如果一个用户在cc-by-nc-nd协议下发表了作品,除作者外,其他人未经允许是不能随意修改这个作品的,而这个协议用在wiki模式下,完全是违背协议的。
上面关于版权问题弄错了。原文是:“百度百科的用户在百度百科上发布的内容引用自适用CC协议(“创作共用”协议,保证作者署名权。不得用于商业目的。保证作品完整性。参见http://creativecommons.cn/,http://creativecommons.org/licenses/by-nc-nd/2.5/cn/ 中文版)和/或GFDL协议(GNU自由文档协议,必须注明该文章是在GNU自由文档协议证书下发布的,也不得阻止别人自由取得该文章或其他GNU FDL所赋予的权利。参见http://www.gnu.org/copyleft/fdl.html)保护的作品的,应按照上述协议的规定,合理使用他人作品。”
精简一下就是“百度百科的用户在百度百科上发布的内容引用自适用CC协议和/或GFDL协议保护的作品的,应按照上述协议的规定,合理使用他人作品。”也就是说,并不是使用CC协议和/或GFDL协议,其版权规定是这样:“百度百科用户发表、转载的所有内容及其它附属品(如示例代码、图片等)的版权归原作者所有。若作者版权声明的或发表内容从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。作者无专门声明或者转载时无附带声明的内容及其它附属品(如示例代码、图片等)以下原则为准:1)在用于非商业、非盈利、非广告性目的时需注明作者及出处“百度百科”;2)在用于商业、盈利、广告性目的时需征得作者同意,并注明作者姓名、授权范围及出处“百度百科”;3)在百度百科之外,对百度百科用户发表、转载的作品,进行任何修改与部份删除均需应保持作者文字原意 ,并征求百度百科同意。”
baidu关于cc和GFDL的那句话说得非常绕嘴,很容易把人绕进去。
-----------------------------------------------------------------------------------------
baidu的用户协议非常狡猾,用户如果侵犯版权,责任在用户,“由于用户的相关帖子引起的任何知识产权纠纷,其责任在于用户本人,与百度百科无关。”而用户的贡献都为baidu所拥有“对于用户发表到百度百科上可公开获取区域的任何内容,用户同意百度在全世界范围内具有免费的、永久性的、不可撤销的、非独家的和完全再许可的权利和许可,以使用、复制、修改、改编、出版、翻译、据以创作衍生作品、传播、表演和展示此等内容 (整体或部分),和/或将此等内容编入当前已知的或以后开发的其他任何形式的作品、媒体或技术中 ;用户同意百度百科的其他用户对其发表的可公开获取区域的任何内容进行任意修改和删除。”真的厉害!责任在用户,好处归自己。
此外,baidu百科和wikipedia最大的差别就是缺少一个社群内的良好沟通,管理人员更是在幕后,缺乏透明度。
------------------------
更新:测试了一下关于侵权问题的处理。国际会计师联合会条目原文复制自新华网资料,
新华网版权已经声明:“凡本网注明“来源:新华网”的所有作品,版权均属于新华社,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:新华网”。违反上述声明者,本网将追究其相关法律责任。”我在这个条目上说明了这个情况,结果经过一段时间的审查后,把我写的给删除掉了,仍然是原来的侵权内容。倒是我在评论中提出的“新华网资料,未经授权,禁止转载”给发布了出来。可见其对著作权是完全漠视的。而且与一般wiki系统不同的是,他们删除的时候连历史资料都不留。
说来惭愧,这篇文章应该是在6月16号完成的,但是最近有很多事儿,实在没时间和精力来写这篇Blog,又不想草草写就,于是一推再推,拖到现在。
这次沙龙的发起者是我和车东,我们在网上有过几次交流,分别是在MSN和SocialBrain的IRC Channel里面。大家都算是Lucene的比较早的实践者,车东还曾经写过一篇Lucene的普及文章(Lucene:基于Java的全文检索引擎简介),在网上流传甚广。
Lucene是一个非常优秀的开源的全文搜索引擎,可以说是一套非常优秀的SDK(开发工具包),我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度,现在已经是Apache的顶级项目,在国内,Lucene的应用也越来越多。于是,Lucene这样一个开发包、一种技术,把大家联系在了一起。
这是车东在WebLucene的邮件列表中给出的沙龙安排:
时间:2005年6月16日晚7点
地点:北京 海淀区 清华东门茶餐厅
参与人员:XERDOC开发团队:(米嘉、曹飞、刘力、孟岩),WebLucene项目参与者:(车东、田春峰、张放洪、卢亮),特邀嘉宾(文德)
内容:上半场,车东进行PPT演示,时间20分钟,主题涉及WEBLUCENE的一些初衷,和尚未实现的一些设想(分词,发现,分类……)以及Lucene的一个应用案例(包括搜房、博客中国、gRaSSland.cnblog.org、8fang.com);下半场,Xerdoc的孟岩和米嘉进行PPT演示,介绍XERDOC的企业搜索和桌面搜索,并介绍Xerdoc中使用的中文分词算法。
比较有趣的是,最先大家争执的是Lucene的发音。我们一直的发音是[lu:s],车东的发音为[lu'sen],田春峰的发音为['lusen],后来田春峰给出比较令人信服的解释,我也在网上查到确切的证据,不过要想马上改正也是一件比较困难的事儿了:P。
Loo-seen.
Danny Sofer wrote:
> ...and where does the name come from?It's my wife's middle name, and her maternal grandmother's first name.
Doug
车东的演示主要专注在WebLucene方面,简要的介绍了Lucene的来龙去脉、基本功能以及在gRaSSland(我也是在这次沙龙上第一次知道了gRaSSland的来历,这个名字起的有趣)的一些实践。大家如果感兴趣,可以参考附录中的PPT。
孟岩的演示主要集中在Xerdoc DSearch的一些简要介绍和主要Feature,包括Xerdoc DSearch中的Tag、插件化结构、国际化支持等等。其中,插件化是一个重要的部分,你可以从这张图看到Xerdoc DSearch的整个架构。
米嘉的演示则专注在Xerdoc中Lucene的应用上,分别介绍了基于最长词匹配算法变形的分词系统和Xerdoc的文档管理框架-XDMF。
非常喜欢这种形式的聚会,没有什么功利目的,大家凭着自己的兴趣坐在一起,海阔天空、高谈阔论,在这样的讨论中,你真的能够得到很多有益的东西。套用Scoble评论FooCamp的一句话,“你发现那个演讲者用的是一个构造完全不同的大脑来工作,而那正是是我们遗弃的那部分思维。”。在国外,FooCamp每年都会引起很大的轰动,不知道什么时候在中国也能有这样的聚会,我想,那就期望更多有影响力、有责任心的组织、媒体、个人站出来吧(BTW:看看去年FooCamp的照片吧,Lucene的作者Doug Cutting也在其中哦)。
不知道这是不是Lucene在中国使用者的第一次聚会,立此存照。
附:
1)会议录音(比较大,分成4个文件,每个大概10M)
1(9.42M) - 车东的演示
2(18.31M)- Xerdoc的演示
3(4.65M)- 自由讨论
4(12.83M)- 自由讨论
2)PPT
《WebLucene项目的来龙去脉》-车东(30K)
《Xerdoc XDMF》-米嘉(2332K)
《Xerdoc DSearch》-孟岩(262K)
早在一个月前,blo.gs发布公告说网站已经卖了,但并没有说收购方是谁。昨天这个谜底才揭开,原来是Yahoo收购了它,应验了Steve Rubel的想法。。WordPress的开发者Matt曾经说这个收购方比较cool,不过按照keso的说法,Yahoo可不是一家酷的公司。
Google不久前公布通过Sitemap方式来获取网站更新,而Jeremy Zawodny就发表了一篇文章比较Google Sitemap与Ping Servers两种方式,并质疑Google为什么不在现有ping的基础上作进一步的发展,而是另立门户。只是当时可能并没有多少人将这篇文章与Blo.gs被收购联系起来。一家不太酷的公司与一家一直很酷的公司分别用自己的方式展开了新的竞争,似乎这出戏越来越好看了。
刚才听说, Google新闻刚刚加入了自定义首页的功能。赶紧去试了一下,果然不错。
每个栏目最多可以定制显示9条新闻,而且可以改变各个栏目的位置。最好的就是可以进行关键字定制,和google的新闻快讯类似,只是这个不是通过邮件,而是直接显示在google新闻首页上。每个关键字为一个栏目,可以设定多个自定义新闻的栏目(不知道可有上限?更新:Zheng说,栏目被限定在20个以内)
这里是我的自定义google新闻
也看到一些问题:
定制每次只能选择一种语言的新闻,而不能同时选择多种语言。例如我想同时看中文和英文关于维基百科的新闻,那么必须设立3个栏目,简体中文、繁体中文和英文,比较麻烦。这对于google如此国际性的搜索引擎来说未免有些不相称。
当然,最大的遗憾是国内许多地方不通过一些技术手段都根本看不到google新闻,真是可惜了。
注:我在blogbus上的blog今天不知何故,不能把文章发布出去,暂且发布到这里吧。
