说来惭愧,这篇文章应该是在6月16号完成的,但是最近有很多事儿,实在没时间和精力来写这篇Blog,又不想草草写就,于是一推再推,拖到现在。
这次沙龙的发起者是我和车东,我们在网上有过几次交流,分别是在MSN和SocialBrain的IRC Channel里面。大家都算是Lucene的比较早的实践者,车东还曾经写过一篇Lucene的普及文章(Lucene:基于Java的全文检索引擎简介),在网上流传甚广。
Lucene是一个非常优秀的开源的全文搜索引擎,可以说是一套非常优秀的SDK(开发工具包),我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度,现在已经是Apache的顶级项目,在国内,Lucene的应用也越来越多。于是,Lucene这样一个开发包、一种技术,把大家联系在了一起。
这是车东在WebLucene的邮件列表中给出的沙龙安排:
时间:2005年6月16日晚7点
地点:北京 海淀区 清华东门茶餐厅
参与人员:XERDOC开发团队:(米嘉、曹飞、刘力、孟岩),WebLucene项目参与者:(车东、田春峰、张放洪、卢亮),特邀嘉宾(文德)
内容:上半场,车东进行PPT演示,时间20分钟,主题涉及WEBLUCENE的一些初衷,和尚未实现的一些设想(分词,发现,分类……)以及Lucene的一个应用案例(包括搜房、博客中国、gRaSSland.cnblog.org、8fang.com);下半场,Xerdoc的孟岩和米嘉进行PPT演示,介绍XERDOC的企业搜索和桌面搜索,并介绍Xerdoc中使用的中文分词算法。
比较有趣的是,最先大家争执的是Lucene的发音。我们一直的发音是[lu:s],车东的发音为[lu'sen],田春峰的发音为['lusen],后来田春峰给出比较令人信服的解释,我也在网上查到确切的证据,不过要想马上改正也是一件比较困难的事儿了:P。
Loo-seen.
Danny Sofer wrote:
> ...and where does the name come from?It's my wife's middle name, and her maternal grandmother's first name.
Doug
车东的演示主要专注在WebLucene方面,简要的介绍了Lucene的来龙去脉、基本功能以及在gRaSSland(我也是在这次沙龙上第一次知道了gRaSSland的来历,这个名字起的有趣)的一些实践。大家如果感兴趣,可以参考附录中的PPT。
孟岩的演示主要集中在Xerdoc DSearch的一些简要介绍和主要Feature,包括Xerdoc DSearch中的Tag、插件化结构、国际化支持等等。其中,插件化是一个重要的部分,你可以从这张图看到Xerdoc DSearch的整个架构。
米嘉的演示则专注在Xerdoc中Lucene的应用上,分别介绍了基于最长词匹配算法变形的分词系统和Xerdoc的文档管理框架-XDMF。
非常喜欢这种形式的聚会,没有什么功利目的,大家凭着自己的兴趣坐在一起,海阔天空、高谈阔论,在这样的讨论中,你真的能够得到很多有益的东西。套用Scoble评论FooCamp的一句话,“你发现那个演讲者用的是一个构造完全不同的大脑来工作,而那正是是我们遗弃的那部分思维。”。在国外,FooCamp每年都会引起很大的轰动,不知道什么时候在中国也能有这样的聚会,我想,那就期望更多有影响力、有责任心的组织、媒体、个人站出来吧(BTW:看看去年FooCamp的照片吧,Lucene的作者Doug Cutting也在其中哦)。
不知道这是不是Lucene在中国使用者的第一次聚会,立此存照。
附:
1)会议录音(比较大,分成4个文件,每个大概10M)
1(9.42M) - 车东的演示
2(18.31M)- Xerdoc的演示
3(4.65M)- 自由讨论
4(12.83M)- 自由讨论
2)PPT
《WebLucene项目的来龙去脉》-车东(30K)
《Xerdoc XDMF》-米嘉(2332K)
《Xerdoc DSearch》-孟岩(262K)

推荐一个不错的lucene学习网站:http://www.lucene.org.cn
我是一名JAVA工程序,现在在使用Lucene,在使用过程遇到了很多困难,也学到了很多东西,希望与正在使用Lucene或学习Lucene的朋友一起交流!我建了一个QQ的lucene群!希望感兴趣的朋友加入!QQ群号是:2735241!
我是一名JAVA工程序,现在在使用Lucene,在使用过程遇到了很多困难,也学到了很多东西,希望与正在使用Lucene或学习Lucene的朋友一起交流!我建了一个QQ的lucene群!希望感兴趣的朋友加入!QQ群号是:28615446 !
昨天刚听说lucene,在网上浏览了很多这方面的信息。但是我想搞明白的是:能不能在jsp网页中用lucene搜索mysql数据库,然后将搜索结果用html格式显示出来?如果这个问题很幼稚,请不要不关心。真的不明白,到底怎样实现。
刚接触lucene
我是先听录音后才来这里的.我想请问一下他的那些api有中文的吗?
各位老大,现在lucene主要都研究什么?
各位老大,哪位能给一个Lucene的应用技术方案做参考?
现在我要做一个基于歌曲相关内容的全文搜索业务,只有几天时间,而自己对全文搜索又是一点不懂,着急啊!
我只有1天左右时间写方案,哪位前辈有现成的Lucene的应用方案可否给我一份拜读一下,谢谢了!
我mail:greatmaster@tom.com
有幸拜读,万分荣幸!
员老级的人物,佩服佩服,小弟今天刚刚接触这个,感谢大侠们的文章,辛苦了!
读音确实如一楼所说。Information retrieval上的教授就总这么讲。
lucene应该是发音为[lu:'si:n]吧
我在国外的一个lucene培训讲座flash看到的
最长词匹配算法的分词 is the simplest and most effective word segmentation method. - roboo meshfire 儒豹
Lucene是一个非常优秀的开源的全文搜索引擎
有沒有人可以提供會議錄音的文字記錄?
對不起了。我是香港人,普通話完全不行。
http://blog.csdn.net/accesine960/archive/2005/07/13/424306.aspx
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
我把程序整理了一下,可以独立运行的版本,去掉了xerdoc的一些依赖类。
WoW,好玩呢。你们真应该事先预告,网络现场直播,事后blogging、podcasting还有照片分享;D
To Che Dong: Thanks, I hope so too.
To Isaac: 只有文档和录音,那天没有照相,现在想想真是太可惜了。
立此存照的“照”只有文档?:)
谢谢孟岩,很好的总结,希望能和XerDoc Team有更多的交流:你们做的很出色。