Lucene使用者沙龙

| 评论(19) | 引用通告(3)

说来惭愧,这篇文章应该是在6月16号完成的,但是最近有很多事儿,实在没时间和精力来写这篇Blog,又不想草草写就,于是一推再推,拖到现在。

这次沙龙的发起者是车东,我们在网上有过几次交流,分别是在MSN和SocialBrain的IRC Channel里面。大家都算是Lucene的比较早的实践者,车东还曾经写过一篇Lucene的普及文章(Lucene:基于Java的全文检索引擎简介),在网上流传甚广。

Lucene是一个非常优秀的开源的全文搜索引擎,可以说是一套非常优秀的SDK(开发工具包),我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度,现在已经是Apache的顶级项目,在国内,Lucene的应用也越来越多。于是,Lucene这样一个开发包、一种技术,把大家联系在了一起。

这是车东在WebLucene的邮件列表中给出的沙龙安排:

时间:2005年6月16日晚7点

地点:北京 海淀区 清华东门茶餐厅

参与人员:XERDOC开发团队:(米嘉曹飞刘力孟岩),WebLucene项目参与者:(车东田春峰张放洪卢亮),特邀嘉宾(文德

内容:上半场,车东进行PPT演示,时间20分钟,主题涉及WEBLUCENE的一些初衷,和尚未实现的一些设想(分词,发现,分类……)以及Lucene的一个应用案例(包括搜房博客中国gRaSSland.cnblog.org8fang.com);下半场,Xerdoc的孟岩和米嘉进行PPT演示,介绍XERDOC的企业搜索和桌面搜索,并介绍Xerdoc中使用的中文分词算法。

比较有趣的是,最先大家争执的是Lucene的发音。我们一直的发音是[lu:s],车东的发音为[lu'sen],田春峰的发音为['lusen],后来田春峰给出比较令人信服的解释,我也在网上查到确切的证据,不过要想马上改正也是一件比较困难的事儿了:P。

Loo-seen.

Danny Sofer wrote:
> ...and where does the name come from?

It's my wife's middle name, and her maternal grandmother's first name.

Doug

- Lucene Maillist

车东的演示主要专注在WebLucene方面,简要的介绍了Lucene的来龙去脉、基本功能以及在gRaSSland(我也是在这次沙龙上第一次知道了gRaSSland的来历,这个名字起的有趣)的一些实践。大家如果感兴趣,可以参考附录中的PPT。

孟岩的演示主要集中在Xerdoc DSearch的一些简要介绍和主要Feature,包括Xerdoc DSearch中的Tag插件化结构、国际化支持等等。其中,插件化是一个重要的部分,你可以从这张图看到Xerdoc DSearch的整个架构。

米嘉的演示则专注在Xerdoc中Lucene的应用上,分别介绍了基于最长词匹配算法变形的分词系统和Xerdoc的文档管理框架-XDMF。

非常喜欢这种形式的聚会,没有什么功利目的,大家凭着自己的兴趣坐在一起,海阔天空、高谈阔论,在这样的讨论中,你真的能够得到很多有益的东西。套用Scoble评论FooCamp一句话,“你发现那个演讲者用的是一个构造完全不同的大脑来工作,而那正是是我们遗弃的那部分思维。”。在国外,FooCamp每年都会引起很大的轰动,不知道什么时候在中国也能有这样的聚会,我想,那就期望更多有影响力、有责任心的组织、媒体、个人站出来吧(BTW:看看去年FooCamp的照片吧,Lucene的作者Doug Cutting也在其中哦)。

不知道这是不是Lucene在中国使用者的第一次聚会,立此存照。

附:

1)会议录音(比较大,分成4个文件,每个大概10M)

1(9.42M) - 车东的演示

2(18.31M)- Xerdoc的演示

3(4.65M)- 自由讨论

4(12.83M)- 自由讨论

2)PPT

《WebLucene项目的来龙去脉》-车东(30K)

《Xerdoc XDMF》-米嘉(2332K)

《Xerdoc DSearch》-孟岩(262K)

引用通告(3)

发送引用通告网址: http://blog.cnblog.org/cgi-bin/mt/cnblog-tb0801.cgi/1258
如果您想引用这篇日记到您的Blog,请复制上面的链接,放置到您发表文章时的相应界面中。

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 ) 查看全文

来自Tinyfool:开始研究CLucene
引用时间:2005年8月12日 14:31

Ping Back来自:blog.csdn.net 查看全文

最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放. 但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写... 查看全文

评论(19)

推荐一个不错的lucene学习网站:http://www.lucene.org.cn

我是一名JAVA工程序,现在在使用Lucene,在使用过程遇到了很多困难,也学到了很多东西,希望与正在使用Lucene或学习Lucene的朋友一起交流!我建了一个QQ的lucene群!希望感兴趣的朋友加入!QQ群号是:2735241!

我是一名JAVA工程序,现在在使用Lucene,在使用过程遇到了很多困难,也学到了很多东西,希望与正在使用Lucene或学习Lucene的朋友一起交流!我建了一个QQ的lucene群!希望感兴趣的朋友加入!QQ群号是:28615446 !

昨天刚听说lucene,在网上浏览了很多这方面的信息。但是我想搞明白的是:能不能在jsp网页中用lucene搜索mysql数据库,然后将搜索结果用html格式显示出来?如果这个问题很幼稚,请不要不关心。真的不明白,到底怎样实现。

刚接触lucene
我是先听录音后才来这里的.我想请问一下他的那些api有中文的吗?

各位老大,现在lucene主要都研究什么?

各位老大,哪位能给一个Lucene的应用技术方案做参考?

现在我要做一个基于歌曲相关内容的全文搜索业务,只有几天时间,而自己对全文搜索又是一点不懂,着急啊!

我只有1天左右时间写方案,哪位前辈有现成的Lucene的应用方案可否给我一份拜读一下,谢谢了!

我mail:greatmaster@tom.com

有幸拜读,万分荣幸!

员老级的人物,佩服佩服,小弟今天刚刚接触这个,感谢大侠们的文章,辛苦了!

读音确实如一楼所说。Information retrieval上的教授就总这么讲。

lucene应该是发音为[lu:'si:n]吧
我在国外的一个lucene培训讲座flash看到的

最长词匹配算法的分词 is the simplest and most effective word segmentation method. - roboo meshfire 儒豹

Lucene是一个非常优秀的开源的全文搜索引擎

有沒有人可以提供會議錄音的文字記錄?


對不起了。我是香港人,普通話完全不行。

http://blog.csdn.net/accesine960/archive/2005/07/13/424306.aspx

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )

我把程序整理了一下,可以独立运行的版本,去掉了xerdoc的一些依赖类。

WoW,好玩呢。你们真应该事先预告,网络现场直播,事后blogging、podcasting还有照片分享;D

To Che Dong: Thanks, I hope so too.

To Isaac: 只有文档和录音,那天没有照相,现在想想真是太可惜了。

立此存照的“照”只有文档?:)

谢谢孟岩,很好的总结,希望能和XerDoc Team有更多的交流:你们做的很出色。

发表评论

关于此日记

此日记由 Xerdoc Guy 发表于 2005年7月 7日 14:13

此Blog上的上一篇日记MIT的网志调查

此Blog上的下一篇日记Flickr中的中文Blogger大头贴

首页归档页可以看到最新的日记和所有日记。