提起blogs分类的设想

| 暂无评论 | 暂无引用通告

ooof提起blogs分类的设想,具体步骤上,首要即制定统一的分类标准。

借图书馆学的平台张看,可见两大类分法:一种以字母起首指代类别,如中图分类法。另一种只用数字,为欧美图书馆常用。utf码、trackback与翻译网站的广泛应用,使blogosphere中语言的边界愈加模糊,也就是说,人们已可摸索着找出巴别塔的楼梯口(业师Prof. Dr. Soesemann,德国传播史巨擎,认定,只要某人能逐字逐句断断续续拼凑着读出一篇短文章,我们即可以认为他已具阅读能力)--那么,比起字母/词语,数字类目无疑更为适用。

数字分类法的开山之作Dewey Decimal Classification(简称DDC),采取十进制数码来安置类别:10个基本大类,从000-900,分别是
000 信息学
100 哲学与心理学
200 宗教
300 社会科学
400 语言学
500 自然科学与数学
600 技术与医学
700 艺术
800 文学
900 历史与地理学。
在每个大类下,再在十位分类,举个例子:300大类(社会科学)下,310指统计学,320指政治学,330指经济学。。。一直分类到390。第三步,在个位数继续细分,例如上文提到的政治学(320),到这一步分为321(国家与地区体制)、322(国家与社团关系)、323(公民政治权利)。。。

那么,一本书的内容,用三位数已能基本标明。

事实上,一本书的内容,很可能是跨学科的。有时候,我们更需要从编码获知这本书的其他信息,比方说,这本书是用什么语言写成的,诸如此类。以DDC为基础,比利时人Paul Otlet提出的Universal Decimal Classification(简称UDC)就派上用场了。UDC是在DDC的数字编码上添加少量符号(比如用“+”号连结两个百位数,表明其涉及的两个或以上学科。又比如用“=”标示语言)。

图书馆分类法科普完毕。现在我可以开始设想UDC怎么应用到blogs分类上了。

网志既能以“博”犹之,内容繁杂,不可斗量。所以,我的初步设想,只好亦比UDC更繁一步,姑且称作VDC设想。

袭用DDC的分法,即000-900分别指代10个学科。初分,应该在创作及发表这个网志时完成。BSP可以规定,新申请的网志须在这10个基本大类中挂靠一个。比如一位职业厨师,他为个人网志设的主题可能是技术与医学类(600)下的烹饪类(640),即得到640的首码。一位记者的网志主题若与他的职业相关,则编为信息学(000)下的新闻类(070)。

然后,网志作者创作的每一篇网志,均得到一串或长或短的编码。后面这组编码与前一组以“.”分隔。并且,由于每一篇网志的内容有可能涉及各个学科,因此,借UDC的法子,用“+”号连结这组编码。

第三组编码,作为备注,用UDC各种符号及数码标示。如“=20”表示这篇网志是用英语写就。

整体如图:


完整编码怎么用呢?我们看到,厨师在网志里写菜谱(编码:640.640),含有两个指代烹饪的代码,所以与烹饪的相关度也大--在blogs目录中烹饪类下,这一篇“640.640”也就应该排得比较前。像记者用英语写“出差到北京,抱怨塞车”的一篇(编码:070.389+915=20),有可能在新闻类(070)、道路交通类(389)、亚洲地理及旅行(915)以及英语网志(=20)中出现。

与图书馆学人J谈这个设想,他认为分类应该由BSP完成,因为“一本书不可能决定自己的类别,最终是由图书馆分类的”。而我主业为传播学,则认为blogger属于传播过程基本三要素之communicator,因而掌握主动分类权。

网志作者在发表网志时主动分类,这是理想情况。很多人却没有这样做,或是因为懒,又或是因为并不了解类别,根本不知道自己随手所写的该分到哪儿去。那么,他的每一篇未作主动分类的网志,便只能在申请网志时设定的类别的目录下显示出来了。

网志作者懒惰,BSP有没有可能替他们勤快一下呢?有没有技术上的可能,在网志发表之际,即自动scan网志语句,像传统的搜索引擎一样,根据某些词语出现的频率、超链接名称等等,将这篇网志自动分类?错分固然避免不了,但也有弥补的方法:此后再自动统计影响因子,重新分类。

在下不揣敝陋,抛砖引玉。上述标准初想固然不完善,只图就此话题,引出各背景人士远虑深谋。

若BSP们坐下来开联席会议,商定一套统一的分类标准,对blogs信息整理无疑意义深远,与RSS搜索可互为补充,互作参照。

(原发于:http://vanvan.20six.de/archive/2004/06/05/1d2pi33vbovgw.htm

暂无引用通告

发送引用通告网址: http://blog.cnblog.org/cgi-bin/mt/cnblog-tb0801.cgi/153
如果您想引用这篇日记到您的Blog,请复制上面的链接,放置到您发表文章时的相应界面中。

发表评论

关于此日记

此日记由 发表于 2004年6月 5日 10:18

此Blog上的上一篇日记“快来抢1GB网络U盘”

此Blog上的下一篇日记一个小东西

首页归档页可以看到最新的日记和所有日记。