AboutCNBlog: 2004年12月的归档

2004-12-27日:gRaSSland 搜索服务恢复后台RSS抓取更新。

后台通过一组PHP脚本(基于MagpieRSS)每个小时对同步一次RSS数据源,每4个小时更新一次索引,将新抓取到的数据更新到索引中。

相关抓取脚本可以从:WebLucene项目的CVS中得到。

后台数据源列表如下:

原来CNBLOG用GB2312作为缺省字符集,虽然在IE浏览器下,会自动按GBK编码容错GB2312,但是很多严格的XML解析器却只能严格按照GB2312字符集进行解析,昨晚发现发表文章中有繁体中文的时候,会导致其他服务器上的XML/RSS解析失败,

以前也发生过很多用UTF-8方式BACKTRACK PING CNBLOG的时候导致乱码的问题。

今天升级到MT 3.14,顺便也把字符集换了,更新步骤备忘如下:

准备下一步解决一下comments spam导致的服务器负载过高问题。

在CNBLOG上搭建了Lilina RSS聚合器,请各位志愿者将各自网志或者和与cnblog相关专栏的RSS提交给我 — 直接在评论中回复即可。

推广使用RSS聚合工具主要的目的是让大家了解blog在信息的汇聚/发布中的角色:
1 Blog使得每个人都可以成为分布式的信息源:每个人其实都可以通过RSS定制自己的信息汇聚中心,而不必依赖于各种“门户”网站;
2 服务器端的RSS聚合器也方便Blog成为一个分布式的信息发布中心:通过服务器端的RSS也可以成为你所汇聚的信息的再发布中心,帮助其他信息来源实现非中心化的发布;真正做到:书写一次,到处发布(Write once publish anywhere)。

关于此归档

这里是Blog 2004年12月的分类AboutCNBlog中的所有日记。

上一篇日记AboutCNBlog: 2004年11月

下一篇日记AboutCNBlog: 2005年1月

首页归档页可以看到最新的日记和所有日记。