首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于RSS的分布式新闻博客搜索引擎设计*
引用本文:刘峰,施水才,肖诗斌,王弘蔚.基于RSS的分布式新闻博客搜索引擎设计*[J].现代图书情报技术,2007,2(1):29-32.
作者姓名:刘峰  施水才  肖诗斌  王弘蔚
作者单位:北京信息科技大学中文信息处理研究中心,北京,100101
基金项目:本文系国家自然科学基金项目“Web数据挖掘技术研究”(项目编号:60272084);北京市教育委员会科技发展计划重点项目“面向大规模真实文本的数据挖掘技术”(项目编号:KZ200310772013);北京市教委项目“中文垃圾邮件过滤和追踪技术研究”(项目编号:KM00510772008)和“数字内容的安全身份认证与版权保护技术研究”(项目编号:KM200610772008)的研究成果之一.
摘    要:针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。

关 键 词:Pastry  Bloom  filter  分布式搜索引擎
收稿时间:2006-10-11
修稿时间:2006-10-11

A Design of Distributed News & Weblog Search Engine Based on RSS
Liu Feng,Shi Shuicai,Xiao Shibin,Wang Hongwei.A Design of Distributed News & Weblog Search Engine Based on RSS[J].New Technology of Library and Information Service,2007,2(1):29-32.
Authors:Liu Feng  Shi Shuicai  Xiao Shibin  Wang Hongwei
Abstract:For the problem of traditional search engine can’t get completed and updated copies of the whole Web in time, especially news and Weblog site with high update frequency, this paper designes a distributed news & Weblog search engine based on RSS syndicated data. Using the pastry protocol, distributed data could be stored and transferred smoothly. This paper also compresses index file with Bloom filter. So the news and Weblog site with high update frequency could be searched in time and the cost of storage could be reduced. The system has a bright future.
Keywords:RSS  Pastry  Bloom filter  Distributed search engine
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号