首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种HTML网页净化方法
引用本文:张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393.
作者姓名:张志刚  陈静  李晓明
作者单位:北京大学计算机科学技术系网络与分布式系统实验室,北京,100871
基金项目:国家 973重大基础研究项目基金资助(项目编号为 :G19990 32 70 6 )
摘    要:Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。

关 键 词:World  Wide  Web  网页净化  信息提取  HTML
修稿时间:2003年8月13日

An Approach to Reducing Noise in HTML Pages
Zhang Zhigang,Chen Jing and Li Xiaoming.An Approach to Reducing Noise in HTML Pages[J].Journal of the China Society for Scientific andTechnical Information,2004,23(4):387-393.
Authors:Zhang Zhigang  Chen Jing and Li Xiaoming
Abstract:
Keywords:World Wide Web  Web page purification  information extraction  HTML    
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号