首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于自然标注的网页信息抽取研究
引用本文:李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8).
作者姓名:李志义  沈之锐
作者单位:1. 华南师范大学经管学院,广州,510006
2. 广州中国科学院软件应用技术研究所,广州,511458
基金项目:广东省哲学社会科学基金项目"基于网络日志的用户行为分析与网站信息组织优化研究"
摘    要:随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难.本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法.依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据.文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法.从实验结果上看,本方法优于其他方法.

关 键 词:自然标注  信息抽取  聚类  支持向量机  语义

Web Information Extraction Study Based On Natural Annotation
Li Zhiyi , Shen Zhirui.Web Information Extraction Study Based On Natural Annotation[J].Journal of the China Society for Scientific andTechnical Information,2013,32(8).
Authors:Li Zhiyi  Shen Zhirui
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号