基于自然标注的网页信息抽取研究 Web Information Extraction Study Based On Natural Annotation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于自然标注的网页信息抽取研究

引用本文：	李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8).

作者姓名：	李志义沈之锐

作者单位：	1. 华南师范大学经管学院,广州,510006 2. 广州中国科学院软件应用技术研究所,广州,511458

基金项目：	广东省哲学社会科学基金项目"基于网络日志的用户行为分析与网站信息组织优化研究"

摘要：	随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难.本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法.依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据.文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法.从实验结果上看,本方法优于其他方法.
关键词：	自然标注信息抽取聚类支持向量机语义
Web Information Extraction Study Based On Natural Annotation

Li Zhiyi , Shen Zhirui.Web Information Extraction Study Based On Natural Annotation[J].Journal of the China Society for Scientific andTechnical Information,2013,32(8).

Authors:	Li Zhiyi Shen Zhirui

Abstract:

Keywords:
本文献已被万方数据等数据库收录！