首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于HTMLParser的Web文献信息提取
引用本文:龚真平.基于HTMLParser的Web文献信息提取[J].人天科学研究,2011,10(2):14-15.
作者姓名:龚真平
作者单位:西南交通大学软件学院,四川成都,610031
摘    要:基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。

关 键 词:HTMLParser  Web文献  信息提取

Information Extraction of Web Document Based on Htmlparser
Institution:Gong Zhenpin
Abstract:Web anlalyzing based on HTMLParser could extract the information of Link,image,meta and title of the links.Using HTMLParser extracts the information of title,key words,abstract,author,sources,ect.in Web document,when store in MySql database after cleaning
Keywords:HTMLParser  Web Document  Information Extraction
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号