首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Web的专利双语语料自动获取研究及实现——以esp@cenet数据库为例
引用本文:吴琳,魏星,霍翠婷.基于Web的专利双语语料自动获取研究及实现——以esp@cenet数据库为例[J].现代图书情报技术,2009(9).
作者姓名:吴琳  魏星  霍翠婷
作者单位:1. 中国科学技术信息研究所,北京,100038
2. 北京理工大学计算机学院,北京,100081
3. 北京万方数据股份有限公司,北京,100038
基金项目:国家科技支撑计划基金项目"多语言信息服务环境关键技术研究与应用","科技文献信息服务系统应用示范"(项目 
摘    要:针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法.该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库.

关 键 词:专利  著录信息  双语平行语料  网页解析
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号