共查询到12条相似文献,搜索用时 109 毫秒
1.
基于Web的专利双语语料自动获取研究及实现——以esp@cenet数据库为例 总被引:1,自引:0,他引:1
针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法.该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库. 相似文献
2.
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。 相似文献
3.
基于语料库的双语词典编纂软件设计与实现 总被引:4,自引:0,他引:4
张海波 《现代图书情报技术》1999,15(3):37-40
CONULEXID是一个基于语料库的双语词典编纂软件系统,其目的是为词典编纂提供新鲜的语料,并且实现词典信息自动查找、自动派生词典、自动修订、自动排版等。介绍了该系统的数据来源、功能模块、系统设计以及SGML文档组织技术等相关实现技术。该系统是语料库语言学在双语词典编纂领域的一个应用实例。 相似文献
4.
5.
汉英词典作为沟通中文与英语两种不同语言的桥梁,是中国与世界交流的工具。在信息时代飞速发展的今天,双语词典的自动构建技术在机器翻译和跨语言检索领域起着重要的作用,本文对双语词典的自动构建方法和其中的关键技术进行了比较全面的分析和总结,并提出一种从汉英平行语料库中抽取双语词语,自动构建双语词典的方法,在实现汉英句子级对齐后,对双语语料分别进行分词和词性标注处理,通过抽取汉英词语单元并计算其关联概率来实现汉英的词语对齐,最终生成双语词典。该方法在对真实语料的双语词典构建实验中取得了较好的结果,词对齐效果优于传统的IBM模型方法。 相似文献
6.
7.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。 相似文献
8.
9.
针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采
用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程
度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利
统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。 相似文献
10.
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。 相似文献
11.