首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到12条相似文献,搜索用时 109 毫秒
1.
针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法.该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库.  相似文献   

2.
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。  相似文献   

3.
基于语料库的双语词典编纂软件设计与实现   总被引:4,自引:0,他引:4  
CONULEXID是一个基于语料库的双语词典编纂软件系统,其目的是为词典编纂提供新鲜的语料,并且实现词典信息自动查找、自动派生词典、自动修订、自动排版等。介绍了该系统的数据来源、功能模块、系统设计以及SGML文档组织技术等相关实现技术。该系统是语料库语言学在双语词典编纂领域的一个应用实例。  相似文献   

4.
语料库为语言学研究以及数据挖掘、知识发现提供了宝贵的基础数据和样本资源。针对语料库建设中存在的问题,结合复句信息工程的研究,提出了一个新的概念——语料仓库,对语料仓库的建设目标、特性、形式化定义、构建方法等作出探讨,证实语料仓库的建设切实可行,意义深远。  相似文献   

5.
汉英词典作为沟通中文与英语两种不同语言的桥梁,是中国与世界交流的工具。在信息时代飞速发展的今天,双语词典的自动构建技术在机器翻译和跨语言检索领域起着重要的作用,本文对双语词典的自动构建方法和其中的关键技术进行了比较全面的分析和总结,并提出一种从汉英平行语料库中抽取双语词语,自动构建双语词典的方法,在实现汉英句子级对齐后,对双语语料分别进行分词和词性标注处理,通过抽取汉英词语单元并计算其关联概率来实现汉英的词语对齐,最终生成双语词典。该方法在对真实语料的双语词典构建实验中取得了较好的结果,词对齐效果优于传统的IBM模型方法。  相似文献   

6.
汉英双语标注集的研究与实现   总被引:1,自引:0,他引:1  
标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践,提出了建立标准的汉英双语标注集的必要性,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集解决方案。实践证明,该方案具有良好的开放性和兼容性,对于汉英双向机器翻译系统和汉英双语语料库研究都具有适用性。  相似文献   

7.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。  相似文献   

8.
基于汉英双语语料库的汉英词典编撰研究   总被引:5,自引:0,他引:5  
杨沐昀  刘晓月  李生 《情报学报》2003,22(3):310-314
汉英词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义。为了利用双语语料库获取汉英词典 ,本文在对四种常见的基于共现信息的词汇对译计算模型进行研究之后 ,以对数相似性模型为基础 ,采用迭代策略实现了翻译词典获取。实验表明 ,该方法能够有效地提高词典获取的正确率 ,提高词典编撰效率  相似文献   

9.
针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采 用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程 度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利 统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。  相似文献   

10.
熊文新 《图书情报工作》2013,57(10):128-135
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。  相似文献   

11.
高影繁  李辉  徐红姣  崔笛 《情报工程》2017,3(3):086-096
本文提出了一种采用众包工作模式的科技领域日汉机器翻译辅助平台的构建方法。在充分调研众包生产模式、质量控制等研究和实践的基础上,设计了集用户管理、团队管理、语料管理、机器辅助翻译、术语辅助翻译等功能为一体的双语句对生产平台,针对不同角色和不同技术类别分别构建出相应的功能模块。该平台在众包工作模式的基础上结合了多源信息辅助译者完成翻译,翻译效率高且翻译成本低,平台的开发和运行为科技领域实用型日汉机器翻译系统的建设提供了有力支撑。  相似文献   

12.
鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号