首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 188 毫秒
1.
双语语料库在机器翻译、跨语言信息检索以及翻译词典编纂等自然语言处理领域有着越来越重要的用途。该研究利用同族专利文献信息作为双语语料的来源,探讨了基于同族专利获取双语语料的可行性,以获取汉英双语语料为实例提出了双语语料的获取流程,同时进行双语对译部分的对齐规则的研究,从而构建出科技领域的平行双语语料库。最后,还阐述了该方法的相关注意事项以及应用前景。  相似文献   

2.
鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。  相似文献   

3.
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。  相似文献   

4.
面对基于双语词典的跨语言检索查询翻译方法中固有的一对多等翻译模糊问题,已有研究成果存在对于非组合型复合词无法进行准确翻译、双语词典和其他翻译资源联合使用引入较大计算开销等弊端。为建立英汉双向跨语言检索实用性系统,在现有的一部包含若干科技词汇和短语的双语科技词典的基础上,着重研究如何引入平行语料来改进已有的双语词典问题。目标是生成一部基于句对齐平行语料的科技类双语概率词典,为跨语言检索查询翻译消歧提供实时性支持。  相似文献   

5.
基于语料库的双语词典编纂软件设计与实现   总被引:4,自引:0,他引:4  
CONULEXID是一个基于语料库的双语词典编纂软件系统,其目的是为词典编纂提供新鲜的语料,并且实现词典信息自动查找、自动派生词典、自动修订、自动排版等。介绍了该系统的数据来源、功能模块、系统设计以及SGML文档组织技术等相关实现技术。该系统是语料库语言学在双语词典编纂领域的一个应用实例。  相似文献   

6.
针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采 用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程 度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利 统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。  相似文献   

7.
基于词典和统计的语料库词汇级对齐算法   总被引:5,自引:0,他引:5  
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的  相似文献   

8.
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。  相似文献   

9.
双语词典的语种和门类非常多,而英汉、汉英类双语词典是在国内最有代表性的,也是种类最多、应用最广的。对这类词典编纂出版的发展趋势作一分析,对进一步加强这一类图书选题的建设和发展是非常必要的。第一,从宏观上看,中国的改革开放,中西方文化的交流,先进科学技术的引进,中国在国际事务中的地位不断提升,这些都直接反映在语言文化的新发展和新要求上,进而必然影响到英汉、汉英这类双语词典的编纂。近年来,这类大中型词典之所以走俏,诸多出版社为此逐鹿中原,正是这种国内外大环境变化的体现。确实,目前英汉、汉英双语词典每…  相似文献   

10.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

11.
计算机在词典编纂中的应用初探   总被引:1,自引:1,他引:0  
本文从词典语料库、词典电子文本以及编纂技术等角度阐述了计算机技术在词典编纂工作中的应用。文章还讨论了双语词典和一般术语词典的区别及它们在词典改造上的差异。  相似文献   

12.
我国现代汉语辞书事业的发展在很大程度上归功于近代以来西方,特别是英美学者编纂的涉汉双语字典所取得的成果.本文试对这些字典的特点及其影响做个初步的梳理,总结出他们对我国辞书事业的贡献与借鉴作用,以期引起国人对国外汉文化研究的关注.  相似文献   

13.
俗语典是汉语辞书的一个重要门类。本文由面到点,逐层深入,对俗语典的出版与市场进行了较系统的考察。通过对诸多相关方面大量数据的探究、总结,不但勾勒了俗语典的出版史,展现了各时段、各地域、各门类俗语典出版与市场的特点及其发展情况,而且为俗语典市场的繁荣与发展提出了建设性意见。  相似文献   

14.
文章探讨与分析网络词典的"在线"特性。网络词典的出现,改变的不仅仅是词典的载体形式。编纂和使用的互动性,改变了词典的编纂方法和出版流程;词典构成的集合性,扩展了词典的知识范围;内容上的动态性,淡化了词典作为"标准工具"的作用,增强了词典的参考功能。网络词典将会逐步改变人们利用词典查考问题的思维方式。  相似文献   

15.
基于模式匹配的汉语同义词自动识别   总被引:7,自引:0,他引:7  
陆勇  侯汉清 《情报学报》2006,25(6):720-724
同义词的自动发现和识别在信息检索领域有着重要的研究意义和应用价值。为了提高同义词自动识别的效率,本文提出了从词典释义中使用模式匹配方法提取同义词。该方法首先对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法获取同义词。实验结果表明,利用模式匹配方法来自动发现同义词具有可行性和实用性。  相似文献   

16.
Although American medical dictionaries are a valuable part of any medical library collection, the attributes of each of the four major dictionaries are often unknown and the reference material contained in each unused. The medical librarian should be aware of the differences and values of each dictionary and try to have at least one edition of each available to library users in order to maintain an adequate reference collection.  相似文献   

17.
郝瑜鑫 《出版科学》2016,24(4):33-38
以我国不同文化水平在校学生为被试,从学生对词典的了解、使用、评价等方面深入探讨新形势下我国学生对汉语词典的使用、需求情况。研究结论认为,我国学生词典种类使用单一;文化水平因素对学生使用词典有较大影响;在校学生普遍缺乏词典的基本知识和使用技能。  相似文献   

18.
基于汉英双语语料库的汉英词典编撰研究   总被引:5,自引:0,他引:5  
杨沐昀  刘晓月  李生 《情报学报》2003,22(3):310-314
汉英词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义。为了利用双语语料库获取汉英词典 ,本文在对四种常见的基于共现信息的词汇对译计算模型进行研究之后 ,以对数相似性模型为基础 ,采用迭代策略实现了翻译词典获取。实验表明 ,该方法能够有效地提高词典获取的正确率 ,提高词典编撰效率  相似文献   

19.
夏立新 《出版科学》2011,19(2):23-27
对我国改革开放后汉英语文词典编纂和出版进行考察和研究。总结这一阶段汉英词典编纂和出版的总体情况,包括词典出版的数量、词典编纂的特色等。重点分析汉英词典在提供学习型信息方面的特点及存在的问题和不足,提出改进我国汉英词典编纂和出版的建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号