首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 500 毫秒
1.
面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。  相似文献   

2.
为满足用户对多语言信息表达与获取的迫切需求,可比语料库的研究和开发逐渐成为信息检索领域研究者和系统开发人员的关注重点.从跨语言信息检索视角出发,可比语料库的构建方法主要有提问式翻译法、特征过滤法、中间语言翻译法、文本翻译法和同源匹配法等.我国可比语料库的建设,应在充分考虑系统整体性能的前提下,根据用户需求选择适用的构建方法,完善文本翻译及术语抽取技术,并优化文本对齐方式.  相似文献   

3.
基于汉英双语语料库的汉英词典编撰研究   总被引:5,自引:0,他引:5  
杨沐昀  刘晓月  李生 《情报学报》2003,22(3):310-314
汉英词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义。为了利用双语语料库获取汉英词典 ,本文在对四种常见的基于共现信息的词汇对译计算模型进行研究之后 ,以对数相似性模型为基础 ,采用迭代策略实现了翻译词典获取。实验表明 ,该方法能够有效地提高词典获取的正确率 ,提高词典编撰效率  相似文献   

4.
陈涛  孙茂松 《情报学报》2007,26(1):77-83
语义词典在语言学和自然语言处理研究中占有相当关键的位置.语义词典的构造,通常有两类做法.一类是基于语言学家的主观判断,另一类则是基于机器的自动聚类.后者是本文所要研究的主题.本文基于大规模的语料库,利用自组织映射神经网络(SOM)对词典进行无监督的自动构造.首先从语料库中抽取待聚类词的上下文窗口中的词,并利用信息增益(Information Gain)对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的特征权重,最后将构造好的待聚类词的特征向量作为SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同结点.  相似文献   

5.
汉英双语标注集的研究与实现   总被引:1,自引:0,他引:1  
标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践,提出了建立标准的汉英双语标注集的必要性,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集解决方案。实践证明,该方案具有良好的开放性和兼容性,对于汉英双向机器翻译系统和汉英双语语料库研究都具有适用性。  相似文献   

6.
熊文新 《图书情报工作》2013,57(10):128-135
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。  相似文献   

7.
丁洁  王曰芬 《图书情报工作》2014,58(15):135-141
在综合国内学术信息检索服务的现状和现有理论方法研究的基础上,以检索词推荐为研究对象,构建基于文献特征项共现网络的学术信息检索词推荐模型。模型包括基础文献存储模块、文献特征项抽取模块、文献特征项共现网络预处理模块、基于特征项的文献检索模块及检索词服务前端5个部分。利用实验验证基于特征项的共现网络用于检索词推荐的可行性,结果表明推荐模型结果与各检索项的检索词更具有相关性,推荐质量较好。  相似文献   

8.
在当前词共现分析多关注两词共现分析的基础上,提出多词共现分析方法,并采用关联规则挖掘中的频繁项集抽取法,实现多词共现的抽取和与分析.以我国国家知识产权局专利数据库(SIPOD)中数字信息的传输领域(H04L)为例,抽取和深入分析该领域中词最多的多词集合和频数最大的多词集合.最后,结合当前文献计量学中研究热点的定义与识别,应用多词共现分析方法发现H04L领域中的6个研究热点,进而对这6个研究热点中的部分代表性专利文献进行介绍.  相似文献   

9.
汉英词典作为沟通中文与英语两种不同语言的桥梁,是中国与世界交流的工具。在信息时代飞速发展的今天,双语词典的自动构建技术在机器翻译和跨语言检索领域起着重要的作用,本文对双语词典的自动构建方法和其中的关键技术进行了比较全面的分析和总结,并提出一种从汉英平行语料库中抽取双语词语,自动构建双语词典的方法,在实现汉英句子级对齐后,对双语语料分别进行分词和词性标注处理,通过抽取汉英词语单元并计算其关联概率来实现汉英的词语对齐,最终生成双语词典。该方法在对真实语料的双语词典构建实验中取得了较好的结果,词对齐效果优于传统的IBM模型方法。  相似文献   

10.
基于双语平行语料库的信息服务平台建设   总被引:2,自引:0,他引:2  
公共图书馆是公共信息的主要提供者,而各类外文文献信息资源则是公共信息的重要组成部分.语言障碍已经成为限制我国图书馆外文文献利用的最大"瓶颈".上世纪80年代我国开始的语料库建设为翻译教育和翻译产业的发展奠定了坚实的基础,其中双语平行语料库在教学单位和翻译公司得到了广泛应用.为了克服语言障碍,翻译公司和公共图书馆应该发挥各自的资源、技术优势,合作建设基于双语平行语料库的信息服务平台,以改善公共信息服务的质量和功能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号