首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于词典和统计的语料库词汇级对齐算法
引用本文:刘小虎,吴葳,李生,赵铁军,蔡萌,鞠英杰.基于词典和统计的语料库词汇级对齐算法[J].情报学报,1997(1).
作者姓名:刘小虎  吴葳  李生  赵铁军  蔡萌  鞠英杰
作者单位:哈尔滨工业大学计算机科学与工程系,黑龙江大学信息管理系
摘    要:语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的

关 键 词:语料库  词汇级对齐  共现概率

Aligning Algorithm for a Corpus at Word Level Based on Dictionary and Statistics
Liu Xiaohu,Wu Wei,Li Sheng,Zhao Tiejun and Cai Meng.Aligning Algorithm for a Corpus at Word Level Based on Dictionary and Statistics[J].Journal of the China Society for Scientific andTechnical Information,1997(1).
Authors:Liu Xiaohu  Wu Wei  Li Sheng  Zhao Tiejun and Cai Meng
Abstract:Aligning the bilingual corpus at word level is very important to take the advantages of corpus.This paper presents an efficient aligning algorithm for a corpus aligned at sentence level,using the lexical information and statistic information. First,the information of dictionary and thesaurus is used.Second,the mutual information between Chinese words(or adjacent phrases)and English words(of adjacent phrases)is used.Our experiments has proved this method to be effective.
Keywords:corpus  align at word level  probability of concurrence  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号