首页 | 本学科首页   官方微博 | 高级检索  
     检索      

极大规模词语搭配库的建造和构成分析
引用本文:徐润华,陈小荷.极大规模词语搭配库的建造和构成分析[J].南京师范大学文学院学报,2011(3):56-61.
作者姓名:徐润华  陈小荷
作者单位:南京师范大学文学院,江苏南京,210097
基金项目:江苏省哲学社会科学基金一般项目(项目号:10YYB007),; 国家社会科学青年基金项目(项目号:10CYY021)和(项目号:11CYY030)的资助
摘    要:大规模词语搭配库的建造在自然语言处理领域的诸多方面都有着迫切的需求。本文利用哈工大、伯克利、斯坦福三所大学分别研制开发的三个句法分析器,对9年《人民日报》语料进行了句法分析,通过对三个分析结果的合并比对得到候选搭配;在此基础上通过参数及类型优选进一步提升搭配精度,最终得到规模约为136万的搭配型数据及相关统计信息并以此构建了词语搭配库。词语搭配库中包含了6种常见类型的搭配数据,并且保证了较好的正确率,可以为其它相关工作提供可靠的数据支持。

关 键 词:词语搭配库  句法分析  搭配类型  最优参数

Building of the Extremely Large Scale Words Collocation Corpus and Its Composition Analysis
Xu runhua,Chen xiaohe.Building of the Extremely Large Scale Words Collocation Corpus and Its Composition Analysis[J].Journal of Chinese Language and Culture School Nanjing Normal University,2011(3):56-61.
Authors:Xu runhua  Chen xiaohe
Institution:Xu runhua,Chen xiaohe
Abstract:There is an urgent demand for the building of large scale words collocation corpus in various aspects in the field of natural language processing.Using the three syntax analyzing machine developed respectively by Harbin Institute of Technology,the UC Berkley,and the Stanford University,this paper conducts syntax analysis on the corpora of People's Daily of 9 years.By merging the three results of analysis we get the collocation candidates,and then uses parameters and optimization to further improve the accur...
Keywords:database of words collocation  syntax analysis  collocation patterns  optimal parameters  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号