首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向大规模语料库的全文检索系统研究
引用本文:贺胜,卢亚军.面向大规模语料库的全文检索系统研究[J].图书与情报,2008(4).
作者姓名:贺胜  卢亚军
作者单位:1. 南京师范大学文学院,江苏南京,210029
2. 西北民族大学藏语言文化学院,甘肃兰州,730030
基金项目:江苏省社会科学基金项目《语料库通用加工与应用工具开发研究》 , 国家社科基金2005重点项目《藏语语料库建设研究》
摘    要:随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——“CIPP”。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。

关 键 词:语料库  全文检索  自动分词

Research of Full-Text Retrieval System for Large-Scale Corpus
He Sheng Lu Yajun.Research of Full-Text Retrieval System for Large-Scale Corpus[J].Library and Information,2008(4).
Authors:He Sheng Lu Yajun
Institution:He Sheng(School of Chinese Language , Literature,Nanjing Normal University,Nanjing,Jiangsu,210029) Lu Yajun(School of Tibetan language , Culture,Northwest University for Nationalities,Lanzhou,Gansu,730030)
Abstract:Recent years have seen great expansion in Corpus scale and in application of corpus technology.Full-text search has become an indispensable component for a corpus.This thesis reports research on index model,search algorithm,search expressions,automatic Chinese segmentation,and system structure in large scale corpus systems.The paper also expounds CIPP,a Chinese information processing system implemented for the purpose.The system is efficient in full-text search,automatic Chinese segmentation and statistics....
Keywords:Corpus  full-text retrieval  automatic segmentation  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号