首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 172 毫秒
1.
本文分析了我国自动分类研究所采用的技术及其不足,介绍了语料库技术的相关内容,在此基础上,作者认为以语料库作为自动分类系统的技术支撑,对于提高自动分类系统的性能具有明显的优势,最后,给出了基于语料库技术的自动分类系统的原理图。  相似文献   

2.
基于词典约简及多分类算法的文本分类系统的设计与开发   总被引:3,自引:1,他引:2  
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.  相似文献   

3.
基于语料库的双语词典编纂软件设计与实现   总被引:4,自引:0,他引:4  
CONULEXID是一个基于语料库的双语词典编纂软件系统,其目的是为词典编纂提供新鲜的语料,并且实现词典信息自动查找、自动派生词典、自动修订、自动排版等。介绍了该系统的数据来源、功能模块、系统设计以及SGML文档组织技术等相关实现技术。该系统是语料库语言学在双语词典编纂领域的一个应用实例。  相似文献   

4.
关键词自动标引系统实现   总被引:1,自引:0,他引:1  
基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表征文本内容主题概念的主题度。以此为基础,完成了一个关键词自动标引系统,详细描述了系统实现的总体流程和功能模块。  相似文献   

5.
面向大规模语料库的全文检索系统研究   总被引:1,自引:0,他引:1  
随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——“CIPP”。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。  相似文献   

6.
针对文本分类中训练(测试)集获得较难、分类系统不合理的问题,我们构建了一个超大规模层级网页分类语料库。该语料库字段信息丰富,分类系统科学,存储格式可扩展性强、语义结构化。适合构建文本分类、话题识别和信息检索的大型训练(测试)集。  相似文献   

7.
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。  相似文献   

8.
基于分类标注语料库的关键词标引知识自动获取   总被引:1,自引:0,他引:1  
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。  相似文献   

9.
文章介绍了能自动在大量数据中找出问题答案的自动问答系统.具体介绍了自动问答系统的定义;分析自动问答系统的发展现状、自动问答系统的分类以及与传统信息检索的区别;重点研究了自动问答系统使用的技术;最后使用浅层句法分析、命名实体抽取、段落分割排序等技术设计了一个自动问答系统的实现模型.  相似文献   

10.
查贵庭  侯汉清 《情报学报》2002,21(3):273-277
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。  相似文献   

11.
文章在对自动标引技术的原理、方法及划分、国内外研究发展现状和自动标引技术的优势简单介绍的基础上,提出了基于《中国分类主题词表》的文本自动标引系统的设计方案并对文本数据自动标引系统的流程及标引工作自动化处理过程进行了详细阐述.  相似文献   

12.
论自动文摘及其分类   总被引:11,自引:1,他引:10  
自动文摘 ,即利用计算机自动编制文摘 ,是信息时代的需要。本文讨论了文摘的不同定义、特点和功能。目前 ,文摘的分类方法不适用于自动文摘的分类 ,因此 ,本文试着从多角度对自动文摘系统进行了分类 ,这样的分类根据自动文摘的特点进行的划分 ,是对自动文摘分类的一种总结 ,可以作为构造自动文摘系统和思考自动文摘发展方向的参考和借鉴。最后 ,概述了中文自动文摘系统的研究状况 ,展望了自动文摘的发展趋势。  相似文献   

13.
李伟  王永成  蔡巍  尹中航 《情报学报》2003,22(3):302-305
迅速而准确地更新自动分类系统的知识库是自动分类系统能投入使用的重要条件。本文在考察人类学习过程的基础上 ,提出一种能够在人的参与下 ,更新完善机器自动分类知识库的学习方法。通过实验 ,证实了该方法可以准确迅速地更新分类知识库 ,从而提高自动分类系统的分出率和分准率。  相似文献   

14.
文献分类是图书馆学情报学领域的一个传统研究问题。实用化的中图法自动分类系统最重要的一个要求就是能够将文献精确地自动分类到三级或四级类目之下,这意味着需要将特定文献较为精确地自动分类到上千个类目之下。为了构建面向实际应用的科技文献中图法自动分类引擎,本文基于层次分类思想,设计和实现了一个基于多层分类器集群的科技文献自动分类引擎系统,并重点解决了科技文献自动分类引擎建设中的四个关键问题:①如何获取并构建大规模高质量分类训练数据以提升自动分类效果;②如何设计和实现多层分类器集群以有效解决上千个类目自动分类的准确性;③如何面向现实要求来优化处理流程以提升分类速度;④如何设计和开放接口以支撑引擎的开放调用。最终构建了科技文献自动分类引擎,各项指标达到了实用化要求,初步实现了基于中图法的自动分类系统的实际应用。图4。表7。参考文献16。  相似文献   

15.
为减少人工分类的不确定性和分类错误,将文本分类技术引入专利自动分类系统,采用径向基函数神经网络(RBFNN)算法完成专利文本的训练和分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。  相似文献   

16.
云计算技术为语料库资源共享平台建设提供了新的思路和可行性技术路线,结合云计算、SOA等技术,基于语料库的建设目标和未来发展方向,文章提出了全国高校范围内语料库资源共享云战略,即设计和开发语料库资源共享服务平台(China Academic Corpus System),在我国高等教育系统内构建多级语料库云服务中心,为用户提供各种类型的语料库资源服务。文章主要描述CACS云计算共享平台的构建原则和服务架构,指出该平台在实现过程中需要注意的问题以及介绍天津师范大学外国语学院目前的应用实践。  相似文献   

17.
C/S环境下英语语料库系统的设计及实现   总被引:1,自引:0,他引:1  
本文介绍一个英语语料库系统的数据结构设计和功能设计。提出用标记语言标识语料库的原始数据。讨论了C/S结构下的该系统的实现方法及技术。  相似文献   

18.
虚拟图书馆中网页的自动分类研究   总被引:1,自引:0,他引:1  
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。  相似文献   

19.
图书自动分类专家系统技术实现初探   总被引:3,自引:0,他引:3  
介绍把人工智能的专家系统引入到图书分类中来进行尝试的产物《图书自动分类专家系统》,以及该系统的技术实现。  相似文献   

20.
多范畴信息系统的自动分类方法研究   总被引:1,自引:0,他引:1  
为解决传统自动分类方法中的多范畴信息处理能力弱的问题,本文提出了一种基于多范畴属性约简和复合相似度计算的多范畴信息自动分类方法,该方法首先在分类中引入决策属性,然后计算各范畴的决策类和广义决策类,获得多范畴分类属性的约简集族,并依此集族分别计算多范畴信息系统分类对象的复合相似度,依据复合相似度的计算结果对分类对象进行排序和标引,实现自动分类。此方法有效地解决了多范畴不完备信息系统的自动分类问题,通过与Google自建系统的对比分析可知建立在此方法基础之上的多范畴信息分类系统在查全率和查准率方面明显优于传统的自动分类系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号