首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
汉语分词技术综述   总被引:2,自引:1,他引:1  
首先介绍了汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述了汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行了分析,提出了发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行了预测。  相似文献   

2.
一个具体的全文后控检索系统的设计   总被引:4,自引:0,他引:4  
本文除简述了系统设计的总体思想、系统主要特点以及装库、标引、检索等模块的主要功能外, 重点探讨了适应全文检索系统不同时期标引建库需要的三种标引模式, 首次提出了基于全文检索系统标引和后控制成果自学习实现全文本标引用抽词词典的自动积累和完善并建立自动加权标引模式。另外, 还简要论述了全文摘要的机辅生成和后控检索策略的自动构造等重要问题。  相似文献   

3.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

4.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

5.
国内中文自动分词技术研究综述   总被引:22,自引:0,他引:22  
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.  相似文献   

6.
基于集成学习的自动标引方法研究   总被引:1,自引:0,他引:1  
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.  相似文献   

7.
章成志 《中国索引》2009,7(2):16-23
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。  相似文献   

8.
微机辅助文献标引系统的设计与研究 3. 自动标引研究   总被引:2,自引:0,他引:2  
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。  相似文献   

9.
查贵庭  侯汉清 《情报学报》2002,21(3):273-277
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。  相似文献   

10.
新中国成立以来,我国的文献标引经历了从分类标引、主题标引到多元化标引的过程,标引方法愈加丰富,标引技术不断进步,逐步由人工标引、机器辅助标引过渡到自动标引,进一步向智能标引方向发展。虽然国内针对文献标引及相关技术的研究较为丰富,但是对文献标引的综述性研究却相对薄弱,无法有效地呈现在现代信息技术驱动下,文献标引领域的发展态势和应用前景。本文在已有研究的基础上,对我国文献标引研究趋势进行分析,提出我国文献标引研究主要呈现两个阶段的发展态势:一是21世纪之前的以传统标引为主体的发展阶段;二是21世纪之后的以自动标引为主体的发展阶段。人工及机器辅助等以传统标引为主体的研究,为自动标引的发展奠定了良好基础,促使自动标引在标引技术、标引系统和标引方法等方面都取得了较为显著的发展,文献标引的应用领域得到更为深入的拓展。但是,文献标引研究更多是在人工智能领域和语言学领域,势必需要图情领域充分发挥自身在文献标引领域研究的理论和实践的优势,再结合其他学科的研究成果,从而使图书馆学传统的文献标引技术符合时代的发展,并产生溢出效应,和其他学科共同发展。  相似文献   

11.
通过采用单汉字索引技术在FOXPRO环境下自行设计的实验系统,以《新华日报》为例,实验比较了在自动标引方式和自由标引方式下新闻信息数据库的检索效率,并分析了两种标引方式对检索效率的影响关系,从而探讨用机器自动标引替代手工自由标引的可能性。文章还提出了改进的建议及实验需要的原则。  相似文献   

12.
文章首先介绍了汉语科技词系统的体系结构和功能,其次设计了自动赋词标引研究的整体思路,完成了自动赋词标引的系统功能实现,包括标引知识库的格式转换、算法实现和系统实现,并收集语料进行测试。最后对自动赋词标引的结果进行了分析,并且总结了该自动赋词标引研究的特点和不足,介绍了未来的工作设想。  相似文献   

13.
再探文献的自动标引   总被引:1,自引:0,他引:1  
从文献自动标引检索语言的选择,建立文献自动标引系统的基本路径及关键词的选词措施等三个方面,探讨了文献实施微机自动标引的基本方略。  相似文献   

14.
针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。  相似文献   

15.
网络环境下,文献信息具有数量多、增长快、文献信息中的新词层出不穷等特点。标引是对信息资源进行组织的有效手段和重要环节,标引的质量和效率直接影响信息组织的质量和速度。为了比较受控标引、自由标引和自动标引三种标引方式的标引性能,本文从定量的角度对三种标引方式的相符度、专指度、标引深度及通用词数进行了测试对比,并分析了它们的综合性能。最后,分析讨论了网络环境下文本信息标引方式的选择和发展趋势。表5。图1。参考文献9。  相似文献   

16.
利用条件随机场模型进行自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能的因素进行实验和分析。  相似文献   

17.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

18.
和所有的中文文献检索系统一样,在建立和维护实用档案检索系统的过程中,最大的障碍是标引工作。面对浩瀚如海的档案资料,传统的手工标引方式显然难以应付,档案自动标引的研究课题已摆在每个从事档案现代化管理的工作者面前。由于档案计算机管理起步较晚,基础较差,尤其是自动标引几乎还处于空白,所以全面了解自动标引的研究历史,深入探讨分析国内外自动标引研究的现状和发展方向,积极引进先进的标引技术,对开展档案自动标引的研究,对加速档案计算机管理的进程无疑是十分必要的。  相似文献   

19.
中文自动标引是图书馆学情报学界多年研究的问题并取得了一定成果,其在信息检索数据库研究领域不可或缺。随着全文检索和中文搜索引擎的盛行,中文信息处理有多个学科涉及。中文自动标引、全文检索和中文搜索引擎是什么关系有必要加以明确,以确定其在中文信息处理领域的地位。经探讨认为,全文检索利用了中文自动标引的各种方式,搜索引擎利用了全文检索,因此搜索引擎利用了中文自动标引。中文自动标引、全文检索及中文搜索引擎三者关系是中文自动标引被利用和在技术发展方面相互促进的关系。  相似文献   

20.
关键词自动标引系统实现   总被引:1,自引:0,他引:1  
基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表征文本内容主题概念的主题度。以此为基础,完成了一个关键词自动标引系统,详细描述了系统实现的总体流程和功能模块。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号