首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

2.
基于领域中文文本的术语抽取方法研究   总被引:3,自引:0,他引:3  
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。  相似文献   

3.
苗利明 《信息系统工程》2010,(6):137-137,131
设计了一个正向最大匹配和逆向最大匹配共用的正序分词词典,该词典占用内存较少并且易于维护。在此分词词典基础上用PHP实现了双向扫描发现歧义的程序,并对歧义句进行了标记输出。  相似文献   

4.
姜韶华  党延忠 《情报学报》2006,25(3):301-305
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。  相似文献   

5.
基于反序词典的中文逆向最大匹配分词系统设计*   总被引:6,自引:0,他引:6  
介绍几种常见的分词算法,在改进传统的反序词典、优化逆向最大匹配算法的基础上,设计并实现基于逆向最大匹配的中文分词系统,试验证明速度和精度都有显著提高。  相似文献   

6.
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。  相似文献   

7.
基于双向最大匹配和HMM的分词消歧模型*   总被引:1,自引:0,他引:1  
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。  相似文献   

8.
李娟  周贤善 《信息系统工程》2010,(2):133-134,142
在中文切分算法设计上,好的算法一般要注重两个方面,一个是提高切分精度,另一个是提高切分速度。本文在逆向最大匹配的算法切分基础上,结合临近匹配算法在中文切分速度方面的优势,提出了一种逆向匹配快速切分算法。此算法由于使用了索引排序查找,所以在速度上比一般的全库扫描更快;在切分精度上,根据汉语语句中心语偏后的特点,采用了逆序匹配,可以更进一步提高切分精度。并通过在综合语料库中的语料上的分析,交集型歧义的自动消解上有着很好的优势。  相似文献   

9.
提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精分词和歧义消除三个过程。测试结果显示,该模型能有效地降低词歧义引起的错误切分率。  相似文献   

10.
张新  党延忠 《情报学报》2007,26(6):813-820
为获取中文领域本体的概念提出了基于规则匹配和统计方法相结合的学习模型,充分利用现有的自然语言处理技术和统计学习方法,从领域文本中通过语义串切分、规则匹配、领域归属度分析和概念约简算法自动获取领域概念.该方法解决了现有中文本体学习方法对领域词典的依赖以及无法获得短语式特定领域概念的问题,同时解决了领域概念筛选问题.实验证明了该方法的有效性.  相似文献   

11.
刘勋 《晋图学刊》2011,(2):11-15
文章对山东省期刊入选《中文核心期刊要目总览(2008年版)》的情况进行了统计与分析,与山东省入选2000年版和2004年版中文核心期刊进行了比较与分析,揭示了山东省各学科的学术水平和办刊水平。  相似文献   

12.
首先阐述在数字科研时代,在学术交流渠道多元化、网络化的环境下,谷歌学术搜索(Google Scholar)可作为计算机科学领域引文分析的数据源的原因。然后,对目前自动化地采集Google Scholar的引文数据的现状进行概述;进而以统计图灵奖获得者所发表论文的年度引文频次为例,着重阐述如何利用Google Scholar引擎的引文搜索功能设计相关程序,实现对论文各年度被引频次的自动统计;最后,将该方法与Web of Science进行比较,并对实现过程中遇到的问题进行总结。  相似文献   

13.
基于高频关键词统计的“域级整合”分析方法研究   总被引:1,自引:0,他引:1  
在介绍几种主要的词频统计分析方法基础上,提出基于高频关键词统计的“域级整合”方法,阐述 “域”、“级” 的理论基础和划分依据,以图书情报学科的三个样本实例具体说明“整合”分析方法,给出图书情报学高频关键词域级综合表以及高频关键词共现图模板,分析这种方法的应用研究价值。  相似文献   

14.
汉语句法分析是汉语研究和中文信息化处理中的一个关键环节,同时也是难点之一,面向汉语句法分析的辅助系统能为这个领域的研究与实践带来便利。本文概述了句法分析辅助系统的体系结构和基本功能,详细分析了系统实现中的两个关键算法,即括号匹配算法和句法解析算法,初步实验结果表明辅助系统效果良好,达到设计目的。  相似文献   

15.
基于汉字聚类特征的中文字符串相似度计算研究   总被引:1,自引:0,他引:1  
采用聚类分析的方法,对汉字的特征进行研究和分析,找出其内在规律,根据汉字具有“成簇性”的特点,对中文字符串进行精细化匹配,给出基于改进编辑距离的相似度计算模型。实验结果表明,该模型对中文字符串的相似度具有更为精细的体现。  相似文献   

16.
新世纪信息素质及信息素质教育研究统计与分析   总被引:13,自引:0,他引:13  
于超  单世侠 《图书情报工作》2004,48(10):115-118
利用指示词词频方法,对在新世纪发表的有关信息素质及信息素质教育研究的349篇文献,从研究对象、研究机构和研究内容3方面进行统计和分析,提出有待进一步探讨的几个研究问题。  相似文献   

17.
为深入揭示我国图书馆学研究的阶段性变化,选取CSSCI作为数据源,采用词频和关键词共现方法对2006-2010年我国图书馆学研究主题进行可视化分析。结果发现,这一阶段我国图书馆学研究的热点主要包括数字图书馆、高校图书馆、信息资源、公共图书馆、信息服务等多个领域,机构知识库、云计算、质量控制、手机图书馆等领域将成为图书馆学研究未来发展趋势。总体上来讲,技术已成为我国图书馆学研究的主角。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号