首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。  相似文献   

2.
自动术语识别存在的问题及发展趋势综述   总被引:2,自引:0,他引:2  
自动术语识别对于以内容分析为主的情报研究具有重要作用。在目前研究的基础上,重点分析自动术语识别存在的问题,包括词性过滤难以兼顾召回率和准确率、单词术语和低频术语的识别未引起足够重视、术语识别领域相关性有待加强等。最后阐述自动术语识别的多特征融合、机器学习方法、高质量和高隶属度的领域术语识别、新术语识别、语义识别等发展趋势。  相似文献   

3.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。  相似文献   

4.
基于隐马尔科夫模型的中文术语识别研究   总被引:3,自引:1,他引:2  
基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于隐马尔科夫模型的中文泛术语识别和提取思想具有较好的实践参考意义。  相似文献   

5.
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。  相似文献   

6.
本文基于术语共现理论,利用形式概念分析中概念格的自动生成来推理作为属性的领域专业术语的层次结构并进行可视化展示,进而提出了一整套用于实现领域本体概念层次关系构建的解决方案,具体包括文档/词汇与术语语义关联的识别、领域形式化背景的建立、基于形式概念分析的主题概念的生成、基于主题概念格的术语层次关系抽取、术语层次体系的OWL描述和图形展示等.笔者以“白血病”领域为例,详细论证了无知识库支持环境下中文文本到医学学科术语层次结构的衍化过程,并对以文档术语矩阵(DTM)和词汇术语矩阵(WTM)为形式化背景生成的术语层次体系进行了比较分析.  相似文献   

7.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。  相似文献   

8.
基于多策略融合的中文术语抽取方法   总被引:2,自引:0,他引:2  
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.  相似文献   

9.
重点讨论非结构化中文文本中表达式命名实体(ENE)的抽取和分类过程,尝试构造匹配模式集合,建立基于层次模式匹配的ENE识别模型(HPM_ENE_EM),作为竞争情报系统、用户兴趣度获取等情报学应用研究的基础,并以学术论文中的术语缩略语识别为例探讨该模型的具体应用。  相似文献   

10.
国外术语注册与术语服务综述   总被引:1,自引:1,他引:0  
本文对国外上最具代表性的三个术语注册与术语服务系统(FAO注册系统与术语服务,OCLC术语服务,Open Metadata Registry)和四个相关研究项目(STAR,HILT,ADL地名表与叙词表协议,PoolParty)进行了详细的调研分析,在此基础上对我国术语注册与术语服务系统的开发与构建提出建议,主要包括:采用新兴的语义网和关联数据技术开发兼具术语注册与术语服务功能的完整系统,提供人与机器对注册词表元数据和词表内容的访问,采用RESTful Web服务构建术语服务,支持以关联数据方式发布词表内容等。图5。表4。参考文献30。  相似文献   

11.
在不同领域,随着数据规模的日益扩大,对于数据的自动分析技术已变得不可或缺。人们通过数据挖掘技术可以更高效地得到大规模数据的各种特征。在知识发现的过程中,无论对于数据分析还是数据挖掘,可视化都是将数据中的特征转换为知识的关键步骤。文章将从可视化分析与信息可视化的角度概述在科技信息领域中关系数据的可视化分析方法及其应用。首先,文章介绍在科技信息领域可视化的相关方法,以及信息可视化的特点与局限;接着介绍可视化分析在科技信息领域的相关工具与系统;最后给出一个对我国生命科学领域论文同被引网络的可视化分析实例。通过对该同被引网络的可视化分析,可以很直观地发现在该研究领域的不同研究方向以及引领这些研究方向的主要论文及其关系。  相似文献   

12.
面向领域中文文本信息处理的术语语义层次获取研究   总被引:1,自引:0,他引:1  
研究国内外现有术语语义层次关联的主要方法,针对如何获取术语语义层次内部结构的关键问题,构建术语语义层次获取流程,采用多重聚类方法获取层次关系,结合综合相似度计算方法提取层次内部的聚类标签,并选取一定的语料进行实验,验证该流程的合理性。  相似文献   

13.
张培晶  宋蕾 《图书情报工作》2012,56(24):120-126
在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。  相似文献   

14.
[目的/意义]分析并提出虚拟健康社区文本数据的知识发现策略,构建虚拟健康社区文本数据知识发现模型。[方法/过程]通过总结分析虚拟健康社区文本数据特点,针对其特点带来的数据挖掘困难制定相应的知识发现策略,并在DIKW体系指导下,依据提出的知识发现策略构建虚拟健康社区文本数据知识发现模型。通过应用计算机编码、自然语言处理技术、句法分析、制定推理规则等方法实现从自由文本数据到药物不良反应智慧的数据价值升华过程。[结果/结论]通过实证研究验证提出的知识发现策略和知识发现模型的有效性和可操作性,为后续虚拟健康社区文本数据知识发现的相关理论与实证研究提供参考。  相似文献   

15.
本文从文本挖掘的定义着手,分析了文本挖掘的过程,包括文本预处理,文本知识发现,文本模式的评价以及文本模式的呈现,并详细介绍了文本挖掘在主动信息服务、信息检索系统、专利信息分析等方面的应用.  相似文献   

16.
吴育芳  陆春华 《晋图学刊》2010,(3):34-36,49
本文在介绍了Web挖掘的基础上,重点分析了Web文本挖掘的概念、过程及其关键技术,包括文本的特征表示与提取、文本的分类与聚类等。  相似文献   

17.
文本分类是文本挖掘的基础和核心。构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法。在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及。本文提出使用开放测试和封闭测试的准确性指标的比值作为衡量文本分类器稳定性的评估标准。通过文献数据验证以及在所建构的贝叶斯分类器实验平台MBNC上进行的检验表明,用这种标准评价文本分类器具有其合理性。  相似文献   

18.
汉语科技词系统是科技词汇知识深层次组织与应用服务工具的集成体系。文章首先概述了词系统的内涵,然后总结了三年来在词汇自动获取、词空间构建和词聚类以及词系统的复杂网络分析评价上所取得的技术突破,并展望了科技词系统下一步的重点研发方向。  相似文献   

19.
文本分类器准确性评估方法   总被引:10,自引:3,他引:10  
程泽凯  林士敏 《情报学报》2004,23(5):631-636
随着计算机网络与信息技术的飞速发展 ,信息极大丰富而知识相对匮乏的状况在加剧。文本挖掘正成为目前研究者关注的焦点。文本分类是文本挖掘的基础和核心。构建一个分类准确的文本分类器是文本分类的关键。现在有很多文本分类的算法 ,在不同的领域里取得了较好的效果。如何更加客观地评估分类器的性能 ,是目前值得研究的方向之一。结合作者的实际工作 ,本文列出目前常用的分类准确性测试和评估方法 ,简单对评估方法进行比较分析。文末提出了对准确性评估的一些改进设想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号