首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 343 毫秒
1.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

2.
基于词表和N-gram算法的新词识别实验   总被引:1,自引:0,他引:1  
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。  相似文献   

3.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

4.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

5.
[目的/意义]文章对科技政策隐性扩散路径自组织方法进行研究,挖掘科技政策文本包含深层语义信息,将隐性知识显性化,为科研人员拓展和丰富政策扩散路径研究提供参考。[方法/过程]本文结合科技政策篇章文本的形式语义和内容语义两个方面对政策文本结构化处理和深度挖掘,对政策文本资源全解析,抽取科技政策文本中包含的特征,其中包括概念和关系自动获取与标引技术、网络表示学习,挖掘科技政策文本中的隐含结构信息,利用BiLSTM-CRF模型的深度学习方法实现概念的自动获取和自动标引关系。将得到多篇科技政策文本的概念和关系组成概念关系对的形式,借助于表示学习的方法发现每个节点稠密的向量表示。[结果/结论]通过实验验证,证明了本文借助隐性路径特征的科技政策扩散隐性路径自组织方法的有效性,在一定程度上拓展了政策研究的方法,为科研人员在政策扩散研究上提供了参考。  相似文献   

6.
[目的/意义] 微博平台产品评论的特征级情感分析问题具有其特殊性,为了对特征分类,解决隐式特征的识别问题,并分析特征情感,提出一种基于特征本体的产品评论情感分析方法。[方法/过程] 该方法利用构建的特征本体对特征词分类,通过计算情感词与特征的搭配权重来识别隐式特征,并构建领域情感词典和微博表情符号词典,计算微博产品评论的特征情感极性和强度。[结果/结论] 构建方法模型,通过采集微博评论数据设计实验,验证了提出方法的有效性。  相似文献   

7.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

8.
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。  相似文献   

9.
基于条件随机场的自动标引模型研究   总被引:3,自引:1,他引:2  
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型.为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型.实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法.但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量.  相似文献   

10.
白华 《图书情报工作》2015,59(17):127-133
[目的/意义]针对大众分类法和知识组织系统各自的优势和缺点,构建兼有大众分类和概念本体特征的新本体,利用语义关联技术为标签添加语义,以克服传统分类线性结构的缺陷。[方法/过程]建立一个"文学图书本体", 该本体以每对概念与标签之间的资源相似率为标准,采用标签—概念映射和集成技术把标签映射到概念框架中,从而一方面赋予标签以等级关系、同一关系和相关关系等语义,另一方面提高概念本体的标引能力,使每种图书的属性充分得到语义表达和揭示。[结果/结论]试验表明,新本体在容纳性、灵活性和多向语义关联方面的功能,均有显著提高,因而可提高图书资源的知识表示和组织能力。  相似文献   

11.
��[Purpose/significance] The abstract of scientific papers is a vital indexing object within information organization. Meanwhile, indexing the abstract according to certain rules is conducive for not only scientific communication or knowledge discovery, and intelligence analysis as well. Thus, how to realize auto-index accurately and quickly, for millions of unstructured abstracts existed nowadays is a crucial problem to be addressed.[Method/process] This study assumed that different categories of abstract are inherently consistent, that is, the study of structured abstract can provide a method and technical reference for unstructured abstract auto-indexing. Acting in accordance with this assumption and based on the US National Library of Medicine's structural element labeling terminology, this study accomplished mapping across abstract element classifications and proposed BOMRC system, a normalization indexing method for structured abstract. Then we collected research sample and used text mining method to analyze multiple features of structured abstract quantitatively and statistically, such as word frequency, TF-IDF value, as for dimension of words, verbs, three-word lexical chunks and four-word lexical chunks, which enabled us propose a semantic feature dictionary for structured elements. Finally, we used unstructured abstract to test the validity of the semantic feature dictionary.[Result/conclusion] The results show that the semantic feature dictionary method can effectively identify various structural elements of scientific paper abstract, and it can be used to optimize the automatic recognition model, which may be based on machine learning methods.  相似文献   

12.
[目的/意义]保护敦煌文化遗产,为敦煌壁画提供移动视觉搜索服务,以助用户高效、便捷地获取敦煌壁画丰富知识资源。[方法/过程]构建基于BoW的图像底层特征匹配和基于主题标签的高层语义关联的移动视觉搜索模型,用SIFT提取图像局部特征,K-means生成有K个视觉单词组成的视觉词典,计算图像映射到视觉词典的TF-IDF向量,通过内积计算相似度匹配图像并排序;根据图像主题添加语义标签,提取最匹配图像的标签实现语义关联搜索;最后收集1200张敦煌壁画图片验证模型的有效性。[结果/结论]在视觉单词数为1000时BoW+SIFT的图像搜索耗时163ms,且图像大小在0.5-2.5倍范围的准确率在83.7%以上,可有效搜索主题语义关联图像。  相似文献   

13.
基于知识元的科技文本内容描述框架研究   总被引:1,自引:0,他引:1  
[目的/意义] 从细粒度角度深化科技文本的内容语义描述,弥补目前文本知识对象特征描述粒度较粗且缺乏语义的不足,为知识重组与挖掘,提供精细化的用户知识服务给予一种思路。[方法/过程] 以知识元理论为基础,通过对科技文本内部属性的语义分析,尝试构建细粒度的科技文本内容描述框架,给出两个实例并讨论。[结果/结论] 该内容描述框架实现了检索结果从海量的文献单元聚焦到精准化的知识元的转变。  相似文献   

14.
数字图书馆数值知识元检索系统设计   总被引:1,自引:0,他引:1  
[目的/意义]为满足数字图书馆用户对数值知识的个性化检索需求,向其提供细粒度的知识服务。[方法/过程]基于对数值知识元的深入分析,提出数字图书馆数值知识元识别、抽取、索引与检索方法,并构建一个面向数值知识元的检索系统。[结果/结论]通过实例分析验证基于数值知识元的细粒度知识服务能够在一定程度上提高检索和利用数值知识的效率和用户满意度。  相似文献   

15.
考虑到中文网络评论的复杂语义特性,为提高产品特征观点倾向性判断的精确性,提出一种复杂语义倾向性计算方法.该方法在建立产品领域情感词典的基础上,首先确定特征观点窗口的度量范围,完成特征观点组的提取;然后在特征观点组中综合考虑观点词的程度、反转语义及特征评价的频数等多种因素,完成特征评价倾向性的计算.实验结果表明,本文所提出的方法在特征评价倾向性分类方面可以达到较高的查全率和查准率,而且与SO-PMI方法相比,可明显提高特征评价的计算精确性.  相似文献   

16.
[目的/意义] 研究统一医学语言系统中语义网络与社会化标注系统结合的深层次应用。[方法/过程] 总结UMLS语义网络的现有应用,分析UMLS语义类型与FrameNet语义类型的特征,构建适合本研究的语义类型,并通过实例梳理社会化标注系统与本体映射的思路。[结果/结论] 提出将所构建的语义类型作为标签归类的分类器以及作为分众分类系统与框架网络本体映射的桥梁。突破传统的基于统计的标签归类方法可为本体与分众分类系统的映射提供新的视角。  相似文献   

17.
[目的/意义]作为一类面向学科领域科技情报需求、针对全文本关键语义计量分析、旨在实现情报自动化到知识自动化实践应用的探索研究,本文基于语义标注和机器学习等技术,在前期研究从知识元共现视角探测研究前沿演进机理基础上,进一步提出一种基于知识元变异的研究前沿知识演进分析方法。[方法/过程]利用Word2vec词嵌入模型将知识元表示为词向量,通过计算知识元向量的欧几里得距离,利用K-means聚类方法识别具有相似语义语用关联的知识元簇集,计算历时簇集内各知识元TF-IDF值,对变异后知识元重要程度的突发变化结果进行定量测度,进而挖掘ESI研究前沿演进中的知识元变异特征和规律。[结果/结论]通过探测结果的对比检验发现,基于知识元变异的科学计量方法,不仅是对前期研究方法的补充和拓展,使得针对研究前沿内部知识运动规律的挖掘更加具体详实,更是在时间序列范畴内,能够尽早、及时探测研究前沿未来发展动向和关键情报信号的有力证据。  相似文献   

18.
[目的/意义] 自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程] 首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论] 两种方法共计标注近25 000条语句,语料标注的一致性系数达到0.983 9,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。  相似文献   

19.
网络科技信息具有开源、发布及时等特点,目前已成为战略情报监测的重要资源。但这类资源又具有非结构化、无语义描述等特点,如何将Web信息从非结构的自由信息转为可分析的结构化、语义化信息成为一个亟需解决的问题。针对这一问题,笔者提出了网络科技信息结构化监测的思路方法。这一方法通过知识抽取技术,从网络信息资源中抽取出嵌在其中的知识对象以及对象间的相互关系,将自由文本转换为结构化的可计算的知识单元,在此基础上构建各类监测模型,进而实现对研究领域的态势监测。基于这一思路,笔者开发了“网络科技信息自动监测系统”,并基于监测数据所形成的语义资源,进行了监测态势分析实验。图 6。表1。参考文献16。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号