共查询到20条相似文献,搜索用时 328 毫秒
1.
基于深度标引的专利文本挖掘框架研究 总被引:1,自引:1,他引:0
专利文献中的文摘、权利要求项、全文等文本信息蕴涵了重要技术细节和技术保护等内容,从这些专利文本内容中挖掘具有技术价值、商业价值的潜在信息是当前专利信息应用领域的研究热点.文章研究将面向分析目标的专利文本深度标引应用到专利文本挖掘中,在数据预处理阶段就将分析目标作为知识抽取的基础,专利分析人员可依据分析需求,在文本挖掘时只提取标引结果的某一部分进行分析和处理,这不仅可提高专利文本挖掘的数据预处理质量,也可提高后期文本分析的效率.该文为<数字图书馆论坛>2008年第11期本期话题"科技创新中的专利应用研究"的文章之一. 相似文献
2.
[目的/意义]随着战略型新兴技术产业的迅猛发展,如何识别具有潜在协同效应的技术创新组合、厘清组合中核心的创新关系,是有效规划产业发展路线、提升产业竞争优势的重要前提。[方法/过程]在技术组合进化理论的指导下,结合深度学习、SAO语义挖掘和CFDP算法,提出一种基于专利数据的技术创新组合与演化关系的识别方案。该研究方案共分为3个步骤:首先基于关键词与专利分类号构建领域检索策略,并实现对获取数据的清洗和分词。随后,通过Word2Vec构建领域技术主题的词向量语义网络,并利用CFDP算法识别出潜在创新要素及组合方式。最后,深入挖掘各组合中核心的SAO结构,通过LSTM深度学习算法对其演化关系进行分类,挖掘技术的核心创新方式,进而有效甄别领域潜在的技术机会。[结果/结论]以语音识别领域为例,通过对该领域DII专利文本数据的深入挖掘,识别并追踪5个潜在的技术创新组合及核心创新方式。研究发现,当前我国语音识别领域在智能芯片设计、语音识别算法、新场景和应用等方面有较大的创新潜力。 相似文献
3.
考察特定领域文本中蕴含的细粒度知识实体的使用情况,对知识实体的评估和选择具有重要意义。学术文本中的细粒度知识实体通常具有多个类型、多种关联关系,挖掘知识实体的同质与异质关联关系,有助于深入了解特定领域知识实体的实际使用情况。目前相关研究大多针对学术文本中单一知识实体的抽取和评估,缺乏对知识实体间关系的关注,在一定程度上限制了基于实体抽取进行知识发现的能力。文章以自然语言处理领域为例,对学术论文全文中的细粒度知识实体关联数据进行挖掘,并通过可视化方式揭示关联数据中蕴含的信息。主要是选取全国计算语言学会议2009-2018年间收录的中文论文为原始语料,人工标注论文中使用的知识实体,并针对NLP特点将其细分为“指标实体”“工具实体”“资源实体”“方法实体”4种类型;结合关联规则挖掘算法Apriori和复杂网络分析软件构建知识实体关联网络,揭示该领域常用的知识实体,以及这些知识实体的使用相关性。 相似文献
4.
一种从医学文本中实现自动关键词抽取和筛选的技术方法* 总被引:2,自引:0,他引:2
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。 相似文献
5.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。 相似文献
6.
文章明晰技术功效间的多种语义联系,设计技术实现路径的自动化构建方法,实现其即时更新和可视化。结合专利数据特点,基于规则从专利标题中抽取技术词,利用BiLSTM-CRF深度学习模型从专利摘要中抽取专利功效短语,并设计规则从功效短语中自动识别出功效词以及表示技术功效间语义联系的关系词,构建“技术词-关系词-功效词”结构的技术功效语义关联,通过计算实体间语义相似度实现技术词对齐和功效词对齐,优化技术功效关联,依此构建技术实现路径,并以知识网络的形式对其进行可视化。在5G技术领域的实证结果表明,该方法能有效揭示技术功效间的多种语义联系和自动构建技术实现路径,并实现路径的即时更新和清晰展示。 相似文献
7.
随着专利数据量的激增和新技术领域的交错重叠,迫切需要在专利信息分析中深化到内容层次,内容挖掘是其中的重要途径和必要手段。借鉴文本内容挖掘的思想和技术,提出基于内容挖掘的专利信息分析的方法体系,分别阐述方法体系中包含的专利文本信息预处理、专利信息内容分析和专利信息知识处理过程的主要步骤及其涉及到的各种技术和算法。最后,以混合动力汽车领域专利信息的内容挖掘为例进行实证研究。 相似文献
8.
9.
10.
11.
在近年信息处理与分析相关技术领域的进展中,文本挖掘是最引人注目的领域之一。文本挖掘是一个方法群,涉及统计学、自然语言处理、信息抽取、可视化等多项信息技术。同很多新兴领域一样,文本挖掘目前并没有统一的定义,没有完全一致的方法与模型,但是,Feldman和Sanger那个很笼统的定义:“可将文本挖掘大致定义为一个知识密集的过程,在此过程中用户与文档集合通过分析工具进行交互”,清晰表明了这种方法与信息分析的内在联系。 相似文献
12.
文本史料被广泛数字化,如何从文本中提取地理命名实体及相关信息,有效开展地理信息挖掘成为重要研究课题。本文针对历史档案文档的特点,提出一种以地理命名实体为核心,使语义信息与地理位置关联,将文本描述的事件信息转化为各个地理命名实体的属性数据的事件抽取理念,提取出有关时间、地点、人物、事物、事件、现象等与地理命名实体相关的事件要素。研究以《拉贝日记》中收录的《日本士兵在南京安全区的暴行》档案为实证案例,采用条件随机场方法,抽取事件信息,结合历史地图等相关资料,将地理信息最终映射到地图上。本文方法有助于拓展文本资料在数字信息时代的开发利用方式,开辟文本挖掘分析与知识发现的新思路。 相似文献
13.
14.
基于关联规则的Wikidata人物名称数据分析——以诺贝尔文学奖得主为主题 总被引:1,自引:0,他引:1
[目的/意义] 挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。[方法/过程] 提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论] 分析右部为地点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。 相似文献
15.
[目的 /意义]探索融合引用和文本特征的专利技术创新路径识别分析方法,有助于规避技术创新风险、优化选择技术创新路径,对提升创新主体的创新能力,促进现代产业发展,布局科技前沿发展战略等具有重要的意义。[方法 /过程]首先基于Node2Vec模型和Doc2Vec模型将专利引用和文本数据表示学习为可计算的高维向量;然后利用LDA主题模型进行技术主题识别并结合T-SNE算法降维,添加时间维度构建初始技术创新路径;最后,在专利引用和文本特征向量表示结果基础上,开展向量融合拼接从而实现融合引用和文本特征的技术创新路径识别。[结果 /结论 ]通过对超级电容器领域的实证,验证提出的融合引用和文本特征的的技术创新路径识别方法能够从特定领域专利文献中高效、准确地识别专利技术创新路径,证明方法的可行性和有效性。 相似文献
16.
关于从MEDLINE数据库中进行知识抽取和挖掘的研究进展 总被引:28,自引:4,他引:24
本文对近年来国内外利用医学文献检索系统MEDLINE进行知识抽取和文本数据挖掘的研究进行了回顾和综述,包括Swanson等开展的从文献中发现隐藏的联系的研究,Cimino等人开展的从文献中抽取规则的研究,国外的共词及国内的共篇分析研究.并据此提出,在当前信息技术高速发展的条件下,应当充分开展知识抽取和文本挖掘的研究,为图书情报部门的服务功能从文献管理向信息管理和知识管理转化进行理论上的探索. 相似文献
17.
命名实体识别是自然语言处理领域的基础性工作,旨在从非结构化文本中识别出具有特定意义的实体并分类,在多种自然语言处理任务中发挥重要作用。由于中文命名实体没有明显的边界标记,且存在歧义和嵌套等问题,其识别过程比英语等其他语言要更为复杂。近年来,深度学习技术发展迅速,在中文命名实体识别中得到广泛应用,并已成为主流方法。系统梳理中文命名实体识别中深度学习技术的研究进展,重点从文本表示、特征编码、预测解码3个方面,对比分析代表性工作的关联性和关键技术,讨论研究中存在的问题、现有解决方案和未来的研究方向。 相似文献
18.
19.
基于文本挖掘机制的区域经济关系分析 总被引:1,自引:0,他引:1
已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的.本文则针对非结构化的文本特点,采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题.本文在探讨了基于实体关系的文本挖掘机制的基础上,对31个省、市、自治区的区域经济关系进行了分析.运用文本挖掘技术对经济关系的挖掘包括两种方式:一是基于属性的经济关系挖掘,利用信息抽取获取各个实体属性,采用聚类方法分析经济实体关系;二是基于相互引用的经济关系挖掘,首先构造经济实体关系分类词典,提出了实体关系标注算法,利用信息抽取获得实体之间的引用情况,然后构造关系有向图,从中挖掘区域经济之间的关系.研究表明,运用文本挖掘技术,既可以对各个区域经济发展状况进行分析和评价,也可以发现特定区域经济之间的内在关系. 相似文献
20.
自动术语识别——对科技文献进行文本挖掘的重要技术方法* 总被引:3,自引:0,他引:3
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。 相似文献