首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

2.
[目的/意义] 专利价值评估是企业技术管理的重要内容。通过对专利价值影响因素进行评价,为企业对其专利技术进行有效管理提供思路和策略。[方法/过程] 利用Innography专利信息检索分析平台,从专利价值度(PV)、专利家族(PF)、专利引用次数(NPC)、权利要求数(NC)、专利申请时长(PTO)、专利年龄(AP)等角度,对样本专利的相关专利信息进行挖掘。然后通过构建多元线性回归模型,对专利价值的影响因素进行评价,结合评价结果,为企业的专利技术管理提出可供参考的策略。[结果/结论] 回归结果显示,专利家族、专利引用次数、权利要求和专利申请时长与专利价值呈正相关关系,而从中立的第三方或被许可方角度看,专利年龄与专利价值呈负相关关系。据此,从创新程度、专利文件撰写、专利布局、流程管理和运营等角度提出企业技术管理策略。  相似文献   

3.
[目的/意义]专利转移对象识别对高校有的放矢推送专利、提升专利转移效率、实现科技创新驱动经济发展具有重要意义。[方法/过程]对高校专利信息和企业多源信息进行语义抽取,构建能够体现企业产品/技术纵向延伸需求的领域技术树,最后建立高校与企业间的技术-需求匹配模型,依其匹配程度进行高校专利转移客户识别。[结果/结论]以我国气凝胶领域的高校专利为例对识别方法进行实证,结果表明该方法可准确识别出具有产品/技术纵向延伸需求的高校专利转移对象,应对供求信息不对称问题,是促进高校专利转移、实现科技创新与市场需求精准对接的有效手段。  相似文献   

4.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

5.
[目的/意义]利用知识元模型理论研究政府网站知识服务效果的优化路径,辅以可视化表征技术,以降低大数据环境下政务用户信息获取的操作负载和知识加工的认知负荷。[方法/过程]依据相关知识元模型研究推理出符合政府网站信息资源属性特征的六元组知识元表示方法和四元组知识元本体结构,采用TextRank与HDP算法分别抽取政府网站信息资源关键词和主题词,并由领域专家根据抽取结果确定知识元,构建包含知识元本体库生成和可视化知识服务的政府网站信息资源领域知识元可视化表征模型。[结果/结论]通过政府网站发布的共享单车实例检验知识元可视化表征模型的有效性和可行性,为实现政府网站粗粒度信息服务转向以知识元为单位的细粒度知识服务范式开辟了新的研究思路,可视化知识服务模式增强了政务信息导航的结构化和用户解读领域文本语义的效果。  相似文献   

6.
[目的/意义] 将论文与专利相结合,建立一套整合基础研究与应用研究的研究前沿识别方法。[方法/过程] 以基于关键词共现的研究前沿识别方法模型为基础,用余弦相似度算法将论文和专利相结合,并使用研究主题年龄和研究主题关注作者数量两个指标来识别研究前沿,最后在LED领域进行应用分析。[结果/结论] 研究表明该方法可以识别出基于单独的论文数据或者专利数据不能识别的研究前沿,同时还可以有效地跟踪研究前沿的产生、成长、消退与消失。  相似文献   

7.
海量数据集上基于特征组合的关键词自动抽取   总被引:7,自引:0,他引:7  
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.  相似文献   

8.
专利技术术语的抽取方法   总被引:2,自引:0,他引:2  
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语.该模型分为四个阶段:①分词和词性标注; ②运用语言学规则取得可能术语列表; ③计算词语的术语度值,取得候选术语列表; ④领域专家评估并确定术语.实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势.  相似文献   

9.
[目的/意义]专利分级管理对高校盘活科研资源、提高专利质量和管理绩效、促进创新驱动发展具有重要意义。[方法/过程]在充分研究专利分类与分级管理对应关系的基础上,分析高校实现专利分级管理所面临的障碍,最后立足于高校专利现状和方案的可操作性给出解决对策。[结果/结论]专利分级管理的依据是专利市场属性的客观评估,以市场为导向的专利政策、专业的管理人员、专利申请筛选以及评估模型改进的协同耦合,可以在保证评估结果客观性的同时降低评估成本和评估的复杂性,为高校专利分级管理的实现扫清障碍。  相似文献   

10.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。  相似文献   

11.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

12.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

13.
俞琰  赵乃瑄 《图书情报工作》2018,62(11):120-126
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。  相似文献   

14.
[目的 /意义]技术机会识别是企业技术创新活动得以顺利开展的重要前提,及时发现和把握有价值的技术机会对技术创新突破意义重大。[方法 /过程]从主题挖掘与专利评估的视角提出一种技术机会识别方法,首先应用主题模型识别技术领域涵盖的技术主题并进行专利聚类;其次在技术主题层面展开细粒度分析,综合考虑技术机会应具备前沿性、价值性和时效性的重要特性,采用突变级数法和离群因子算法评估技术主题中的高价值专利和离群专利形成核心专利集,并计算每个技术主题的专利平均年龄;最后,将技术主题中的核心专利占比和专利平均年龄作为核心指标绘制技术机会识别地图,用于识别技术机会。[结果 /结论 ]以智慧农业领域为例,对所提方法进行实证,识别智慧农业领域的5个技术机会,为创新主体的技术研发提供决策支持。但识别结果的定量验证以及融合多源数据进行技术机会识别有待进一步探索。  相似文献   

15.
[目的/意义]分析技术主题演化过程可以梳理技术发展脉络,对于发展创新、预测技术发展趋势具有重要意义,但是从语义角度分析技术主题演化轨迹的研究较少。因此,从语义的角度出发,分析技术主题演化过程。[方法/过程]提出基于非负矩阵分解的改进的动态非负矩阵分解模型对专利文本进行动态主题建模,并利用TextRank算法抽取名词短语进行标注,增强所抽取技术主题的可解释性。在此基础上,利用词向量的方式计算技术演化轨迹,并进行可视化展示。[结果/结论]对2002年、2005年、2008年、2011年和2014年的五方专利进行实证分析,识别出65个技术主题及其演化轨迹,表明方法的可行性。  相似文献   

16.
[目的/意义] 持续、有效地开展以用户需求为导向的专利信息服务,对新形势下高校图书馆实现服务转型和创新发展具有重要意义。[方法/过程] 运用比较分析法对美国专利与商标资源中心(PTRC)高校图书馆和中国首批高校国家知识产权信息服务中心开展的专利信息服务内容进行对比分析与研究。[结果/结论] 借鉴美国PTRC实践经验,提出我国高校图书馆专利信息服务水平的提升路径:合理定位专利信息服务范围、高度重视专利信息服务工作、切实提高专利信息资源的可获取性和利用率、多途径加强专利信息素养教育、深入开展专利信息咨询服务、多渠道促进专利信息传播与利用、多方合作开展深度专利信息服务。  相似文献   

17.
张欣  马瑞敏 《图书情报工作》2018,62(10):106-115
[目的/意义]核心专利的发现是技术创新的重要环节,对于技术改进和专利战略布局意义重大。[方法/过程]首先界定核心专利的概念,然后在对原始PageRank算法模型介绍的基础上,结合专利的被引次数和专利的年龄对原始的PageRank算法进行改进,提出PatentRank算法(简称PTR),并将其应用到OLED领域中来识别核心专利。[结果/结论]研究发现,相比被引次数,PTR不仅能将该领域的核心专利识别出来,而且还可以识别出一些重要性的基础性专利,为研究OLED相关技术提供追本溯源的研究思路;相比原始PageRank算法,PTR具有更高的值区分度,在局部改善了PR的排名。  相似文献   

18.
基于专利申请及审查制度的专利引文评价效能实证研究   总被引:1,自引:0,他引:1  
[目的/意义]研究专利申请及审查制度下的专利引文作用机理,厘清专利引文评价效能,是保证学术评估客观合理的重要前提。[方法/过程]以美、中、日三国诉讼专利和许可专利为实证样本,分析专利引文频次与专利价值的相关性,并结合专利申请和专利审查制度就专利引文对施引专利、被引专利的评价效能进行深入剖析。[结果/结论]专利引文频次对专利价值而言是一个正向、负向、中性混杂的评价指标,专利引文对专利价值的评价需建立在对引用动机、引文扮演角色和实际发挥作用等诸多要素的深入细致分析上,否则,专利引文对专利价值不具有客观的评价效能。  相似文献   

19.
[目的/意义] 针对现有研究对企业技术竞争力评价过程中专利指标设置单一、综合对比能力差、部分指标难以量化的问题,从技术规模、技术质量、技术价值3个角度构建企业技术竞争力评价体系,以帮助企业进行技术战略决策。[方法/过程] 从专利中抽取11个反映企业技术竞争力的指标,并结合组合赋权法建立企业技术竞争力的评价模型,以LTE-Advanced技术专利申请量前20的企业为例,对模型进行初步应用。[结果/结论] 将评价结果和以往研究进行对比分析,结果显示本文的综合评价模型可以更好地揭示该技术领域企业的竞争地位,为企业的技术战略决策提供参考。  相似文献   

20.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号