首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 140 毫秒
1.
网络招聘文本技能信息自动抽取研究   总被引:1,自引:1,他引:0  
[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。  相似文献   

2.
专利技术术语的抽取方法   总被引:2,自引:0,他引:2  
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语.该模型分为四个阶段:①分词和词性标注; ②运用语言学规则取得可能术语列表; ③计算词语的术语度值,取得候选术语列表; ④领域专家评估并确定术语.实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势.  相似文献   

3.
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。  相似文献   

4.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

5.
俞琰  赵乃瑄 《图书情报工作》2018,62(21):118-126
[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。  相似文献   

6.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。  相似文献   

7.
赵华茗  钱力  余丽 《图书情报工作》2020,64(11):108-115
[目的/意义] 探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程] 以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论] 与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。  相似文献   

8.
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响.本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取.该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性.  相似文献   

9.
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量.获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度.本文试图研究一种不依赖于背景语料的术语领域度筛选方法.本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析.实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果.  相似文献   

10.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

11.
基于隐马尔科夫模型的中文术语识别研究   总被引:3,自引:1,他引:2  
基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于隐马尔科夫模型的中文泛术语识别和提取思想具有较好的实践参考意义。  相似文献   

12.
基于知网和术语相关度的本体关系抽取研究*   总被引:1,自引:0,他引:1  
 提出一种基于知网和术语相关度的关系抽取方法。首先通过句法分析提取术语的上下文特征,结合自然语言特征和互信息的方法计算术语之间的相关度,然后使用术语的义原和动态角色作为关键词,在知网语义关系框架中定位关系,并为关系指定明确的语义标签。实验结果表明该方法具有较好的实用效果。  相似文献   

13.
[目的/意义] 中医药是中华文化的传承,对现代医学发展具有重要作用,应受到高度重视。利用数字技术组织中医古籍,对其进行保护与重用具有重要意义。[方法/过程] 以简帛医药文献为研究对象,分别构建简帛医药书目本体和内容本体,并通过书目本体和内容本体的连接形成简帛医药文献本体模型;利用命名实体识别模型抽取实体概念,利用依存句法分析和规则的方法抽取实体关系,最终将简帛医药文献数据存入图数据库,实现简帛医药文献知识图谱可视化与检索查询结果呈现。[结果/结论] 利用本体和知识图谱,提出简帛医药知识组织方法,建立具有逻辑关系的简帛医药知识链,形成中医药领域知识的语义网络,在中医古籍的智能化方面做出有益的探索,有助于中药知识的普及与传承。  相似文献   

14.
鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。  相似文献   

15.
刘畅  宋筱璇 《图书情报工作》2017,61(16):122-134
[目的/意义]用户的检索式行为是用户信息搜索的重要环节,本文拟通过综述的形式对这些研究进行梳理,形成较为完整的综述。[方法/过程]通过对国内外相关文献的梳理,将检索式构建行为划分为检索词、检索式和会话层三个层面,以及词汇、语法和语义三个维度,对每个维度及不同维度之间的研究的区别与联系进行讨论,并对检索式的重构行为、检索式的质量和效果评估、以及影响用户检索式行为的要素等几个方面的相关研究进行总结。[结果/结论]已有研究对于检索式行为中的检索词和检索式的词汇研究较为丰富,未来需要增加对检索式的语法和语义的研究,以便深入理解用户的检索式构成特征。另外,关于检索式重构的类别和模式的自动识别的探索有所不足。在检索式的质量和效果评估方面,还需结合多种情境因素,更深入地研究易于用户理解和利于其搜索的检索式推荐模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号