首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 531 毫秒
1.
中文书目机器自动标引是数字图书馆建设中亟待解决的关键问题之一。本文试图将条件随机场(CRFs)序列标注机器学习算法引入到关键词抽取中,建立面向图书内容、基于字角色标注的中文书目关键词标引模型。将图书内容转化为字序列,进而提出构建关键词角色空间模型和综合利用字序列上下文特征的设计思路。通过实验,从题名和内容提要中分别自动抽取关键词,论证该模型的合理性和实用性。  相似文献   

2.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

3.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

4.
[目的/意义]针对目前专利关键词抽取算法评价中主要采用抽取的关键词与专家人工标注关键词进行匹配存在的问题,提出一种基于信息增益与相似度的专利关键词抽取算法评价模型.[方法/过程]提出的评价模型从内部和外部两个层面评估专利关键词抽取算法的准确性.其中,内部评价模型度量待评价算法抽取的每个关键词的信息增益,以评估被抽取的关...  相似文献   

5.
HMM和CRFs在信息抽取应用中的比较研究   总被引:1,自引:0,他引:1  
在比较HMM和CRFs数学理论的基础上,分别提出基于HMM词角色标注和基于CRFs字角色标注的人名实体抽取模型,并通过开放性测试和实践应用两次验证、比较两者的有效性,从而在实践中证明从理论比较中得出的结论:CRFs较之HMM更适合于解决序列标注或对象分类问题。  相似文献   

6.
投稿须知     
《大学图书情报学刊》2012,(3):F0003-F0003
为确保编辑工作的科学化、标准化和规范化,本刊对作者来稿做如下要求,敬请投稿作者遵循:1.来稿文题应简明、具体、确切,一般不超过20个汉字;须以第三人称口吻撰写100—300字的中文摘要:标注中文关键词3—8个(反映文章主要内容的术语);关键词下方请标注本文的中图分类号;正文后务必注明参考文献和作者简介(性别、职称、职务)。  相似文献   

7.
投稿须知     
《大学图书情报学刊》2013,31(1):F0003-F0003
为确保编辑工作的科学化、标准化和规范化,本刊对作者来稿做如下要求,敬请投稿作者遵循: 1.来稿文题应简明、具体、确切,一般不超过20个汉字;须以第三人称口吻撰写100—300字的中文摘要;标注中文关键词3—8个(反映文章主要内容的术语);关键词下方请标注文章的中图分类号;正文后务必注明参考文献和作者简介(性别、职称、职务)。  相似文献   

8.
投稿须知     
《大学图书情报学刊》2012,30(6):F0003-F0003
为确保编辑工作的科学化、标准化和规范化,本刊对作者来稿做如下要求,敬请投稿作者遵循: 1.来稿文题应简明、具体、确切,一般不超过20个汉字;须以第三人称口吻撰写100—300字的中文摘要;标注中文关键词3—8个(反映文章主要内容的术语);关键词下方请标注文章的中图分类号;正文后务必注明参考文献和作者简介(性别、职称、职务)。  相似文献   

9.
投稿须知     
《大学图书情报学刊》2013,31(3):F0003-F0003
为确保编辑工作的科学化、标准化和规范化,本刊对作者来稿做如下要求,敬请投稿作者遵循:1.来稿文题应简明、具体、确切,一般不超过20个汉字;须以第三人称口吻撰写100—300字的中文摘要;标注中文关键词3—8个(反映文章主要内容的术语);关键词下方请标注文章的中图分类号;正文后务必注明参考文献和作者简介(性别、职称、职务)。  相似文献   

10.
投稿须知     
<正>为确保编辑工作的科学化、标准化和规范化,本刊对作者来稿做如下要求,敬请投稿作者遵循: 1.来稿文题应简明、具体、确切,一般不超过20个汉字;须以第三人称口吻撰写100 - 300字的中文摘要;标注中文关键词3-8个(反映文章主要内容的术语);关键词下方请标注文章的中图分类号;正文后务必注明参考文献和作者简介(性别、职称、职务)。  相似文献   

11.
[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。  相似文献   

12.
[目的/意义]现有的关键词提取方法不适应社会化问答社区文本长度较短、内容表述口语化、数据集稀疏的特点,且很少考虑用户关注程度对词语重要性的影响,不能有效地提取此类文本的关键词,因此,提出针对社会化问答社区的多属性加权关键词提取方法。[方法/过程]多属性加权关键词提取方法通过引入调节函数和词性对传统TF-IDF进行改进,并通过线性加权融合用户回答数、关注数、浏览数以及评论数4个用户关注属性来综合度量词语权重。[结果/结论]实验表明,该方法能更有效地提取社会化问答社区文本的关键词。  相似文献   

13.
基于条件随机场的自动标引模型研究   总被引:3,自引:1,他引:2  
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型.为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型.实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法.但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量.  相似文献   

14.
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。  相似文献   

15.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

16.
[目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。  相似文献   

17.
论文在先期自动汉字笔划属性采集排序基础上,采用汉字等价置换方法,利用内码提取函数进行地址计算。设计实现了一个汉字笔划排序系统:论文对该笔划排序系统的设计思路、算法实现步骤等进行了详细讨论并对该排序系统的使用进行了有关说明和评价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号