首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
学术文献引文上下文自动识别研究   总被引:2,自引:2,他引:0  
[目的/意义] 引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法/过程] 梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果/结论] 实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。  相似文献   

2.
中文化学物质名称识别研究*   总被引:1,自引:0,他引:1  
在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词标注识别效果更佳;此外,还研究特征数量对实验效果的影响。  相似文献   

3.
随着互联网经济的飞速发展,信息抽取领域的产品命名实体识别在商务智能领域有着广泛的应用。本文采用条件随机场(CRF)模型,选取词汇、词法和词形上一系列的特征进行训练,通过交叉验证对识别效果进行评价,并通过识别效果指导特征的选取。实验中比较了两种标注方式(BRAND/TYPE和PROD),并取得了令人满意的识别效果。在与最大熵模型对比中,验证了CRF模型对于产品实体识别的优越性。  相似文献   

4.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

5.
陈翀  高欣妍  黄红 《情报工程》2023,(5):97-111
[目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。[方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;再基于术语质量特征构造筛选准则,从候选术语中挑出优质且新增的结果加入到新一轮训练的标注词汇集合,迭代标注训练,直到新增术语量小于某一阈值或迭代达到特定次数。本文还检测了模型迭代训练效率及在其他领域的推广性,将在计算机领域语料训练出的模型用于新兴的融合出版领域的技术术语识别。[局限]术语质量特征量化方法待综合多指标优化,模型改进学习机制未引入负例且迭代不易收敛等。[结果/结论]本文最终通过标注数量和标注语境丰富度实验表明了采用新增标注数据进行迭代的有效性。以50轮迭代训练后结果为例,在计算机测试语料上识别术语及其所有标注序列的F1值为0.43和0.59,新术语率为0.79,均优于基准BLSTM-CRF模型、BERT-BLSTM-CRF模型效果,证实了新方法启动成本低,领域适应性好,能够有效解决术语识别中训练语料缺乏的问题。在模型迁移效能评价中,抽样...  相似文献   

6.
本文在理论分析CRFs优于HMM和MEM等序列标注模型的基础上,提出一种基于CRFs的字角色标注人名识别模型.重点阐述了该模型的构建过程,包括角色定义、特征模板建立、特征函数生成及其参数训练、角色标注和基于模式的人名抽取等步骤,并通过实验验证模型的识别效果,探讨包括特征组合、字长窗口等在内的各种影响因素,探索模型的最佳识别条件,同时对CRFs和HMM在人名识别实验中进行了比较分析,认为CRFs在付出更大的实验复杂度的代价下,其人名识别效果明显优于HMM.论文最后通过实例探讨了CRFs-RL-PnR模型在网络舆情分析,包括新闻人物自动抽取、焦点人物时序分析等中的实践应用.  相似文献   

7.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

8.
张秋子  陆伟  程齐凯  黄永 《情报工程》2015,1(2):064-072
为实现海量英文学术文本中缩写词及对应缩写定义的识别,本文提出了一种自动缩写识别算法 MELearn-AI。该算法在人工标注数据集的基础上,从序列标注的角度,通过最大熵模型实现了计算机领域 英文学术文本中的自动缩写识别。MELearn-AI 在本文构建的评测数据集“Paren-sen”上得到了95.8% 的 查准率和86.3% 的查全率,相对于其他两组对照实验的效果有较为明显的提升。本文提出的自动缩写识别 方法能够在计算机领域的学术文本上取得令人满意的效果,有助于更好地理解并利用该领域术语。  相似文献   

9.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

10.
命名实体分类和识别是自然语言处理中的关键任务,其识别效果将会影响许多下游任务的性能。文章基于现有知识图谱,提出图情领域九大类实体,构建适用于图情领域实体识别的LISERNIE+BiGRU+CRF模型。其中,LISERNIE模型的训练以ERNIE为基础,增加了注入图情领域知识的预训练阶段训练。通过开展广泛的实验,发现LISERNIE+BiGRU+CRF模型能有效识别出命名实体,且在小规模标注数据集上具有明显的性能优势;当应用到后续的开放域关系抽取实验时,其准确率远高于CORE系统,可为进一步构建知识图谱、问答系统、机器阅读等提供模型和数据支撑。  相似文献   

11.
利用条件随机场模型进行自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能的因素进行实验和分析。  相似文献   

12.
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究   总被引:2,自引:0,他引:2  
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。  相似文献   

13.
基于清华汉语树库,利用条件随机场,构建时间表达式知识抽取模型。为了确保模型的性能,统计分析时间表达式的内部和外部特征,并把确定的特征应用到模型的构建中。在语言特征模板基础上,在摘要语料上抽取验证表明,时间表达式抽取模型的调和平均值最高达到80.83%。  相似文献   

14.
为支持科技知识创新,科技创新路径识别已经成为情报学研究的热点主题。在梳理科技创新路径识别研究的数据源、研究方法以及可视化工具研究现状的基础上,重点分析基于关键词或者主题词识别和基于引文全文的语义分析识别两种主要的科技创新路径识别方法,并对Sci2、HistCite、CiteSpace以及VOSviewer 4种可视化工具进行比较分析,进而指出基于引文分析的科技创新路径识别研究面临的挑战并展望其在数据集、研究方法、研究技术以及研究结果方面的未来发展趋势,以期为科技创新路径识别研究提供支持和帮助。  相似文献   

15.
科技文献老化过程的数学辨识模型   总被引:4,自引:0,他引:4  
分析研究了几种科技文献老化数学模型 ,讨论了引文年代分布数据统计中引文频次的采样误差。基于过程辨识理论 ,提出了科技文献老化的数学辨识模型 ,即传递函数模型。参考文献12。图 5。  相似文献   

16.
国内外学术期刊刊登作者简介情况对比分析   总被引:2,自引:0,他引:2  
通过对国内外学术期刊刊登作者简介情况的对比分析,发现刊登论文作者简介是国内外学术期刊的普遍做法,但侧重的内容却截然不同,因而提出如下建议:1)作为科学技术信息载体和传播工具的学术期刊,应该刊登作者简介;2)刊登作者简介的内容除现有要素外,还应尽量刊登通信作者的联系方式,以便与国外接轨,便于交流;3)刊登作者简介要"以人为本",要充分保护作者的隐私权,尊重作者的个人意愿,建议与作者签订一个意向书.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号