首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
[目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性。[方法/过程]以社会科学领域所有学科中文核心期刊中关于“COVID-19”论文的题录信息为例,分三步进行了探索。(1)随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文。(2)从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别。(3)使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱。[结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869。在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805。由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用。  相似文献   

2.
[目的/意义]为了帮助情报学学科背景的就业人员掌握市场对情报学人才的具体需要,为情报学的教育者拟定情报学的教育体系和人才培养的目标提供指导。[方法/过程]采集国内各大招聘网站情报学相关职位招聘公告,构建情报学招聘语料库,基于CRF机器学习模型和Bi-LSTM-CRF、BERT、BERT-Bi-LSTM-CRF深度学习模型,从语料库中抽取5类情报学招聘实体进行挖掘分析。[结果/结论]通过在已有2000篇经过标注的职位招聘公告语料库上开展情报学招聘实体自动抽取对比实验,识别效果最佳的CRF模型的整体F值为85.07%,其中对"专业要求"实体的识别F值达到了91.67%。BERT模型在"专业要求"实体识别任务中更是取得了92.10%的F值。使用CRF模型对全部符合要求的5287篇招聘公告进行实体抽取,构建了情报学招聘实体社会网络,并通过信息计量分析与社会网络分析的方式挖掘隐含知识。  相似文献   

3.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

4.
刘佳  边俊伊 《现代情报》2023,(11):37-46
[目的/意义]针对藏医古籍知识组织与开发不足的问题,利用混合深度学习方法构建面向藏医古籍的命名实体识别模型,为藏医古籍知识的深度开发与利用提供方法支持。[方法/过程]根据藏医古籍知识特点,构建ALBERT-BiLSTM-CRF模型。以《四部医典》为数据集,在人工标注与文本预处理的基础上,进行命名实体识别实验,并将实验结果与其他3种常见模型进行对比分析。[结果/结论]ALBERT-BiLSTM-CRF模型对藏医古籍实体识别效果最好,F1-score达到96.28%,与其他方法相比提升约7个百分点。  相似文献   

5.
[目的/意义]基于数据科学与情报学领域的密切联系,对数据科学任职要求知识进行深入挖掘,有利于掌握社会对于情报学相关领域人才的需求,从而完善情报学教育的培养方案,帮助实现社会需求与高校教育的良好对接。[方法/过程]文章采集了国内主流招聘网站中数据科学相关工作岗位的招聘信息,并对数据进行解析、去重等清洗工作,对招聘信息中的任职要求实体进行人工标注,比较了LSTM,BiLSTM-CRF和BERT三种深度学习模型应用于实体识别的效果。[结果/结论]结果表明,BiLSTM-CRF模型对任职要求实体的识别效果最好,相较于其他两种深度学习模型具有一定的优势。文章根据抽取出的任职要求实体从实践能力、学历要求、脚本语言、数据处理、综合素质等方面总结了目前情报学人才应当具备的技能和素质,并由此提出了针对情报学教育的人才培养方案。  相似文献   

6.
[目的/意义]学术论文评价是科研评价的基础,是科研管理和评价的刚需。目前基于引文和论文内容视角构建的论文评价模型效果仍有提升的空间。[方法/过程]首先,利用复杂网络分析法,从文献相似性网络的节点属性构建论文重要性评价模型,探讨从文献网络的角度评价论文质量的可行性。其次,选择8个医学相关学科,下载数据形成8个文献数据集,根据论文被Faculty Opinions数据库收录的情况,事先标记为重要论文和普通论文。再次,从论文的主题词、题目摘要和参考文献3种信息源分别构建基于医学主题词表树状结构、Doc2Vec算法和文献耦合的3种文献相似性网络,并对每一种文献相似性网络,利用复杂网络分析方法对网络中的节点进行特征计算,选择具有统计学差异的节点属性指标作为区别两类论文的评价指标。最后,采用4种机器学习算法对数据集中的论文进行二分类学习,构建并评估论文重要性评价模型。[结果/结论]基于文献网络进行论文评价的方法是可行的,3种文献网络构建算法效果差异较小,语义相似性文献网络和文献耦合两种算法略优于基于Doc2Vec的算法。BP神经网络算法在基于文献网络构建的论文重要性评价模型中性能最好。  相似文献   

7.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

8.
[目的/意义]当前各学科领域文献增长迅速,迫切需要以面向“问题解决”的思路,从大量科技文献中抽取出研究问题、解决方案及其解决关系,并以此为基础开展领域知识演化研究。[方法/过程]文章提出了可应用于实践的低成本领域实体关系抽取方案:依托词嵌入类比的思想,仅从领域知识资源中提取的少量实体关系对作为基准即可实现关系分类。[结果/结论]在人工智能领域数据集上使用基于词嵌入类比方案的集成模型,抽取解决关系、问题层级关系、方法层级关系的F1值分别为82.33,81.49,74.81。最后,将集成模型应用于全量数据抽取实体关系,从宏观、中观、微观三个层面展示了面向问题解决的人工智能领域知识演化情况。  相似文献   

9.
科学论文内的科学数据组织和发现研究   总被引:2,自引:0,他引:2  
黄可  梁慧刚  姜山  黄健 《现代情报》2009,29(2):34-43
[目的/意义] 科学论文中的图、表等科学数据(文内数据)蕴含有丰富的知识内容。基于细粒度语义组织的文内数据发现有效聚合文献、科学数据两类科研产出,为未来实现全领域、全维度、全粒度、全类型的深度知识发现奠定基础。[方法/过程] 梳理、对比、分析现有3类文内数据的发现模式,尝试构建面向细粒度内容描述的文内数据本体,揭示文内数据的显性特征、内容特征以及与其他类型科学产出的关联特征。[结果/结论] 从面向应用的角度,提出基于本体的文内数据知识发现技术框架,细化"信息抽取—语义标注—关联应用"技术路线,针对关键点技术进行讨论。文内数据本体为科学论文内科学数据提供语义描述和关联组织依据,人工标注结合机器学习自动标注可以解决文内数据部分特征发现问题。  相似文献   

10.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

11.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

12.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

13.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

14.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

15.
[目的/意义] 从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程] 以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论] 与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。  相似文献   

16.
[目的/意义]为改变“以刊评文”的学术质量评价方法,本文尝试从文本片段入手开展知识单元粒度的学术质量评价。[方法/过程]首先基于知识单元的描述规则抽取学术文献中的知识单元;其次梳理现有的学术质量评价指标,构建初步的知识单元质量评价体系;然后完善初选的评价指标体系,并根据领域专家意见对待评的知识单元质量进行赋分;最后利用回归分析拟合各量化指标与专家赋分,实现知识单元质量的自动评价。[结果/结论]构建起以形式评价、内容评价和效用评价为核心的三维评价模型,实现了融合领域专家意见的知识质量自动化计量方法,克服了长久以来学术质量评价过度依赖于学术载体的不足,真正将学术评价的单位从知识载体深入到知识内容中。  相似文献   

17.
[目的/意义]随着大数据和人工智能时代的来临,基于数据驱动的医疗辅助决策以及医疗健康知识挖掘受到人们的极大关注。医疗知识图谱是医疗信息分析和知识服务的基础,在医疗人工智能和医疗信息检索中发挥着重要作用。[方法/过程]本文以医疗领域的实际应用需求为出发点,从医疗大数据获取、医疗实体及关系标注、医疗实体识别、医疗实体链接、医疗实体关系挖掘、中文医疗知识图谱表示和存储等关键技术入手,提出了多数据源融合的医疗知识图谱构建的理论框架。[结果/结论]面向医疗领域的知识图谱构建是一项非常重要的基础任务,同时也是人工智能领域的重要发展方向。  相似文献   

18.
[目的/意义]顶级科研论文代表了世界学术领域内重大的独创研究成果,其在网络中的受关注程度体现了社会大众对重大科研进展的关心热度。研究顶级期刊论文在网络中的关注度及其影响因素,可以为提出全面科学的论文评价体系奠定基础,为论文在网络中获得高的网络关注提供指导意见。[方法/过程]利用2016年发表在《Nature》和《Science》的1584篇科研论文的Altmetrics数据和题录信息,从分布特征和相关系数两个维度描绘了论文社会影响力与学术影响力的关系,从论文研究主题和来源国家两个维度探析了论文网络关注度的影响因素。[结果/结论]顶级期刊论文的Altmetrics指标和被引量波动范围较大,各指标分布均呈现长尾偏右的尖顶曲线;论文的Attention score与被引量的相关性较弱;探讨与人类健康和生活相关研究主题的论文更容易获得高的网络关注度。不同国家的论文网络关注度呈现出3类较突出的特征;论文的国际合作程度越高,越有机会获得高的网络关注度。  相似文献   

19.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

20.
李静  徐路路 《现代情报》2019,39(4):23-33
[目的/意义]细粒度分析学科领域热点主题发展脉络并对利用机器学习算法对未来发展趋势进行准确预测研究。[方法/过程]提出一种基于机器学习算法的研究热点趋势预测方法与分析框架,以基因工程领域为例利用主题概率模型识别WOS核心集中论文摘要数据研究热点主题并进行主题演化关联构建,然后选取BP神经网络、支持向量机及LSTM模型等3种典型机器学习算法进行预测分析,最后利用RE指标和精准度指标评价机器学习算法预测效果并对基因工程领域在医药卫生、农业食品等方面研究趋势进行分析。[结果/结论]实验表明基于LSTM模型对热点主题未来发展趋势预测准确度最高,支持向量机预测效果次之,BP神经网络预测效果较差且预测稳定性不足,同时结合专家咨询和文献调研表明本文方法可快速识别基因领域研究主题及发展趋势,可为我国学科领域大势研判和架构调整提供决策支持和参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号