首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

2.
【目的/意义】海量科技文献中存在大量潜在“精品”文献,如何识别并利用此类文献是目前较具现实意义的 研究问题。【方法/过程】本文以Web of Science数据库中人工智能领域1990-2010年期间的文献原文及引文数据为 样本,构建该领域文献原文-引文特征向量空间,融合决策树和逻辑回归模型对文献特征向量空间进行模型训练和 潜在“精品”论文识别的测试应用。【结果/结论】实验结果表明,“发表五年后被引量”特征变量的加入能够显著提升 决策树和逻辑回归模型的识别分类效果,使得两类模型的识别准确率分别达到 84%和 89%以上,提升幅度达到 20 多个百分点。逻辑回归模型的识别效果始终优于决策树模型,通过调整两种模型的超参数,能够使得模型获得更 理想的识别效果。此外,早期人工智能领域科学研究仍处于小团队协作阶段,领域文献的基金支持和开放获取程 度较低。【创新/局限】尽管论文创新性引入机器学习方法实现潜在“精品”文献识别模型的建模与应用,然而仍需将 模型拓展到更多学科领域。  相似文献   

3.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

4.
刘阳 《情报科学》2023,(11):170-175
【目的/意义】本文旨在对当前信息资源管理领域数字人文研究成果进行系统性梳理,从时间、来源、热点等多个维度识别其研究内容及特征,为数字人文研究的进一步发展提供有益思路。【方法/过程】采用定量与定性相结合的研究方法对我国信息资源管理领域数字人文的研究成果进行系统性梳理,从时间、基金或机构资助、高被引论文及研究热点多个层面识别上述研究成果的内容及特征。【结果/结论】通过文献梳理发现,2012-2016年是发文量线性缓慢增长的起步阶段,2017年至今是发文量指数级大幅增长的快速发展阶段;基金或机构资助覆盖比例较高;高被引论文集中于数字研究基础理论、技术体系、研究趋向等议题;研究热点聚焦于技术应用、学科建设、项目实践与图书馆服务。【创新/局限】由于数字人文是跨学科研究领域,以信息资源管理学科为主要视角的研究对于全景式揭示数字人文研究图景存在局限。  相似文献   

5.
【目的/意义】为推动潜在“精品”文献识别及其在科技文献识别与传播利用领域中的应用。【方法/过程】以 国际顶级期刊Science和Nature期刊出版的论文及其引用分布数据为样本,统计出全部论文的首次响应时间、摘要 长度,总被引频次、资金资助、论文篇幅等特征,构建“精品”论文特征矩阵;然后基于“精品”论文特征矩阵和随机森 林算法进行潜在“精品”论文识别模型的训练与识别应用。【结果/结论】研究结果显示,融合“精品”论文特征矩阵和 随机森林模型能够较好地识别 Science 和 Nature 期刊中的潜在“精品”论文,模型正确识别分类的准确率均值达到 80%以上,其中Nature期刊的“精品”文献识别准确率高出Science期刊的“精品”论文识别准确率2%左右;使用信息 增益方法的模型识别效果比使用基尼不纯度方法的识别效果略好。此外,Science和Nature期刊“精品”论文的首次 被引速度极快,在出版当年即被引用。【创新/局限】“精品”文献特征矩阵和机器学习模型的结合能够较好地应用于 潜在“精品”论文的识别与推荐,然而未来需将模型推广应用于海量文献中“精品”论文的识别检验。  相似文献   

6.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

7.
【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数 测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题 识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科 交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基 于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主 题研究提供一种新视角。  相似文献   

8.
高丹  何琳  孙帆  刘建斌 《情报科学》2022,40(10):114-122
【目的/意义】对数字人文研究方法的应用情况进行量化分析,有利于加深对数字人文方法体系的理解。 【方法/过程】本研究对数字人文国际期刊和会议上发表的3245篇论文进行内容分析,统计分析了研究方法的使用 情况、使用方式、主题分布和共现情况。【结果/讨论】研究发现,数字人文领域的学者多使用实证法,对理论法的应 用较少,且绝大多数论文对于研究方法的使用还停留在较低层面。数字人文领域应用多种方法的比例高于其他领 域,整体来说,数字人文研究偏好使用计算机信息技术相关方法和案例分析法处理问题。以此为基础,对数字人文 研究方法的选取、使用与拓展,以及数字人文方法体系的优化与完善提出建议。【创新/局限】本项研究揭示了数字 人文领域方法体系的应用与发展现状,对于进一步深化数字人文方法研究具有一定贡献,但数据样本难以全面揭 示数字人文领域研究方法的应用情况。  相似文献   

9.
【目的/意义】本文希望通过自动化本体构建将非结构化的用户生成内容组织成为语义丰富的本体。【方法/ 过程】综合运用机器学习、自然语言处理等技术,从用户生成内容中抽取本体概念、同义关系及分类关系,形成领域 本体,并且通过京东商城用户评论进行实证。【结果/结论】本文实现了手机本体的自动构建,发现该模型能够达到 较高准确率,消除了大量冗余,更符合用户需求。  相似文献   

10.
朱凡  王印琪 《情报科学》2021,39(7):83-90
【目的/意义】基于机器学习算法对信息进行聚类及预测引起了广泛关注,本文将以航空公司客户信息为对 象构建出k-means,BP神经网络模型,对航空用户进行聚类及预测,实现用户的精准营销。【方法/过程】首先,对航 空公司的客户信息进行预处理,并根据信息聚类和信息预测理论,构建出k-means客户聚类模型与BP神经网络的 流失预测模型。【结果/结论】实证结果表明,在聚类模型上,k-means算法将客户聚为五类,实现了不同价值客户的 差异化识别;在客户预测模型上,BP神经网络的准确性更高。【创新/局限】本次研究将LRFMC模型引入到用户聚 类模型的实验中,使得模型泛化能力上存在了一定的局限,但也为该问题的未来研究提供了新的方式。  相似文献   

11.
王佳敏  吴乐艳  李鹏程  熊资  陆伟  杜佳 《情报科学》2021,39(11):173-179
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别 模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完 善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基 础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数 据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的 考虑和融合。  相似文献   

12.
王倩  曾金  刘家伟  戚越 《情报科学》2020,38(3):64-69
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。  相似文献   

13.
周伟  孙明  刘晚秋  谭振江 《情报科学》2019,37(8):145-151
【目的/意义】本文根据服务国家特殊需求“满族语言文化”博士人才培养项目需求,构建了满语数字资源语 义关联模式,不仅为满语研究者的研习提供了便捷渠道,解决了大量满文文献的识别与翻译问题,进而促进了满语 人才的培养,推进了实现对世界濒危语言——满语的抢救和保护工作。【方法/过程】本文以满语语义数字资源为研 究对象,针对满文档案翻译的研究,利用云计算等技术,设计构建了满语语义资源体系结构、语义标注子系统、信息 提取子系统等基于智能终端的满语语义数字资源关联模式,并实现了智能终端APP的推广应用。【结果/结论】本文 构建的满语数字资源语义关联模型,助力了各部门满文档案翻译的智能化进程。同时,生成的智能便捷应用成果 推动了满语文化的传承和发展,实现了满语研究数据的价值流动,对于抢救满语文化资源具有重要的意义。  相似文献   

14.
【目的/意义】论文学术价值识别是科技成果评价的重要内容,利用论文内容贡献度和加权平均被引量指标 能够实现论文学术价值的早期识别,推动科技成果价值的早发现早实现。【方法/过程】本文首先基于模式匹配和共 现分析方法抽取了论文问题知识元关系和方法知识元关系;其次按照问题与方法知识元关系进行检索,构建问题 与方法相关文献集;然后基于相关文献集提出论文学术价值指标计算方法,并通过归一化贡献度-加权平均被引量 矩阵,实现了论文学术价值早期识别;最后采用图书情报领域期刊论文数据进行了实验研究。【结果/结论】实验结 果表明,本文提出的方法能够实现论文学术价值的早期识别,有利于推进高质量、高水平科技成果的推广与应用。 【创新/局限】后续研究将把更多论文知识元纳入计算,进一步提高论文学术价值早期识别效果。  相似文献   

15.
金占勇  田亚鹏  白莽 《情报科学》2019,37(5):142-147
【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方 法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网 络(Long-short term memory,LSTM)的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结 论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件 网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络(Convolutional neural network,CNN)和传统的机器学习方式(Support vector machine,SVM)的分类算法结果。  相似文献   

16.
罗建  廖婷  史敏  蔡丽君  李维思 《情报科学》2021,39(12):98-104
【目的/意义】诸多知名企业由于没有意识到新兴技术的发展趋势,忽略了未来可能对自身造成威胁的潜在 竞争对手,最终陷入破产境地。目前缺乏从新兴技术视角开展的潜在竞争对手识别研究。【方法/过程】在文献调研 的基础上,对潜在竞争对手识别的内涵进行分析,并构建新兴技术视域下潜在竞争对手识别流程。识别流程涵盖 预处理专利数据、新兴技术识别和潜在竞争对手识别三个步骤,涉及LDA主题模型构建、新兴技术指标体系建立和 技术知识存量计算等关键问题。【结果/结论】以智能驾驶领域为例,证明了基于新兴技术开展潜在竞争对手识别具 有一定的可行性,期望本方法能够为领先企业识别潜在竞争对手提供决策支持。【创新/局限】创新性地将新兴技术 识别与潜在竞争对手识别相结合,丰富潜在竞争对手识别理论与方法。  相似文献   

17.
赵霞 《情报科学》2023,(5):34-41
【目的/意义】数字阅读给人们的知识与信息获取带来了巨大的变化,识别数字阅读领域的研究热点及其主题演化路径,有助于对数字阅读领域建立起动态的全景化视野。【方法/过程】文章以数字阅读领域的高水平论文为基础数据源,基于关键词共现关系构建领域知识网络,通过高频次与高度值关键词识别领域研究热点,采用SLM社团发现算法和主题密度图跟踪分析领域的主题演化路径。【结果/结论】研究结果表明,数字阅读领域已具有相对稳定的知识体系架构;从数字出版到阅读推广再到问题消解,领域研究逐渐走向成熟;从关注阅读形式到关注阅读效果,领域研究进入内涵式发展道路。【创新/局限】研究工作主要聚焦于国内学术界具有代表性的高水平研究层次,未来的研究工作将纳入更广泛的数据来源,进行更加全面细致地研究。  相似文献   

18.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

19.
[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F1值分别达到了0.9414和0.9409。  相似文献   

20.
黑浩源  裘鹏 《情报科学》2022,40(9):32-37
【目的/意义】从数字人文和智慧视角出发,构建北京双奥社会记忆,契合通过体育构建美好世界愿景,助 力打造北京双奥遗产。【方法/过程】梳理了社会记忆发展脉络,分析了社会记忆构建研究现状,对社会记忆实践应 用案例和场景进行了研判,明晰了数字人文和智慧数据概念,阐释了数字人文与北京双奥社会记忆逻辑关联。【结 果/结论】将数字人文理念、智慧数据理论、先进的计算机技术引入到北京双奥社会记忆项目构建,提出构建高维时 空智慧数据服务空间、数字记忆多重证据参照体系、多维人文价值协同合作机制、数智赋能社会记忆服务体系等四 个策略。【创新/局限】形成数字人文和智慧数据同社会记忆的三维融合,拓展了北京双奥社会记忆理论体系和方法 体系,存在相关理论分析不够透彻、社会记忆构建维度不够完善的局限。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号