期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于BERT的领域本体分类关系自动识别研究 总被引：1，自引：0，他引：1

王思丽杨恒祝忠明刘巍《情报科学》2021,39(7):75-82

【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限制,模型精度尚未达到峰值,有待进一步优化提升。相似文献

2.

基于决策树和逻辑回归模型的人工智能领域潜在“精品”论文识别研究

下载免费PDF全文

崔静静胡泽文任萍《情报科学》2022,40(5):90-96

【目的/意义】海量科技文献中存在大量潜在“精品”文献,如何识别并利用此类文献是目前较具现实意义的研究问题。【方法/过程】本文以Web of Science数据库中人工智能领域1990-2010年期间的文献原文及引文数据为样本,构建该领域文献原文-引文特征向量空间,融合决策树和逻辑回归模型对文献特征向量空间进行模型训练和潜在“精品”论文识别的测试应用。【结果/结论】实验结果表明,“发表五年后被引量”特征变量的加入能够显著提升决策树和逻辑回归模型的识别分类效果,使得两类模型的识别准确率分别达到 84%和 89%以上,提升幅度达到 20 多个百分点。逻辑回归模型的识别效果始终优于决策树模型,通过调整两种模型的超参数,能够使得模型获得更理想的识别效果。此外,早期人工智能领域科学研究仍处于小团队协作阶段,领域文献的基金支持和开放获取程度较低。【创新/局限】尽管论文创新性引入机器学习方法实现潜在“精品”文献识别模型的建模与应用,然而仍需将模型拓展到更多学科领域。相似文献

3.

面向网络虚假医疗信息的识别模型构建研究 —— 一种基于预训练的BERT模型

下载免费PDF全文

赵月华朱思成苏新宁《情报科学》2021,39(12):165-173

【目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。相似文献

4.

我国信息资源管理领域数字人文研究的内容及特征识别

刘阳《情报科学》2023,(11):170-175

【目的/意义】本文旨在对当前信息资源管理领域数字人文研究成果进行系统性梳理,从时间、来源、热点等多个维度识别其研究内容及特征,为数字人文研究的进一步发展提供有益思路。【方法/过程】采用定量与定性相结合的研究方法对我国信息资源管理领域数字人文的研究成果进行系统性梳理,从时间、基金或机构资助、高被引论文及研究热点多个层面识别上述研究成果的内容及特征。【结果/结论】通过文献梳理发现,2012-2016年是发文量线性缓慢增长的起步阶段,2017年至今是发文量指数级大幅增长的快速发展阶段;基金或机构资助覆盖比例较高;高被引论文集中于数字研究基础理论、技术体系、研究趋向等议题;研究热点聚焦于技术应用、学科建设、项目实践与图书馆服务。【创新/局限】由于数字人文是跨学科研究领域,以信息资源管理学科为主要视角的研究对于全景式揭示数字人文研究图景存在局限。相似文献

5.

基于随机森林的Science和Nature期刊潜在精品论文识别研究

下载免费PDF全文

胡泽文任萍周西姬《情报科学》2022,40(4):90-95

【目的/意义】为推动潜在“精品”文献识别及其在科技文献识别与传播利用领域中的应用。【方法/过程】以国际顶级期刊Science和Nature期刊出版的论文及其引用分布数据为样本,统计出全部论文的首次响应时间、摘要长度,总被引频次、资金资助、论文篇幅等特征,构建“精品”论文特征矩阵;然后基于“精品”论文特征矩阵和随机森林算法进行潜在“精品”论文识别模型的训练与识别应用。【结果/结论】研究结果显示,融合“精品”论文特征矩阵和随机森林模型能够较好地识别 Science 和 Nature 期刊中的潜在“精品”论文,模型正确识别分类的准确率均值达到 80%以上,其中Nature期刊的“精品”文献识别准确率高出Science期刊的“精品”论文识别准确率2%左右;使用信息增益方法的模型识别效果比使用基尼不纯度方法的识别效果略好。此外,Science和Nature期刊“精品”论文的首次被引速度极快,在出版当年即被引用。【创新/局限】“精品”文献特征矩阵和机器学习模型的结合能够较好地应用于潜在“精品”论文的识别与推荐,然而未来需将模型推广应用于海量文献中“精品”论文的识别检验。相似文献

6.

基于多采样双向编码表示的网络舆情主题识别研究

下载免费PDF全文

孙靖超刘为军《情报科学》2021,39(7):147-152

【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。相似文献

7.

基于Rao-Stirling指数和LDA模型的领域学科交叉主题识别——以纳米科技为例

下载免费PDF全文

韩正琪刘小平寇晶晶《情报科学》2020,38(2):116-124

【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主题研究提供一种新视角。相似文献

8.

国际数字人文领域研究方法的量化分析及启示研究

下载免费PDF全文

高丹何琳孙帆刘建斌《情报科学》2022,40(10):114-122

【目的/意义】对数字人文研究方法的应用情况进行量化分析,有利于加深对数字人文方法体系的理解。【方法/过程】本研究对数字人文国际期刊和会议上发表的3245篇论文进行内容分析,统计分析了研究方法的使用情况、使用方式、主题分布和共现情况。【结果/讨论】研究发现,数字人文领域的学者多使用实证法,对理论法的应用较少,且绝大多数论文对于研究方法的使用还停留在较低层面。数字人文领域应用多种方法的比例高于其他领域,整体来说,数字人文研究偏好使用计算机信息技术相关方法和案例分析法处理问题。以此为基础,对数字人文研究方法的选取、使用与拓展,以及数字人文方法体系的优化与完善提出建议。【创新/局限】本项研究揭示了数字人文领域方法体系的应用与发展现状,对于进一步深化数字人文方法研究具有一定贡献,但数据样本难以全面揭示数字人文领域研究方法的应用情况。相似文献

9.

面向用户生成内容的本体构建方法

下载免费PDF全文

郑姝雅黄奇张戈李雨轩陈雪《情报科学》2019,37(11):43-47

【目的/意义】本文希望通过自动化本体构建将非结构化的用户生成内容组织成为语义丰富的本体。【方法/ 过程】综合运用机器学习、自然语言处理等技术,从用户生成内容中抽取本体概念、同义关系及分类关系,形成领域本体,并且通过京东商城用户评论进行实证。【结果/结论】本文实现了手机本体的自动构建,发现该模型能够达到较高准确率,消除了大量冗余,更符合用户需求。相似文献

10.

基于k-means与神经网络机器学习算法的用户信息聚类及预测研究

下载免费PDF全文

朱凡王印琪《情报科学》2021,39(7):83-90

【目的/意义】基于机器学习算法对信息进行聚类及预测引起了广泛关注,本文将以航空公司客户信息为对象构建出k-means,BP神经网络模型,对航空用户进行聚类及预测,实现用户的精准营销。【方法/过程】首先,对航空公司的客户信息进行预处理,并根据信息聚类和信息预测理论,构建出k-means客户聚类模型与BP神经网络的流失预测模型。【结果/结论】实证结果表明,在聚类模型上,k-means算法将客户聚为五类,实现了不同价值客户的差异化识别;在客户预测模型上,BP神经网络的准确性更高。【创新/局限】本次研究将LRFMC模型引入到用户聚类模型的实验中,使得模型泛化能力上存在了一定的局限,但也为该问题的未来研究提供了新的方式。相似文献

11.

学术文献致谢功能数据集构建与识别方法研究

下载免费PDF全文

王佳敏吴乐艳李鹏程熊资陆伟杜佳《情报科学》2021,39(11):173-179

【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的考虑和融合。相似文献

12.

基于深度学习的学术文本段落结构功能识别研究

下载免费PDF全文

王倩曾金刘家伟戚越《情报科学》2020,38(3):64-69

【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。相似文献

13.

基于云计算的满语数字资源语义关联模式研究

下载免费PDF全文

周伟孙明刘晚秋谭振江《情报科学》2019,37(8):145-151

【目的/意义】本文根据服务国家特殊需求“满族语言文化”博士人才培养项目需求,构建了满语数字资源语义关联模式,不仅为满语研究者的研习提供了便捷渠道,解决了大量满文文献的识别与翻译问题,进而促进了满语人才的培养,推进了实现对世界濒危语言——满语的抢救和保护工作。【方法/过程】本文以满语语义数字资源为研究对象,针对满文档案翻译的研究,利用云计算等技术,设计构建了满语语义资源体系结构、语义标注子系统、信息提取子系统等基于智能终端的满语语义数字资源关联模式,并实现了智能终端APP的推广应用。【结果/结论】本文构建的满语数字资源语义关联模型,助力了各部门满文档案翻译的智能化进程。同时,生成的智能便捷应用成果推动了满语文化的传承和发展,实现了满语研究数据的价值流动,对于抢救满语文化资源具有重要的意义。相似文献

14.

基于研究问题与研究方法贡献的论文学术价值早期识别方法

下载免费PDF全文

唐晓波向莉丽牟昊《情报科学》2022,40(9):3-11

【目的/意义】论文学术价值识别是科技成果评价的重要内容,利用论文内容贡献度和加权平均被引量指标能够实现论文学术价值的早期识别,推动科技成果价值的早发现早实现。【方法/过程】本文首先基于模式匹配和共现分析方法抽取了论文问题知识元关系和方法知识元关系;其次按照问题与方法知识元关系进行检索,构建问题与方法相关文献集;然后基于相关文献集提出论文学术价值指标计算方法,并通过归一化贡献度-加权平均被引量矩阵,实现了论文学术价值早期识别;最后采用图书情报领域期刊论文数据进行了实验研究。【结果/结论】实验结果表明,本文提出的方法能够实现论文学术价值的早期识别,有利于推进高质量、高水平科技成果的推广与应用。【创新/局限】后续研究将把更多论文知识元纳入计算,进一步提高论文学术价值早期识别效果。相似文献

15.

基于长短时记忆网络的突发灾害事件网络舆情情感识别研究

下载免费PDF全文

金占勇田亚鹏白莽《情报科学》2019,37(5):142-147

【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网络（Long-short term memory,LSTM）的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络（Convolutional neural network,CNN）和传统的机器学习方式（Support vector machine,SVM）的分类算法结果。相似文献

16.

新兴技术视域下潜在竞争对手识别研究 ——以智能驾驶领域为例

下载免费PDF全文

罗建廖婷史敏蔡丽君李维思《情报科学》2021,39(12):98-104

【目的/意义】诸多知名企业由于没有意识到新兴技术的发展趋势,忽略了未来可能对自身造成威胁的潜在竞争对手,最终陷入破产境地。目前缺乏从新兴技术视角开展的潜在竞争对手识别研究。【方法/过程】在文献调研的基础上,对潜在竞争对手识别的内涵进行分析,并构建新兴技术视域下潜在竞争对手识别流程。识别流程涵盖预处理专利数据、新兴技术识别和潜在竞争对手识别三个步骤,涉及LDA主题模型构建、新兴技术指标体系建立和技术知识存量计算等关键问题。【结果/结论】以智能驾驶领域为例,证明了基于新兴技术开展潜在竞争对手识别具有一定的可行性,期望本方法能够为领先企业识别潜在竞争对手提供决策支持。【创新/局限】创新性地将新兴技术识别与潜在竞争对手识别相结合,丰富潜在竞争对手识别理论与方法。相似文献

17.

数字阅读领域热点识别与主题演化路径研究

赵霞《情报科学》2023,(5):34-41

【目的/意义】数字阅读给人们的知识与信息获取带来了巨大的变化，识别数字阅读领域的研究热点及其主题演化路径，有助于对数字阅读领域建立起动态的全景化视野。【方法/过程】文章以数字阅读领域的高水平论文为基础数据源，基于关键词共现关系构建领域知识网络，通过高频次与高度值关键词识别领域研究热点，采用SLM社团发现算法和主题密度图跟踪分析领域的主题演化路径。【结果/结论】研究结果表明，数字阅读领域已具有相对稳定的知识体系架构；从数字出版到阅读推广再到问题消解，领域研究逐渐走向成熟；从关注阅读形式到关注阅读效果，领域研究进入内涵式发展道路。【创新/局限】研究工作主要聚焦于国内学术界具有代表性的高水平研究层次，未来的研究工作将纳入更广泛的数据来源，进行更加全面细致地研究。相似文献

18.

金融领域文本序列标注与实体关系联合抽取研究

下载免费PDF全文

唐晓波刘志源《情报科学》2021,39(5):3-11

【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列标注模式和实体关系匹配规则,在预训练语言模型BERT（Bidirectional Encoder Representations from Transformers）的基础上结合双向门控循环单元 BiGRU（Bidirectional Gated Recurrent Units）与条件随机场 CRF（Conditional Random Field）构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关系的识别。相似文献

19.

基于SciBERT与ChatGPT数据增强的研究流程段落识别

张恒赵毅章成志《情报理论与实践》2024,(1):164-172+153

[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F₁值分别达到了0.9414和0.9409。相似文献

20.

数字人文与智慧数据视角下的北京双奥社会记忆构建研究

下载免费PDF全文

黑浩源裘鹏《情报科学》2022,40(9):32-37

【目的/意义】从数字人文和智慧视角出发,构建北京双奥社会记忆,契合通过体育构建美好世界愿景,助力打造北京双奥遗产。【方法/过程】梳理了社会记忆发展脉络,分析了社会记忆构建研究现状,对社会记忆实践应用案例和场景进行了研判,明晰了数字人文和智慧数据概念,阐释了数字人文与北京双奥社会记忆逻辑关联。【结果/结论】将数字人文理念、智慧数据理论、先进的计算机技术引入到北京双奥社会记忆项目构建,提出构建高维时空智慧数据服务空间、数字记忆多重证据参照体系、多维人文价值协同合作机制、数智赋能社会记忆服务体系等四个策略。【创新/局限】形成数字人文和智慧数据同社会记忆的三维融合,拓展了北京双奥社会记忆理论体系和方法体系,存在相关理论分析不够透彻、社会记忆构建维度不够完善的局限。相似文献