首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

2.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

3.
【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医 领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺 乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通 过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍 待进一步提升。  相似文献   

4.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

5.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

6.
【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题,提出了融合多策略的短语识别方法。【方 法/过程】该方法融合多统计量提取候选短语,并基于停用词表进行初步过滤,利用词向量较强的语义表达能力对 候选短语进行过滤,以提高短语识别的准确率。在环保领域专利语料上进行实验,利用搜狗新闻语料与中文专利 数据训练词向量库进行短语识别优化。【结果/结论】该方法对于语料规模较小以及阈值较低的结果过滤还有待进 一步研究。实验结果表明,融合深度学习的方法提高了短语识别的准确率。  相似文献   

7.
叶佳鑫  熊回香  孟璇 《情报科学》2023,41(1):166-173
【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。  相似文献   

8.
潘正高 《情报科学》2012,(5):708-712,786
介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。  相似文献   

9.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

10.
[目的/意义]基于数据科学与情报学领域的密切联系,对数据科学任职要求知识进行深入挖掘,有利于掌握社会对于情报学相关领域人才的需求,从而完善情报学教育的培养方案,帮助实现社会需求与高校教育的良好对接。[方法/过程]文章采集了国内主流招聘网站中数据科学相关工作岗位的招聘信息,并对数据进行解析、去重等清洗工作,对招聘信息中的任职要求实体进行人工标注,比较了LSTM,BiLSTM-CRF和BERT三种深度学习模型应用于实体识别的效果。[结果/结论]结果表明,BiLSTM-CRF模型对任职要求实体的识别效果最好,相较于其他两种深度学习模型具有一定的优势。文章根据抽取出的任职要求实体从实践能力、学历要求、脚本语言、数据处理、综合素质等方面总结了目前情报学人才应当具备的技能和素质,并由此提出了针对情报学教育的人才培养方案。  相似文献   

11.
金占勇  田亚鹏  白莽 《情报科学》2019,37(5):142-147
【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方 法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网 络(Long-short term memory,LSTM)的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结 论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件 网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络(Convolutional neural network,CNN)和传统的机器学习方式(Support vector machine,SVM)的分类算法结果。  相似文献   

12.
谭荧  唐亦非 《情报科学》2020,38(4):23-27
【目的/意义】将知识抽取的粒度细化到知识构成的最小单元--知识元,能提高知识获取的效率和精准度。【方法/过程】本文利用命名实体识别和事件抽取技术,探索了在科学文献中自动抽取事实知识元的方法。【结果/结论】实验结果表明,该方法能有效识别科学文献中的事实知识元,自动抽取效果出色。  相似文献   

13.
【目的/意义】为准确抽取科技文献中的方法知识元,实现科技文献更细粒度知识组织和检索。【方法/过程】 本研究提出一种基于规则的方法知识元抽取方法,该方法主要分为两个阶段:方法知识元初始描述规则半自动化 识别阶段和方法知识元及其描述规则自动化抽取和更新阶段。第一阶段根据方法知识元的特征,以人工—机器相 结合的方法识别方法知识元的组成维度及初始描述规则。第二阶段依据第一阶段识别的方法知识元初始描述规 则,自动从科技文献中提取方法知识元,并基于PreFixSpan算法从新识别的方法知识元中挖掘出新的方法知识元描 述规则,以实现方法知识元及其描述规则的动态更新。【结果/结论】在对16篇科技文献的初步评估中,实验结果P、 R以及F值分别为0.71、0.80和0.73(均>0.5)表明该方法的可行性和有效性,该抽取方法对更细粒度的知识组织和 检索也有一定借鉴作用。【创新/局限】方法的局限性在于需要一定的人工参与方法知识元描述规则的提取。  相似文献   

14.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

15.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

16.
马达  卢嘉蓉  朱侯 《情报科学》2023,41(2):60-68
【目的/意义】探究针对微博文本的基于深度学习的情绪分类有效方法,研究微博热点事件下用户转发言论的情绪类型与隐私信息传播的关系。【方法/过程】选用BERT、BERT+CNN、BERT+RNN和ERNIE四个深度学习分类模型设置对比实验,在重新构建情绪7分类语料库的基础上验证性能较好的模型。选取4个微博热点案例,从情绪分布、情感词词频、转发时间和转发次数四个方面展开实证分析。【结果/结论】通过实证研究发现,用户在传播隐私信息是急速且短暂的,传播时以“愤怒”和“厌恶”等为代表的消极情绪占主导地位,且会因隐私信息主体的不同而产生情绪类型和表达方式上的差异。【创新/局限】研究了用户在传播隐私信息行为时的情绪特征及二者的联系,为保护社交网络用户隐私信息安全提供有价值的理论和现实依据,但所构建的语料库数据量对于训练一个高准确率的深度学习模型而言还不够,且模型对于反话、反讽等文本的识别效果不佳。  相似文献   

17.
郝彦辉  王曦  陈铎 《情报科学》2021,39(8):78-85
【目的/意义】教育招生考试备受社会各界关注,极易触发舆情事件。及时监测并准确研判相关网络信息传 播发展态势,发现潜在舆情并处置应对,对于保障考试安全和维护学校声誉具有重要意义。【方法/过程】采集研究 生复试期间主流媒体社交平台数据,将BERT语言训练模型同BiLSTM相结合,构建深度神经网络模型,对文本的 情感极性进行分析。用TextRank算法提取不同情感极性类属文本的热门主题词,监测潜在舆情并提出管理建议。 【结果/结论】实证结果表明,该模型能够有效挖掘不同情感极性下的热门主题信息,从而发现潜在隐患以及可能发 生的舆情焦点,为高校网络舆情管控提供了方法参考和实践依据。【创新/局限】与传统方法相比,基于BERT的预训 练语言模型可有效解决因数据量少而导致模型无法准确表示不同语句之间复杂关系的局限性,同时BERT可对文 本进行双向建模,捕获不同句子之间的关系特点,提升对文本情感主题挖掘的准确性。  相似文献   

18.
桂思思  徐健 《情报科学》2021,39(11):90-95
【 目的/意义】针对查询意图歧义性自动识别,探讨特征有效性及采用不同分类算法识别三类查询意图歧义 性的分类准确率,以期对后续研究提供借鉴与指导。【方法/过程】首先提出了一个面向查询意图歧义性的查询表达 式分类体系;随后,构建了查询表达式特征及相关文档特征共六类;最后,分别采用决策树算法、神经网络算法及k 最邻近算法,探讨采用不同特征组合的有效性及不同分类算法的分类准确率。【结果/结论】①分类准确率较基准实 验提升比例为49.5%;②使用查询表达式特征分类优于使用相关文档特征;③决策树的分类准确率略高于其他两类 分类算法。【创新/局限】构建了一个面向查询意图歧义性的查询分类体系;完成了面向三类查询意图歧义性的分类 任务;然限于数据集获取途径,仅对200数据验证。  相似文献   

19.
徐路路  王芳 《情报科学》2019,37(8):22-28
【目的/意义】识别科学研究前沿主题,预测未来发展趋势。【方法/过程】首先利用主题概率模型识别出论文、 专利及基金项目多源数据中的科学前沿主题;考虑研究前沿主题演化的复杂性和非线性的特点,利用机器学习算 法和支持向量机模型预测主题发展趋势,并采用改进后的粒子群算法对模型参数进行优化,以提高传统支持向量 机模型在处理非线性、小样本等数据上的预测准确度。【结果/结论】实验对比发现,本方法对于研究前沿主题的预测 准确度较高,准确识别出石墨烯领域未来发展趋势。  相似文献   

20.
【目的/意义】对南海历史事件中具有标识意义的事件要素进行提炼与梳理,是构建南海大事记、讲好中国南海故事的基础。【方法/过程】首先总结南海历史事件的特殊性,进而论述南海叙事的具体维度,在此基础上定义事件要素划分标准实现对南海历史事件的规范建模,接着提出了一种结合规则与深度学习的事件要素自动抽取方法,最后以南海相关学术论文为对象,通过实证研究验证了该方法的有效性及效率。【结果/结论】研究表明,BERT+BiLSTM+CRF模型表现优于其它对比模型,宏观F1值达到87.73%;通过规则约束优化BERT+BiLSTM+CRF模型后,宏观F1值达到88.76%,取得了不错的效果,在面向泛化南海历史事件文本时能快速、有效地抽取出各类型事件要素实例。【创新/局限】结合南海历史事件的特征,探索了面向多维度南海叙事的事件要素自动抽取方法,实现学术论文中各类型事件要素的抽取,后续有待在更多文献资料类型上进行泛化实验。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号