首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
陈锟  裴雷  范涛 《现代情报》2023,(6):24-34
[目的/意义]针对突发事件分类研究中模态单一或缺失、分类效果不理想等问题,本文提出结合文本和图片特征信息,以多模态融合的方式对突发事件进行分类。[方法/过程]本文提出一种基于多模态融合的突发事件分类模型(Emergency Classification Model with Hybrid Fusion, ECMHF),由BERT联动BiLSTM构成的文本特征抽取分类模型、VGG19为基础的图像特征抽取分类模型、融合文本描述特征和视觉语义特征的多模态融合层加上预测类别输出层组成的多模态分类模型3部分构成主体框架,最后将所有模型的决策层输出分配权重后再融合。[结果/结论]以收集的突发事件新闻数据为实验样本进行实证研究。结果表明,ECMHF模型在所有模型中性能最佳,F1值达到最高的99.072%,比次优模型高出0.51%。加入混合融合策略的ECMHF模型能够有效地识别出突发事件的类别。未来将在更为广泛和多元的突发事件多模态数据集中进行验证。  相似文献   

2.
[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。  相似文献   

3.
[目的/意义]正确处理网络新闻带来的安全风险是保障互联网信息安全的关键。当前网络敏感信息研究主要基于网络评论语境,识别过滤以关键词形式出现的不良信息,对敏感信息的敏感程度不能进行精细计算。[方法/过程]针对现有方法的缺陷,文章从网络新闻敏感信息的语义内涵出发,通过传统敏感词方法识别出新闻中的敏感信息,然后将BERT模型方法和语义分析方法相结合衡量新闻的敏感程度,进而评估新闻的风险水平。[结果/结论]实验表明,文章实现了网络新闻敏感信息识别和敏感程度计算,能够根据计算结果对新闻进行风险分级,提出有针对性的风险处理策略,对于有效应对网络新闻带来的安全隐患具有积极意义。  相似文献   

4.
[目的/意义]丰富的互联网数据为洞悉真实事件提供了多维视角,快速识别突发事件并准确判断其所属类别,有助于各级政府及应急管理部门高效地管理应急情报资源。[方法/过程]文章构建了基于文本—图像增强的突发事件识别及分类的理论模型;通过文本卷积神经网络、视觉几何群网络搭建深度神经网络共同组成Multi-DNN模型;最后以真实的自然灾害类突发事件数据进行实例验证。[结果/结论]通过文本、图像相互增强,多模态特征融合能够提升突发事件识别及分类的准确率,同时在小样本数据的任务处理中仍有良好效果,证明不同模态的数据能够相互补充、相互印证,对其融合处理能够提供比单一模态更为准确和全面的信息分析。  相似文献   

5.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

6.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

7.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。  相似文献   

8.
陈金菊 《情报科学》2021,39(1):148-156
【目的/意义】突发事件新闻具有连续性特征,现存的语义模型无法很好地表示这一特征,通过构建突发事 件新闻语义模型可以实现对这些连续性信息的深层次语义描述和利用。【方法/过程】本文根据由表及里的建模思 维,构建了一个突发事件新闻深层次语义描述本体模型。该模型分为元数据和内容语义两部分,内容语义部分以 事件为起点、以连续性情景和动作为核心。在对突发事件新闻案例进行语义描述的基础上,实现了语义检索、语义 推理、语义数据可视化分析等应用。【结果/结论】通过语义标注和应用实验,验证了该模型的可用性。【创新/局限】本 文提出的突发事件新闻本体模型,较好地解决了突发事件新闻连续性信息的语义标注问题。  相似文献   

9.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

10.
谢海涛  肖倩 《现代情报》2019,39(9):28-40
[目的/意义]对社交媒体中热门新闻的及时识别,有助于加速正面资讯的投送或抑制负面资讯的扩散。当前,基于自然语言处理的传统识别方法正面临社交媒体新生态的挑战:大量新闻内容以图片、音视频形式存在,缺乏用于语义及情感分析的文本。[方法/过程]对此,本文首先将社交网络划分为众多社群,并按其层次结构组织为贝叶斯网络。接着,面向社群构建基于卷积神经网络的热门新闻识别模型,模型综合考虑新闻传播的宏观统计规律及微观传播过程,以提取社群内热门新闻传播的特征。最后,利用贝叶斯推理并结合局部性的模型识别结果进行全局性热度预测。[结果/结论]实验表明,本方法在语义缺失场景下可有效识别热门新闻,其准确度强于基于语义信息的机器学习方法,模型具有良好的时效性、可扩展性和适用性。该研究有助于社交媒体的监管机构及时识别出各类不含语义信息且迅速扩散的热点内容。  相似文献   

11.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

12.
[目的/意义]在社会危机事件发生后,及时、有效地对社交网络上的文本内容进行情绪分类,有助于准确掌握公众情绪状态、优化社会危机事件管控方案。[方法/过程]基于框架语义理论构建危机情绪分类词典和危机情绪类别体系,采用融合自注意力机制的LSTM神经网络分类模型,实现优化的、细粒度的危机情绪分类。[结果/结论]以微博危机事件评论数据为例,通过不同参数的组合以及模型对比实验,获得了较高的准确率,验证了模型的可行性和有效性。为社交网络文本危机情绪分类提供优化的理论模型和方法支持,同时为相关领域的研究提供语义资源。  相似文献   

13.
刘佳  边俊伊 《现代情报》2023,(11):37-46
[目的/意义]针对藏医古籍知识组织与开发不足的问题,利用混合深度学习方法构建面向藏医古籍的命名实体识别模型,为藏医古籍知识的深度开发与利用提供方法支持。[方法/过程]根据藏医古籍知识特点,构建ALBERT-BiLSTM-CRF模型。以《四部医典》为数据集,在人工标注与文本预处理的基础上,进行命名实体识别实验,并将实验结果与其他3种常见模型进行对比分析。[结果/结论]ALBERT-BiLSTM-CRF模型对藏医古籍实体识别效果最好,F1-score达到96.28%,与其他方法相比提升约7个百分点。  相似文献   

14.
王凯 《现代情报》2021,41(1):39-49
[目的/意义] 构建基于用户兴趣标签的网络社团识别模型(Fuzzy Interests and User Hybrid Model,FIUHM),揭示用户兴趣与社团形式概念间的模糊层级关系,实现多粒度属性与社团拓扑结构的层次聚类。[方法/过程] 通过抽取豆瓣电影社区数据,实现基于用户标签的兴趣强度语义标注,利用用户相似度,获取社区用户间兴趣语义距离;将网络社区的领接矩阵映射为社团形式背景,构建社团模糊概念格,建立社团形式概念及其偏序关系集,完成社团形式概念建模;通过计算社团稳定指数,识别网络社团边界,并聚类最大独立社团,实现兴趣社团的在线检测。[结果/结论] 通过对比实验,验证了FIUHM模型的有效性,实验表明将模糊形式概念分析引入网络社团识别研究,利用模糊概念格的偏序关系建模用户节点间的兴趣相似度,有利于提高社团识别的分辨率。  相似文献   

15.
王佳敏  吴乐艳  李鹏程  熊资  陆伟  杜佳 《情报科学》2021,39(11):173-179
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别 模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完 善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基 础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数 据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的 考虑和融合。  相似文献   

16.
[目的/意义]识别潜在技术关系对企业寻找竞合对象、提升创新能力具有重要意义。研究提出一种融合专利类别与语义信息的企业潜在技术关系测算方法,有助于判断企业之间的技术重叠、补充和匹配程度。[方法/过程]首先,建立企业—IPC—专利文本三层映射矩阵,统计企业之间的IPC交集、补集等数据;其次,基于IPC和专利文本分别计算企业在类别和语义维度上的指标,实现在相同层级上计算企业的技术相似度和互补度;最后,计算技术匹配度,建立企业技术匹配度矩阵,进行可视化展示。[结果/结论]对24家上市公司进行实证分析,结果表明,该方法优于单一维度的测算方法,可用于判断企业之间的技术匹配情况。后续将纳入科研院校等机构类型,深入挖掘机构之间的技术相似点、互补点,利用复杂网络等工具展示互补的方向性,并考虑扩展应用场景,进一步提升该方法的情报价值。  相似文献   

17.
朱恒民  蔡婷婷  魏静 《现代情报》2023,(3):26-32+41
[目的/意义]本研究对正处于演化过程中的话题进行状态识别及趋势预测,为相关部门了解话题现状,对话题进行有效监管提供科学依据。[方法/过程]首先,考虑网民情感,结合话题的新颖度和关注度,构建话题生命周期状态观测指标;其次,基于隐马尔可夫模型(HMM)和高斯混合模型(GMM)的原理,提出话题生命周期状态识别及趋势预测方法;最后,选用微博话题构建数据集,设计对比实验,验证方法的有效性。[结果/结论]基于GMM-HMM的话题状态识别及趋势预测方法的F1值和准确率均高于87%,MAPE低于3.5%,相较于GaussianHMM和BP神经网络具有较大优势。  相似文献   

18.
为及时有效地识别潜在技术机会,采用文本挖掘和异常值检测的方法,提出一种基于专利文本的技术机会识别方法.首先采用文本表示模型Doc2vec技术对专利摘要进行建模,以更深层表征文本语义信息;然后利用基于密度的离群值检测算法,识别出具有潜在技术机会的专利方向;最后以深度学习领域潜在技术识别为例,构建专利检索式并收集458条专利文献作为数据集.实证结果总结出4类主题共10个潜在的技术机会,验证了该基于专利的技术机会识别方法的有效性,可为企业相应技术应用、研发和创新提供参考.  相似文献   

19.
化妆品标准有助于规范化妆品市场,同时也是相关部门进行安全监管的重要依据。为了解决化妆品标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,本文提出了一种融合了注意力机制的BERT-BiLSTM-Attention-CRF模型来提取文本中的实体和关系,引入的注意力机制能够优化权重分配、消除噪音,进而提高抽取的准确性。为了验证模型的有效性,我们与几种常见的深度网络模型进行了对比,结果证明我们的模型在自建的化妆品标准数据集上的F1值比其他模型高了3.9%~12.1%,进一步验证了模型的有效性和合理性。  相似文献   

20.
[目的/意义]从学术共同体的评论性引用视角出发,以引文全文本为基础,结合词频统计、深度学习等方法,探析引文文本中表征突破性评价的文本特征并构建自动识别模型以实现从海量文献中识别潜在突破性文献。[方法/过程]以诺贝尔生理学或医学奖获得者的关键文献以及Science十大科学突破主题的代表文献(医学领域)作为金标准突破性文献集并获取引用语句,对引用语句进行词频统计并结合人工筛选获取表征突破性评价的常用词。对引用语句进行人工标注,利用BERT、BIOBERT模型进行训练形成自动识别模型,并选择癌症领域进行实证分析。[结果/结论]结果表明,学术共同体在评价具有重大突破价值的文献时具有明显的文本特征;相较BERT模型,生物医学语言表示模型BIOBERT对突破性评价引用语句的识别能力明显增强,F1值为0.84。基于引用语句的自动识别模型能够较为精准地识别具有重要学术价值的文献并能在一定程度上实现早期识别和早期评价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号