首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
丁晟春  方振  王楠 《现代情报》2009,40(3):103-110
[目的/意义] 为解决目前网络公开平台的多源异构的企业数据的散乱、无序、碎片化问题,提出Bi-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作。[方法/过程] 该方法包括对企业全称实体、企业简称实体与人名实体3类命名实体识别。[结果/结论] 实验结果显示对企业全称实体、企业简称实体与人名实体3类命名实体识别的识别率平均F值为90.85%,验证了所提方法的有效性,证明了本研究有效地改善了商业领域中的命名实体识别效率。  相似文献   

2.
[目的/意义]科学数据与期刊论文的互联有助于科学数据的共享和重用,利用关联数据技术实现中文领域科学数据与期刊论文的互联,以促进科学数据和期刊论文的双向知识发现。[方法/过程]首先,分析科学数据和期刊论文中的关联属性和国家科学数据元数据标准,抽取相关元数据,通过命名实体丰富元数据中的隐含信息;其次,在复用本体的基础上形成描述科学数据与期刊论文互联的语义模型,并利用ORCID等属性关联外部数据集,丰富科学数据实体属性;最后,通过Web前端页面的方式直观地展现科学数据和期刊论文的关联,以促进知识发现。[结果/结论]以国家农业科学数据中心的科学数据集和中国知网农业工程领域的期刊论文为实例数据,通过关联数据的语义描述实现科学数据和期刊论文的多维度、深层次互联,帮助用户更加便捷地发现潜在相关资源和检索目标数据。  相似文献   

3.
刘佳  边俊伊 《现代情报》2023,(11):37-46
[目的/意义]针对藏医古籍知识组织与开发不足的问题,利用混合深度学习方法构建面向藏医古籍的命名实体识别模型,为藏医古籍知识的深度开发与利用提供方法支持。[方法/过程]根据藏医古籍知识特点,构建ALBERT-BiLSTM-CRF模型。以《四部医典》为数据集,在人工标注与文本预处理的基础上,进行命名实体识别实验,并将实验结果与其他3种常见模型进行对比分析。[结果/结论]ALBERT-BiLSTM-CRF模型对藏医古籍实体识别效果最好,F1-score达到96.28%,与其他方法相比提升约7个百分点。  相似文献   

4.
王松  骆莹  刘新民 《情报杂志》2024,(5):123-131
[研究目的]旨在优化虚拟社区中知识共创价值的识别方法,缓解因信息过载和关联复杂性等导致的高价值性知识资源识别效果不佳的问题。[研究方法]从知识共创的动态协同过程入手,构建集成双粒度语义与异质性网络的知识共创价值识别模型(DGSHAN)。首先利用BERT、Sentence-BERT并行获取词、句双粒度知识单元的语义信息,继而引入CNN、BiLSTM差异化提炼协同知识的局部内核特征与动态时序特征;同时采用HAN处理异质性关联网络,挖掘用户交互下多类型实体与拓扑结构中的关联规律,最后融合知识资源组合和用户行为互动双链路特征,实现知识共创价值的有效识别。[研究结论]经魅族社区Flyme数据验证,该模型的识别准确度、宏F1、加权F1分别为82.16%、73.56%、81.39%,相较于其他基线模型,各评估指标都有显著提高,可以有效提升知识共创价值的识别效果。  相似文献   

5.
[目的/意义]为满足用户多层次、多粒度的知识获取需求,图书馆文献资源组织的对象由文献单元逐步向知识单元转变。[方法/过程]文章在研究单元信息概念和表示模型的基础上,提出基于本体和关联数据的单元信息知识组织框架,并深入探讨了实现单元信息语义组织的核心步骤。以中医养生领域为例,阐述单元信息知识组织语义模型的应用过程。[结果/结论]本文构建的单元信息知识组织模式,是实现单元信息细粒度组织、语义化揭示以及多维度关联的有效途径。该研究可为特定领域单元信息的语义应用提供参考。  相似文献   

6.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

7.
[目的/意义]随着大数据和人工智能时代的来临,基于数据驱动的医疗辅助决策以及医疗健康知识挖掘受到人们的极大关注。医疗知识图谱是医疗信息分析和知识服务的基础,在医疗人工智能和医疗信息检索中发挥着重要作用。[方法/过程]本文以医疗领域的实际应用需求为出发点,从医疗大数据获取、医疗实体及关系标注、医疗实体识别、医疗实体链接、医疗实体关系挖掘、中文医疗知识图谱表示和存储等关键技术入手,提出了多数据源融合的医疗知识图谱构建的理论框架。[结果/结论]面向医疗领域的知识图谱构建是一项非常重要的基础任务,同时也是人工智能领域的重要发展方向。  相似文献   

8.
吴树芳  杨强  侯晓舟  尹萌 《情报杂志》2023,(11):119-125
[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F1值上均有一定提高。  相似文献   

9.
潘正高 《情报科学》2012,(5):708-712,786
介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。  相似文献   

10.
谢海涛  肖倩 《现代情报》2019,39(9):28-40
[目的/意义]对社交媒体中热门新闻的及时识别,有助于加速正面资讯的投送或抑制负面资讯的扩散。当前,基于自然语言处理的传统识别方法正面临社交媒体新生态的挑战:大量新闻内容以图片、音视频形式存在,缺乏用于语义及情感分析的文本。[方法/过程]对此,本文首先将社交网络划分为众多社群,并按其层次结构组织为贝叶斯网络。接着,面向社群构建基于卷积神经网络的热门新闻识别模型,模型综合考虑新闻传播的宏观统计规律及微观传播过程,以提取社群内热门新闻传播的特征。最后,利用贝叶斯推理并结合局部性的模型识别结果进行全局性热度预测。[结果/结论]实验表明,本方法在语义缺失场景下可有效识别热门新闻,其准确度强于基于语义信息的机器学习方法,模型具有良好的时效性、可扩展性和适用性。该研究有助于社交媒体的监管机构及时识别出各类不含语义信息且迅速扩散的热点内容。  相似文献   

11.
[目的/意义]网络新闻是获取突发事件情报的重要来源之一,提高海量网络新闻中突发事件的识别准确率和分类效果,并减少非突发事件新闻造成的开放集识别问题和降低人工标注非突发事件新闻的成本,这是当前突发事件识别与分类研究的重要课题。[方法/过程]选择BERT预训练模型获得文本的特征表示,融合不同层级之间的语义信息增强文本表示的质量,采用自适应决策边界模型,学习各突发事件类别在高维语义表示空间上的球形最佳决策边界,根据新闻样本的文本表示和各突发事件类别的球形最佳决策边界的欧几里得距离,检测出突发事件新闻并判断突发事件的类别,并在CEC公开数据集和实时爬取的中文新闻数据集CEN上对模型的有效性进行验证。[结果/结论]实验结果表明,本文模型在CEC数据集和CEN数据集上的宏F1值分别为98.46%和95.80%,与基准模型相比,本文模型的宏F1值分别提升了5.15%和19.69%。模型应用展示了提出方法在解决实际问题时的有效性。[局限]未考虑突发事件新闻可能存在多标签的情况。  相似文献   

12.
王婧  武帅 《情报探索》2024,(2):1-11
[目的/意义]现有学科研究主题的梳理多为领域专家的定性分析和学科学者的文献梳理,一定程度会由于研究思维的局限性和获取知识的片面性造成学科研究主题误判,为有效避免漏判误判现象的发生,提出识别模型。[方法/过程]首先,运用传统LDA模型分析主题特征词;其次,结合上下文语义信息进行中文分词,形成学科主题词库;最后,结合隐含位置聚类算法发现潜在社区,提高主题识别效果。[结果/结论]提出的方法一定程度上优化了主题挖掘算法在识别短文本主题的效果,消除主观意愿。由计算机自行分类并实现科学研究前沿主题的预测,揭示前沿领域的研究热点,为致力于研究前沿学科的新兴学者提供参考价值。  相似文献   

13.
【目的/意义】随着社交网络与新闻媒体的发展,大量虚假信息的滋生与传播已经引发了严重的社会问题。目前的研究主要依赖于收集谣言发生后的传播特征进行识别。为了在早期更准确地发现谣言,本文提出一种融合深度语义知识的谣言识别模型。【方法/过程】本文通过使用Transformer和Multi-head注意力抽取舆情信息深层结构的复杂特征,融合了文档结构及上下文语义知识表征,以提高早期识别虚假舆论信息准确率来及时防止谣言传播扩散。【结果/结论】本文通过在各个平台的真实数据集进行训练和识别实验,较现有基线方法的准确率最少提升了5.6%,最大提高了24.6%。结果表明,本文模型可通过对早期谣言文本的事实验证,提高模型识别谣言的准确性以在早期阶段阻断谣言传播。【创新/局限】本文谣言识别模型在BERT-Base基础上进一步结合了舆情文本语义知识特征表征,能有效提高早期谣言的识别准确度,但目前尚未考虑谣言传播者个性化特征如社会标签、行为信息等,如何融合更多传播者特征有待进一步研究。  相似文献   

14.
[目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性。[方法/过程]以社会科学领域所有学科中文核心期刊中关于“COVID-19”论文的题录信息为例,分三步进行了探索。(1)随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文。(2)从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别。(3)使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱。[结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869。在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805。由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用。  相似文献   

15.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

16.
[目的/意义]为挖掘旅游平台游记文本蕴含知识,协助旅游者高效获取符合需求的信息和知识,为制定旅游计划提供科学决策的信息支持。[方法/过程]首先面向用户需求提出基于布尔矩阵和集合逻辑改进Apriori算法的思路;然后融合命名实体识别实现了游记文本关联知识挖掘及聚合,构建了基于关联知识挖掘的个性化推荐服务模式,并以携程网中杭州相关的游记文本进行了实证研究。[结果/结论]研究发现,融合命名实体识别和改进的Apriori算法,能够有效挖掘游记文本蕴含知识,实验结果验证了在算法性能及结果上要优于传统Apriori算法,并能够根据挖掘结果向用户提供个性化推荐服务,协助旅行者科学、高效地制定旅游计划。研究结论丰富了游记文本挖掘的方法论,为旅游平台服务推荐优化提供了新的思路。  相似文献   

17.
陈锟  裴雷  范涛 《现代情报》2023,(6):24-34
[目的/意义]针对突发事件分类研究中模态单一或缺失、分类效果不理想等问题,本文提出结合文本和图片特征信息,以多模态融合的方式对突发事件进行分类。[方法/过程]本文提出一种基于多模态融合的突发事件分类模型(Emergency Classification Model with Hybrid Fusion, ECMHF),由BERT联动BiLSTM构成的文本特征抽取分类模型、VGG19为基础的图像特征抽取分类模型、融合文本描述特征和视觉语义特征的多模态融合层加上预测类别输出层组成的多模态分类模型3部分构成主体框架,最后将所有模型的决策层输出分配权重后再融合。[结果/结论]以收集的突发事件新闻数据为实验样本进行实证研究。结果表明,ECMHF模型在所有模型中性能最佳,F1值达到最高的99.072%,比次优模型高出0.51%。加入混合融合策略的ECMHF模型能够有效地识别出突发事件的类别。未来将在更为广泛和多元的突发事件多模态数据集中进行验证。  相似文献   

18.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

19.
[目的/意义]预测社科领域在未来有发展潜力的研究主题对于科研工作者寻找新的学科增长点和政府部门优化资源配置至关重要。文章提出一种基于语义表示和动态主题模型的社科领域新兴主题预测框架,以期丰富和完善主题预测研究的方法体系。[方法/过程]首先,使用BERT模型和UMAP算法对文本进行语义表示和向量降维,再通过动态主题模型对嵌入向量进行聚类,从而获得全局主题;其次,构建新兴主题指标计算公式,基于Neural Prophet模型和非参数检验方法预测新兴主题;最后,通过划分时间窗将全局主题细化为多个局部主题,以定位最近时间段的新兴词汇。[结果/结论]选取“人口老龄化”领域的学术论文和报纸进行实证研究,并采用资料验证法进行方法有效性分析,结果表明该方法能够快速准确地预测社科领域中的新兴主题。  相似文献   

20.
[目的/意义]将社会网络分析与突变理论相结合,提出识别潜在颠覆性技术的新方法,帮助企业获得市场、经济的先行优势,同时有助于加强政府对重点技术的前期引导作用。[方法/过程]首先,基于文本三元组结构,构建语义信息层面的技术共现网络。其次,基于社区网络结构和颠覆性技术特征,提出社区网络关系强度和对外资源利用力两个指标,利用突变理论模型识别易突变社区。最后,对易突变社区内节点进行主题词突发性监测和词频异常监测确定技术突发可能性,以此识别潜在颠覆性技术。[结果/结论]以造血干细胞领域2001—2018年论文数据作为分析对象,验证了方法的有效性,发现“建立完善的关于免疫缺陷疾病及相关移植治疗手段的临床研究模型”是该领域的潜在颠覆性技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号