共查询到20条相似文献,搜索用时 18 毫秒
1.
2.
面向非相关文献的知识关联能够促进新知识的产生,为科学研究寻找新的线索提供了一种便捷、有效的辅助手段。本文首先设计了面向非相关文献的知识关联发现系统,该系统以《中国分类主题词表》为主题词受控词表,通过对文献摘要的中文分词处理,提取主题词并标引,提取文档特征矩阵并利用计量分析技术和聚类技术分析文献间特征的相似、相异水平,从词的粒度层面对非相关文献之间的关系进行挖掘,揭示非相关文献的知识关联。其次,基于该系统为用户精确匹配相关的知识库,采用TOP?K算法反馈与用户相关的文献集,为用户提供满意度更高的知识发现及相关扩展服务。图5。参考文献29。 相似文献
3.
从题名抽取关键词,把题名作为基于本体自动分类的文本主体,实现海量科技论文高效、精准地分类,已经成为图书馆事业发展的重要课题。本文利用文本内部词汇的语义关联特性,在高频词和隐含主题两个不同粒度层面,构建了基于BTM模型的题名信息自动分类方法:首先从细粒度层面进行词频统计,提取领域高频词;随后从粗粒度层面进行BTM模型分析,得到主题关键词;之后,将两者去重合并获得领域核心词集;最后,利用SVM算法进行文本分类。该方法有效地实现了知识的快速聚类和关联自动分类,为用户提供了满意度更高的知识发现及相关扩展服务。 相似文献
4.
从互联网中搜索同义词具有非常重要的理论意义和应用意义,但同时也存在一词多义情况下无法对不同词义的同义词进行区分的问题。针对这一问题,提出一种对互联网同义词搜索结果按照词义聚类的方法,该方法利用术语间的词义关系转化为图结构,实现词义自动聚类,无需人工干预和学科领域知识,能够达到较高的聚类准确性。 相似文献
5.
分类表-叙词表转换系统的设计 总被引:7,自引:2,他引:5
本文针对手工建立分类表-叙词表转换系统的缺点,用计算机设计了一个分类表-叙词表转换系统。系统以文献数据库标引数据(《中图法》及《汉语主题词表》)为实验对象,以金融银行学科为例建立了四种标引词(串)与分类号的对应模型,采用LogL统计方法实现分类号与主题词的自动对应和人工辅助筛选,并设置了模糊转换和精确转换两种分类号与主题词转换的模式。 相似文献
6.
微博短文本预处理及学习研究综述 总被引:1,自引:0,他引:1
认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。 相似文献
7.
8.
[目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。 相似文献
9.
为充分发挥知识组织在企业专利战略中的作用,在分析专利文献的基础上,根据中文专利文献句法描述的特点,利用最大串频匹配、蚁群聚类、多层KMeans聚类、改进关联规则计算、基于规则和CRFs的术语关系抽取等算法,设计出一套领域本体的半自动构建系统,包括术语抽取、分类关系抽取、非分类关系抽取、本体形式化等模块,初步实现结构化数据和非结构化文本的本体半自动构建。 相似文献
10.
本研究对MEDLINE中生物体类文献中高频主要主题词进行共词聚类分析,获取主题词之间的关联规则,利用UMLS语义关系进行结构化表达.从MEDLINE中选取<中华医学杂志>上的生物体类文献作为测试集,由专家人工抽取关系,与共词聚类得到的关联规则进行比较.利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试. 相似文献
11.
主题词表即叙词表,是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具。主题词表自诞生以来得到了很好的应用。例如,EI叙词表支撑EngineeringVillage文献平台的检索、浏览等功能;联合国粮食及农业组织编制的AGROVOC叙词表包含21种语言,在农业方面得到广泛应用;美国NASA叙词表在美国航空航天领域得到较好应用。随着互联网技术高速发展,大数据时代对主题词表提出了新的应用需求,不仅在图书情报机构中应用,更需要在跨界的相关机构中应用。例如,当前发达国家将主题词表应用于电子政务环境下政府信息的描述和提取中,利用主题词表建立知识库的自动分类系统,实现知识本体意义上概念关系的智能推理和语义聚类:应用于电子商务环境和大型企业的知识管理领域中,利用主题词表对海量信息的知识点进行自动标注,实现不同颗粒度的智能查询、领域监测、知识挖掘、领域知识聚类等应用;在医学、教育领域主题词表也应用于词语切分、信息抽取、聚类、词频统计、情感分析等文本信息处理基础工作,利用主题词表进行英汉对照索引,实现英汉跨语言检索和辅助机器翻译功能。这些应用无疑都存在一个需要精确定位信息的较大的社会需要。 相似文献
12.
当前文本主题获取方法大多依靠单一关联分析,不能全面分析可获取信息,难以准确获取科技发展主题。科技文献的主题词、作者和引文之间蕴含了以研究主题内容为纽带的语义关联关系,主题词共现关系、引文关系和合著关系分别从不同的角度展现了主题关联关系。因此,本文根据主题词之间语义关系距离的远近,将主题识别中主题词关联分为基础关系、强化关系和新增关系,在此基础上提出面向主题识别的多元关系抽取及关系融合方法;并以基因工程疫苗的研发与制备领域为例进行领域实证分析,利用PathSelClus算法实现基于多元关系融合的主题聚类,通过对比实验证明多元关系融合可以有效提高实证领域的文本主题聚类效果,而未来多关系融合主题识别则是需要重点关注的问题。图4。表6。参考文献19。 相似文献
13.
基于传统知识组织资源的本体自动构建 总被引:3,自引:1,他引:2
本文介绍了基于现有的知识组织工具和书目数据资源自动构建本体的方法:首先根据书目数据揭示的领域知识建立一个用OWL描述的数据模型,然后从词表、类表和书目数据集中自动抽取对象和关系的实例,写入OWL数据模型,形成书目本体.这是构建本体的一条经济、高效、合理且实用的道路.基于该本体,不仅可以实现概念浏览和语义检索,还可以增强搜索引擎的功能,通过词汇服务实现检索词提示和搜索结果归类.基于<中国分类主题词表>和计算机类的书目数据,本文实现了一个语义检索系统KVision,展现了传统知识组织资源对于网络信息资源利用的潜在价值. 相似文献
14.
中美图书馆咨询知识库比较研究 总被引:2,自引:1,他引:1
15.
本文研究了科技文献副主题词的自动抽取问题,并对其在分面检索中的应用进行了探索。为实现副主题词的自动标引,本文提出了以标题作为抽取数据源、基于规则进行抽取的实现方法,并以图情领域文献进行了实验。结果显示,基于规则的抽取方法在召回率和准确率方面表现良好,均超过了90%;但仅以标题作为抽取数据源会导致召回率偏低,仅有49.9%的文献能抽取出副主题词。为探索副主题词在分面检索中的应用,本文以图情领域文献为例构建了原型系统,从使用效果来,副主题词作为独立的检索点价值不大,但和其他检索点配合使用则可以更贴切地表达用户需求,作为分面则能在帮助用户进行探索式检索以及结果筛选方面发挥重要作用。本研究的局限性包括仅采用标题作为副主题词抽取数据源,导致召回率不高;在副主题词抽取时未考虑同时抽取相应的主题词等。 相似文献
16.
17.
为了提高海量新闻信息分类的效率,本文探索研究基于Transformer(转换器)模型和《中文新闻信息分类与代码》标准的自动分类标引,包括自动归类、聚类、检索标志的智能抽取,以及人工标引和自动标引的互相结合。Transformer模型训练数据特征效率更高,适应能力更强。基于标准的自动分类表更灵活,更高效,自动标引具有广泛的应用前景。 相似文献
18.
Web内容挖掘在数字图书馆中的应用 总被引:3,自引:1,他引:3
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。 相似文献
19.
用于中文信息自动分类的《中图法》知识库的构建 总被引:1,自引:0,他引:1
分类号、主题词、关键词是三种主题概念标识,三者之间存在着概念对应关系,即兼容关系。中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。本文详细讨论了该知识库的构建原理、结构、编制使用的关键技术以及主要应用等。 相似文献