共查询到20条相似文献,搜索用时 312 毫秒
1.
如何从科技文献数据中获取有效的信息,提升知识发现的能力是当前科学学研究中甚为关注的热点问题。大量相关的分析技术与方法均围绕自然语言处理技术所获取的“主题词”展开。然而,一般情况下,从科技文献数据中获取的主题词数量庞大,人工清洗几无可能,软件清洗亦缺乏可信度。本文以文献计量学方法为基础,构建了包括停词表、模糊语义处理、关联规则、词频与文档频次转换以及聚类分析在内的半自动化“主题词簇”方法体系,实现了以定量方法为主、定性方法为辅的主题词清洗、合并与聚类方案,旨在为技术竞争情报分析提供更为精准的主题词词表。本文以Derwent专利数据库中国“光伏电池”领域的科技文献为例,展开实证研究,验证了方法的科学性与有效性。 相似文献
2.
[目的/意义]学科领域的离群主题词可为创新机会发现提供新颖、稀缺的信息,离群主题词跨学科组合能催生新的知识,产生突破性学术创新机会。[方法/过程]以情报学和政治学为例,利用LDA提取不同学科文献的主题,以概率分布低的主题词为数据对象,利用Word2Vec和PCA技术将题名和摘要中包含文本语义的主题词表示为低维稠密向量,根据主题词在二维空间的分布发现学科内的离群主题词;利用余弦相似度计算不同学科离群主题词之间的语义相似度,将相似度高的不同学科的离群主题词组合视为具有创新潜能的组合。根据设计的需求度指标进一步筛选离群主题词组合,最终确定未来具有研究潜力的学术创新机会。[结果/结论]将主题提取与语义分析相结合,充分考虑了离群主题词的价值和语义环境;将离群主题词跨学科组合的语义相似度与需求度结合,能够兼顾学术创新的新颖性和有用性特征。研究表明,此研究方法能够有效发现学术创新机会,为科研指导、知识服务提供可靠参考。 相似文献
3.
4.
5.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。
【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取
方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义
概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验
结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利
用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可
能不合适,会对关键词提取准确性造成微小影响。 相似文献
6.
7.
在主题标引中除了主题词标引的质量对用户的检索率高低有直接的影响,主题词即主题款目标词的轮排技术对用户的检索率高低的影响同样不容忽视,本文结合我馆用《汉语主题词表》和《中国分类主题词表》对中文农业图书主题标引的实践,对主题词即主题款目标词轮排技术进行了研究。 相似文献
8.
WWW中图像的主题分类研究 总被引:1,自引:1,他引:1
为了便于对WWW中图像的浏览和检索 ,提出了一种对图像主题词分类的体系结构及根据图像主题词对图像进行自动分类的方法 ,还给出了图像主题词的自动提取、分类和添加方法 相似文献
9.
10.
11.
随着全球化竞争趋势的日益加剧,企业需要不断地进行技术创新才能在市场上获得优势地位,如何识别技术创新机会、并选择有效的技术创新路径成为企业当前亟待解决的难题。在评述国内外主要技术创新方法的基础上,构建了基于创新导图的技术创新路径选择模型,并以德温特专利数据为基础,构建了太阳能光伏发电技术领域的创新导图,探讨了该领域技术创新路径的选择过程。 相似文献
12.
检索词扩展是提高信息检索效率的重要方法,扩展的方式分为相似词扩展与相关词扩展。关键词和主题词是文献主要内容的概括,它们间存在相似关系与共现关系,利用这些关系构建关键词相似表、关键词相关表、关-主转换表与主题词共现表,这四个构成词间关系网,由这个关系网实现检索词的各种扩展方式。本文通过理论与实例的方式对关系网的建立与应用进行描述。 相似文献
13.
《MEDLINE》副主题词特点及对医学主题概念间逻辑关系表达 总被引:7,自引:0,他引:7
本文从《MEDLINE》副主题基本特征出发,阐明了副主题词揭示医学主题词概念关系的原理及作用,探讨了几种常见的主题词/副主题词组配类型及对主题概念间逻辑关系的表达。 相似文献
14.
15.
医学文献检索中检索词的选择 总被引:3,自引:0,他引:3
目的:探讨医学文献检索中如何对检索词(主题词和自由词等)进行适当的选择。方法:从检索概念入手,比较主题词和自由词检索的异同,并通过典型实例对两种方法在不同数据库(Medline,CBM)的检索结果进行分析。结果:Medline数据库使用主题词法检索效果优于自由词法;CBM数据库用主题词法检索查全率和查准率较高,但检索最新主题文献时,自由词法检索的效果更佳。结论:因为检索系统固有的局限性、文献标引等原因.主题词和自由词检索各有优缺点。适用范围不同,要使查全率和查准率达到理想的平衡点.两者联合使用效果最佳。 相似文献
16.
[目的/意义]探索论文被引次数是否和论文内容即概念组合方式有关。[方法/过程]选取WoS数据库中的免疫学科,抽取其中高、中、低被引频次三种论文集合的主题词,分析各集合主题词频次分布的集中离散趋势。分别构建主题词共现网络,通过网络拓扑属性的分析,了解三种论文集合在概念组合方式上的异同,衡量非典型组合与新颖性的关系。[结果/结论](1)不同被引频次的文献集合在主题类型的分布和主题词分散程度上有较大差异。(2)高被引和中被引论文集的主题词共现网络具有小世界性,低被引论文集的主题词网络不具有小世界性。(3)高被引论文集的主题词共现网络比较紧密,且主题词非典型组合的比例要高于其他两种论文集。低被引论文集的主题词网络比较松散。论文的被引次数与其主题热度、主题之间联系密切程度以及主题之间组合方式相关。 相似文献
17.
医学论文现多数用主题词作为关键词,利用中国生物医学文献数据库(CBMdisc)查找主题词是方便快捷的好方法。应用自由词在该库主题词检索查找不到的话,可在检索框用参考同类文章等方法查找。 相似文献
18.
介绍了交通汉语主题词表的结构和特点,以及基于词表开发的交通汉语主题词辅助标引系统的主要功能.在此基础上探讨了主题标引在交通行业信息检索、信息资源管理、决策支持等方面的应用。 相似文献
19.
何瑞金 《内蒙古科技与经济》2011,(11):156-157
通过对高校档案主题词标引的现状分析,阐述了规范高校档案主题词标引著录的对策,充分发挥其查询档案的功用,促进高校档案管理和利用服务工作,及时、高效地满足利用者的需求。 相似文献
20.
中文全文检索系统中实现主题词标引思路 总被引:4,自引:0,他引:4
介绍了在中文全文检索系统中实现主题词标引的思路及具体实现过程、各种词表的构造及更新方法和措施、基于主题词标引的优化检索功能等。 相似文献