首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于信息可视化技术的文本聚类方法研究   总被引:4,自引:0,他引:4  
杨峰  周宁  吴佳鑫 《情报学报》2005,24(6):679-683
信息可视化是信息管理和信息系统的热点研究问题。随着网络技术的发展,充分有效地利用丰富的文本资源成为人们关注的焦点。文本聚类是处理文本的重要方法之一。本文在分析现有文本聚类方法的基础上,结合可视化技术解决该类问题的一般过程,给出了一个基于非线性映射实现的可视化技术进行文本聚类的方法,并通过案例说明该方法的特点,指出它与目前流行方法的不同以及其优势所在。  相似文献   

2.
专利数据包含了各种丰富的信息.通过对专利数据聚类,可以将它们划分为语义或结构上相似的子集,从而为发现数据中所蕴含的有用模式和知识提供更为深入的洞察力.传统的专利数据聚类方法通常只是利用专利数据的某项属性实现聚类,没有充分利用专利数据所包含的多种丰富信息.本文针对现有专利数据聚类方法的不足,提出了一种综合利用专利摘要文本和IPC分类号的专利聚类方法PDICluster.该方法通过解析IPC分类号中包含的树型结构信息,利用树距离度量专利数据之间的相似性,并综合专利摘要文本和IPC分类号相似性信息来实现专利数据聚类.实际专利数据上的聚类实验结果验证了PDICluster方法的有效性.  相似文献   

3.
通过对科研基金名称数据特点和文本数据聚类方法的分析,提出并实现了基于编辑距离算法(Levenshtein Distance)的科研基金名称数据分析方法,该算法首先通过设定相似度方式对科研基金名称数据进行聚类形成数据分组,再对分组数据进行二次聚类计算出组的相似度之和,并据此判定数据聚类中心。该方法已经成功应用于中国医学科学院医学信息研究所的医学文献基金数据处理。  相似文献   

4.
为充分发挥知识组织在企业专利战略中的作用,在分析专利文献的基础上,根据中文专利文献句法描述的特点,利用最大串频匹配、蚁群聚类、多层KMeans聚类、改进关联规则计算、基于规则和CRFs的术语关系抽取等算法,设计出一套领域本体的半自动构建系统,包括术语抽取、分类关系抽取、非分类关系抽取、本体形式化等模块,初步实现结构化数据和非结构化文本的本体半自动构建。  相似文献   

5.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

6.
为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF (term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT (Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。  相似文献   

7.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。  相似文献   

8.
解析新兴技术主题的概念,同时结合专利文献的特点,利用专利文献提出识别新兴技术主题的初步技术框架,并以工业生物技术领域的专利文献为数据来源,采用文本聚类技术、共词战略坐标分析、共词网络分析、专利分析等方法对该技术领域的新兴技术主题进行实证分析。  相似文献   

9.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

10.
自组织映射用于数据分析的方法研究   总被引:1,自引:1,他引:0  
自组织映射(SOM)是一种人工神经网络方法,它通过将相似的输入数据映射到相同或相近结点,将高维输入数据显示在低维空间中,具有保留输入数据的拓扑结构的优点,便于用户观察数据的分布特点.数据分析是SOM的重要应用领域之一.本文分析了SOM的各种学习算法(包括序列学习、批学习、k-batch学习、将空间访问方法引入SOM等算法)的优缺点和适用情况,挖掘了不同的SOM输出维度、结点形状及输出大小,并分析了三种成熟的SOM工具(SOM Toolbox, Viscovery SOMine和Databionic ESOM Tools)对这些算法、输出形式的支持程度,为SOM用于数据分析提供了细化而适当的方法借鉴.  相似文献   

11.
一种基于SOM的中文Web文档层次聚类方法   总被引:10,自引:0,他引:10  
陈福集  杨善林 《情报学报》2002,21(2):173-176
近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法引入中文Web搜索引擎 ,首先探讨了其网络模型和算法 ,而后提出一种聚类用户所感兴趣的中文Web文档的层次聚类方法 ,从而提高中文Web文档的检索质量  相似文献   

12.
针对学科领域中热点研究主题探测,尝试综合运用共词分析方法与自组织映射(SOM)方法,在词频统计的基础上,分析高频主题词在文献中的共现,并作为输入数据利用SOM Toolbox进行SOM聚类分析,得到领域热点研究主题。以传统医药领域为例进行实证分析,结果表明该方法对领域中热点主题探测有一定效果。  相似文献   

13.
语义词典在语言学和自然语言处理研究中占有相当关键的位置.利用聚类方法自动初步构造词典可以克服人工构造的主观缺陷,但对聚类后的结果比较难于评价.本文借鉴语言模型中的词混乱度概念对已经构建的语义词典进行自动评价,并计算比较SOM学习过程中不同阶段和不同输出网格的混乱度值;最后,与人工主观评价标准相比较,验证了混乱度方法对语义词典的评价与人工主观评价一致性;同时进一步分析了利用混乱度在真实语料库上对初建语义词典评价的客观性.  相似文献   

14.
随着数字图书馆技术的发展,图书馆每天产生大量的数据,针对这些海量数据,采用数据挖掘技术中的自组织映射神经网络(SOM)算法,根据读者借阅行为特征对读者进行聚类,得到不同阅读兴趣和需求的读者群,并通过测试验证该算法是有效可行的。  相似文献   

15.
基于主题爬虫的本体非分类关系学习框架   总被引:1,自引:0,他引:1  
乔建忠 《图书情报工作》2010,54(18):120-129
提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法KMeans,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。  相似文献   

16.
本文利用自组织映射(SOM)人工神经网络方法对学术期刊按其主题进行可视化组织。在修改常见的SOM显示方式统一距离矩阵(U-matrix)的基础上提出增强型U-matrix及新的SOM显示方式属性方差矩阵(AV-matrix),构造了关键属性投影方法,以53种有代表性的图书情报类英文期刊为例,将期刊按其主题分为19个类,识别各类期刊之间的关键差异主题,并分析各类期刊在关键差异主题上的特点。  相似文献   

17.
国外图书情报类期刊热点主题及发展趋势研究   总被引:1,自引:0,他引:1  
利用自组织映射(SOM)人工神经网络方法分析60种有代表性的国外图书情报类期刊的热点主题及Journal of Information Science(JIS)从1981-2007年的主题发展趋势。利用改进的SOM输出方式——属性叠加矩阵,识别出60种期刊的7类热点主题,并构造一种新的SOM显示方式“热点属性投影”, 结合常见的U-matrix图,分析JIS期刊的热点主题在过去27年间的发展过程与规律。其研究结果在一定程度上可以反映国外图书情报类期刊主题的发展规律。该研究方法为期刊热点主题识别及发展趋势研究提供较为完整的工具与思路。  相似文献   

18.
Research institutions play an important role in scientific research and technical innovation. The topical analysis of research institutions in different countries can facilitate mutual learning and promote potential collaboration. In this study, we illustrate how an unsupervised artificial neural network technique Self-Organizing Map (SOM) can be used to visually analyze the research fields of research institutions. A novel SOM display named Compound Component Plane (CCP) was presented and applied to determine the institutions which made significant contributions to the salient research fields. Eighty-seven Chinese and American LIS institutions and the technical LIS fields were taken as examples. Potential international and domestic collaborators were identified based upon their research similarities. An approach of dividing research institutions into clusters was proposed based on their geometric distances in the SOM display, the U-matrix values and the most salient research topics they involved. The concepts of swarm institutions, pivots and landmarks were also defined and their instances were identified.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号