首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 93 毫秒
1.
陈涛  孙茂松 《情报学报》2007,26(1):77-83
语义词典在语言学和自然语言处理研究中占有相当关键的位置.语义词典的构造,通常有两类做法.一类是基于语言学家的主观判断,另一类则是基于机器的自动聚类.后者是本文所要研究的主题.本文基于大规模的语料库,利用自组织映射神经网络(SOM)对词典进行无监督的自动构造.首先从语料库中抽取待聚类词的上下文窗口中的词,并利用信息增益(Information Gain)对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的特征权重,最后将构造好的待聚类词的特征向量作为SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同结点.  相似文献   

2.
自组织映射(SOM)是一种基于人工神经网络的聚类方法,通过将相似的输入数据映射到相同或者相近神经元达到相似相聚的目的,有着不需要先验知识、保持拓扑结构不变、无监督自我学习和易于可视化的优点。由于专利文献有着数量大、文字晦涩冗长、专业性强等特点,分析难度较大,自动聚类分析能挖掘专利文献内在相似性,作为基础性处理用于后期应用,例如专利数据清洗、专利检索、主题分析和专利地图生成等众多领域。基于SOM的专利文本聚类与传统聚类方法相比效率和准确率较高,并且易于可视化展示。本文使用了SOM、k-means和TwoStep算法分别在专利文本聚类中作了对比,得出SOM较优的结论。  相似文献   

3.
针对学科领域中热点研究主题探测,尝试综合运用共词分析方法与自组织映射(SOM)方法,在词频统计的基础上,分析高频主题词在文献中的共现,并作为输入数据利用SOM Toolbox进行SOM聚类分析,得到领域热点研究主题。以传统医药领域为例进行实证分析,结果表明该方法对领域中热点主题探测有一定效果。  相似文献   

4.
基于SOM的手机电子商务交易聚类分析*   总被引:1,自引:0,他引:1  
针对电子商务研究中未充分重视卖方特点的研究现状,利用自组织映射(SOM)神经网络方法,对手机电子商务交易状况进行聚类分析,研究电子商务卖方的自身特点与其销售商品之间的匹配程度对交易活跃程度的影响,有利于电子商务卖方及产品生产商了解市场状况及自身优劣,以便改进其生产及经营活动。现有的SOM统一距离矩阵(U-matrix)的算法基础上进行修改,提出新的U-matrix算法与显示方法,并应用于本文的数据分析。  相似文献   

5.
本文利用自组织映射(SOM)人工神经网络方法对学术期刊按其主题进行可视化组织。在修改常见的SOM显示方式统一距离矩阵(U-matrix)的基础上提出增强型U-matrix及新的SOM显示方式属性方差矩阵(AV-matrix),构造了关键属性投影方法,以53种有代表性的图书情报类英文期刊为例,将期刊按其主题分为19个类,识别各类期刊之间的关键差异主题,并分析各类期刊在关键差异主题上的特点。  相似文献   

6.
一种基于SOM的中文Web文档层次聚类方法   总被引:10,自引:0,他引:10  
陈福集  杨善林 《情报学报》2002,21(2):173-176
近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法引入中文Web搜索引擎 ,首先探讨了其网络模型和算法 ,而后提出一种聚类用户所感兴趣的中文Web文档的层次聚类方法 ,从而提高中文Web文档的检索质量  相似文献   

7.
随着数字图书馆技术的发展,图书馆每天产生大量的数据,针对这些海量数据,采用数据挖掘技术中的自组织映射神经网络(SOM)算法,根据读者借阅行为特征对读者进行聚类,得到不同阅读兴趣和需求的读者群,并通过测试验证该算法是有效可行的。  相似文献   

8.
从用户评论中挖掘产品属性——基于SOM的实现   总被引:5,自引:0,他引:5  
在分析现有产品属性识别方法不足的基础上,提出一种利用自组织映射(SOM)进行属性识别的新方法,定义一种新的名为“属性叠加矩阵”的SOM显示方式。为验证该方法的有效性,以餐馆评论为样本,从中抽取饮食行业的产品属性。实验证明提出的方法识别产品属性的效果较好。  相似文献   

9.
首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成 :输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来 ;其次,构造更详细的算法推导及实施方案 ;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。  相似文献   

10.
国外图书情报类期刊热点主题及发展趋势研究   总被引:1,自引:0,他引:1  
利用自组织映射(SOM)人工神经网络方法分析60种有代表性的国外图书情报类期刊的热点主题及Journal of Information Science(JIS)从1981-2007年的主题发展趋势。利用改进的SOM输出方式——属性叠加矩阵,识别出60种期刊的7类热点主题,并构造一种新的SOM显示方式“热点属性投影”, 结合常见的U-matrix图,分析JIS期刊的热点主题在过去27年间的发展过程与规律。其研究结果在一定程度上可以反映国外图书情报类期刊主题的发展规律。该研究方法为期刊热点主题识别及发展趋势研究提供较为完整的工具与思路。  相似文献   

11.
数据挖掘技术在图书馆读者分析中的应用   总被引:6,自引:0,他引:6  
钱强  李英 《图书情报工作》2009,53(12):121-124
使用SOM聚类方法对上海某大学图书馆数据库中的借阅数据进行挖掘分析,对读者进行聚类,用关联规则挖掘方法对某类读者的计算机类图书借阅记录进行挖掘,分析对每一类读者的借阅特征,以找出其借书规则,从而为图书馆管理提出建议。   相似文献   

12.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

13.
语义词典在语言学和自然语言处理研究中占有相当关键的位置.利用聚类方法自动初步构造词典可以克服人工构造的主观缺陷,但对聚类后的结果比较难于评价.本文借鉴语言模型中的词混乱度概念对已经构建的语义词典进行自动评价,并计算比较SOM学习过程中不同阶段和不同输出网格的混乱度值;最后,与人工主观评价标准相比较,验证了混乱度方法对语义词典的评价与人工主观评价一致性;同时进一步分析了利用混乱度在真实语料库上对初建语义词典评价的客观性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号