首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于IIG和LSI组合特征提取方法的文本聚类研究   总被引:8,自引:0,他引:8  
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,首先利用向量空间模型和改进的信息增益特征选择方法 ,构造文本特征向量 ,利用C 均值方法聚类 ,聚类结果准确率、查全率、F measure分别达到 0 .82、0 . 88、0 .83。在此基础上 ,对最优的特征选择结果运用潜在语义索引方法 ,对奇异值分解的结果进行截断处理 ,发现奇异值K取 4 0时聚类结果的准确率、查全率、F measure达到 0 . 95、0. 5 7、0 . 78,在有效地降维的同时 ,大幅度地提高了聚类的准确率。  相似文献   

2.
利用改进的信息增益特征选择的方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,利用向量空间模型和信息增益特征降维方法,构造文本特征向量,并最终利用C-均值方法聚类,聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。  相似文献   

3.
提出一种基于潜在语义索引和本体论的文本语义处理方法。首先构建一个基于本体论的虚拟标准文本特征向量,然后采用潜在语义索引方法以虚拟标准文本特征向量为参照对文本集进行语义聚类,最后在虚拟标准文本特征向量的导引下利用本体库中的知识对聚类获得的文本集合的类别和语义进行显性标注。实验表明,该方法能较好地在语义层面对文本进行有效的聚类,而且聚类结果能显性地显示类聚所属的类别。  相似文献   

4.
针对潜在语义索引(Latent Semantic Indexing,LSI)计算成本很大,不利于扩展信息检索领域的特点,提出引进图论中的层次搜索方法(Level Search Scheme,LS),设计出一种针对多主题数据集、融合信息检索和信息过滤的新型算法。该方法能够在信息过滤阶段保持高的查全率,在信息检索阶段保证高的查准率,从而最后达到很好的检索效果。 〔关键词〕 潜在语义索引 层次搜索 奇异值分解(SVD)  相似文献   

5.
常娥 《图书情报工作》2012,56(11):89-92
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。  相似文献   

6.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

7.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果.  相似文献   

8.
针对文本聚类分析结果表达中缺乏语义关系的缺陷,本文利用人们在可视化形式下对模型和结构的理解和获取能力,提出了一种新的可视化表达方法。通过改进的Force-directed模型对聚类分析结果进行文本布局,表现文本间的语义相似关系;使用等值线生成算法构建层次性主题图,聚集和提炼文本主题;最终实现文本聚类分析结果的语义直观表达。实验结果表明,这种可视化方法不仅能够有效地表达聚类结果,体现类间、文本间的语义相关程度,而且还有助于发现隐含的信息,并通过类别之间的关联实现有效的信息导航。  相似文献   

9.
TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。  相似文献   

10.
多层次web文本分类   总被引:8,自引:0,他引:8  
凌云  刘军  王勋 《情报学报》2005,24(6):684-689
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。  相似文献   

11.
基于XML的MARC研究   总被引:4,自引:1,他引:3  
本文分析了机读目录MARC在未来数字化图书馆应用的局限性,并提出了改进方案,以哈尔滨工业大学为例,对其采用的中文机读目录CNMARC格式进行了XML转换的尝试,从而使得MARC书目数据库和Internet上的非书目数据库的集成成为可能.本文的研究对于现有MARC数据在未来数字图书馆中的利用具有重要意义.  相似文献   

12.
彭远方  陈冲 《新闻界》2008,(1):19-21
本文从传播学和社会学的视角,以定性与定量研究相结合的方法,分别从网名、聊天形式、聊天对象、聊天内容、聊天语言等方面对青少年使用QQ的情况进行了分析。  相似文献   

13.
今年"五一",七天长假,神州大地涌动着阵阵旅游热浪. 我凭借着一台电脑、一只调制解调器和一根电话线,"坐地日行八万里",来了一番不寻常的神州兰台网上游,北至东北的吉林,南至海南的琼兰阁,西至甘肃的酒泉,东至东海之滨的上海,造访了全国己开通的10多家档案信息网站,领略了各地兰台网站的不同风采.可谓收获不小,感触颇多.  相似文献   

14.
选取新浪微博为研究对象,探究我国“微博问政”的现状。分别从微博基本信息、使用状况、问政互动状况三个方面对新浪微博的624个政务微博进行跟踪考察,旨在对“微博问政”进行基于数据的、全局性的描述分析,探讨“微博问政”的广度、深度和效度,指出我国当前“微博问政”存在的问题与发展方向。  相似文献   

15.
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。  相似文献   

16.
基于SOA的数字图书馆研究   总被引:2,自引:0,他引:2  
SOA基于组件模型结构,采用中立接口进行程序单元之间的交互,可以构建通用的应用系统,基于SOA的数字图书馆本质上是将数字图书馆当做一个提供一系列图书馆信息服务的系统,通过各种服务组合能够实现图书馆业务流程的自动化,以灵活应对图书馆业务需求的变化,通过将孤立不兼容的图书馆信息系统和异构的信息资源以组件的方式封装成标准的服务,并经SOA总线进行服务集成,就可以以服务的方式加以利用,从而最大程度地实现信息资源的整合.  相似文献   

17.
基于Ontology的文档过滤研究   总被引:2,自引:0,他引:2  
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。  相似文献   

18.
宋曙光 《北京档案》1999,(11):18-19
一、方法和步骤 档案工作为农业农村建设服务,离不开规范的基础管理.为了全面了解和掌握我区农业农村档案工作状况,1996年我们对全区农业农村档案现状进行了调查了解,全区28个乡镇、463个村、500多个重点乡村企业、40多个农业科技事业单位,其档案工作几乎等于零.针对这种现状,我们把基础建设放在首位.主要采取以下方法:  相似文献   

19.
毛健吾提出《大刚报》所持立场的评价是大骂小帮忙,有借《大公报》的声誉来抬高《大刚报》的社会影响力之嫌。检视《大刚报》1946年初和1949年初两个历史节点的实际表现,《大刚报》虽对国共两党都有骂,主观目的还是通过舆论引导帮国民党的忙。大骂小帮忙本质上与小骂大帮忙没有区别。考量其办报思想,《大刚报》秉持以站在人民立场作为评断骂和帮忙的标准,而赶超《大公报》的实际步骤则客观上帮助共产党进步势力逐步进入《大刚报》。  相似文献   

20.
陈成  邵波 《图书情报工作》2011,55(3):116-22
概述大众标注与信息构建的概念与内涵,细化基于用户体验的信息构建模型,并将大众标注的多维度分类、自由灵活的标注、标签云与3D墙等特性和内容融入到信息构建的组织系统、标识系统、导航系统和搜索系统中,增强网站的易用性、功能性、交互性与社会性程度,有效提高用户体验度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号