共查询到19条相似文献,搜索用时 171 毫秒
1.
2.
3.
4.
研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。 相似文献
5.
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高. 相似文献
6.
基于向量空间模型的信息检索系统的设计 总被引:8,自引:1,他引:7
向量空间检索模型最早提出于1958年,它在信息检索系统中有着良好的性能表现。先对该模型作了介绍,然后在向量空间模型的基础上,根据文献标引、索引项权重的确定、相似度测算这三个步骤设计了一个信息检索系统,总结了该系统要用到的核心技术,并评价了该系统。 相似文献
7.
8.
9.
文章提出的适用于关联数据资源集相似度计算的综合描述信息模型,分为基本描述、内容描述和外部链接3个模块描述资源集,并根据各信息项的特点挑选字符串相似度、集合相似度、向量空间模型和基于统计和语义的相似度等算法计算资源集相似度,在一定程度上解决了当前关联创建中相关资源集手工配置的问题。 相似文献
10.
一种基于TFIDF方法的中文关键词抽取算法 总被引:4,自引:1,他引:3
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献
11.
针时目前基础研究项目分类的不足,提出一种基于项目内容特征的项目分类新方法.首先构建基于VSM的项目内容特征表示模型,确定类模型的表示方式.然后计算项目与类的相似度,提出相对相似度的概念.并定义交叉项目与交叉的判别方法,再根据相对相似度对基础研究项目进行分类.最后给出一个实例验证,对实例的分类结果进行详细的分析.并与原分类结果进行系统的比较. 相似文献
12.
基于改进KNN的文本分类方法 总被引:8,自引:0,他引:8
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。 相似文献
13.
利用话题检测技术将Blog信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。研究了话题检测模型中的词频统计、权重计算以及相似度计算,把简单聚类算法与ISODATA算法相结合,并应用到中文Blog热门话题检测系统中,实验结果表明,文本分类的效果有了进一步的提高。 相似文献
14.
15.
本体技术作为一种能在语义和知识层次上描述概念体系的有效工具,给词语间相似度计算带来了新的机会。词语相似度的研究,是知识表示以及信息检索领域中的一个重要内容。本文利用本体来组织概念,计算概念之间的语义相似度,将语义相似度分成概念相似度和描述相似度,把概念相似度和描述相似度进行合并,生成最终的语义相似度。依据《中国分类主题词表》建立的计算机领域本体,验证了语义相似度计算方法的有效性。 相似文献
16.
【目的/意义】通过订阅记录获取用户兴趣爱好,并将协同过滤推荐方法应用于图书个性化推荐,为读者提供优质服务。【方法/过程】以协同过滤算法为基础,根据用户订阅记录,分别计算用户相似性和订阅图书相似性。针对传统协同过滤方法在计算热门订阅相似度时存在的缺陷,引入对订阅权重的惩罚机制,减轻了热门订阅会和很多订阅相似的可能性,并根据协同过滤方法,产生相应推荐结果。【结果/结论】运用公开可获取的数据集进行的算法验证表明,基于订阅记录的协同过滤算法推荐准确度较高,对提升用户图书借阅体验相关研究与实践有一定的参考价值。 相似文献
17.
18.