首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 606 毫秒
1.
统计频率算法在文本信息过滤系统中的应用   总被引:1,自引:0,他引:1  
张帆  张俊丽 《图书情报工作》2009,53(13):116-119
文本信息过滤技术中的一个重要问题是对文档进行特征选择,分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,不能说明词条和类别的相关性等缺点,进行改进,提出一种新的统计频率(Statistical Frequency, SF )算法,并将此算法应用到文本信息过滤系统中。实验结果表明,统计频率算法能够弥补上述不足,表现出良好的过滤效果。  相似文献   

2.
一种改进的互信息特征选择算法   总被引:3,自引:0,他引:3  
谭金波  黄峰  杨晓江  李艺 《情报学报》2006,25(6):651-656
本文在层次分类的环境下,首先实验比较了文档频率、信息增益、期望交叉熵、χ2统计、文本证据权、互信息6种常用的特征选择算法,结果是互信息的分类效果最差。然后对此作了分析,并在此基础上提出了一种改进型互信息算法。实验结果表明,改进型互信息算法要好于其他算法。单字词的去除使分类效果得到提高,说明词特征更能够比较完整地表达语义信息。  相似文献   

3.
特征选择是文本分类的关键技术之一.本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失真理论作为可控特征选择的思想来源.在Reuters-21578新闻语料上进行的实验结果表明,基于泊松估计的特征选择算法性能优于基于语义的WN算法和同样基于统计的IG、Chi2等算法;在以特征漏选率作为信息率失真函数的前提下,设定分类算法分类指标下限值,则可以通过改变特征漏选率得到任意的分类精度值.实验表明本文算法在与相关算法的对比中存在优势.算法思想来源于通信领域中的信息率失真理论,也是一种在领域融合方面的崭新尝试.  相似文献   

4.
为满足主题爬行器在线分类的轻量化设计要求,提出一种基于多项表示网络文档类型的统计特征实现网页按类型进行主题相关性判断的策略;借助WEKA提供的API,为该主题相关性判断策略设计相应的训练算法和分类算法。通过分类准确率、效率和特征选择实验,证明该主题相关性判断策略的有效性以及5项对类型识别起关键作用的统计特征。  相似文献   

5.
文书类档案的分类标引研究   总被引:7,自引:0,他引:7  
本文介绍了一种档案文献的计算机分类标引算法。该算法以主题词作为分类的依据,对不能直接映射归类的档案,统计文献主题词隶属于各个类的隶属度,利用模糊关系对档案进行分类标引,为了提高分类效率,使分类系统具有实用性,提出了几种措施。  相似文献   

6.
一种基于主题词表的快速中文文本分类技术   总被引:1,自引:0,他引:1  
针对中文文本的自动分类问题,提出了一种新的算法.该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果.本算法可以避开中文分词的难点和它对分类结果的影响.理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平.  相似文献   

7.
用AUC评估分类器的预测性能   总被引:1,自引:0,他引:1  
杨波  程泽凯  秦锋 《情报学报》2007,(2):275-279
准确率一直被作为分类器预测性能的主要评估标准,但是它存在着诸多的缺点和不足。本文将准确率与AUC(the area under the Receiver Operating Characteristic curve)进行了理论上的对比分析,并分别使用AUC和准确率对3种分类学习算法在15个两类数据集上进行了评估。综合理论和实验两个方面的结果,显示了AUC不但优于而且应该替代准确率,成为更好的分类器性能的评估度量。同时,用AUC对3种分类学习算法的重新评估,进一步证实了基于贝叶斯定理的NaiveBayes和TAN-CMI分类算法优于决策树分类算法C4.5。  相似文献   

8.
读者需求分析中的数据挖掘技术   总被引:4,自引:0,他引:4  
针对高校图书馆读者借阅文献类型、流量实时监测问题,提出了一种基于数据挖掘中聚类算法的自动分类和统计分析方法.以方法开发出流量分类统计和预报应用系统,在大庆石油学院图书馆进行了实际应用,结果证明了该算法是有效和可靠的.  相似文献   

9.
严海兵  崔志明 《情报学报》2007,26(3):361-365
基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前提下,提出利用模糊聚类的方法对搜索引擎的检索结果进行动态分类,依据超链分析算法PageRank和Web文档隶属度相结合进行分类排序,并给出具有调节值的结合公式。实验证明,该算法能够更有效地满足用户的需要,提高检索效率。  相似文献   

10.
蔡巍  王永成  尹中航  李伟 《情报学报》2004,23(4):399-403
本文着重研究了自动分类知识库中因为样本兼类而引起的存在于概念类频中的噪声 ,提出了借助于统计特性来修正概念类频的算法。在进行理论分析的基础上 ,本文讨论了算法的实现步骤 ,并通过对新闻语料的分类实验 ,检验了降噪效果。实验显示 ,本方法可以减少兼类概念在知识库中的冗余次数 ,提高自动分类系统的性能指标  相似文献   

11.
12.
一种面向图书馆新书推荐服务的广义关联规则挖掘算法   总被引:1,自引:0,他引:1  
基于MMS_Cumulate和GP-Apriori算法, 提出一种针对图书馆新书推荐服务特点的广义关联规则挖掘算法MAR_LCR。不仅能挖掘出形如“读者-图书”的广义关联规则,而且还允许用户为不同的项设置不同的最小支持度。通过对候选集的产生过程进行改进,可大大压缩搜索空间。实验结果表明,MAR_LCR算法是有效的。最后,提出新书推荐模型。  相似文献   

13.
本文在分析入侵检测系统Snort的规则匹配算法——Boyer-Moore(BM)算法的基础上,提出了一种更为优越的字符串搜索算法,该算法充分利用每一次匹配比较的信息以跳过尽可能多的字符进行下次比较。理论分析与实验表明,该算法具有更大的平均搜索步长、更少的匹配比较次数和更快的速度。  相似文献   

14.
基于后缀树的中文新闻重复网页识别算法   总被引:1,自引:0,他引:1  
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义。  相似文献   

15.
改进的中文字串多模式匹配算法   总被引:4,自引:0,他引:4  
针对中文字串匹配问题 ,提出了一种改进的多模式匹配算法。该算法采用新型组合状态自动机 ,解决了对大字符集语言构建字符完全Hash表时可能遇到的存储空间膨胀问题。此外 ,算法还充分利用中文大字符集语言的优势 ,将QS算法的思想融入到多模式匹配应用中 ,取得了良好的效果。实验结果显示 ,本算法明显优于DFSA算法 ,在平均情况下所花费时间仅为DFSA算法的 70 33%。  相似文献   

16.
基于Apriori改进算法的局部反馈查询扩展   总被引:1,自引:0,他引:1  
提出面向查询扩展的Apriori改进算法,采用三种剪枝策略,极大提高挖掘效率;针对现有查询扩展存在的缺陷,提出基于Apriori改进算法的局部反馈查询扩展算法,该算法用Apriori改进算法对前列初检文档进行词间关联规则挖掘,提取含有原查询词的词间关联规则,构造规则库,从库中提取扩展词,实现查询扩展。实验结果表明该算法能够提高信息检索性能,与现有算法比较,在相同查全率水平级下其平均查准率有了明显提高。  相似文献   

17.
针对现有信息检索系统中存在的词不匹配问题,提出一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索系统的查全率和查准率,具有很高的应用价值,与未进行查询扩展时相比,采用本文查询扩展算法后,平均准确率提高了13.34%,与传统的局部上下文分析查询扩展算法比较,其平均准确率提高了4.87%。  相似文献   

18.
In the field of scientometrics, impact indicators and ranking algorithms are frequently evaluated using unlabelled test data comprising relevant entities (e.g., papers, authors, or institutions) that are considered important. The rationale is that the higher some algorithm ranks these entities, the better its performance. To compute a performance score for an algorithm, an evaluation measure is required to translate the rank distribution of the relevant entities into a single-value performance score. Until recently, it was simply assumed that taking the average rank (of the relevant entities) is an appropriate evaluation measure when comparing ranking algorithms or fine-tuning algorithm parameters.With this paper we propose a framework for evaluating the evaluation measures themselves. Using this framework the following questions can now be answered: (1) which evaluation measure should be chosen for an experiment, and (2) given an evaluation measure and corresponding performance scores for the algorithms under investigation, how significant are the observed performance differences?Using two publication databases and four test data sets we demonstrate the functionality of the framework and analyse the stability and discriminative power of the most common information retrieval evaluation measures. We find that there is no clear winner and that the performance of the evaluation measures is highly dependent on the underlying data. Our results show that the average rank is indeed an adequate and stable measure. However, we also show that relatively large performance differences are required to confidently determine if one ranking algorithm is significantly superior to another. Lastly, we list alternative measures that also yield stable results and highlight measures that should not be used in this context.  相似文献   

19.
针对热点主题发现是在聚类算法的基础上实现的特点,将改进后的蚁群聚类算法引入到该研究中,同时提出类别关注度(CAD)的概念,以此来判定类别的热门程度并区分出热门类别和冷门类别,在此基础上抽取热点主题集。实验结果表明改进后的蚁群聚类算法对热点主题的发现有一定的效果,对其他仿生优化聚类算法的引入有借鉴意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号