首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。  相似文献   

2.
基于统计频率的文本分类特征选择算法研究*   总被引:1,自引:0,他引:1  
通过分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。  相似文献   

3.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。  相似文献   

4.
一种改进的互信息特征选择算法   总被引:3,自引:0,他引:3  
谭金波  黄峰  杨晓江  李艺 《情报学报》2006,25(6):651-656
本文在层次分类的环境下,首先实验比较了文档频率、信息增益、期望交叉熵、χ2统计、文本证据权、互信息6种常用的特征选择算法,结果是互信息的分类效果最差。然后对此作了分析,并在此基础上提出了一种改进型互信息算法。实验结果表明,改进型互信息算法要好于其他算法。单字词的去除使分类效果得到提高,说明词特征更能够比较完整地表达语义信息。  相似文献   

5.
基于Ontology的文档过滤研究   总被引:2,自引:0,他引:2  
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。  相似文献   

6.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

7.
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。  相似文献   

8.
特征选择是文本分类的关键技术之一.本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失真理论作为可控特征选择的思想来源.在Reuters-21578新闻语料上进行的实验结果表明,基于泊松估计的特征选择算法性能优于基于语义的WN算法和同样基于统计的IG、Chi2等算法;在以特征漏选率作为信息率失真函数的前提下,设定分类算法分类指标下限值,则可以通过改变特征漏选率得到任意的分类精度值.实验表明本文算法在与相关算法的对比中存在优势.算法思想来源于通信领域中的信息率失真理论,也是一种在领域融合方面的崭新尝试.  相似文献   

9.
基于文档结构的向量空间检索模型研究   总被引:9,自引:0,他引:9  
韩毅 《情报学报》2004,23(2):158-162
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。  相似文献   

10.
随着互联网规模的急剧扩张,提升信息检索的效用变得相当困难.本文首先通过特定算法提取每篇文档的关键词,然后运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,最后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束.该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息.通过与Lingo算法的比较,显示本文算法所得的标签更具可读性和概括性,同时F-measure评价指标也表明本算法在文本聚类的质量上有了一定的提升.  相似文献   

11.
安海忠  崔娜 《图书情报工作》2009,53(12):117-120
根据新闻要素说,提取专题新闻文本中的关键词并进行预处理;采用向量空间模型表示文本,运用K means算法实现文本聚类并构建关键词关联网络模型以实现文本的可视化。实例表明:该方法能直观地显示专题新闻文本集的主要信息,便于快速掌握新闻中的主体与事件的关系以及新闻关注点随时间的变化,从而加深对信息的理解,有利于信息的充分利用。  相似文献   

12.
网络化制造环境下的信息服务平台研究   总被引:1,自引:0,他引:1  
从用户的个性化需求和信息服务的及时有效性出发,对信息服务平台进行研究,提出一种基于向量空间模型的支持用户定制的信息服务平台的构建方案。介绍平台的框架结构,对其关键技术进行研究,提出一种向量空间模型特征词权重的改进算法,然后阐述平台的功能模型和各模块的设计与开发。  相似文献   

13.
针对用户评分数据极端稀疏情况下传统个性化推荐算法的不足,提出基于平均差异度的个性化推荐算法,该算法通过计算用户对项目评分之间的平均差异度来预测用户对未评分项目的评分,从而产生高质量的推荐。实验结果表明,该算法可以有效地提高数字图书馆个性化推荐系统的可扩展性及推荐准确度。  相似文献   

14.
汪丹 《图书情报工作》2009,53(11):109-113
在社会网络分析的桥连结算法基础上,结合齐美尔连结,提出适合于科学合作的知识媒介算法。使用知识媒介算法对科学计量学国际期刊Scientometrics的合作者数据进行实验分析。结果表明,相对于桥连结算法,该知识媒介算法有助于识别具有媒介作用的科学研究者。  相似文献   

15.
张薇薇 《图书情报工作》2009,53(14):118-121
隐喻在信息可视化系统中有着普遍和广泛的应用。从隐喻视角设计出可视化系统的三个特征维:隐喻喻体、隐喻本体和可视化变量,并对1995-2008年出现的13个典型的信息可视化系统从三个维度进行比较分析。认为从可视化技术发展的长远看,仍然会以文本可视化、社会可视化为主。时间隐喻和空间隐喻是可视化隐喻中最常见、最基本的两类。选取合适的源域和喻体表示时间和空间概念,能创造最佳的可视和交互效果。构建隐喻模型能辅助系统设计和实施,也能引导用户在熟悉的认知环境下理解和使用系统。  相似文献   

16.
突发监测算法用于共词聚类分析的尝试   总被引:3,自引:0,他引:3  
Kleinberg算法能在不受外界因素影响的情况下及时发现未达到词频阀值要求但具有情报意义的词,用其计算突发词,并按突发权重排序,同时选择具有一定词频的突发词进行共词聚类分析,总结出当前医学信息学研究的热点领域。将分析结果与单一的高频词分析结果相比较,提出将突发词检测与高频词分析相结合以揭示信息科学的发展。   相似文献   

17.
根据信息素养内涵的基本内容,借助Big6教学模式,将信息素养在线课程的教学过程设计为一个主体类Big6教学过程和若干个分支Big6教学过程,并采用基于Petri网的建模方法对系统进行建模,实现基于Big6和Petri网的信息素养在线课程。并通过基于实际教学的实验对比,评价该系统在信息素养教学过程中的作用。  相似文献   

18.
政府信息服务绩效评估指标体系的科学构建   总被引:1,自引:1,他引:0  
指出构建政府信息服务绩效评估指标体系应坚持目标一致性、可测性、可比性和整体性原则,在此基础上从用户满意、投入产出、内在优化、持续发展4个方面设计政府信息服务绩效评估指标体系,并对政府信息服务绩效评估指标的信度和效度进行检测,对定性指标进行定量化处理,对指标权重进行动态调整。  相似文献   

19.
张玲  王琼 《图书情报工作》2009,53(11):32-46
利用网络调查法,调研我国32所高校图书馆开展信息素质教育的现状、信息素质教育在各馆主页中的组织及呈现方式、通过网络所提供的信息素质教育服务功能等内容,总结现阶段我国高校图书馆信息素质教育所包含的业务项目,分析其特点与问题,并为我国高校图书馆信息素质教育服务的发展提出建议。  相似文献   

20.
混沌理论对于信息资源管理理论的启示   总被引:1,自引:0,他引:1  
陈婧 《图书情报工作》2009,53(14):45-48
在混沌理论视角下,信息资源管理的价值将定位于治理信息源的混沌状态(混沌1)和治理认知的混沌状态(混沌2),借助于混沌理论可以从信息资源计量与采集、信息资源组织与提炼、信息资源的分析与预测、信息资源传递与检索八个维度来改进信息资源管理方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号