首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
统计频率算法在文本信息过滤系统中的应用   总被引:1,自引:0,他引:1  
张帆  张俊丽 《图书情报工作》2009,53(13):116-119
文本信息过滤技术中的一个重要问题是对文档进行特征选择,分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,不能说明词条和类别的相关性等缺点,进行改进,提出一种新的统计频率(Statistical Frequency, SF )算法,并将此算法应用到文本信息过滤系统中。实验结果表明,统计频率算法能够弥补上述不足,表现出良好的过滤效果。  相似文献   

2.
基于Ontology的文档过滤研究   总被引:2,自引:0,他引:2  
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。  相似文献   

3.
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。  相似文献   

4.
文本数字水印可用于文本电子文档的版权保护领域,它是信息隐藏技术的重要研究方向。本文提出一种基于人眼视觉冗余的文本数字水印算法.根据人眼对细微的颜色变化不敏感这一特性,提出了通过改变文本字符RGB颜色分量的低四位来嵌入水印信息。该算法具有较好的隐蔽性和鲁棒性,能够抵抗文本删除、修改等攻击,实验证明只要保留文档原始内容中的连续N/8.6(N为待嵌入的水印信息位数)个字符,利用该算法就能够提取出完整的水印信息.  相似文献   

5.
由信息过滤引发的基于知识的过滤机制构想   总被引:4,自引:0,他引:4  
宋媛媛  孙坦 《图书情报工作》2005,49(3):39-41,86
在分析信息过滤理论背景的基础上,指出目前信息过滤系统存在的主要瓶颈问题是:相关度过滤算法过于依赖文本统计分析方法;信息质量过滤算法严重缺乏;如何创建精确的用户模板以表达用户的信息需求。在此基础上,探讨借助信息过滤技术建立基于知识的过滤机制的必要性与前景,同时提出建立基于知识的过滤机制的关键技术与模式的设想。  相似文献   

6.
为促进学生思考并提高响应速度,提出一种从历史研讨记录中挖掘相关信息的在线问答推荐方法。该方法包括建立技术词汇层次树、提取任务词汇、文本段落划分、特征抽取、主题识别过滤和计算文档得分6个步骤。通过设计两个实验来评估所提出的方法:第一个实验比较TF-IDF、TF-IDF+主题过滤以及TF-IDF+LSA+主题过滤三种推荐方法,结果表明使用TF-IDF+主题过滤的算法可以获得最好的推荐效果;第二个实验将系统用于一个学期的在线课程研讨中,现场评估结果表明,文档推荐系统可以促进学生研讨,并且有较高的感知有用性和易用性。本研究表明,中等相关程度的历史研讨记录可以被自动挖掘出来,并且向学生提供这些信息可以促进学生思考和研讨。  相似文献   

7.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

8.
一个基于反馈的信息过滤系统的设计与实现   总被引:7,自引:0,他引:7  
随着互联网上信息的迅速增长 ,信息过滤技术得到越来越广泛的应用。本文论述了一个基于反馈的内容信息过滤系统的设计和实现。它采用向量空间模型 ,使用类重心分类算法来形成用户兴趣文件 ,采用余弦算法比较待过滤文档和用户兴趣文件的相似度 ,并使用Rocchio反馈模型来重建用户兴趣文件。实验表明 ,本文提出的策略和方法是切实可行的  相似文献   

9.
智能信息检索中个性化模式的表示形式研究   总被引:3,自引:2,他引:3  
智能信息检索中 ,个性化模式的描述和更新决定了文档过滤的效率。本文根据Huffman树的特点 ,提出基于Huffman树形式组织用户个性化模式并给出其相应的文档过滤算法。与其他他同的个性化模式过滤算法的性能比较而言 ,其具有占用空间少 ,过滤速度快的优点。  相似文献   

10.
网络文本信息过滤的意义及其模型初探   总被引:1,自引:0,他引:1  
网络文本信息过滤可根据用户的需求,通过过滤机制主动选择所需的信息,有效解决网络信息迷航的问题。文章就网络文本信息过滤的用户建模和用户匹配技术进行了初步探讨,并在阐述信息过滤一般应用模型的基础上提出网络文本信息过滤模型,分析网络文本信息过滤模型的应用特征及其组件,并着重讨论了布尔逻辑模型、概率模型和向题总结并提出了一些改进意见。方法,最后就模型中两大技术应用存在的问题总结并提出了一些改进意见。  相似文献   

11.
网络信息过滤方法的比较研究   总被引:14,自引:0,他引:14  
系统地研究了网络信息过滤的主要方法,包括分级法、URL地址列表法、自动文本分析法和图像识别技术等,指出了每种方法的主要优缺点,并在此基础上探讨了网络不良信息过滤方法存在的主要问题及其发展方向。  相似文献   

12.
网络信息过滤的方法与相关技术研究*   总被引:26,自引:0,他引:26  
随着因特网的发展出现了所谓的“信息过载”问题,为了向用户提供个性化、实用性的信息,信息过滤技术应运而生。结合国内外已有的研究成果,本文从用户的信息需求与表示、文档的表示技术、匹配技术、信息反馈技术等四个方面探讨网络信息过滤的方法与技术以及存在的问题。  相似文献   

13.
基于本体的军备情报抽取系统主要由两部分构成:知识库和处理程序。该系统基于文本分类技术实现武器类别判定,基于命名实体识别技术实现武器对象判定。依据句法语义约束所形成的信息抽取规则,实现军备情报抽取,并依据本体在一定程度上实现语义层面上的信息整合。  相似文献   

14.
为了提高网页自动分类的准确率,基于信息融合的模型理论,提出了一种通用的网页自动分类模型和融合算法。该模型根据完成功能的不同分为四个层次:信息抽取层、数据预处理层、特征层和决策层,其中特征层是针对网页上不同种类的媒体信息采用不同的分类方法进行分类,并将分类结果分别输入决策层和与该特征层算法相关的其他的特征层。决策层是处理特征层的分类结果,并推导出最终的网页分类融合结果,并将该模型和算法进行了实现。实验表明,文章提出的融合模型和算法可以有效地改进网页自动分类准确率。  相似文献   

15.
Internet信息检索分析与研究   总被引:7,自引:0,他引:7  
综述了目前Internet 网上信息检索的主要方法及存在的问题, 并对其检索技术进行了深入的分析与比较。介绍了机器学习、智能A gent、信息过滤等新技术在信息检索中的应用, 并采用神经网络Hopfield 模型及算法进行词汇扩充来提高用户的检索提问表达, 从而提高了网上信息检索的能力。  相似文献   

16.
基于领域本体的数字图书馆信息过滤模型研究   总被引:1,自引:0,他引:1  
数字图书馆传统信息过滤技术有很大的局限性.基于领域本体的数字图书馆信息过滤模型最大的特点在于它保留了概念之间以及概念属性之间的关系.能够在复杂语义层次进行逻辑推理.该模型实现的关键问题在于基于领域本体的资源评价值转化和基于领域本体的匹配.图1.表2.参考文献9.  相似文献   

17.
The ability to find tables and extract information from them is a necessary component of many information retrieval tasks. Documents often contain tables in order to communicate densely packed, multi-dimensional information. Tables do this by employing layout patterns to efficiently indicate fields and records in two-dimensional form. Their rich combination of formatting and content presents difficulties for traditional retrieval techniques. This paper describes techniques for extracting tables from text and retrieving answers from the extracted information. We compare machine learning (especially, Conditional Random Fields) and heuristic methods for table extraction. To retrieve answers, our approach creates a cell document, which contains the cell and its metadata (headers, titles) for each table cell, and the retrieval model ranks the cells of the extracted tables using a language-modeling approach. Performance is tested using government statistical Web sites and news articles, and errors are analyzed in order to improve the system.  相似文献   

18.
为了帮助用户有效地发现、过滤和利用信息 ,信息过滤技术应运而生。协作过滤作为其中一种技术也得到迅速发展 ,但传统的协作过滤算法存在矩阵稀疏性等问题 ,影响预测效果。本文给出一种基于信息项的新算法 ,它从矩阵的列来考虑 ,能有效地解决矩阵稀疏性等问题 ,并提高预测准确性。  相似文献   

19.
信息过滤问题的研究   总被引:23,自引:0,他引:23  
随着WWW 的迅猛发展和广泛使用,“信息过载”的问题日趋严重, 信息过滤日益重要。本文论述了信息过滤的意义、信息过滤的理论背景、信息过滤系统的研究, 最后探讨了目前信息过滤存在的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号