首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于HowNet的话题跟踪及倾向性分类研究   总被引:11,自引:1,他引:10  
金珠  林鸿飞  赵晶 《情报学报》2005,24(5):555-561
本文研究了如何基于信息检索技术和“知网”实现有效的话题跟踪和话题立场分类。话题跟踪任务就是给出话题相关的训练新闻报道,系统在后续报道中发现与这个话题相关的报道。它属于话题检测与跟踪的一项子任务。本文针对跟踪任务中话题本身的特点,论述了权重调整、事件框架和报道扩充等多种提高跟踪性能的策略,同时基于“知网”中的情感体系和动态角色框架,提出了如何填充框架并结合建立的立场概念库对报道进行话题立场分类。实验证明这些方法是有效的。  相似文献   

2.
提出一个Ontology与CBR集成的Web智能信息检索框架,该框架利用Ontology对Web页面进行语义标注、设计案例库,并利用CBR的推理能力对Web页面进行基于内容的推理分析.以旅游为示例,给出系统实现方案.  相似文献   

3.
基于序列模式的个性化Web页面推荐模型*   总被引:1,自引:1,他引:0  
基于数据挖掘中的序列模式方法,提出一种个性化Web页面推荐模型。该模型首先利用Web使用数据预处理提取Web交易事务集,然后应用序列模式算法挖掘频繁(连续)序列,最后通过构建频繁(连续)序列树生成用户偏好视图以生成个性化Web页面推荐集。  相似文献   

4.
Web使用挖掘下的Web页面层次分类技术研究   总被引:1,自引:0,他引:1  
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义.本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征.最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高.  相似文献   

5.
提出一个Ontology与CBR集成的Web智能信息检索框架,该框架利用Ontology对Web页面进行语义标注、设计案例库,并利用CBR的推理能力对Web页面进行基于内容的推理分析。以旅游为示例,给出系统实现方案。  相似文献   

6.
基于Web日志和缓存数据挖掘的个性化推荐系统   总被引:8,自引:0,他引:8  
王勋  凌云  费玉莲 《情报学报》2005,24(3):324-328
针对当前推荐系统中存在的问题,提出一个基于Web日志和缓存数据挖掘的个性化推荐系统.系统依据Web日志挖掘用户兴趣页面时综合考虑了访问次数、浏览时间和页面长度.通过对Web日志和缓存数据挖掘得到的兴趣页面的有效分类,构造不同用户的兴趣模型.系统能依据用户兴趣模型实现内容过滤推荐,同时也能通过比较不同用户的兴趣模型实现协作过滤推荐.经模拟实验测试表明,本文提出的推荐方法是可行并且有效的.  相似文献   

7.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

8.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

9.
本文针对互联网上信息的日益海量增长的情况,在评述前期算法的基础上,提出了一种关键资源页面判定树的增量式更新算法.新算法使用Web页面的链接分析方法,选择合适的Web页面属性,并基于反例的统计信息来构造判定树的测试属性值,采用ID5R算法来处理训练样本不断增长的关键资源页面判定的机器学习任务.同时设计了适合于该算法的剪枝策略,它通过引入并实时更新反例样本比率并在其值低于抑制因子时停止分裂的办法,避免了树的过度增长与抗嗓能力差、泛化情况糟糕的情况.实验表明增量式更新算法能更高效地生成关键资源页面判定树.最后讨论了该算法的应用领域.  相似文献   

10.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号