首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
关键词抽取技术能从海量产品评论文本中挖掘出用户关注的焦点,方便后续为用户推荐合适的产品。经典关键词抽取算法TextRank在迭代计算词汇节点的重要性得分时,忽略了邻近词汇节点的影响力差异。为此,提出一种融合TFIDF与TextRank算法(简称TFTR)抽取评论中的关键词。首先,通过引入用户浏览评论后给出的评论有用性反馈,提高有效评论中出现的重要词语权重,对TFIDF算法进行改进。然后将改进后的词频逆文档频率作为词节点特征权重引入到TextRank算法中,以改进词汇节点的重要性得分分配过程。实验结果表明,相比传统的TextRank算法,TFTR算法提取出的产品评论关键词准确性在P@10标准下提高了15.7%,证明了该算法的有效性。  相似文献   

2.
在传统推荐系统中,通常基于协同过滤推荐算法挖掘评分中的隐含特征,但在实际应用中,评分矩阵往往十分稀疏,很难充分地表示用户偏好特征与物品描述特征。为了充分挖掘评论文本中的隐含特征,并在一定程度上缓解数据稀疏性问题,提出一种深度协同过滤模型(CFiCNN):融合卷积神经网络的协同过滤模型。该模型利用卷积神经网络抽取用户-物品评论数据中的隐含特征,基于协同过滤的矩阵分解方法,进行评分预测。在4个真实数据集上对该模型进行了评估实验,并与3个常用模型进行对比。实验结果表明,该模型能够很好地抽取到用户与物品的隐含特征,并且进行更准确的评分预测。  相似文献   

3.
提出一种基于语义倾向性分析的观点挖掘方法以及该方法在餐饮企业评价中的应用。将餐饮企业的食物口味、环境、服务、价格等作为其特征,以句子为单位对用户评论进行特征抽取,并将具有多个特征的复杂特征句划分为简单特征句,分析评论句的语义倾向性并进行统计分析。使用户可以方便地了解其他用户对某个餐饮企业某种特征的评价,可为用户消费提供有效的参考,为餐饮企业服务质量的提高提供有力指导。  相似文献   

4.
基于〈产品特征,情感词〉关联对的缺点,讨论了情感词与否定性副词搭配的必要性,提出了〈Pfeature,FIag,sword〉关联三元组,能够更准确地表达文本中相关评论句对产品特征的情感倾向。采用两个步骤来提取关联三元组:首先,利用已训练好的最大熵模型作为分类器,结合Bootstrapping方法完成了产品特征与情感词语关联对的抽取;其次,将情感词前的否定性副词抽取出来,合成关联三元组。  相似文献   

5.
本文针对现有入侵检测系统的不足,根据入侵和正常访问模式各种不同的网络数据表现形式以及特定数据分组的出现规律。提出分层的网络检测模型,并在各个检测层建议运用不同的数据挖掘方法代替人工方法抽取入侵特征,以达到提高检测速度和克服人工抽取入侵特征的主观性目的。其中运用的数据挖掘算法主要有:关联挖掘、数据分类。  相似文献   

6.
针对高职院校学生存在的心理健康问题现状,提出一种利用集成学习算法——Adaboost进行心理健康预测的方法。该方法首先抽取心理健康测试数据特征,经过数据清洗和规范化处理后,以决策树为分类器对数据进行挖掘分析,运用Adaboost算法对决策树分类器进行多轮迭代训练以提高分类器的分类效能,建立起一种心理健康预测模型。利用该模型对某高校2015级2 780名学生的心理健康测试数据进行了分析。实验结果表明,该方法能够实现对敏感心理问题的有效识别,从而为高职院校心理健康教育提供规划和决策依据。  相似文献   

7.
在多点数据监测系统中,为了将各区域服务器的数据有效整合,对海量数据的有效采集和处理成为必须解决的关键问题。文章通过引入Web文本挖掘原理和数据抽取方法,将网页列表页的抽取算法应用到多点数据采集,并构建了相应的多监测点数据采集体系。通过对多监测点海洋数据的处理实例表明,基于网页列表页的抽取算法有效地抽取到了准确数据项,解决了嵌套数据记录、自动抽取和多台计算机协同工作问题,提高了数据采集效率。  相似文献   

8.
通用本体学习框架研究   总被引:3,自引:0,他引:3  
提出了一种通用本体学习框架GOLF,通过对网络上各专业领域web文档集进行挖掘来实现本体自动构建,讨论了本体学习中本体概念的抽取、概念之间语义关系的抽取和分类体系的自动构建等关键技术,通过实验对算法进行了测试,并对本体评价方法进行了探讨.由于集成了多种机器学习算法,该方法在概念抽取和语义关系学习方面具有更高的准确性.采用通用本体WordNet和HowNet作为语料库,它可适用于不同的专业领域.同时,通过按需获取web文档,该方法能实时生成本体.  相似文献   

9.
要对Internet上巨量的数据进行数据挖掘 ,半结构化数据模型及其抽取技术是前提。对数据挖掘技术和Internet上数据结构的特征进行分析 ,并就把XML作为一种半结构化的数据模型实施查询与模型抽取 ,从而完成面向Internet数据挖掘的方法 ,且结合SQLServer 2 0 0 0的应用进行探讨  相似文献   

10.
消费者在购物网站上发表的购后评论既包含对产品的总体评价,也包含对产品某些特征的评价,如何从评论文本中挖掘出细粒度情感信息是消费者和企业亟待解决的问题。从中文产品评论的特征识别、观点识别和情感词典构建等方面介绍了相关技术及研究进展,并指出了各自的优势与不足,最后展望了中文产品评论细粒度情感分析未来的研究方向。  相似文献   

11.
为解决同类电子商务中的信息异构等问题,研究并实现了一种基于信息抽取的电子商务信息共享联盟系统。给出了该系统的系统组织模型,各个功能模块,信息抽取关键算法以及运行流程。该系统通过异构网页挖掘进行信息整合,采用贝叶斯算法进行按需信息抽取。仿真证明该系统具有较高的信息自动处理性能和较好的客户需求匹配度。  相似文献   

12.
樊凌 《教育技术导刊》2016,15(6):176-178
提出一种基于自相关模板匹配的云环境下大规模多媒体数据特征重构挖掘方法,进行大规模多媒体数据的信息流模型构建和特征提取,在云环境下进行大规模多媒体数据的主特征量矢量分析和状态空间重构,对重构的多媒体数据状态矢量特征进行自相关模板匹配,以实现数据准确挖掘。仿真结果表明,采用该算法进行数据挖掘的精度与准确性较高,性能较好,优于传统算法。  相似文献   

13.
乔良 《教育技术导刊》2009,8(5):175-177
运用XML这一成熟的技术,提出了一个基于Web的挖掘模型和抽取方法,并对该模型和数据抽取方法进行了分析与测试。  相似文献   

14.
自本世纪初起,E—learning作为一种灵活、丰富、高效的学习方式,被越来越多的学习者接受,而伴随着学习技术的逐步成熟,学习者对E—learning应用的要求也从最初的知识推送提升到能够在讲授者与学习者之间搭建有效的沟通桥梁,将零反馈的封闭式学习变成多反馈的协作学习。E—learning的评论信息隐含了学习者在学习中遇到的问题和建议,从中可挖掘学习者对学习资源及授课者的意见。这对改善教学模式、完善教学支持服务意义重要。现有E—learning系统所提供的海量评论信息中正面评论与负面评论夹杂,给挖掘学习者的真实意见和需求带来困难。本文对文本情感分类过程进行归纳,构建了一种情感分类应用模型,在完成预处理、创建词典、提取情感特征后实现了一个情感分类引擎,并将该引擎与实际系统整合。改进后的系统能够将学习者的评论文本自动分为正面评论、负面评论和中性评论,实际性能及用户体验评价结果表明,新的基于情感单元的情感分类方法能满足E—learning评论文本的情感分类需求。  相似文献   

15.
传统关联规则挖掘算法所讨论的只是一次事务内部的模式,但实际应用中随着时间的推移,事务之间会有某种联系或发展趋势,传统关联规则算法则无法揭示其中的规律。将在SPAM算法的基础上进行改进,加入通用时间约束,提出一个新算法——TSPAM算法。TSPAM算法采纳SPAM算法中的相关概念和方法,在SPAM算法的裁减部分和候选集的生成部分进行改进,对其加入时间约束。实验表明新算法对挖掘具有时间特征的序列模式是行之有效的。  相似文献   

16.
事件抽取包括两大任务:识别事件和事件要素抽取。对于事件抽取的传统方法是模式匹配和机器学习。模式匹配包含规则有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了结合触发词扩展、神经网络及依存分析相结合的方法。该方法利用触发词扩展增加触发词数量,利用神经网络选择特征进行事件分类,利用依存分析挖掘词之间关系。实验证明该方法可行,在事件识别和事件要素抽取方面得到了较好结果。  相似文献   

17.
Apriori算法是关联规则挖掘技术中的一个经典算法。笔者通过对该算法的思想和性能分析,认为它存在两方面的不足。本文提出了一种提高频繁项集挖掘算法效率的优化方法。实验表明,该优化算法对提高频繁项集挖掘算法的效率是有效的。  相似文献   

18.
常浩 《太原大学学报》2013,14(2):127-130
数据挖掘是从事务数据库中抽取有用的知识和感兴趣的模式,而从事务数据库中发现关联规则是最常见的挖掘技术之一。提出一个遗传模糊关联规则挖掘框架和综合聚类、模糊和遗传概念的多最小支持度的遗传模糊关联规则挖掘算法。该算法从定量事务数据库中抽取合理的多最小支持度值、隶属函数和模糊关联规则,首先使用k—means聚类算法采集相似项目,然后初始化一个种群设定相同的支持度值,每一个染色体通过需求满足的标准和隶属函数的适应性来评估是否满足其适应度。  相似文献   

19.
对于跨语言信息检索,统计翻译等应用,双语短语都是极其重要的资源.提出了基于自适应模式的双语短语挖掘算法,该算法可以自动的学习当前Web页面的翻译模式,然后利用学习到的模式抽取当前页面中的双语短语.同时,将自适应双语短语挖掘算法与Map-Reduce并行编程模型融合起来,大大提高了系统的运行效率,并且通过实验验证了该方法的有效性.  相似文献   

20.
提出一种基于深度学习的高光谱图像多标签分类算法。采用深度学习算法中的堆叠降噪自动编码器方法对每个像素的深层特征进行抽取,该方法可以有效表现高维特征空间中的非线性混合像素。使用多标签逻辑回归方法为每个像素预测并分配多个类标签。通过对合成数据和实际高光谱数据的大量对比实验,实验结果表明:该算法能够有效地为高光谱图像的像素精确地分配多类标签。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号