排序方式: 共有2条查询结果,搜索用时 4 毫秒
1
1.
近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要.云计算为解决这一问题提出了一种新方法.本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计.本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA 模型训练和K -means 聚类过程进行MapReduce 的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA 建模的分布式算法对中文微博数据聚类效果较好. 相似文献
2.
1