共查询到10条相似文献,搜索用时 31 毫秒
1.
2.
3.
基于改进特征提取及聚类的网络评论挖掘研究 总被引:1,自引:0,他引:1
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。 相似文献
4.
一种大规模中文搜索日志的层次聚类方法 总被引:1,自引:0,他引:1
提出一种层次聚类算法,旨在对搜索引擎的查询日志数据进行聚类分析。算法基于搜狗实验室公开的查询日志数据,通过3次划分完成查询文本聚类,每一次划分实现不同程度的降维。相似度参数可根据不同的聚类需求调整,算法可扩展性强。实验结果为查询推荐、相关性排序等提供了有力的依据。 相似文献
5.
基于《现代汉语语义分类词典》的文本聚类方法 总被引:1,自引:0,他引:1
给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用<现代汉语语义分类词典>的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个文本的聚类过程.试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效率. 相似文献
6.
一种基于DASOM的两阶段中文文本聚类方法 总被引:2,自引:0,他引:2
研究了一种基于动态自组织神经网络(The Dynamic Adaptive Self-Organizing Map Neural Network简称:DA-SOM)的两阶段中文文档聚类方法,第一阶段对中文文本向量进行DASOM训练,第二阶段对虚拟的坐标集聚类。该算法动态地组织DASOM,由文本的内容来决定模型的结构;与直接聚类相比,降低了计算时间;与基于静态SOM文本聚类相比,减少了输出层节点数,改善了聚类效果。通过数值实验对比表明该方法对中文文本聚类具有有效性。 相似文献
7.
8.
9.
10.
【目的/意义】对Google、Bing、百度和搜狗四个中外文搜索引擎的自然语言问答能力进行评价,以揭示搜 索引擎正在向兼具搜索和自动问答功能的系统演进的趋势,对不同搜索引擎在不同类型问题上的自然语言回答能 力进行比较。【方法/过程】从文本检索会议和自然语言处理与中文计算会议的问答系统评测项目抽取了三类问题 (人物类、时间类、地点类),并进行搜索,以搜索引擎是否返回准确答案或包含正确答案的精选摘要为标准进行人 工评分,使用单因素方差分析和多重比较检验的方法进行比较分析。【结果/结论】主流的中外文搜索引擎均已具备 一定的自然语言问答能力,但仍存在较大的提升空间。Google总体表现最好,但对于人物类问题的回答能力弱于 搜狗。中外文搜索引擎在时间类问题上的表现均好于人物类和地点类问题。 相似文献