首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 22 毫秒
1.
利用话题检测技术将Blog信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。研究了话题检测模型中的词频统计、权重计算以及相似度计算,把简单聚类算法与ISODATA算法相结合,并应用到中文Blog热门话题检测系统中,实验结果表明,文本分类的效果有了进一步的提高。  相似文献   

2.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。  相似文献   

3.
线性判别分析(LDA)具有很好的分类性能,但是计算复杂度一般较高。为了有效地降低LDA算法的计算复杂度,本文提出了一种基于k-means聚类的快速学习算法。该算法首先根据k-means聚类算法对原始样本进行聚类,计算聚类簇的样本中心作为新训练样本,然后再利用LDA算法进行分类。由于通过聚类算法有效地压缩了训练样本集的规模,因此算法具有更高的效率。在语音识别数据集上的实验充分验证了本文算法具有较好的分类性能,而且效率更高。  相似文献   

4.
对海量数据信息进行迭代聚类能够为数据挖掘提供准确的依据,具有重要的应用价值。传统算法对于初始参数的选取过于敏感,从而降低了迭代聚类的准确率。提出基于并归聚类的海量数据信息中的迭代聚类方法。采用离差隶属度进行数据信息聚类中心的计算,确定数据信息的聚类中心;采用类间距离作为并归聚类判别的标准,用于判定数据信息特征与聚类中心的距离;对海量数据信息特征与聚类中心的计算结果进行归类处理,直至所有的数据信息的聚类中心都结束并归,从而获得准确的迭代聚类结果。仿真实验结果表明,改进算法能够提高海量数据信息中的迭代聚类结果,效果令人满意。  相似文献   

5.
【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联 网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了 解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然 后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦 点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。 【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚 类效果,有效的获取各阶段的话题焦点。  相似文献   

6.
SOM聚类算法在文本分类上的应用   总被引:2,自引:0,他引:2  
丁露  崔平 《现代情报》2007,27(9):162-164
随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。  相似文献   

7.
研究高效进行数据聚类,提高数据聚类能力的问题。传统的模糊C均值算法具有对初始值和噪声极为敏感和遗传算法在局部极值点收敛的缺陷。基于模糊c均值聚类算法,提出一种改进的优化聚类算法。利用混沌序列的均匀遍历特性和差分进化算法的高效全局搜索能力,对模糊c均值算法进行改进,利用Logistics混沌映射对聚类算法进行优化搜索,把混沌扰动量引入到进化种群当中,弥补了模糊C均值算法的缺陷。采用改进的Logistics映射扰动搜索聚类算法,以目标识别为案例,综合4类目标特征参数为研究对象,开发了一套有价值的目标识别专家系统软件。仿真实验表明,改进的数据聚类算法,具有优越的数据聚类性能,聚类判断准确率提高明显,设计的专家系统软件对目标识别特征分类具有较好的准确性和可靠性,具有一定的应用价值。  相似文献   

8.
【目的/意义】网络舆情的热点话题对政府和网民有着很大的影响,及时发现热点话题有利于政府监控话题 的发展。【方法/过程】本文提出了基于时间序列的话题动态演化两层模型,并将新闻网页内容的相似度和页面链接 分析作为话题热度的计算依据,然后利用改进的Single-Pass算法进行增量聚类获得聚类中心,最后根据热度权重将 聚类中心进行排序,获得热点话题。【结果/结论】通过实验验证,该算法发现效果好,能够更好地获得热点话题。  相似文献   

9.
为了解决对微博海量信息采集分析的问题,为此本文研究提出基于微博意见领袖参与行为的热点话题检测算法。微博意见领袖在微博话题传播和演化过程中具有加速传播和引导等作用,本文从具有影响力的微博意见领袖采集微博信息,对信息数据进行加工处理以得到微博话题,并利用Single-Pass聚类算法作为核心算法进行话题的抽取,有效地提高热点话题检测的效率。  相似文献   

10.
王华秋  王重阳  聂珍 《现代情报》2016,36(2):129-134
图像聚类为数字图书馆图像管理提供了新的技术支持,能够在大量图像数据中发掘使用户感兴趣的信息。传统应用于图像聚类的特征提取算法往往忽略图像颜色的空间分布信息,且适应性较差。通过等面积矩形环对图像进行划分并计算各空间区域的相关性,并根据空间区域相关性计算各区域的重要性,将空间信息与颜色信息进行融合。同时对快速搜索密度峰值聚类算法的截断距离进行了合理改进,在保证聚类精度的同时提高收敛速度。最后将该密度聚类算法应用于数字图书馆图像检索之中。通过实验验证,本文提出的方法是可行的、有效的。  相似文献   

11.
为了实现对提取边界后剩余数据对象的聚类,提出一种由图像边缘出发进行聚类的算法。该算法首先采用深度优先搜索的策略将已知的边界对象进行分类,并计算各边界曲线的最小外包矩形区域;然后运用夹角和法去除内边界类;最后依据近邻原则对每一个核心对象进行归类。实验结果表明,对于含有噪声、密度均匀的数据集,算法可以识别出各种形状的聚类,且聚类质量和时间性能较好。  相似文献   

12.
提出了一种自动化的网格聚类算法GAC。该算法主要采用密度阈值技术提取不同的类,使用边界点处理技术提高聚类精度。GAC算法只要求对数据集进行一遍扫描。实验表明,该算法可扩展性好,能处理任意形状和大小的聚类,能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

13.
朱凡  王印琪 《情报科学》2021,39(7):83-90
【目的/意义】基于机器学习算法对信息进行聚类及预测引起了广泛关注,本文将以航空公司客户信息为对 象构建出k-means,BP神经网络模型,对航空用户进行聚类及预测,实现用户的精准营销。【方法/过程】首先,对航 空公司的客户信息进行预处理,并根据信息聚类和信息预测理论,构建出k-means客户聚类模型与BP神经网络的 流失预测模型。【结果/结论】实证结果表明,在聚类模型上,k-means算法将客户聚为五类,实现了不同价值客户的 差异化识别;在客户预测模型上,BP神经网络的准确性更高。【创新/局限】本次研究将LRFMC模型引入到用户聚 类模型的实验中,使得模型泛化能力上存在了一定的局限,但也为该问题的未来研究提供了新的方式。  相似文献   

14.
李法运  农罗锋 《情报科学》2013,(2):34-37,44
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。  相似文献   

15.
16.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

17.
《科技风》2017,(26)
随着基因芯片和DNA微阵列等高通量、短读取、低成本检测技术的发展,从而产生了丰富的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找到全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出了双聚类概念,这种算法从思想上有别于传统的聚类算法,它主要强调在聚类时基因和条件的同时性。目前比较成熟的双聚类算法大约有十七种左右。基于此本文简要调研了现有的三种具有代表性的双聚类算法,系统的分析了每种算法的设计步骤,算法原理,操作环境以及应用。这对于不同的基因数据如何选择更加合适的双聚类算法和软件提供了一定的指导。  相似文献   

18.
[目的/意义]精准识别潜在专利技术组合,将相互关联的技术组成保护范围更大的专利网,对于打破单项专利的局限性、构建更为缜密的技术壁垒具有重要意义。[方法/过程]首先在对关键词与核心IPC进行语义抽取的基础上,筛选出核心专利集合,然后计算基于专利相似性与互补性的专利组合强度,最后利用MCL聚类算法直观、精准地识别潜在专利组合,并以艾滋病疫苗领域专利对方法进行了验证。[结果/结论]该方法以核心专利集合为数据源有效降低了组合识别中的噪音,基于多维度的专利组合强度计算克服了以往组合识别指标的片面性,利用MCL聚类算法无需人为规定簇群数量,保证识别质量。  相似文献   

19.
[目的/意义]进一步挖掘与分析网络问答社区用户信息需求,实现用户信息需求序化组织与聚合,提升网络问答社区服务质量。[方法/过程]融合GMM和Kmeans聚类算法对网络问答社区用户提问问题文本进行用户信息需求挖掘与分析,并采集途牛网络问答社区“北京”话题下的全部问题文本数据进行实证研究。[结果/结论]途牛网络问答社区中用户的信息需求主要分为三类:景点、住宿、出行和周转。文章所提出的网络问答社区用户信息需求聚合方法可以高效地识别出用户信息需求,实现话题下用户信息需求序化和组织,对网络问答社区提升信息组织水平和优化信息服务质量具有一定的参考价值。  相似文献   

20.
王彦慈 《情报科学》2017,35(8):23-27
【目的/意义】当前微博已成为重要的舆论场,针对海量微博信息的舆情难以快速获取的问题,提出一种基 于云计算的微博舆情流式快速自聚类方法。【方法/过程】该方法首先设计舆情最小距离聚类算法,包括构建舆情相 似度计算模型,及构建舆情最佳聚类阈值确定方法;然后构建舆情流式自聚类模型,该模型利用云计算和最小距离 聚类算法在横、纵两个方向聚类舆情信息,得到各主题的舆情集合。在横向上,以云计算的多个计算节点为聚类起 始,同步并行聚类分配到其上的舆情信息。在纵向上,多个计算节点协同、流水线式聚类同一起始节点的舆情信 息;最后在纵向上聚类舆情集合,将同主题舆情集合聚为一类。【结果/结论】实验结果表明:该方法能有效加快微博 舆情获取速度,且具有较高的舆情获取准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号