首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 952 毫秒
1.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

2.
目前提出的大多数聚类融合算法在策略选择上未能同时兼顾聚类成员的多样性及质量,而且对高维数据的聚类结果均不理想,针对以上问题,本文提出一种改进的投影聚类融合算法,该算法主要在以往经典的投影聚类算法的基础上进行了改进,将投影聚类与分形维数结合,可对高维数据集进行降维聚类处理;而且该算法将选出最优参照成员,并设计出合理的选择策略,对部分优质成员进行选择,以得到一个更加准确的最终结果。高维数据聚类仿真实验结果表明,本文提出的改进的投影聚类融合算法与其他经典数据聚类融合算法相比,提高了聚类的有效性,大大提高了数据融合性能。  相似文献   

3.
研究多源语义特征分层数据库中的大数据聚类方法,实现数据的分类识别。多源语义特征分层数据库中由于路由冲突,在链路负载较大的情况下,不能有效实现对大数据语义特征的并行搜索。提出一种基于增广链同态解析的链路分流方法避免路由冲突,实现增广链修复下大数据并行搜索聚类。构建大数据聚类的语义相似度融合模型,基于跨层链路分流算法实现增广链路分流,进行语义本体模型构建,选择采用高阶贝塞尔函数累积量作为增广链修复检验统计量,确定节点数据包的置信度,确立置信区间,在进行缓冲区溢出修复时,进行功率谱幅度特征提取,实现大数据的并行搜索聚类,进行语义本体模型构建,为离群点新建一个簇,依次对每个文档的主题词集进行处理,将每个主题词自动添加入形式背景的属性集中,采用并行搜索算法实现对语义大数据的优化聚类算法改进。仿真结果表明,采用该算法进行大数据聚类,契合度较高,误分率较低,性能优越。  相似文献   

4.
基于文本聚类与LDA相融合的微博主题检索模型研究   总被引:1,自引:0,他引:1  
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段.其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素.文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型.实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题.  相似文献   

5.
许多现实应用中,由于数据流的特性,使人们难以获得全部数据的类标签。为了解决类标签不完整数据流的分类问题,本文首先分析了有标签数据集对基于聚类假设半监督分类算法分类误差的影响;然后,利用分类误差影响分析以及数据流的特点,提出一种基于聚类假设半监督数据流集成分类器算法(semi-supervised data stream ensemble classifiers under the cluster assumption,SSDSEC),并针对个体分类器的权值设定进行了探讨;最后,利用仿真实验验证本文算法的有效性。  相似文献   

6.
针对城市快速路交通流状态判别的问题,提出了一种基于机器学习的城市快速路交通状态判别方法。本文采用基于遗传算法(GA-FCM)的模糊聚类把遗传算法求解得到的模糊聚类目标函数极值作为模糊聚类的初始值将交通状态划分为顺畅、平稳、拥堵、拥挤四类;根据四类不同的交通状态划分结果,使用支持向量机建立交通状态判别模型。并与单纯使用模糊聚类方法划分交通状态的结果进行了对比分析,最后通过上海某段城市快速路的数据对本文构建的模型完成验证。实验结果表明,使用GA-FCM后分类效率更高,分类准确率98.6111%。  相似文献   

7.
提出一种基于共轭梯度对数分解的大数据分类数学仿真模型。构建基于K-means算法的数据分类目标数据生成模型,采用共轭梯度对数分解方法对大数据集进行规范化处理,构建数据融合适应度矩阵,基于Lagrange定理,全局搜索性寻找聚类中心的最佳值求得聚类目标函数,确定边界隶属度特征的一个初始值,实现对大数据分类模型优化设计。仿真实验表明,采用该分类模型,数据分类寻优性能较好,各类数据的特征分类准确,收敛性较高。  相似文献   

8.
在对最佳任务调度下的Web数据进行优化聚类的过程中,容易出现原始数据损失的情况,导致传统数据优化聚类算法,由于忽略初始数据,无法有效实现Web数据优化聚类。提出一种基于粒子群优化的最佳任务调度下Web数据优化聚类算法,依据任务价值密度以及执行紧迫性,塑造动态优先级,通过适应度函数对分类计划进行评价,给出类间距与类内距计算公式,对相关参数和各粒子的位置以及速度向量进行初始化操作;求出粒子的适应度;求出粒子个体最优与群最优;依据粒子群优化算法的位置以及速度对当前位置和速度进行更新;通过K-means算法对EHCF进行聚类,直至全部Web数据聚类完成。仿真实验结果表明,所提方法在Web数据优化聚类上具有很高的优越性。  相似文献   

9.
随着大数据等概念运用到互联网中,如何针对大数据下的用户行为进行分析成为了研究的热点,本文首先分析了云计算下的Hadoop框架,其次对用户网络行为进行了分析,最后采用基于Web日志挖掘的用户行为聚类方法;(1)构建用户行为的挖掘模型,(2)建立聚类问题优化模型,(3)采用基于混沌的人工蚁群算法对其进行聚类分析。实验说明本文算法具有比较好的聚类效果。  相似文献   

10.
李慧  王丽婷 《情报科学》2018,36(4):45-50
【目的/意义】随着网民规模的扩大以及微博数据的增长,获取微博空间的热点话题是一项有价值的任务。 本文结合微博的特点提出专门针对中文微博的热点话题发现模型。【过程/方法】本文提出利用词项H指数筛选出 热点词项,然后利用BTM建模和VSM建模的结果相融合计算文本相似度,再利用k-means 聚类算法发现微博的热 点话题。【结果/结论】本文在提取特征阶段既考虑了微博词项的热度又考虑了其短文本性,通过实验验证本文提出 的方法有利于发现准确的热点话题。  相似文献   

11.
介绍了Twitter(推特)免费竞争情报可视化工具,包括社会网络探索工具、微博信息聚合工具、文本分析工具和综合分析工具,结合实例阐述了如何利用这些工具获取竞争对手相关信息并进行可视化分析。旨在证明免费竞争情报可视化工具的应用潜力,并为中文微博开发类似产品提供借鉴。  相似文献   

12.
[目的/意义]准确把握公众微博评论中所反映的公众观点并总结舆论焦点,有助于及时获取和引导社会舆情态势,对政府公信力、快速响应能力及执行力提升具有支撑作用。[方法/过程]文章针对当前政府微博评论社会功能发挥的现实要求和其文本特征挖掘的技术需求,从基于深度学习的文本智能语义理解和挖掘出发,提出了适用的细粒度四元组标注策略,构建了政府微博评论观点抽取与焦点呈现的深度学习模型POF-BiLSTM-CRF,即通过细粒度标注策略确定、Word2vec训练词向量、BiLSTM评论特征学习进行标签及其概率输出、CRF学习上下文实现微博评论标注优化,以及观点聚类和主题词提取后最终呈现舆论焦点。[结果/结论]针对"中国警方在线"微博评论的实验表明,文章所提研究框架和模型能够有效进行舆论观点的智能化提取,为快速把握公众观点及为政府决策提供了参考。  相似文献   

13.
陈杰  马静  李晓峰  郭小宇 《情报科学》2022,40(3):117-125
【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在 解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实 验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型, 分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的; 采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征 的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为 79.84%;相较于基于单一文本、图片模 态的情感分类算法,本模型准确率分别提升了 4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融 合方法,本模型准确率提升了 1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创 新/局限】利用 Modal Embedding 和 Self-Attention 机制能够有效的融合多模态信息。微博网络舆情数据集还需进 一步扩充。  相似文献   

14.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。 【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取 方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义 概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验 结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利 用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可 能不合适,会对关键词提取准确性造成微小影响。  相似文献   

15.
To improve the effect of multimodal negative sentiment recognition of online public opinion on public health emergencies, we constructed a novel multimodal fine-grained negative sentiment recognition model based on graph convolutional networks (GCN) and ensemble learning. This model comprises BERT and ViT-based multimodal feature representation, GCN-based feature fusion, multiple classifiers, and ensemble learning-based decision fusion. Firstly, the image-text data about COVID-19 is collected from Sina Weibo, and the text and image features are extracted through BERT and ViT, respectively. Secondly, the image-text fused features are generated through GCN in the constructed microblog graph. Finally, AdaBoost is trained to decide the final sentiments recognized by the best classifiers in image, text, and image-text fused features. The results show that the F1-score of this model is 84.13% in sentiment polarity recognition and 82.06% in fine-grained negative sentiment recognition, improved by 4.13% and 7.55% compared to the optimal recognition effect of image-text feature fusion, respectively.  相似文献   

16.
【目的/意义】微博是公共图书馆进行社会推广、业界交流、用户交互的重要渠道,从社会网络视角分析公共图书馆微博意见领袖的社会网络结构特点及影响力,可为公共图书馆优化微博营销策略、提高自身影响力提供参考。【方法/过程】选取50位公共图书馆微博意见领袖,首先运用社会网络分析方法揭示其社会网络结构特点;其次利用关注量、发文量、粉丝量、转评赞数量分析其活跃情况及影响力。【结果/结论】公共图书馆微博意见领袖地区分布不均衡,联系较紧密,但集中程度较弱;小团体在活跃度、影响力等方面呈现相似性;多数图书馆处于低活跃度、低影响力区间;粉丝量和转评赞数量随着活跃度的提升表现出“低值时平稳波动,高值时迅速增长”的现象。【创新/局限】通过社会网络分析方法在一定程度上掌握了我国公共图书馆微博意见领袖社会结构及影响力。仅从关注量、发文量等客观数据角度分析公共图书馆微博影响力,未来应结合文本分析等方法提高影响力分析的深度。  相似文献   

17.
【目的/意义】以近两年(2018-2019)国内有代表性的四件负面公共安全突发事件为例,对其微博评论进行 聚类,并找出影响微博用户消极情感倾向的因素,为政府进行舆情应对处理提供建议。【方法/过程】结合社会网络 分析法与LDA主题模型对评论文本进行关键要素提取,得出评论归因维度,进而通过情感分析软件对各维度进行 情感倾向度分析。【结果/结论】研究结果表明:微博用户主要从事件主体、事件分析、事件处置、社会关系、新闻媒 体、同理心、个人经验七个方面对公共安全突发事件进行评论,其中,事件分析、事件处置、事件主体、社会关系是微 博用户消极情感倾向的主要影响因素,据此本文提出了相应的舆情疏导建议。【创新/局限】本文基于归因理论,创 新性的提出了影响微博用户情感倾向度的归因维度体系,但舆情事件集中数量有限且未进行更细粒度的情感分类 分析。  相似文献   

18.
赵华  周国民  王健 《现代情报》2015,35(4):65-68
元数据在信息资源发现过程中发挥了重要作用。科学数据元数据也不例外,它为用户发现、评价和再利用科学数据提供了依据。本文在阐述科学数据和科学数据元数据内涵的基础上,对科学数据的用户需求进行了分析,重点分析了用户查找与发现科学数据的过程,此外,本文针对如何完善科学数据元数据提出建议,以促进用户对科学数据的发现和使用。  相似文献   

19.
With the popularity of social platforms such as Sina Weibo, Tweet, etc., a large number of public events spread rapidly on social networks and huge amount of textual data are generated along with the discussion of netizens. Social text clustering has become one of the most critical methods to help people find relevant information and provides quality data for subsequent timely public opinion analysis. Most existing neural clustering methods rely on manual labeling of training sets and take a long time in the learning process. Due to the explosiveness and the large-scale of social media data, it is a challenge for social text data clustering to satisfy the timeliness demand of users. This paper proposes a novel unsupervised event-oriented graph clustering framework (EGC), which can achieve efficient clustering performance on large-scale datasets with less time overhead and does not require any labeled data. Specifically, EGC first mines the potential relations existing in social text data and transforms the textual data of social media into an event-oriented graph by taking advantage of graph structure for complex relations representation. Secondly, EGC uses a keyword-based local importance method to accurately measure the weights of relations in event-oriented graph. Finally, a bidirectional depth-first clustering algorithm based on the interrelations is proposed to cluster the nodes in event-oriented graph. By projecting the relations of the graph into a smaller domain, EGC achieves fast convergence. The experimental results show that the clustering performance of EGC on the Weibo dataset reaches 0.926 (NMI), 0.926 (AMI), 0.866 (ARI), which are 13%–30% higher than other clustering methods. In addition, the average query time of EGC clustered data is 16.7ms, which is 90% less than the original data.  相似文献   

20.
Arabic is a widely spoken language but few mining tools have been developed to process Arabic text. This paper examines the crime domain in the Arabic language (unstructured text) using text mining techniques. The development and application of a Crime Profiling System (CPS) is presented. The system is able to extract meaningful information, in this case the type of crime, location and nationality, from Arabic language crime news reports. The system has two unique attributes; firstly, information extraction that depends on local grammar, and secondly, dictionaries that can be automatically generated. It is shown that the CPS improves the quality of the data through reduction where only meaningful information is retained. Moreover, the Self Organising Map (SOM) approach is adopted in order to perform the clustering of the crime reports, based on crime type. This clustering technique is improved because only refined data containing meaningful keywords extracted through the information extraction process are inputted into it, i.e. the data are cleansed by removing noise. The proposed system is validated through experiments using a corpus collated from different sources; it was not used during system development. Precision, recall and F-measure are used to evaluate the performance of the proposed information extraction approach. Also, comparisons are conducted with other systems. In order to evaluate the clustering performance, three parameters are used: data size, loading time and quantization error.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号