首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。  相似文献   

2.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

3.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

4.
文本聚类综述   总被引:1,自引:0,他引:1  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。本文首先讨论了文本聚类(Text clustering)的应用,然后对文本聚类算法、聚类关键技术进行了综述。  相似文献   

5.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。  相似文献   

6.
为提升抽取短文本关键词的准确率和召回率,并发掘出文中未出现但能很好表达短文主题的关键词,提出一种短文本关键词抽取及扩展方法。该方法在关键词抽取时,考虑了词的统计特征、主题特征及词搭配特征等多种特征,分步对词的评分进行修正,最终得到较为准确的关键词。关键词扩展时,通过计算抽取出的关键词与主题特征词之间的相似度,扩展出能够较好反应短文本主题的扩展关键词。考虑主题特征及关键词扩展时,需要有主题相关性较强的长文本语料库辅助。有相关性较强的长文本语料库时,该方法有较好的表现。  相似文献   

7.
以微博作为研究对象,针对微博类短文本数据的特点,从情感的角度出发,提出基于情感分析的舆情演化分析。该方法以文本的情感值作为特征对微博数据进行时间分片,然后使用DTM模型对分片后的数据进行话题演化分析。实验表明,该方法能较好地划分微博数据,有效地找到舆情变化的时间点。  相似文献   

8.
由于SIFT特征点能对图像局部特征进行合理、精确描述,有效使用SIFT特征点实现基于内容的图像检索成为当前计算机视觉领域中的热点问题。针对该问题,提出一种基于SIFT特征点的改进聚类的图像检索新方法。该方法包括图像颜色转换、特征点改进聚类算法,以及基于该算法的更有效的灰度直方图构建方法。与现有基于流光法的检索方法相比,该方法能有效解决聚类后特征点分组不确定和依赖特征点颜色信息和空间信息权重的问题。从公共图像库上的实验结果可以看出,该方法与现有方法相比具有较高的检索精度。  相似文献   

9.
研讨系统会产生大量的专家发言文本信息,对发言文本进行聚类分析并可视化展现聚类结果,可以引导专家思维,提高研讨效率。提出一种基于聚类的研讨文本分析及可视化方法。首先对专家发言文本进行分词,提取专家发言文本向量;再采用聚类算法对专家发言文本进行聚类分析,得到不同发言簇;最后在基于Web的研讨系统中实现研讨文本聚类,并采用D3方法对聚类结果进行可视化展现。实验结果表明,该方法能有效展现专家发言之间的相似性和聚集度,引导专家思维收敛并达成共识。  相似文献   

10.
针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。  相似文献   

11.
一种基于向量空间模型的文本聚类方法   总被引:3,自引:0,他引:3  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

12.
为解决集中式服务发现结构存在的性能瓶颈问题,基于领域本体语义信息,提出一种能自适应地调整领域划分、分配系统资源的分布式web服务发现体系结构,并分析了该结构的可扩展性、自组织性和自适应性.具体描述了该结构下的语义web服务发现算法的2个阶段:语义注册中心定位和基于输入输出的服务匹配.在注册中心组成的平衡树拓扑结构中,注册代理能够快速将请求转发至目标注册中心,避免产生性能瓶颈.然后,通过引入一种新的基于语义距离的服务匹配算法来进行服务查询效果优化.模拟实验结果表明:提出的服务发现方法具有高可扩展性的优点;与其他服务查询算法相比,服务匹配算法具有更高的查全率和查准率.  相似文献   

13.
为及时从海量微博信息中迅捷有效提取出微博热点话题、事件,提出基于频繁集的聚类SSDKmeans算法,在有限空间下统计分词的近似频数,并在此基础上构建文本向量空间模型,在聚类生成的每个话题簇中提炼话题关键词。通过对2万条微博数据进行有效性验证,结果表明,基于SSDKmeans算法的话题发现有较高的召回率和精准率,分别为91.3%、92.1%。SSDKmeans算法能够有效提高微博热点话题发现率,进而及时了解社会热点话题与舆论趋势。  相似文献   

14.
为解决基于服务质量的服务选择,提出了一个多属性群决策算法.该算法通过使用Borda社会选择函数集成了多种具有不同原理用于计算不断变化的服务质量方法的结果,从而增强了服务选择的可靠性.实验结果表明该方法具有较好的可扩展性,从而能适用于大规模的分布式服务计算环境;同时相比于随机和轮转服务选择策略,所提出的基于群决策的服务选择策略具有更优的性能,它能够有效地优化服务选择.该算法不仅仅是增加了一种用于获取不断变化的web服务质量的方法,而是建立一个具有多层知识的综合信息体,从而保障了服务选择的正确性.  相似文献   

15.
基于Web挖掘的个性化信息服务系统的设计   总被引:1,自引:0,他引:1  
W eb挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。本文探讨了W eb挖掘的基本流程,提出了一种基于W eb挖掘的图书馆个性化信息服务系统实现方案。  相似文献   

16.
为提高服务匹配对请求多样性和服务能力描述差异性的适应能力,提出了一种基于时态逻辑模型检验的适应性服务匹配方法——ASMA.该方法基于一个抽象服务模型ASM-TL,ASM-TL包含了影响服务匹配的服务内部约束和调用约束等重要因素,以及一个描述服务行为属性的虚拟过程模型.ASMA将服务请求统一描述为一种时态约束条件,基于ASM-TL将服务转换为一种时态模型,并引入模型检验的思想进行服务匹配.因此,ASMA可提高服务匹配的准确度,并很好地适应服务请求的多样性和服务能力描述的差异性.该方法已应用到生物信息领域的问题求解环境(PSE)中.应用表明,该方法对动态环境具有良好的适应能力.  相似文献   

17.
针对目前的工作流管理系统存在的问题,本文在传统工作流管理系统和目前流行的Web服务技术的基础上,提出了基于Web服务的工作流体系模型,该模型在传统工作流体系模型的基础上,引入Web服务。Web服务在Internet分布式环境下的动态发布、发现和集成应用的特点,能够很好地解决工作流程缺乏柔性,相互之间无法互操作,不能及时响应变化等缺点,提高了工作流程执行效率和服务质量,大大提高工作流系统的应用范围,促进了工作流管理系统的发展。  相似文献   

18.
针对UDDI关键字匹配带来的服务发现精度低,以及难以从功能相同的多个web服务中选择合适服务的问题,提出一种新的面向业务领域的web服务发现方法和相关框架.当用户请求服务时,根据功能请求从实际服务中抽取出服务簇,然后由业务信息属性等非功能性属性进行协商,确定出适合的服务并与用户请求绑定,而整个发现过程对用户来说都是透明的.通过建立一个基于旅游领域的原型系统IPVita来测试和支持此框架.  相似文献   

19.
本文研究了网络环境下图书馆的特点,提出了一体化的服务、提供24小时全天候网上服务、服务方式自主化、实现文献检索的全球化、实现更广泛的资源共享是网络环境下图书馆的读者服务工作的新特点,提出了提高图书馆信息服务水平的思考。  相似文献   

20.
根据用户对利用模糊免疫网络记忆分类器的Web服务Qos评价模型提出的功能需求、应用的领域及Qos约束,自动选择出能够反映该功能服务质量属性的评价因子。提出新的人工免疫分类算法—FAINMC,利用该算法对大量的Web服务实现准确、高效的分类。根据每类记忆细胞反应的特征得到和类型相对应服务等级,使用模糊隶属度和百分法得到了反应Web服务质量优劣评价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号