首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
进入大数据时代,中文文本的数据量的显著增加,如何针对大数据量的文本数据进行有效分类是一个重要问题。传统的朴素贝叶斯算法在进行分类时,认为特征属性对分类决策的贡献是相同的,同时对于大数据集的处理也存在性能低下的缺点。针对如上问题,本文提出了一种基于TFIDFCF特征加权的并行化朴素贝叶斯文本分类算法,该算法通过Map Reduce并行框架实现。利用THUCNews新闻文本数据开展文本分类处理,实验结果表明,并行框架下的TFIDFCF特征加权的朴素贝叶斯算法在训练速度和预测精度上都有提高。  相似文献   

2.
文章以豆瓣网站书籍评论为分析对象,采用中文情感词汇本体库进行情感要素的识别与加权,结合朴素贝叶斯算法实现了用户评论文本的情感自动分类,并探讨了该算法的分类效果,研究发现:朴素贝叶斯算法能够实现评论文本的情感分类,分类效果较好,但仍需结合规则匹配和人工校对的方式,提升分类效果。  相似文献   

3.
【目的/意义】网络舆情潜在主题指的是那些具备一旦发表就能吸引媒体和网民关注,进而引发热议或成为 热点这种潜在影响力的网络舆情主题。为发现网络舆情潜在主题,本文提出了一种基于社会网络视角的网络舆情 潜在主题发现方法。【方法/过程】该方法包括基于用户行为关系网络的关键微博挖掘和基于关键词共现网络的潜 在主题抽取两部分。【结果/结论】实验结果证明,该方法不仅能有效挖掘网络舆情中的潜在主题,且识别出的部分 潜在主题会随时间推移逐渐演变为热点主题,起到了一定的预警作用。同时,基于实验结果,总结了医疗领域网络 舆情主题演化模式,为政府、企业应对该领域的网络舆情事件提供了有价值的参考。  相似文献   

4.
[目的/意义]掌握和了解微博环境下高校舆情情感的演化规律,对相关部门加强高校舆情监测监管,使高校适时采取措施应对负面舆情事件的恶性传播具有十分重要的意义。[方法/过程]本文通过文本挖掘并利用词云可视化展示对文本特征进行分析;基于朴素贝叶斯分类器将网络用户评论文本进行情感分类;结合用户情感演化与舆情事件发展周期的分析动态展示高校舆情情感演化图谱。[结果/结论]网民负向情感的占比在舆情蔓延期达到顶峰,中性情感的占比在舆情蔓延期最低,正向情感的占比在舆情周期中几乎没有变化。通过对微博环境下高校舆情情感演化图谱进行研究,为微博环境下高校舆情的研究提供新的理论支撑,在实践层面为舆情监管部门及时监测和有效引导高校舆情走向起到针对性的作用。  相似文献   

5.
朴素贝叶斯分类方法是数据库分类知识挖掘领域的一项基本技术,并具有广泛的应用。使用贝叶斯分类算法实现了对经典数据集Iris的分类。实践表明,朴素贝叶斯分类是一种有效的数据挖掘分类算法。  相似文献   

6.
贝叶斯方法作为一种统计方法通过收集样本的先验信息对有限的样本进行修正。而朴素贝叶斯分类法能简单快捷地做到降水分类,因而得到了广泛地应用。着重解释了朴素贝叶斯分类法的基本思想,并概括了贝叶斯方法在降水等级预报、集合预报中的应用。  相似文献   

7.
基于朴素贝叶斯分类的可疑金融交易识别研究   总被引:3,自引:0,他引:3  
张成虎  高薇 《情报杂志》2006,25(11):46-47,51
随着我国反洗钱活动中大额与可疑交易报告制度的不断完善,面对不断增长的交易报告数据,如何有效地从中检测出可疑交易是当前我国反洗钱工作中面临的核心问题之一。朴素贝叶斯分类是数据挖掘方法的一种,通过对案例数据的训练学习达到对未知类标识的样本分类。基于朴素贝叶斯分类的思想设计了适用于反洗钱中可疑交易识别的贝叶斯分类算法及模型,用数据对该算法进行了实验验证,并提出了与聚类算法相结合的综合运用设想。  相似文献   

8.
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。  相似文献   

9.
在大数据时代背景之下,数据的分类和集成已经成为一种趋势,工业传感网也不例外。然而工业传感网数据有着数据量庞大,数据内容丰富的特点,对其进行人工分类费时费力。因此如何对工业传感网数据进行智能分类是工业领域中非常重要的一个模块。本文针对工业传感网数据的特性,在原有朴素贝叶斯算法(NB)的基础上,引入特有属性和公有属性的概念,并对两类属性赋予不同的权重,提出了一种基于特有公有属性的朴素贝叶斯(S-P-PNB)改进算法,并且用能够代表工业传感网数据的不同家电测试数据来进行实验。通过多次实验表明,该算法的改进能够有效提高不同家电测试数据的分类正确率,为其后续的数据集成做了铺垫,也为工业传感网数据分类提供了一种新的可行性算法。  相似文献   

10.
本文论述了Webshell的特点和工作原理,分析了采用混淆加密编码技术的Webshell与传统的Webshell的区别,提出了一种基于朴素贝叶斯分类的Webshell检测模型。该模型能有效得检测出经过混淆编码的Webshell,提高了检测的正确率。  相似文献   

11.
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法.该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法.基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量.考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序.实例验证了该方法的有效性.  相似文献   

12.
[目的/意义]旨在提出一种基于领域词典的突发公共安全领域舆情事件自动识别方法,有效识别公共安全领域的热点舆情事件,预防危机舆情事件,提高政府公信力。[方法/过程]首先以中国应急服务网中的公共安全事件语料为数据来源,提取并筛选公共安全领域的高频词汇;然后结合人工干预方式选择部分高频且与领域高度相关的种子词;随后以互信息方法计算种子词与语料中的其他词汇共现概率(点互信息),同时以与种子词具有较高点互信息的词汇作为领域候选词,并结合人工审核方式对候选词汇进行调整。最后在对待识别语料进行文本表示的基础上,将其与词典中的领域词汇进行匹配,并以语料中出现的公共安全领域词汇的数量和权重来判断待识别语料是否为突发公共安全舆情事件。[结果/结论]在标注语料上的实验结果表明,与经典的Naive Bayes方法相比,提出的方法能够有效提高公共安全领域热点舆情事件的识别准确率。  相似文献   

13.
The explosion of online user-generated content (UGC) and the development of big data analysis provide a new opportunity and challenge to understand and respond to public opinions in the G2C e-government context. To better understand semantic searching of public comments on an online platform for citizens’ opinions about urban affairs issues, this paper proposed an approach based on the latent Dirichlet allocation (LDA), a probabilistic topic modeling method, and designed a practical system to provide users—municipal administrators of B-city—with satisfying searching results and the longitudinal changing curves of related topics. The system is developed to respond to actual demand from B-city's local government, and the user evaluation experiment results show that a system based on the LDA method could provide information that is more helpful to relevant staff members. Municipal administrators could better understand citizens’ online comments based on the proposed semantic search approach and could improve their decision-making process by considering public opinions.  相似文献   

14.
李江华  时鹏  郑剑 《情报杂志》2012,31(7):187-190
本体表示领域知识,语义Web的发展使得本体被广泛的应用,如何评价本体对领域知识的表达能力是一个亟待解决的问题.笔者分析了影响评价本体表达领域知识能力的因素,提出了一种基于语料的本体评价方法,从本体对语料的术语覆盖率、关系覆盖率、关系扩充率和实例扩充率四个方面进行综合评价,实验表明,该方法对于给定的领域语料能够有效地评价本体的表达能力.  相似文献   

15.
As a hot spot these years, cross-domain sentiment classification aims to learn a reliable classifier using labeled data from a source domain and evaluate the classifier on a target domain. In this vein, most approaches utilized domain adaptation that maps data from different domains into a common feature space. To further improve the model performance, several methods targeted to mine domain-specific information were proposed. However, most of them only utilized a limited part of domain-specific information. In this study, we first develop a method of extracting domain-specific words based on the topic information derived from topic models. Then, we propose a Topic Driven Adaptive Network (TDAN) for cross-domain sentiment classification. The network consists of two sub-networks: a semantics attention network and a domain-specific word attention network, the structures of which are based on transformers. These sub-networks take different forms of input and their outputs are fused as the feature vector. Experiments validate the effectiveness of our TDAN on sentiment classification across domains. Case studies also indicate that topic models have the potential to add value to cross-domain sentiment classification by discovering interpretable and low-dimensional subspaces.  相似文献   

16.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

17.
姜华 《情报科学》2008,28(11):1685-1688,1698
基于本体基础提出相似度和相关度分析,以充分挖掘领域本体所提供的背景知识,通过语义推理将描述的隐含语义显式化,提供计算机被描述资源的可理解语义.设计了实现该方法的Web信息检索模型,实验表明该方法能提高查准率和查全率.  相似文献   

18.
李嘉  张朋柱 《情报科学》2012,(7):1076-1083
言语行为分析是网络舆情分析中一个重要的环节,对于机器大规模自动分析、识别和刻画网络舆情具有重要意义;矛盾冲突则是网络舆情监管需要重点关注的一类任务。以网络舆情的冲突类言语行为分析为例,初步尝试建立了一个适合中文网络论坛环境的冲突类言语行为分类体系。同时提出了相应的自动化分类算法,并比较不同特征集(提示词、n-grams、句法特征和结构特征)解决分类问题时的效果。实验结果表明,本文所提方法可以获得一个较为满意的分类效果,同时也证实新引入的句法特征和结构特征在解决言语行为分类问题上具有积极作用。  相似文献   

19.
[目的/意义] 探索一种融入数据驱动思维的人文社科专题数据库建设主题选择方法,为相关主体在建库主题的遴选、比较和确定等工作提供决策参考。[方法/过程] 从政策、用户两个维度出发,提出基于政策文本与检索数据的人文社科专题数据库主题筛选框架。以Fulink平台为例,基于政策文本LDA主题分类建模和检索数据的词频统计归类,确定专题数据库建设备选主题,最后通过比对筛选将主题进行分类。[结果/结论] 本文构建的主题选择框架,能够有效提升相关主题选择工作的全面性、准确性、科学性,为人文社科专题数据库建设的项目规划等提供了良好的思路。  相似文献   

20.
一种基于本体的语义标引方法   总被引:4,自引:0,他引:4  
传统的采用主题词和关键词对文档进行标引的方法,由于不能提供语义推理而越来越不适合目前的网络环境。由于本体具有良好的概念层次结构和对逻辑推理的支持,在信息检索领域将有很大的应用价值。本文首先介绍本体的基本概念和领域本体的组成部分,然后提出了一种基于领域本体的语义标引方法,采用本体中的概念对文档进行语义层面的标引,为检索的智能推理提供基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号