首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基金项目评审管理中智能交互式文档检索   总被引:4,自引:0,他引:4  
讨论了非结构化文档信息的检索模型,分析了传统交互式信息检索方法,提出了面向基金项目文档查询的智能交互式信息检索过程和处理流程。基于用户评价项目文档的反馈信息,采用ID3算法、CLCC算法和SVM分类函数分别学习用户查询的潜在意图和目标,并应用所学习的规则知识或分类函数支持项目文档查询。以某基金评审管理中项目文档的查询为例进行了实验计算与分析。  相似文献   

2.
针对传统的异常信息流检测方法的不足,设计了一个异常信息流检测模型,该模型采用了数据挖掘中的决策树算法对信息流进行归纳分类,采用信息增益作为分类属性选择标准来构造规则决策树,针对网络流量进行分析,能提高检测速度.开辟了一条检测异常信息流的新途径.  相似文献   

3.
针对网络舆情安全应用中主题分类问题展开研究。主题分类需要解决5个问题。建立了网络舆情安全应用的分类体系;介绍了文档特征提取和选择方法;分析了向量空间模型;实现了KNN和SVM两种分类算法。验证了方法的实用性。  相似文献   

4.
介绍了一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。  相似文献   

5.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

6.
基于SVM的多类文本分类研究   总被引:9,自引:0,他引:9  
基于统计学习理论.构建了SVM文本分类模型,并给出了模型参数的100自动选择算法,解决了以往参数靠经验确定的弊端。传统的文本分类系统不能处理一篇文档同属多类别的情形,论文将该情形归结为多类文本分类问题,提出二叉决策树SVM模型,并就农业机械化工程文档进行了实证分析。结果表明,该算法具有较好的分类效果。  相似文献   

7.
【目的/意义】随着互联网在社会中的影响力逐渐增大,面对网络群体性事件对社会生活的冲击,需把握网 络群体性事件的演化规律,确定事件类别,提炼事件特征,基于不同类别的网络群体性事件,提出有针对性的应对 措施。【方法/过程】通过LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,最终运用 SVM算法进行网络群体性事件聚类分析,得到五类网络群体性事件。【结果/结论】构建的网络群体性事件动态识别 模型,通过大量的文本训练,在事件聚类数为5时具有良好的解释性,完成了网络群体性事件的客观分类,分别为: 经济型、社会型、文化型、民族型和环境型,为政府分类应对策略提供依据。【创新/局限】利用 LDA主题模型和 Kmeans算法,减少了模型的迭代次数,确定最佳主题数,提高了网络群体性事件识别结果的准确性,但是运用慧科新 闻数据库搜集到的文本数据范围有限,且分类结果反应的事件特征具有一定局限性,后续研究可进一步扩大动态 文本数据库,对分类算法进行改进和深化。  相似文献   

8.
洪亮 《科技广场》2009,(7):35-37
对五种特征选择方法:文档频率、互信息、信息增益、期望交叉熵、统计作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、F1值对五种特征选择方法分别进行评估,提出并讨论了一种互信息修正的方法.  相似文献   

9.
张冰波 《大众科技》2010,(10):43-45
为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。  相似文献   

10.
王红 《情报理论与实践》2006,29(5):629-631,523
为了提高信息查询的效率,本文将自适应谐振神经网络引入中文文档搜索分类之中。在讨论自适应谐振神经网络基本原理的基础上,提出一种新的中文文档的层次聚类算法,从而提高中文文档的分类识别效率。  相似文献   

11.
王磊 《现代情报》2018,38(10):132-141
从推文内容分类角度开展高校图书馆微信公众平台推文主题传播研究。首先引入机器学习中LDA文档主题生成模型进行微信公众平台推文的主题聚类,之后通过设计针对性算法——主题传播指数(Topic Communication Index,TCI)对微信公众平台推文的不同主题开展传播效果量化分析,并从信息接受、认同角度尝试性地分析了造成主题内传播效果差异的原因。最后根据研究结果得到适合高校图书馆微信公众平台运营的建议。  相似文献   

12.
黄倩 《现代情报》2005,25(4):188-191
采用基于均值和方差的文档分类。本文建立了一种新型概念网络模型。在此基础上。采用智能检索接口。建立了基于概念网的智能信息服务系统。系统依靠后台的概念网络。处理信息的收集和检索请求。将文档进行自动分类和关联。从而有效、合理的组织文档。在接收到用户的查询请求时。系统通过对用户查询意图的理解。过滤与用户查询意图不相关的文档。从而有效提高查询精度。试验表明。该系统能大大提高用户的检索效率和准确度。  相似文献   

13.
何学文  张磊 《大众科技》2012,14(3):16-17
对识别后的语音文档进行了向量空间模型的建立,针对得到的高维稀疏矩阵提出了基于局部敏感哈希的语音文档分类算法,算法能够直接在高维稀疏矩阵上进行分类,无需降维。此外,在构建局部敏感哈希函数的时候结合了稳定分布。实验证明,局部敏感哈希算法能够对语音文档进行合理有效的分类,同时获得了较小的时间复杂度。  相似文献   

14.
为了实现对发生在互联网微博上的热点事件进行监测和追踪,文章设计一种微博热点事件追踪的应用系统.该系统可以通过对微博页面数据的采集,以及页面的转发次数和关联性的分析,实现对微博热点事件的识别和追踪,仿真结果表明:该系统采用的算法精度较高,匹配模型工作效率高,能够有效地追踪事件的发展状况,达到全面、准确地对微博中的热点事件进行追踪的目的.  相似文献   

15.
针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。  相似文献   

16.
桂思思  徐健 《情报科学》2021,39(11):90-95
【 目的/意义】针对查询意图歧义性自动识别,探讨特征有效性及采用不同分类算法识别三类查询意图歧义 性的分类准确率,以期对后续研究提供借鉴与指导。【方法/过程】首先提出了一个面向查询意图歧义性的查询表达 式分类体系;随后,构建了查询表达式特征及相关文档特征共六类;最后,分别采用决策树算法、神经网络算法及k 最邻近算法,探讨采用不同特征组合的有效性及不同分类算法的分类准确率。【结果/结论】①分类准确率较基准实 验提升比例为49.5%;②使用查询表达式特征分类优于使用相关文档特征;③决策树的分类准确率略高于其他两类 分类算法。【创新/局限】构建了一个面向查询意图歧义性的查询分类体系;完成了面向三类查询意图歧义性的分类 任务;然限于数据集获取途径,仅对200数据验证。  相似文献   

17.
陈晶 《大众科技》2010,(1):55-56
基于词片网格的语音文档主题分类,为了从网格(lattice)多候选中得到语音文档主题分类召回率更高,提出了在lattice音节网格上直接提取词片,并且在处理语音词片的同时,将非负矩阵分解方法引入语音文档主题的分类。该方法避免了语音识别率低所导致的语音文档主题分类准确性的降低。实验结果表明:当N-best的召回率为91.66%时,基于混淆网络的关键词检出系统的召回率为96.67%,当SVD的F1值为83.38%,NMF的F1值为96.944%。  相似文献   

18.
为了给教育研究和管理提供可靠的决策支持,对网络信息进行分类处理就成为了一种需要。鉴于TFIDF对短文本分类存在的缺陷,本文采用基于迭代的TFIDF算法对文本向量进行了优化。试验结果表明,基于迭代的TFIDF算法可以有效提高短文本文档分类的准确率。  相似文献   

19.
针对C4.5算法在构建决策树过程中将条件属性与决策属性之间的信息增益率作为选择分裂属性的标准,而未考虑条件属性间相关性对结果影响这一缺点,提出了一种修正信息增益率的改进算法。首先计算当前分裂属性与各个条件特征间的平均信息增益,将其作为计算修正信息增益率的影响因素之一;然后使用高等数学中Taylor中值定理和Maclaurin公式的近似式,对修正后的信息增益率公式进行去除对数化简。将改进后的算法分别同原始算法和其他优化算法进行仿真实验,对比结果表明,本文改进后的C4.5决策树算法既提高了平均分类准确率,同时又提高了算法运行效率。  相似文献   

20.
杨镇海 《情报科学》2004,22(8):975-978,981
本文对比了信息模型和编程模型的四层体系,提出了从文档模式(DTD或Schema)到UML模型的映射规则.并在基于NewsML的新闻发布软件开发中得到了应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号