首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 108 毫秒
1.
在国内外的研究基础上,结合安徽特有的基本情况,根据安徽省“1+6”政策体系,建立了一套高新技术 统计指标体系。以最大依赖性、最大相关性和最小冗余为准则建立模型,选择过滤式特征选择方法的代表算法之一 mRMR来选择特征子集,在众多指标中抽取关键指标,并利用数据挖掘中聚类分析方法挖掘指标间潜在的关联性,提 出高新技术产业增加值和高新技术企业培育情况是影响一个地区高新技术产业运行情况的重要指标。  相似文献   

2.
文本分类中的特征降维方法综述   总被引:42,自引:7,他引:42  
陈涛  谢阳群 《情报学报》2005,24(6):690-695
文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围。  相似文献   

3.
[目的/意义]以用户情感为线索的图像检索已成为机器学习研究的热点,但图像情感特征标注的语料数据多来源于对图像低层特征的抽取,从而导致图像检索过程单一化和程式化。本文提出了一种基于深度学习的图像情感特征抽取的算法,将图像底层特征融合到图像的高层情感语义当中,为实现图像的情感语义检索提供了参考。[方法/过程]利用改进的卷积网络模型,将数据集图像的颜色、纹理作为输入,经多层运算自动提取图像的情感信息,并通过反向传播算法计算出改进后模型的情感检索准确率,构造出准确率较高且过拟合程度低的图像情感特征提取模型。[结果/结论]应用改进的卷积神经网络模型,实现了对图像情感特征的抽取,相较于原模型提升了10%的检索准确率。  相似文献   

4.
文本分类中一种基于选择的二次特征降维方法   总被引:4,自引:2,他引:2  
特征选择和特征抽取是文本分类中特征降维的主要方法.目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果.本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的.对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好.  相似文献   

5.
[目的/意义]面对高校信息呈现碎片化的趋势,提出高校信息碎片化整合流程,并应用随机森林算法构建高校信息碎片化整合的特征选择模型。[方法/过程]基于高校信息整合的发展现状与存在问题,分析随机森林算法原理及优势,将其运用到高校信息碎片化整合过程的特征选择模型中,并以高校贫困生认定为例,对该模型加以验证。[结果/结论]随机森林算法在高校信息整合特征选择上表现出较高的准确性和有效性,为高校信息碎片化整合提供了一种新的思路。  相似文献   

6.
利用改进的信息增益特征选择的方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,利用向量空间模型和信息增益特征降维方法,构造文本特征向量,并最终利用C-均值方法聚类,聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。  相似文献   

7.
提出一种具有特征级别的领域特征集合的情感资源挖掘方法,将基于HowNet词典的分类法构建的情感特征与基于机器学习的特征分类方法中的无内容特征以及领域特征相融合,并将该集合放入支持向量机中进行情感分类实验,实验结果表明,使用抽取模式以及多特征融合的分类方法,可增强中文情感分类效果,验证两种分类方法综合研究的正确性与有效性,弥补目前特征级别的中文情感分类研究的不足.  相似文献   

8.
社交媒体虚假健康信息特征识别   总被引:3,自引:2,他引:1  
[目的/意义] 识别社交媒体虚假健康信息特征,构建社交媒体虚假健康信息特征清单,以期为社交媒体虚假健康信息特征的测度提供一定理论支撑,也为用户和社交媒体平台判别虚假健康信息提供有益参考。[方法/过程] 采集1 004条社交媒体健康数据,利用程序化编码抽取社交媒体虚假健康信息的关键特征,运用卡方检验和方差分析揭示社交媒体虚假健康信息的显著特征,并构建社交媒体虚假健康信息特征清单。[结果/结论] 研究结果表明,社交媒体虚假健康信息特征具有表面特征、语义特征和来源特征3个维度、11个主要特征以及29个子特征。其中,社交媒体上食品安全主题的虚假健康信息在"术语包装"特征上表现得更为显著;"夸大事实"为社交媒体上常见疾病主题虚假健康信息的显著特征;社交媒体上养生保健主题的虚假健康信息具有"元数据缺失"和"假借权威"显著特征。  相似文献   

9.
杜雪  刘春茂 《图书情报工作》2015,59(11):119-126
[目的/意义] 针对网络中出现的信息偶遇的现象, 分析哪些个人因素会对网络信息偶遇发生的概率、个人行为及认知造成影响, 从而有针对性地改变查询策略以达到信息获取效益最大化。[方法/过程] 采用实验法与问卷调查相结合的方法来探索个人特征对网络信息偶遇的影响因素。[结果/结论] 理科类专业、在职人员更容易发生信息偶遇;男性、大专学历人员在发生网络信息偶遇时更偏向于关注偶遇的信息并且选择分享、保存、使用偶遇的信息;理科类用户更加认同在网络浏览中或者在网络与他人进行交流时是较易发生信息偶遇的情形。检索系统可以根据用户个人的一些特征来积极创造环境促使信息偶遇发生, 以增加信息偶遇概率。  相似文献   

10.
中外情报学论文创新性特征研究   总被引:1,自引:0,他引:1  
[目的/意义] 综合运用定性与定量相结合的方法对近年中外情报学论文的创新性进行分析和对比,揭示情报学领域研究的创新性特征,发现领域学术论文中创新句内部的知识关系,进行更细粒度的论文创新性分析,为研究领域创新点深层次利用提供条件,同时丰富科技论文创新性监测的途径,促进科学研究创新。[方法/过程] 从句子级创新性识别出发,选取中英文各两种情报学期刊作为样本,采用信息抽取和机器学习的方法,将创新句的抽取从现有的摘要扩展到全文,充分利用句子结构和句法特征识别领域创新内容,探讨近年中外情报学论文在创新对象、主题、类别等方面的特征,并做对比分析,最后通过对自动分类的论文集合进行定性的内容分析,总结归纳出中外情报学论文创新的表达范式。[结果/结论] 从创新的表达来看,中外情报学论文创新句的分布情况基本一致,英文期刊论文创新的表达更丰富。从创新性特征来看,英文情报学期刊论文创新主题较集中,而中文主题多样和分散;具体方法的创新是近年情报学领域的创新热点,而在研究方法上创新不足;中英文情报学期刊论文的创新性特点都反映了应用研究、实证研究的成果较多,而理论创新推动缓慢的趋势。  相似文献   

11.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

12.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%.  相似文献   

13.
《Journalism Practice》2013,7(3):319-334
Many studies reveal that quality journalistic writing in the form of well-written feature stories is one of the few true journalistic tools that help newspapers in their struggle against declining readership. In Slovenia, however, there is little acknowledgement of this. Academic research illustrates that readers want well-written sophisticated feature stories, but they are offered poorly written elementary feature stories. One of the reasons for this discrepancy might be the tradition of the latter in Slovene press; besides few practising journalists are familiar with the theory of journalistic forms, and most of them are not aware of the advantages of quality, sophisticated feature stories. Feature stories are undervalued in Slovene press to such an extent that as a genre they are rarely examined in commercial readership surveys. Thus, the readers’ preference for them remains vague and ambiguous. Such surveys do not help the newspaper publishers determine what kind of articles their readers really want and in what form/genre they want them.  相似文献   

14.
一种混合文本分类方法研究   总被引:1,自引:0,他引:1  
文本自动分类是信息检索领域的一个重要研究方向。一些标准的机器学习算法像支持向量机已经成功地运用到了这一领域。不幸的是高维的输入向量严重的影响了分类速度,而支持向量机核函数参数的确定影响到分类的精度。为了提高分类精度和分类速度,本文提出了一种混合分类算法,首先用粗糙集理论对向量进行约简,然后采用基因算法对支持向量机的核函数参数进行优化。实验证明我们提出的算法是有效的。  相似文献   

15.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。  相似文献   

16.
尽管目前存在许多文本特征选择方法,但是它们都有着一定的局限性。提出一种新的基于群体增量学习(Population Based Incremental Learning)算法的文本特征选择方法,其特点是无需特征集的先验知识和容易实现,并且由于使用了简单分类器性能作为评价准则,计算复杂度很低。对Reuters-21578文本集的分类实验结果表明,该方法平均分类性能要优于卡方统计量、信息增益和简单遗传算法三种常用的特征选择方法。  相似文献   

17.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

18.
停用词表对中文文本情感分类的影响   总被引:6,自引:2,他引:4  
王素格  魏英杰 《情报学报》2008,27(2):175-179
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号