首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。  相似文献   

2.
本文以十七大、十八大中共党代会报告为文本,自建中、英、俄、三语平行语料库,使用Antconc软件提取出文本中高频实词,通过与LCMC语料库的中、英文高频实词,以及与网络语料库Leipzig中的俄语高频词对比分析,得出主题词;并通过研究中、英、俄文本中的主题词,试分析中共近十年来所关注的问题以及当下所体现的时代的特征。  相似文献   

3.
针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。  相似文献   

4.
本文围绕文本倾向性分析的基本流程进行论述,主要研究了以文本情感分析技术为主的倾向性分析,以主观性文本及客观性文本识别为前提,从特征选择算法和特征加权算法方面对现有文本倾向性进行分析,介绍了算法的推导公式及模型训练代码,重点涵盖了基于机器学习的文本倾向性分析方法,对其算法复杂性、算法效率和适用范围给出了具体的概括和总结.  相似文献   

5.
关键词抽取技术能从海量产品评论文本中挖掘出用户关注的焦点,方便后续为用户推荐合适的产品。经典关键词抽取算法TextRank在迭代计算词汇节点的重要性得分时,忽略了邻近词汇节点的影响力差异。为此,提出一种融合TFIDF与TextRank算法(简称TFTR)抽取评论中的关键词。首先,通过引入用户浏览评论后给出的评论有用性反馈,提高有效评论中出现的重要词语权重,对TFIDF算法进行改进。然后将改进后的词频逆文档频率作为词节点特征权重引入到TextRank算法中,以改进词汇节点的重要性得分分配过程。实验结果表明,相比传统的TextRank算法,TFTR算法提取出的产品评论关键词准确性在P@10标准下提高了15.7%,证明了该算法的有效性。  相似文献   

6.
白云 《海外英语》2012,(13):210-211
主题词和核心主题词分析是一种通过词语分布概率观察文本来研究文本层面词语运用的统计方法。英语学习者在学习VOA时事政治类标准新闻听力时,可以采用主题词和核心主题词分析,以避免听前选取随机任意生词进行预习,并克服所选取生词和听力材料主题的联系不够密切的问题。  相似文献   

7.
针对机器人快速运动时视觉里程计精度严重下降问题,提出基于点线特征的帧间匹配流视觉里程计(PL-FM)算法,以提高机器人在快速运动情形下的定位精度。PL-FM 算法通过对图像的预处理去噪,在特征点提取时引入灰度值权重,从而降低快速运动时光照的影响。将特征点匹配问题转化为向量计算,从而减少匹配时间,在帧间匹配流则采用衰减关键帧计算位姿,从而提高关键帧利用率。通过4 组实验对比,证明 PL-FM 算法误差精度提高 70%,时间效率提高 75%,保证了移动机器人的定位实时性,实现了低误匹配率及较高的定位精度。  相似文献   

8.
针对传统语音识别在多目标情况下识别率较低的问题,从特征参数提取角度,提出一种基于受限玻尔茨曼机(RBM)的特征提取方法。依据不同个体语音信号之间的特征差异提取特征参数,通过梯度上升算法调整网络参数以拟合给定训练样本,通过对比散度算法降低采样达标所需状态转移次数以提高算法效率,再利用重构误差曲线评价受限玻尔茨曼机对训练样本的似然度。实验表明,当隐含层节点个数为30时,参数提取的重构误差低于20%。此时使用改进的BP网络训练,与传统算法相比,综合识别率提高到86.9%,对提升多目标语音识别率具有重要意义。  相似文献   

9.
特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量.  相似文献   

10.
可读性指文本易于阅读的程度或性质,评估对外汉语文本可读性在对外汉语教学中十分重要。文章针对对外汉语文本可读性难以人工评估的问题,提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法。该方法从基础特征、词性特征、等级特征和语法特征这四个维度提取特征,进行特征选择后在训练集上利用随机森林算法训练分类器,并在测试集上证实了该方法的有效性。  相似文献   

11.
对高职教师胜任特征要素的研究是源于高职院校师资队伍建设的需要以及高职院校工作效率提高的需要。通过运用行为事件访谈法对高职教师胜任特征要素的搜集与分析,经过被试与样本的选择、访谈内容的文本分析以及对所得数据的结果分析完成实验过程,得出高职院校教师胜任特征的要素。高职教师胜任特征要素主要有自我控制、赞赏同事、积极主动等,由此得知,高职院校提高教师胜任特征需要学校与教师共同努力。  相似文献   

12.
针对高校科研统计数据集,通过探索性的数据分析,提取出主要影响科研素养的影响因子,在对各影响因子的特征选择的基础上,进行特征值的离散化、数据规约和特征构造等方面的分析。考虑到科研素养的各影响因子中,不同影响因子有着不同的重要性的特点,在AprioIi算法思想的基础上,对各影响因子设定权重值,并将加权关联规则算法,引入到个...  相似文献   

13.
《宜宾学院学报》2016,(6):27-31
剖析了单以颜色直方图作为图像特征会丢失图片空间信息以及单以感知哈希串作为图像特征受均值影响较大的缺点,提出将图片切割方法应用到颜色直方图与感知哈希算法上作为提取图像特征的一种方案.方案分别提取颜色直方图特征以及感知哈希串特征,对这两种特征进行大量的训练后得到比较满意的权重分配,按该权重分配重组为新特征再进行相似图片检索.由于图片存在部分相似,故在检索过程中引入了有限次图片剪切,目的是提取图片的相似部分.实验结果证明:在数据集较小时,两种方式差别不大,但对于比较庞大的数据,采用新检索算法能提高检索效率.  相似文献   

14.
包装设计中的绿色理念探讨   总被引:3,自引:0,他引:3  
根据产业生态学的思想和绿色工程设计的理论,对包装设计的绿色理念,包括产品设计,原材料的提取,产品的制造、包装、销售和使用、用后的回收处置全过程进行了初步探讨。  相似文献   

15.
绿色包装形态设计   总被引:1,自引:0,他引:1  
郑鑫 《闽江学院学报》2012,33(5):135-138
主要探讨绿色包装在设计中的形态表达方法.绿色包装发展迅速,对其设计方式有待进一步的研究认识.从绿色包装形态的材料入手,探究其用做包装造型的多样化选择,并对绿色包装设计的创意思路,包装结构的表现,包装形态的印刷和设计理念的表达等方面做出分析.从具体案例的讨论中探讨绿色包装形态的设计方法与途径.  相似文献   

16.
针对文本分类领域的有监督学习往往需要大量精准标注样本但大量人工标注困难的问题,提出一种新型的半监督学习方式,通过协同训练合理使用大量未标记训练样本,通过添加不同分类的文本特征噪声解决传统协同半监督学习方法中模型参数趋于统一的问题,同时提高分类模型的分类能力。针对传统深度学习方法中文本特征权重一致导致的分类特异性特征不突出问题,在训练模型中加入 self-attention 机制对文本句子特征权重进行提取,并通过句子加权方式突出特异性分类特征。实验结果表明,通过半监督学习方式同时使用少量已标注数据进行训练,模型能够达到 91.4%的准确率,召回率达到 84.3%,与有监督训练方式的分类准确能力相近,从而解决大量人工标注问题,具有一定的使用价值。  相似文献   

17.
检索结果聚类能够有效帮助提高获取信息的效率和质量。针对传统文本聚类模型存在数据维数过高、缺乏语义理解等问题,提出一种面向检索结果聚类的融合共现分析主题建模算法。基于改进的LDA模型,对得到的“文档-主题”概率分布进行聚类分析,采用K-means算法完成聚类过程,最后提出根据聚类中心提取主题词作为类簇标签。实验结果表明,改进的LDA算法在检索结果聚类应用上不仅获得了很好的聚类效果,类簇标签也有良好的可读性。  相似文献   

18.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

19.
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。  相似文献   

20.
对传统的道格拉斯-普克压缩算法进行了分析,指出其存在迭代计算,在面对复杂曲线时可能会出现效率较低的情况。提出了曲线第一特征点概念,并基于第一特征点对传统算法进行改进,既保留曲线的基本形状,又避免在算法中出现迭代,以较小的压缩比性能损失为代价,显著提升了算法的计算效率。通过仿真实例验证了改进算法的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号