首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 265 毫秒
1.
传统基于统计的命名实体识别方法存在需要大量人工标注的缺陷,导致识别准确率较低。为了提升识别效果,提出一种基于条件随机场的半监督学习方法(S-CRF)对命名实体进行识别。该方法将实体识别看作序列标注问题,对少量数据进行人工标注并构建实体集,通过K-means聚类算法选取有代表性的未标注数据文本进行自动标注,采用条件随机场对语料进行训练测试。选取中文应急预案文档进行实验,该方法在各个标签上的识别效果分别达到93.52%、93.04%、95.81%。实验结果表明,该方法优于传统规则方法,能有效提高应急预案命名实体的识别效果。  相似文献   

2.
问答系统是自然语言处理领域一个非常热门的研究方向,问题分类是问答系统非常重要的环节。传统问题分类需要人工制定特征提取策略并不断优化特征规则,该方法准确率不高且费时费力。传统卷积神经网络模型先通过卷积核提取能表示问句特征的向量,再经过max-pooling后得到一个特征值,并未考虑句子的结构信息,在训练时容易发生过拟合。针对上述问题,采用分段池化操作,引入句子结构信息,在不同分段上提取句子的主要特征并加入Dropout算法,提高模型的泛化能力,防止模型过拟合。实验结果表明,该方法能提高模型准确率,在TREC 6分类问题数据集上准确率高达89.2%,在银行57分类数据集上准确率也达到了64.5%。  相似文献   

3.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

4.
针对商品图像句子标注中图像特征单一、关键词受噪声干扰等问题,提出一种聚焦图像特征学习和关键词摘取的商品图像句子标注模型.从梯度、形状和颜色3个角度抽取图像核特征,并在多核学习模型内进行后融合.利用tag-rank模型中的绝对排序和相对排序特征提升关键词权重,设计词序列拼积木算法把关键词拼装成N元词序列.基于N元词序列和模板生成句子.实验表明:句子的BLEU-1和BLEU-2评分优于对比模型.  相似文献   

5.
传统的基于支持向量机的文本分类器需要大量的人工标注的正类训练文档和负类训练文档。当前流行的文档标注库中,文档通常仅仅是划入不同的类别。为了解决在负类训练数据缺乏的情况下建立文本分类器的问题,提出了一种高效的方法,它结合了Rocchio方法和K均值聚类算法来获取充足的负类训练数据。  相似文献   

6.
针对视觉跟踪中运动目标的鲁棒性问题,提出一种基于卷积神经网络结合稀疏自动编码器的特征提取方法进行图像目标跟踪。该方法首先将大量有标注数据集输入到卷积神经网络进行预训练,然后使用这些卷积特征无监督的训练稀疏自编码器得到稀疏特征,并利用该特征对目标进行描述。最后结合两种经典的跟踪方法,采用Meanshift与卡尔曼滤波对目标进行实时跟踪。结果表明,利用深度学习模型代替以往人工提取特征的方式能够更好地描述目标模型,对光照变化、尺度变化、遮挡等都具有良好的适应性,以及较好的实时性。  相似文献   

7.
在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。  相似文献   

8.
为了保证公共安全,身边的摄像头越来越多,在录像监控视频中提取有效信息也变得日益困难。针对该问题,提出一种新的基于无监督学习的图像匹配算法。该算法无需像以往算法一样,需要大量人工标注的数据,而是通过观看视频即可完成训练,从而节约了大量时间成本。利用图像匹配算法,可以将视频中无效与相似内容进行浓缩,以提炼出有效内容。该算法在MPI-Sintel与KITTI集上进行了测试,APE分别为4.695与5.838,Accuracy@30分别为0.993与0.967,达到了较为理想的效果。  相似文献   

9.
地裂缝需要被持续监测,但是地裂缝探测仍需人工实地勘探,因此自动地裂缝提取具有重要意义.为此,该文提出一种深度学习模型,利用无人机影像自动提取地裂缝,该模型针对地裂缝相对其他地物具有细长结构的特征,设计了地裂缝提取网络;针对人工准确标注地裂缝蜿蜒曲折的形态费时费力等特点,设计了一种弱监督的方法对人工标签进行优化,改善人工...  相似文献   

10.
SVM(Support Vector Machine,支持向量机)是由Vapnik等人提出的一种新的机器学习方法。以结构误差理论、条件二次优化理论与核空间理论作为理论基础,能够较地的解决机器学习的问题,如模型选择、过学习、非线性问题和灾难维数等,很适合应用在文本分类领域。针对文本分类技术的新问题,研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习算法,很好地解决了小规模标注样本集的分类问题。该方法尤其在难以获得大量类标签或者标注样本耗费较大的领域,更能显示出它的优越性,适合日新月异的互联网的应用。  相似文献   

11.
特征选择是避免维度诅咒的一种数据预处理技术。在多变量时间序列预测中,为了同时找到与问题相关性最大的变量及其对应时延,提出一种基于多注意力的有监督特征选择方法。该方法利用带有注意力模块和学习模块的深度学习模型,将原始二维时间序列数据正交分割成两组一维数据,分别输入两个不同维度的注意力生成模块,得到特征维度和时间维度的注意权重。两个维度的注意力权值点积叠加作为全局注意力得分进行特征选择,作用于原始数据后输入随学习模块训练不断更新至收敛。实验结果表明,所提出的方法在特征数小于10时可达到全量数据训练效果,与现有几种基线方法相比实现了最佳准确率。  相似文献   

12.
情感分析在业界被广泛应用于产品分析、商品推荐等方面,具有很高的商业价值。目前常用的研究方法主要基于机器学习算法和基于词典的方法,该类方法通常需依赖复杂的人工规则和特征工程。针对传统情感分类方法需要人工干预的问题,总结目前已有可用于情感分析的深度学习方法,提出将卷积神经网络(CNN)和双向长短时记忆网络(BLSTM)进行组合,并将融合后的特征添加至注意力机制,设计出CBLSTM-Attention模型。实验表明,该模型在中文数据集上准确率达0.965 0,在NLPCC英文数据集上准确率达0.942 2,证明该方法不仅可提高文本情感倾向性分析的准确率,而且可有效解决人工干预问题。  相似文献   

13.
Co-training is a semi-supervised learning method, which employs two complementary learners to label the unlabeled data for each other and to predict the test sample together. Previous studies show that redundant information can help improve the ratio of prediction accuracy between semi-supervised learning methods and supervised learning methods. However, redundant information often practically hurts the performance of learning machines. This paper investigates what redundant features have effect on the semi-supervised learning methods, e.g. co-training, and how to remove the redundant features as well as the irrelevant features. Here, FESCOT (feature selection for co-training) is proposed to improve the generalization performance of co-training with feature selection. Experimental results on artificial and real world data sets show that FESCOT helps to remove irrelevant and redundant features that hurt the performance of the co-training method.  相似文献   

14.
文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法(FreSem),采用支持向量机(SVM)分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。  相似文献   

15.
针对复杂非线性多通道时变信号模式分类问题,提出了一种集成卷积神经网络(CNN)与随机森林(RF)相融合的方法。该方法以CNN为基学习器,自动提取信号样本的抽样特征,同时省去降维与人工选择特征的过程,以RF为次级学习器,增加样本扰动,同时增加属性扰动。为增强样本多样性,使得该模型尽可能充分利用信息,在训练集中随机抽取7份子训练集,再利用7份子训练集训练出7个不同的学习器;最后通过投票法和学习法建立集成模型,提高了识别精度。实验结果表明,在测量区间上,该方法对3种ECG信号类别的平均分类精度达94.60%,提高了1.1%,取得了良好结果,验证了模型和算法的有效性。  相似文献   

16.
一种小波域K-Means遥感图像分类标注算法   总被引:1,自引:0,他引:1  
由于合成孔径雷达图像(遥感)的相干斑噪声数据丰富,导致传统的遥感图像分割方法分割效果不佳,采用学习理论和神经网络改善图像处理性能。根据图像统计特征,采取神经网络语义提出一种高效的图像纹理特征分割方法。首先,利用K-means聚类提取遥感图像的纹理特征,然后根据遥感图像在小波域中的分布特征对其进行滤波,最后利用语义对滤波后的遥感图像纹理特征和灰度组成的矢量进行分割归类,在遥感图像分割中快速标注分类以便于视觉分析。利用区域一致性分割分类,由聚类样本特征匹配进行图像分类标注,对变化检测进行统计分析,过分割或欠分割误差聚类样本不做标注,选取最佳样本聚类k值标注分类结果。  相似文献   

17.
为了提高个人信用评分模型算法预测精准率,受视觉领域数据增广思路启发,提出融合数据增广技术与机器学习算法的个人信用评分模型。该模型首先对原始个人信用数据进行数据增广处理,然后基于机器学习分类算法训练一个二分类个人信用评分模型,最后基于公开个人信用数据集,分别建立未经过数据增广和经过数据增广处理后的个人信用评分模型。对比准确率、精确率、召回率、F1 得分、AUC 值和 ROC 曲线等 6 个性能评价指标,结果显示,相较于仅基于机器学习算法的个人信用评分模型,融合了数据增广技术与机器学习算法的个人信用评分模型使得分类性能得到了一定提升,分类准确率平均高出 5%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号