首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 921 毫秒
1.
命名实体识别是自然语言处理基础任务之一。针对“数字敦煌”项目应用命名实体识别技术存在的实体边界难以确定等问题,通过构建小规模敦煌石窟专有名词数据集,对基于BERT-BiLSTM-CRF的命名实体识别基本方法,和基于Multi-digraph的词汇增强方法进行了实验对比,结果表明基本方法已具备较高的识别准确率,而基于词汇增强的方法对未登录词识别效果提升显著。最后将训练得到的模型应用于“数字敦煌”资源库命名实体识别任务,证明了方法的有效性。  相似文献   

2.
基于条件随机场的语义角色标注   总被引:2,自引:0,他引:2  
由于语义角色标注对深层次的自然语言处理非常必要,提出了一种基于条件随机场的语义角色标注方法.该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将条件随机场模型用于句子中谓词的语义角色标注.该方法的关键在于模型的参数估计和特征选择.具体应用中采用L-BFGS算法学习模型参数,并选择基于句法成分的、基于谓词的、句法成分-谓词关系三类特征作为模型特征集.在CoNLL-2005评测任务所提供的数据集上的实验结果表明:基于条件随机场的方法比基于最大熵模型的方法性能更好.该方法在语义角色标注任务上获得了80.43%的准确率和63.55%的召回率.  相似文献   

3.
中文电子病历命名实体识别对于医学知识库的构建和临床决策作用关键。针对中文电子病历结构化实体识别困难的问题,提出一种多特征融合的中文电子病历命名实体识别方法。该方法基于条件随机场,通过逐一融合语言符号、词性、关键词、词典、词聚类等多种特征,采用递增式学习策略验证其有效性,在最优特征组合下识别出疾病、症状、检查和治疗4类实体。实验结果表明,该方法识别准确率达到90.99%,有效满足了应用需求。  相似文献   

4.
为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。  相似文献   

5.
识别一篇生物医学文献中的核心实体是准确提取该文献信息的前提。针对目前生物医学文献实体识别和筛选方法的局限性,提出了基于LSTM的生物医学核心实体提取模型。该模型以LSTM为核心,通过更为优秀的词向量和输入生成规则改良模型输入,使用双向LSTM模型改进处理过程,将结果保存为树形结构并对该树进行合理剪枝获取标注链,实现输出结果处理,最终使实体识别的F1值达到了89.35%。此外,在核心实体筛选过程中,基于TF/IDF算法规则,充分考虑了词频、位置、逆文档频率等因素,使核心实体筛选的F1值达到了76.85%。  相似文献   

6.
我国已经基本形成雾霾应急的规范体系与制度体系,但实践中仍然存在对健康权保护不足和对财产权、自由权侵害过度的问题。由于雾霾形成机理与传统权利侵害在结构上存在差异,基于传统公法学体系的行政紧急权力理论无法对政府重污染天气应急行为进行有效监督和制约。以国家环保义务理论为基础,可以从效果裁量的两个方面入手,对雾霾应急进行更具针对性的分析。针对目前部分城市的空气重污染应急预案不符合国家环保义务的内在要求的情况,可以根据2014年修订的行政诉讼法,对应急预案中的应急响应条件和应急响应措施进行不同程度的司法审查,通过司法途径监督、纠正当前各地重污染天气应急预案中的不当规定。  相似文献   

7.
现实世界的许多问题中通常存在大量的未标注样例,但有标注样例则比较少,因为给样例加标注需要耗费专业人员大量的时间和精力。主动学习通过选取那些最具代表性的无标注数据让专家去标注,从而使专家的标注任务量最小化。传统的主动学习只能进行具体的查询,效率较低。为提高效率,文章提出了一种新的基于泛化查询的主动学习算法,在4个UCI数据集上的实验验证了该方法的有效性。  相似文献   

8.
针对传统的文本聚类容易受到噪声影响的问题,提出一个基于词性标注的文本聚类算法。该算法利用词性标注从文本中识别并抽取最能体现文本特征的关键词,再基于所抽取的关键词进行聚类操作。实验发现,相对传统的聚类算法,基于词性标注的文本聚类算法能够有效地提高聚类结果的质量。  相似文献   

9.
潘磊 《教育技术导刊》2009,19(10):152-155
为了提高电力系统中故障预测效率及便捷性,提出一种基于FP-Growth算法的电力系统故障预测方法,无需先验知识及人工标注,便可从海量历史日志数据中快速提取出故障信息模式,并基于实时日志数据对未来可能发送的系统故障进行预测。该方法首先根据电力系统不同类型的日志特征对原始数据进行预处理,然后基于FP-Growth算法挖掘日志中与故障事件相关的关联规则,并使用关联规则进行故障匹配,从而达到预测效果。算法经过真实电力系统日志数据集测试,结果表明该故障预测方法平均准确率为89.5%,平均召回率为79.8%,且执行效率较高,节省了业务人员50%以上的时间。  相似文献   

10.
本文提出了一种基于条件随机场模型的汉语词性标注方法。该方法能够充分利用词的上下文信息作为特征。实验表明,该方法的标注效果明显优于基于隐马尔可夫模型和最大熵马尔科夫模型的方法。  相似文献   

11.
针对唇语识别过程中唇部特征提取和时序关系存在的问题,提出一种卷积神经网络(CNN)和双向长短时记忆网络(Bi-LSTM)相结合的深度学习模型。利用CNN学习唇部特征,并将学习到的唇部特征送入Bi-LSTM进行时序编码,通过Softmax进行分类。建立NUMBER DATASET和PHRACE DATASET两个大型汉语数据集以解决汉语唇语数据缺失问题。将该模型与传统的唇语识别方法在两个数据集上进行实验对比,发现在NUMBER DATASET上识别准确率为81.3%,比传统方法提高了8.1%,在PHRACE DATASET上识别准确率为83.5%,比传统方法提高了9%。实验结果表明该模型能有效提高唇语识别的准确率。  相似文献   

12.
为了有效改善传统动作识别方法中输入数据信息单一导致的识别率偏低等问题,提出一种结合视频数据和骨骼数据的双流融合方法。基于两种不同的深度学习网络,分别对视频数据与骨骼数据进行识别并将两者输出的概率加以融合,实现信息融合效果。在公开数据集NTU RGB+D上进行测试,达到83.76%的识别精度。该方法在一定程度上实现了不同数据的信息融合,能较为准确地区分出动作类别。  相似文献   

13.
Traditional methods of license character extraction cannot meet the requirements of recognition accuracy and speed rendered by the video vehicular detection system. Therefore, a license plate localization method based on multi-scale edge detection and a character segmentation algorithm based on Markov random field model is presented. Results of experiments demonstrate that the method yields more accurate license character extraction in contrast to traditional localization method based on edge detection by difference operator and character segmentation based on threshold. The accuracy increases from 90% to 94% under preferable illumination, while under poor condition, it increases more than 5%. When the two improved algorithms are used, the accuracy and speed of automatic license recognition meet the system's requirement even under the noisy circumstance or uneven illumination.  相似文献   

14.
针对传统图像文字识别技术采用模板匹配法和几何特征抽取法存在识别速度慢、准确率低的缺点,提出一种基于深度学习的图像文字识别技术,使用开源、灵活的Tensor Flow框架以及LeNet-5网络训练数据模型,并将训练好的模型应用于特定场景印刷体文字识别。实验结果表明,识别模型的top 1与top 5准确率分别达到了99.8%和99.9%。该技术不仅可快速有效地处理大量图片文件,而且能综合提高图像文字识别性能,节省大量时间。  相似文献   

15.
针对古漆器漆膜数据类间不平衡、样本规模小,以及传统机器学习算法分类效果较差的问题,提出一种改进SMOTE的过采样方法改变漆器漆膜数据样本分布,使其达到平衡。该方法通过比较各类样本间的欧式距离,删除了人工样本中的噪声数据,然后运用集成学习中的随机森林算法进行分类,提高了少数类的分类准确率。UCI数据集上的实验结果表明,改进的过采样方法性能更优,评价指标F1-score与AUC值分别得到2%、5%以上的提升。结合改进的过采样方法与机器学习算法进行对比实验,结果证明,随机森林算法精度更高,在对古漆器年代的判别中,随机森林算法的F1-score与AUC值高达87.76%、89.34%。  相似文献   

16.
Motivation: It was found that high accuracy splicing-site recognition of rice (Oryza sativa L.) DNA sequence is especially difficult. We described a new method for the splicing-site recognition of rice DNA sequences. Method: Based on the intron in eukaryotic organisms conforming to the principle of GT-AG, we used support vector machines (SVM) to predict the splicing sites. By machine learning, we built a model and used it to test the effect of the test data set of true and pseudo splicing sites. Results: The prediction accuracy we obtained was 87.53% at the true 5' end splicing site and 87.37% at the true 3' end splicing sites. The results suggested that the SVM approach could achieve higher accuracy than the previous approaches.  相似文献   

17.
Video object segmentation is important for video surveillance, object tracking, video object recognition and video editing. An adaptive video segmentation algorithm based on hidden conditional random fields (HCRFs) is proposed, which models spatio-temporal constraints of video sequence. In order to improve the segmentation quality, the weights of spatio-temporal con- straints are adaptively updated by on-line learning for HCRFs. Shadows are the factors affecting segmentation quality. To separate foreground objects from the shadows they cast, linear transform for Gaussian distribution of the background is adopted to model the shadow. The experimental results demonstrated that the error ratio of our algorithm is reduced by 23% and 19% respectively, compared with the Gaussian mixture model (GMM) and spatio-temporal Markov random fields (MRFs).  相似文献   

18.
电子病历中同一医疗概念的提及形式具有多样性,阻碍了医疗数据的分析和利用,研究电子病历实体标准化具有现实意义。设计并实现了基于深度学习的电子病历实体标准化算法,使用Siamese网络架构和LSTM网络搭建模型,采用Pairwise方法训练模型,在测试集上与传统基于编辑距离的方法进行比较。对手术实体标准化的实验结果显示,深度学习算法正确率达到79.71%,比传统方法提高了17.4个百分点,表明深度学习算法在电子病历实体标准化方面具有有效性。  相似文献   

19.
针对文本分类领域的有监督学习往往需要大量精准标注样本但大量人工标注困难的问题,提出一种新型的半监督学习方式,通过协同训练合理使用大量未标记训练样本,通过添加不同分类的文本特征噪声解决传统协同半监督学习方法中模型参数趋于统一的问题,同时提高分类模型的分类能力。针对传统深度学习方法中文本特征权重一致导致的分类特异性特征不突出问题,在训练模型中加入 self-attention 机制对文本句子特征权重进行提取,并通过句子加权方式突出特异性分类特征。实验结果表明,通过半监督学习方式同时使用少量已标注数据进行训练,模型能够达到 91.4%的准确率,召回率达到 84.3%,与有监督训练方式的分类准确能力相近,从而解决大量人工标注问题,具有一定的使用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号