共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 相似文献
4.
5.
提出一种基于改进TFIDF算法的海量文本分类识别方法,将特征之间的信息熵与特征内信息熵作为文本分类识别的加权因子,采用神经网络的非线性映射能力实现权值计算和TFIDF算法的模糊化,从而解决文本分类不准确和海量文本的分类问题。采用5个类别文档,每个类别5个文档,3个特征项来进行实际试验验证,结果表明,改进的TFIDF算法能够更好的实现文本识别分类,具有更小的方差特性,对随机文本分布具有更强的鲁棒性,收敛速度更快,具有很好的应用价值。 相似文献
6.
7.
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别
模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完
善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基
础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用
warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数
据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于
98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的
考虑和融合。 相似文献
8.
覆盖算法在文本分类中的应用 总被引:4,自引:0,他引:4
本文利用前向神经网络的交叉覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。应用该算法对语料库中的文本进行实验,从实验结果来看,该算法在运行时间和精度上都取得了令人满意的结果。 相似文献
9.
[研究目的]为了帮助政府、企业和科研人员从海量的听证公开文本中发现科技相关政策和热点,快速、全面地识别出有价值的信息。[研究方法]梳理听证公开文本的类型与特点,并对其中有价值的信息进行合理的界定与分类;根据文本的内容特征和话语特征提出事件句识别、事件类型检测和事件论元抽取的三阶段式事件抽取方法,以实现有价值信息的抽取;对抽取的有价值信息进行深入分析。[研究结论]与基准模型相比,该研究所提方法在事件句识别召回率上提高33%,F1提高17%,在事件类型检测的精确率上提高1%,在事件论元抽取的精确率上提高18%,召回率提高4%,取得了一定效果,为此类文本进一步分析提供了新研究思路。 相似文献
10.
11.
12.
13.
针对主观文本识别、情感分词以及情感分类模型选择等研究方法上存在的效率较低、文本表达维度高等问题,文章提出了一种基于旋进原则和AdaBoost集成技术的回归SVM情感分类模型(AdaBoost+ SVM-L),不仅提高了主观文本标注准确率,更通过AdaBoost+ SVM-L模型对情感样本的极性和强度进行了判断,实现了文本情感强度阈值的可视化.并通过分组对照实验比较了SVM、NB以及AdaBoost+ SVM-L模型的性能指标. 相似文献
14.
基于词频的中文文本分类研究 总被引:1,自引:0,他引:1
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。 相似文献
15.
16.
17.
18.
[目的]随着科学技术的不断发展,网络化发展的现象越来越受到人们的重视。如何在海量的网络信息中识别人物观点成为研究者关注的焦点,网络人物观点被视为网络文本表达的主要思想,是构成网络信息的"魂"。在海量的网络信息中快速识别网络人物观点对掌握网络信息主题具有重要作用。[方法]本文在前人研究的基础上理论与应用相结合,从文本分析的视角研究网络人物的观点。利用相应的算法对文本内容进行预处理,再通过文本句子中的词汇、词性标注和词汇之间的距离关系实现观点指示动词识别和观点持有者识别,从而实现网络人物的观点识别。[结果]通过网络人物观点算法识别的实证研究发现,通过对网络人物进行指代消解和观点持有者的扩展能有效地提高观点识别的准确率。 相似文献
19.
20.
【目的/意义】随着互联网在社会中的影响力逐渐增大,面对网络群体性事件对社会生活的冲击,需把握网络群体性事件的演化规律,确定事件类别,提炼事件特征,基于不同类别的网络群体性事件,提出有针对性的应对措施。【方法/过程】通过LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,最终运用SVM算法进行网络群体性事件聚类分析,得到五类网络群体性事件。【结果/结论】构建的网络群体性事件动态识别模型,通过大量的文本训练,在事件聚类数为5时具有良好的解释性,完成了网络群体性事件的客观分类,分别为:经济型、社会型、文化型、民族型和环境型,为政府分类应对策略提供依据。【创新/局限】利用LDA主题模型和Kmeans算法,减少了模型的迭代次数,确定最佳主题数,提高了网络群体性事件识别结果的准确性,但是运用慧科新闻数据库搜集到的文本数据范围有限,且分类结果反应的事件特征具有一定局限性,后续研究可进一步扩大动态文本数据库,对分类算法进行改进和深化。 相似文献