首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
信息系统中一种面向粗糙集的数据挖掘方法   总被引:17,自引:2,他引:15  
程岩  黄梯云 《情报学报》2001,20(1):90-99
数据挖掘技术是信息系统的一个重要研究内容 ,它可以从大量数据中自动发现对决策有帮助的知识。许多数据挖掘技术仅仅适用于精确集 ,不适用于粗糙集 ,而现实中粗糙集是普遍存在的现象 ,因此开发出一种面向粗糙集的数据挖掘技术在信息系统的研究领域具有重要意义。本文结合粗糙集理论提出了一个信息系统的粗糙集模型 ,在此基础上设计出一个属性约简方法及从粗糙集中发现规则的算法 :Apriori_2。  相似文献   

2.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

3.
句子相似度计算是自动问答系统的重要理论基础和关键实现技术.目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便.依据所利用的特征信息,可以将这些方法分为四类,即基于关键词信息、基于语义信息、基于句法结构信息以及基于多重信息.通过对各类方法实验结果的比较,指出各自的优势和不足.同时指出,基于多重信息的方法是当前的主流方法,实现不同特征信息的最佳权重分配是该类方法今后的研究重点.另外,还提出一个有关相似度概念认识上的看法,即对于中文自动问答系统,实质上依据的是句子的相关度,而不是句子的相似度.通过本文的研究,旨在为中文自动问答领域的句子相似度计算研究提供一定的参考.  相似文献   

4.
物资分类是企业物资管理的一项基础工作,在大型企业中,物资数量巨大且类别繁多,所以需要借助计算机自动分类技术提高物资分类的效率.在自动分类的过程中,物资名称相似度是影响分类效果的关键因素之一.在分析了物资名称字符串特点和Jaro-Winkle算法的基础上,提出了一种基于动态权重的中文字符串相似度计算方法.通过在真实物资分类数据集上的实验,验证了这种相似度的计算方法可以有效提高物资分类的准确度.  相似文献   

5.
针对图书出版领域的常用问题集研制自动问答系统,重点解决问句索引与检索问题。在问句索引中提出结合分词与词性标注、浅层语义分析等方法来索引问句;在问句检索中提出基于特征向量空间和语义类的方法来计算问句相似度。最后对该系统进行实现。  相似文献   

6.
利用多策略模糊综合评判的方法进行术语关系识别,首先采用多种相似度计算方法计算术语的相似度,然后利用连续属性离散化方法确定关系类别及阈值区间的划分,利用样本分布概率确定区间对类别的隶属度,利用粒子群算法和交叉验证法确定因素权重,最后利用模糊综合评判方法将所有相似度计算方法的计算结果进行融合处理,实现术语关系的识别。本研究将以中国科学技术信息研究所已有的新能源汽车领域汉语科技词系统中的术语作为测试集,用准确率、召回率和 F 值对关系识别的结果进行评价,论证该方法的有效性。  相似文献   

7.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

8.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

9.
基于粗集理论和神经网络结合的数据挖掘新方法   总被引:13,自引:1,他引:12  
李仁璞  王正欧 《情报学报》2002,21(6):674-679
本文提出了一种基于粗集理论和神经网络的数据挖掘新方法。首先利用粗集理论对原始数据进行一致性属性约简 ,然后使用神经网络对数据进行学习和预测 ,并同时完成属性的不一致约简 ,最后再由粗集对神经网络中的知识进行规则抽取。该方法充分融合了粗集理论强大的属性约简、规则生成能力和神经网络优良的分类、容错能力。实验表明 ,该方法快速有效 ,生成规则简单准确 ,具有良好的鲁棒性。  相似文献   

10.
黄山 《信息系统工程》2012,(12):150-151,155
属性约简是粗糙集理论的核心内容之一。目前,从不同的观点已经提出了一些不完备决策表中粗糙集属性约简算法。但是,这些算法相对于完备决策表还是有待进一步考虑。为此,本文借助于完备决策表中冲突域的概念,设计一种在不完备决策表中的新的属性约简方法。该方法通过计算数据粒化后,冲突域中冲突对象的数目为衡量标准来判断某些属性集是否为属性约简。并且,通过理论证明了基于冲突域所求出的属性约简与基于正区域属性约简的是一致的。最后,通过仿真实验说明该算法是可行的。  相似文献   

11.
基于标题的中文新闻网页自动分类   总被引:1,自引:0,他引:1  
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。  相似文献   

12.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

13.
将自动文本分类引入竞争情报系统,并结合民航客服业的实际应用场景展开研究。在对文本分类的理论基础进行研究与分析的基础上,设计一种自动分类策略,其核心是针对传统机器学习方法依赖历史数据的局限,优化特征选择和学习样本获取方法。选用SVM算法,详细描述分类词表构建、分类规则提取、分类模型训练等过程,最终取得较为理想的实际效果。  相似文献   

14.
Classifying Amharic webnews   总被引:1,自引:1,他引:0  
We present work aimed at compiling an Amharic corpus from the Web and automatically categorizing the texts. Amharic is the second most spoken Semitic language in the World (after Arabic) and used for countrywide communication in Ethiopia. It is highly inflectional and quite dialectally diversified. We discuss the issues of compiling and annotating a corpus of Amharic news articles from the Web. This corpus was then used in three sets of text classification experiments. Working with a less-researched language highlights a number of practical issues that might otherwise receive less attention or go unnoticed. The purpose of the experiments has not primarily been to develop a cutting-edge text classification system for Amharic, but rather to put the spotlight on some of these issues. The first two sets of experiments investigated the use of Self-Organizing Maps (SOMs) for document classification. Testing on small datasets, we first looked at classifying unseen data into 10 predefined categories of news items, and then at clustering it around query content, when taking 16 queries as class labels. The second set of experiments investigated the effect of operations such as stemming and part-of-speech tagging on text classification performance. We compared three representations while constructing classification models based on bagging of decision trees for the 10 predefined news categories. The best accuracy was achieved using the full text as representation. A representation using only the nouns performed almost equally well, confirming the assumption that most of the information required for distinguishing between various categories actually is contained in the nouns, while stemming did not have much effect on the performance of the classifier.
Lemma Nigussie HabteEmail:
  相似文献   

15.
对于中外分类法的映射研究,国内多关注于对计算机自动映射方法的探讨,缺乏对词表类目复杂语义关系的具体研究。本文在对DDC和《中图法》理学领域共计4639个类目进行人工直接映射的基础上,通过统计其匹配依据,得出结论:理学类目下数学、物理、化学、天文、地理等不同学科内匹配依据的总体分布呈现一致性的特点,这为检验计算机自动匹配准确性提供了方法。实验表明,类目名称、注释、主题词、类目关系作为主要的判断依据,占映射类目的63%,依据匹配规则占映射的5.14%,依据书目记录的匹配占31.87%,因此论文建议实现计算机自动匹配时,除类目自身信息外,还需考虑书目记录的匹配。  相似文献   

16.
提出一种基于英汉术语语义推导和归并的术语自动分类方法。以英汉术语库为基本语料,通过语义传导和词形规范为英文术语自动推荐候选分类,进而采用投票机制对推荐结果进行遴选和归并。实验结果表明,本方法对英文术语自动分类的准确率较高,具有一定的应用价值。  相似文献   

17.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

18.
基于模糊属性集的粗糙近似精度数据挖掘策略   总被引:1,自引:0,他引:1  
为了提高信息系统的分类质量,探讨了一种在数据仓库中基于模糊属性集的粗糙逼近近似度量的数据挖掘策略.首先在决策表中给出了模糊属性集的原子概念表示及其对象的描述;再根据原子概念的特征构造了模糊属性集的粗糙上下近似表述;然后利用模糊属性重要性度量的概念,提出了利用逼近精度近似度量的数据挖掘方法进行模糊属性约减;最后应用算例说明如何在决策表中发现分类规则.实验结果表明此方法挖掘出的规则简练且合理可靠.  相似文献   

19.
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计-规则方法的网页层次分类技术。实验表明,基于统计-规则方法的网页层次分类技术能够获得比较理想的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号