共查询到20条相似文献,搜索用时 531 毫秒
1.
2.
针对传统网络入侵检测方法在实时性响应和入侵行为识别率上存在的不足,本文提出了一种抽取多数类边界样本的入侵检测算法。该算法首先根据中心距离确定网络链接行为中多数类样本的边界样本,然后将多数类样本的边界样本与少数类样本合并构成新的训练集合,最后进行分类学习。该算法有效地降低了类别之间的不平衡度和减少了训练样本数目,具有更好的入侵检测性能。在KDD CUP 99数据集上的仿真实验,充分验证了该算法的有效性。 相似文献
3.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。 相似文献
4.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。 相似文献
5.
6.
线性判别分析(LDA)具有很好的分类性能,但是计算复杂度一般较高。为了有效地降低LDA算法的计算复杂度,本文提出了一种基于k-means聚类的快速学习算法。该算法首先根据k-means聚类算法对原始样本进行聚类,计算聚类簇的样本中心作为新训练样本,然后再利用LDA算法进行分类。由于通过聚类算法有效地压缩了训练样本集的规模,因此算法具有更高的效率。在语音识别数据集上的实验充分验证了本文算法具有较好的分类性能,而且效率更高。 相似文献
7.
不平衡数据集分类方法研究 总被引:1,自引:0,他引:1
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。 相似文献
8.
传统特征选择算法没有考虑特征之间的关联性,并且基于类别平衡假设,在不平衡问题上偏向多数类而忽略少数类。针对以上不足,本文综合考虑特征相关性与不平衡性,提出一种基于类区分度的高维不平衡特征选择算法CDHI,该算法通过k-means进行特征聚类,并计算簇中每个特征的类区分度,利用类区分度对聚类簇中特征进行重要性排序,然后选择各簇中类区分度较高的特征组成特征子集,达到去除高维特征冗余与处理不平衡数据的双重目的。实验结果表明,与传统特征选择方法相比,CDHI算法有效降低了特征空间的维度,提高了少数类的识别率。 相似文献
9.
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。 相似文献
10.
11.
近年来,大数据浪潮兴起,大数据产业保持高速发展态势,大数据应用推进势头良好。政府数据作为价值密度高、涉足广度宽的数据资源,已成为各国争相创新开发的重要资产。但是长期以来,关于政府数据开发利用的理论研究却被忽视,如何科学有效地进行政府数据开发和利用已成为当前需要迫切关注的问题。文章系统总结了当前主要发达国家政府数据开发利用的政策措施和探索实践,以及通过梳理分析我国政府数据开发利用的政策体系和发展现状,尝试构建政府数据开发利用的过程机制模型,并提出:加强顶层立法,落实制度保障;扩大数据来源,提升数据质量;统一汇聚开放,深化行业应用;确立认证许可,明晰授权机制;创新开发模式,明确收益分配;推动试点先行,探索可行经验;强化技术支撑,保障数据安全等政策建议,以期为进一步推动政府数据开发利用提供决策参考。 相似文献
12.
13.
[目的/意义]科学数据安全是国家信息安全的组成部分,随着数据科学研究的兴起,高校科学数据安全的政策研究有待深入。[方法/过程]采用网络调查的方法,对美国U.S.News前50名大学的科学数据管理内容进行分析,从“涉及对象”“保护方法”和“科学数据生命周期”等角度梳理政策重点和空白点。基于科学数据生命周期,从“制度层”“基础设施层”“数据素养层”和“实施层”四个主要层次,构建了高校科学数据安全的内容框架,并分别讨论了科学数据生命周期不同阶段与科学数据安全相关的各个主体的职责。[结果/结论]高校科学数据安全内容贯穿科学数据生命周期,相关主体包括制度层、基础设施层、数据素养层、执行层。 相似文献
14.
[研究目的]数据经济的迅猛发展,进一步突显了数据的财产权属性和商业化价值。因此,“商业数据”的类型提出和权属确认便对数据出境的法治化运行及安全责任的具体化落实具有重大意义。[研究方法]以“商业数据”的概念廓清与权属分析为切入,通过数据企业的“应然权利”为视角正向解析现有数据出境中限制性规定的规范边界和实践运行。[研究结论]数据权属是数据跨境规则建构的逻辑起点,数据企业基于数据劳动、数据生产而将数据自复杂的权益诉求中剥离时,理应享有法律所确认的数据权利而不受自由干预。据此,强调个人数据、重要数据“安全性”的同时,理应强化经由数据剥离后商业数据的“自由性”,以实现数据保护和数据开放的结构平衡。 相似文献
15.
通过对电视灯光数据来源与特性的理解,阐述数据管理对灯光工作的作用与意义,以期引发业内人士对电视灯光数据管理的重视与思考。 相似文献
16.
首先对大数据做简要诠释;其次重点阐述大数据在国内外各个领域的应用现状,以此来对大数据产业的发展、社会定位以及价值实现途径进行探索;最后分析我国大数据产业发展当中存在的主要问题并给出相关建议。 相似文献
17.
开放科研数据环境下科研人员的数据伦理框架研究 总被引:1,自引:0,他引:1
[目的/意义]为推动开放科研数据的发展,国内外除了已有的实践内容,包括数据政策颁布、数据基础设施建设等外,各国也均积极探索如何帮助科研人员克服与数据伦理有关的障碍,以辅助科学界实现预先设想的开放理念。[方法/过程]文章通过文献综述和网络调研的方法,分析了开放科研数据的实践进展,提出了数据伦理的概念和面向科研人员的数据伦理框架。[结果/结论]开放科研数据背景下数据伦理的框架主要由4个要素构成:利己主义因素、功利主义因素、利他主义因素及实用主义因素。 相似文献
18.
元数据以其对科学数据的描述与解释,为用户发现数据和再利用数据提供了方便。详细分析科学数据元数据的功能与内容,重点讨论用户在数据发现、数据评价过程中所关注的元数据内容,并对科学数据元数据内容的改进与完善提出展望。 相似文献
19.
20.
【目的/意义】对高校科研数据展开治理,是提升数据价值,优化决策能力,节约科研成本的有效途径,而实施治理行为的重点之一是构建高校科研数据治理模型,从而在理论上指导治理行为。【方法/过程】研究以协同治理理论辅以数据生命周期理论和利益相关者理论为基础,在探明已有数据治理模型逻辑路线后,通过半结构化访谈法,对国内外高校人员就科研数据治理认知进行深度沟通,最终利用NVivo 11软件对访谈结果进行质性分析,提炼模型构建要素。【结果/结论】据此分模块构建高校科研数据治理模型,拟为高校科研数据治理提供理论模型,同时也为提升高校科研数据治理服务水平提供借鉴。 相似文献