首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 76 毫秒
1.
提出了一个网络钓鱼防范系统,该系统由客户端过滤插件、后台分析中心和受保护网站3个逻辑组件构成.设计了一个基于图像的网页相似度检测算法,该算法首先将被检测网页转换为图像格式,然后采用迭代分割和收缩算法将原始图像划分为一组子图像集合,在计算子图像颜色直方图、灰度直方图以及大小参数的基础上,构建被检测网页的特征关系图(ARG),计算ARG之间的内部EMD距离,并通过计算2个网页ARG之间的外部EMD距离来标示网页之间的相似度,最终通过对不同网页之间相似度的分析检测出钓鱼网站.实验结果显示所提出的体系结构与算法具有良好的鲁棒性和可扩展性,可对钓鱼网页进行更加有效的检测.  相似文献   

2.
海量数据的MapReduce相似度检测   总被引:1,自引:0,他引:1  
针对当前海量数据的相似重复问题,提出了MapReduce下通过SimHash算法检测相似文档的方法:即首先将存储在分布式文件系统的海量文档集进行分类,然后进行特征提取,由SimHash算法生成SimHash指纹和生成Sequence File;最后,计算相似度产生检测结果;通过实验测试可知,提出的检测方法和设计的相似度算法能很好适应海量数据相似检测,并能有效地提高工作效率。  相似文献   

3.
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。  相似文献   

4.
客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可以加快记录查询的速度。在研究客户记录的基础上,提出一种客户关系数据库相似重复记录清洗算法,算法首先对记录进行排序,设定属性权重和记录相似度闸值,通过计算相邻记录的相似度判定记录是否相似重复,最后对检测到的相似重复记录进行清洗与合并。  相似文献   

5.
校园资源由于不能共享,造成资源建设的重复,造成人力、物力浪费.利用网页制作工具制作网站,是解决资源共享问题的一个有效的办法.  相似文献   

6.
从载体形态、功能要求、技术手法、观者体验等方面分析网页中平面设计的特点,并指出点线面和重复、对比、渐变等在网页设计中的应用及嬗变。  相似文献   

7.
设计中文网页聚类系统是为了便于从动态Web文本集中快速、有效地挖掘知识。该系统以经典聚类算法为基础,通过比较网页相似度,将相似度高的网页聚合,并提交用户界面显示。通过应用模糊数学中的不确定度,表达了样本类属不同的模糊性,从而更为真实地反映客观情况,改善了以往确定归属某一类的不完整信息收集,结果更具客观性。  相似文献   

8.
周杨 《教育技术导刊》2012,11(10):48-50
伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上,针对网页正文的结构特征,提出了一种基于关键长句及正文长度预分类的网页去重算法的核心思想。实验证明,该算法具有较高的召回率及准确率,在重复网页的过滤中有着较好的应用前景与较高的研究价值。  相似文献   

9.
基于Windows SPI技术,采用VSM模型计算网页间的相似度,提出了一种网页过滤系统.该系统可以根据http请求地址和网页内容实现网页过滤,并采用基于用户反馈的自学习模型,可以不断地学习提高.实验表明该系统能有效的实现网页过滤.  相似文献   

10.
本文从数列的柯西极限收敛原理出发 ,讨论了一般函数的收敛性问题 ,给出了判别函数收敛的充分必要条件 ,这一结论完全脱离了依赖极限值判别函数收敛的局限性 ,具有一定的理论意义  相似文献   

11.
提出基于图的半监督学习算法,即类别传播算,结合K均值算法改进,用于网页分类。该K均值类别传播方法使用欧式距离的建立带权∈NN图。在这个图中,图节点表示已标记或未标记的网页,边上的权重表示节点的相似度,已标记节点的类别沿着边向邻居节点传播,从而将网页分类问题形式化为类别在图上的传播。结合K均值方法,提高了计算速度以及图方法的归纳能力,经UCI数据集测试,结果表明,此算法比类别传播算法有更好的性能,能够有效地用于半监督网页分类。  相似文献   

12.
王成 《教育技术导刊》2012,11(5):132-133
将网页内容以HTML文档对象模型看作是DOM元素序列,建立网页的隐马尔可夫模型。提出了一种基于隐马尔可夫模型的恶意网页检测方法,对恶意网页检测具有一定的参考价值。  相似文献   

13.
在已有的基于Dom Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。  相似文献   

14.
为了按用户偏好对搜索结果进行排序,提出了一种新的个性化网页排序算法PWPR.PWPR基于按照用户偏好调整网页排序的思想,根据用户兴趣为网页分配初始权值,并建立虚连接,通过测量用户的点击流实现用户喜好的区分.对于具有相似兴趣的用户提交的相似关键词查询,PWPR采用协作过滤方式提高排序精确性.仿真结果及与其他算法的比较证明PWPR算法能自适应地实现个性化排序,并根据用户偏好提供相关查询信息.  相似文献   

15.
王成 《教育技术导刊》2012,11(7):147-148
HTML文档对象模型把HTML文档看作DOM元素的集合。根据HTML文档中DOM元素出现的频率,网页就可以转化为一个向量。提出了一种基于自组织映射的恶意网页检测方法,对恶意网页检测具有一定的参考价值。  相似文献   

16.
网页的创建     
1教材分析 “网页的创建”是义务教育山东省初级中学课本《信息技术》第二册(下)第六章第一节的内容。本节课是在以往学习了Word、Excel、PPT的基础上,进一步学习微软的FrontPage,它们有很多相似的地方,掌握本节难度不大。掌握好本节能为以后学习网页布局和网页链接打下坚实基础。  相似文献   

17.
多媒体主题搜索指在Web中搜索与主题相关的,并且包含多媒体的网页。目前各大搜索引擎(Google、百度)相继推出了多媒体搜索引擎,主要是利用网页中的相关文本提取描述多媒体信息的关键词进行多媒体信息检索,这种搜索引擎能够直接、快速地从Web中寻找多媒体资源。但所搜索得到的网页往往有大量的重复,根据中国互联网网络信息中心2008年发布的统计报告显示,  相似文献   

18.
网页制作的过程分为前台和后台,前台主要是制作静态的网页,后台是制作动态的网页。静态网页与动态网页相结合就构成了整体的网页。网页是一个窗口,它属于宣传自己产品的窗口。在网页的制作过程中,会存在很多问题,本文详细的介绍了在网页制作过程中基本的要素以及需要注意的一些问题。  相似文献   

19.
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。  相似文献   

20.
随着网页在人们生活中的广泛应用,网页在高校中的地位也越来越高,网页课程教学改革成为高校计算机教学工作者所要研究和面对的问题。本文从现行网页课程教学中存在的问题着手,提出了网页课程教学改革的一些主要举措。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号