共查询到10条相似文献,搜索用时 15 毫秒
1.
随着大数据信息技术的发展,数据在线监测和数据挖掘成为计算机信息领域研究的热点。通过对Web热点数据分割挖掘,提高信息热点追踪和Web数据分类能力。传统算法采用非结构化数据挖掘算法,无法有效对Web热点数据进行准确定位和分层挖掘。提出一种基于半结构化分割的Web热点数据挖掘算法。采用半结构化数据进行特征分割,基于优秀基因位进行差分进化,使寻优曲线不断趋于平缓,在多个节点上并行的运行比较脚本,采用半结构化分割,使得Web热点特征挖掘实现自适应寻优,得到Web热点数据的分配因子,提高了挖掘性能。仿真结果表明,该算法获得了良好的效率和精度,提高了Web热点数据挖掘的自适应寻优能力。 相似文献
2.
Web数据挖掘已经成为当前被广泛研究的课题。Web上半结构化的数据结构给Web数据挖掘带来了诸多困难,XML的出现为面向Web的数据挖掘带来了便利。本文介绍了XML语言的特点,及其在Web的数据挖掘中的作用。 相似文献
3.
4.
5.
6.
7.
8.
本文阐述了利用XML将半结构化Web数据转化为结构化的XML数据,介绍了目前Web数据抽取的最新技术及特点,并对无监督学习网页重复模式发现网页内在模板抽取方法进行了深入的研究和探讨。 相似文献
9.
基于XML的网页数据挖掘 总被引:1,自引:0,他引:1
随着Internet的迅速发展,使得数据丰富而信息贫乏这对矛盾显得日益突出,数据挖掘技术正是应了这一需求而结合了机器学习、模式识别、统计学、人工智能、神经网络等多学科而出现的一项新技术,基于Web的数据挖掘是数据挖掘技术在网络信息处理中的应用。本文叙述了Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。 相似文献
10.
从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。 相似文献