首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 114 毫秒
1.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。  相似文献   

2.
介绍一种基于模板的Web应用程序测试方法。该方法通过在模板中设置POST数据以及其它相关数据,实现多个测试用例的自动测试,并可以把测试结果和日志文件下载到本地进行分析。该方法操作简单实用,可提高Web应用程序的测试效率。  相似文献   

3.
数据新闻是基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。数据新闻是在大数据的技术背景下产生的。数据新闻是随着数据时代的到来出现的一种新型报道形态,是数据技术对新闻业全面渗透的必然结果,它的出现在一定程度上改变了传统新闻生产流程。数据的挖掘是对获取的新闻文本通过文本挖掘算法,提取不同纬度的信息来支持新闻可视化应用,以及数据治理模块,用来排除一些垃圾信息,使得我们的数据是比较优质的数据。  相似文献   

4.
网络搜索数据是消费者在信息搜集和购买决策过程中真实足迹的反映,对了解消费者购买需求具有重要价值。本文运用与现有研究不同的关键词获取方法,以我国汽车市场为背景,研究网络搜索数据与销量之间的关系。首先,确定网络搜索数据的关键词,主要运用了文本挖掘技术,具体而言:①对抓取的汽车论坛文本进行Jieba分词;②利用Word2vec模型把分词结果转化为向量空间模型形式;③结合TF-IDF算法和余弦相似度算法确定关键词。然后,基于108个月的长面板数据,建立网络搜索与汽车销量的固定效应模型。最后,采取滚动窗口的方式预测最近12个月的汽车销量。实证结果显示:网络搜索与汽车销量之间存在长期均衡关系,回归模型可以解释76%的方差;网络搜索数据有助于预测我国汽车销量。  相似文献   

5.
正本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与Beautiful Soup简介urllib2在python3中即为urllib.request。由于urllib2  相似文献   

6.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

7.
本文主要工作是完成基于Android操作平台下的Application开发。通过RxVolley发送网络请求,Json数据解析,连接聚合数据的API实现机器人问答,物流信息查询,微信精选等功能。借助科大讯飞的在线语音合成SDK实现文本字句的语音朗读功能。运用Picasso封装的函数对微信精选文章请求返回的图片信息进行加载。实现了在线手机机器人聊天功能,不仅如此,该应用程序还拥有查看地图功能,车辆违章信息查询,驾驶证计分查询功能,浏览微信精选文章,快递信息查询。  相似文献   

8.
[目的]对国内外科技期刊文本与数据挖掘智能化研究进展进行阐述,为科技期刊文本与数据挖掘智能化发展探寻对策方案.[方法]采用文献分析法,检索 2019-2023 年英文数据库 Web of Science(SCIE、SSCI、ESI)、ScienceDirect、Elsevier及中国知网数据库中的科技期刊文本与数据挖掘智能化研究,梳理科技期刊文本与数据挖掘智能化的不同方向,并为科技期刊文本与数据挖掘智能化发展提供对策建议.[结果]目前国外科技期刊文本与数据挖掘智能化研究在选题策划、预印本、文献评估、同行评议以及模型探索和方法学等方面取得一定进展,我国中文科技期刊在文本与数据挖掘的智能化方面尚存在技术融合能力不足、出版实践不足、文本数据抓取不精准、智能算法和逻辑不完善等问题.应加强文本与数据挖掘基础布局,促进融合发展;鼓励出版实践研究,开展文本与数据深度挖掘;进一步构建完整的科技期刊文本与数据挖掘规则等.[结论]科技期刊文本与数据挖掘智能化发展可帮助科研工作者更快捷、更准确地获取大量的科技文献信息,为科研工作者提供更深入的思考和研究方向,但其技术应用方案仍需进一步研究探索.  相似文献   

9.
【目的/意义】从开放政府数据主题的多个政策文本的语义挖掘出发,发现多个政策文本内容间的语义关 系,探索能降低人工干预,实现多政策文本协同性自动化分析的方法。【方法/过程】利用数据挖掘的关联规则算法 对经过预处理的开放政府数据政策文本进行语义挖掘,按照得到的有效强关联分析多政策文本间的协同性。【结 果/结论】以开放政府数据主题的多个政策文本为研究对象,确定置信度为 0.7,提升度大于 3时得到的有效强关联 规则数量较稳定;经过不同层次的政策文本关联规则分析,可以得到与人工分析基本吻合的结论,验证了该方法可 以应用于多政策文本语义协同性的定量研究。【创新/局限】采用数据挖掘中的关联规则算法完成数据政策多文本 的协同性知识推理研究,有效的实现了语义自动化计算的问题。实验中政策词表的完整性、数据预处理过程、参数 设定等环节都会对实验结果准确性有影响,需进一步降低人工干预影响。  相似文献   

10.
跨库集成检索系统Web数据源分析策略   总被引:1,自引:1,他引:0  
在跨库集成检索系统中,注册新的数据源时需要对数据源做检索模式的分析.为了获得正确、有效的检索模式,依据Web数据源的请求方式、参数情况等方面的特点,对Web数据源进行了分类,并针对各类数据源提出相应的分析流程,用于生成正确、有效检索模式.同时设计出可以有效分析数据源的分析流程.  相似文献   

11.
本文讨论在.NET平台下,前台页面通过jQuery和Ajax技术访问后台数据库中的数据,采用JSON作为Ajax中数据的传输格式,从而实现页面间无刷新的数据访问效果。前台页面通过Ajax向后台发出异步的Post请求(或get请求),.NET平台收到发过来的请求后进行解析处理,从后台数据库中获取所需要的数据,之后封装成JSON格式的数据,并将数据返回给请求页面,请求页面利用jQuery解析返回来的JSON格式的数据,最后呈现给用户。文中采用jQuery+Ajax+JSON模式,在动态页面间实现数据的传输,前台页面无需刷新,既提高了用户的体验感,又减少了数据的传输量,同时减轻了网络的负担。  相似文献   

12.
借助文本分类系统软件,采用来自10个大类的中文文本数据,按照训练集与测试集2:1的比例,使用KNN和SVM分类算法,对数据集进行自动分类的实验。旨在通过具体的语料库实验,探讨文本自动分类的关键技术,分析、比较与评价实验结果,探讨文本分类中具体参数的设置和不同分类算法之优劣。  相似文献   

13.
魏莹  李锋 《情报科学》2018,36(4):123-129
【目的/意义】系统性分析知识扩散相关的模型和过程。【方法/过程】本文通过对知识分享型网络平台-“知 乎”网络上知识扩散的实例数据抓取和分析,提出了能够更加真实反映知识扩散的网络演化模型和扩散模型。进 而,通过计算机仿真,分析了知识扩散模型中相关参数对知识扩散过程和结果的影响。【结果/结论】通过知识扩散 实例的数据抓取和分析,确定了以BBV加权网络演化模型和Bass 扩散模型为主的知识扩散模型。通过参数分析, 确定了BBV加权网络中网络权重和Bass 模型中外部影响因子能够显著加速知识扩散。在实际应用中,如果忽略了 这些因素,对于知识扩散的过程和结果都难以得到正确的预测。  相似文献   

14.
随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现的网页信息爬取方法比传统方法更加简单快捷。  相似文献   

15.
《内江科技》2016,(9):115-116
在数据抽取中,主要是对文本的处理。文本分类是文本处理的基本过程。文本分类技术同时还在自然语言处理、信息检索、文本挖掘等领域都有着广泛的应用。经过分类后的文本可以减少用户甄别信息时间,满足不同用户需求,发挥信息自身其最大使用价值。  相似文献   

16.
基于Python的网络爬虫可以方便地抓取网页信息,以豆瓣网站为例,实现了基于Python网络爬虫抓取豆瓣影视信息的过程。  相似文献   

17.
本文主要介绍了SOFIA(Service-Oriented Future Internet Architecture)。在SOFIA中,应用程序通过服务会话处理服务请求和服务数据。一个服务会话可以对应多个服务连接,每一个服务连接绑定两个特定的通信节点(可以是客户端主机、服务器、中间节点等)。客户通过请求服务(服务名字)对服务会话进行初始化。接收到服务请求后,路由器根据服务转发表的相应规则处理请求。这些规则可以是转发规则(如负载平衡),也可以是处理规则(如缓存),而规则可以由集中控制器下发,以满足网络运营者的特定要求。为了解决服务转发表规则频繁更新的问题以及复杂的转发规则带来的查找性能问题,并与现有网络兼容发展,SOFIA服务核心构建在网络层(例如IPv4/v6)之上,在两个层之间实现了服务处理的解耦:服务层提供灵活的服务处理,而网络层提供高效的数据传输。  相似文献   

18.
文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。  相似文献   

19.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

20.
针对目前采用的最少连接数算法无法解决因不同业务请求消耗资源差异大而导致的平均响应时间长的问题,本文提出了CM(CPU-Memory)算法。CM算法根据CPU和内存使用率作为判断因素,计算服务器权值,并引入新的参数负载冗余参数,来判断服务器能够处理的新的请求的能力。通过仿真实验,模拟系统平台同时发送多个不同的请求,分别用最少连接数算法和CM算法进行了分析验证。结果表明,利用CM算法可以实现更快的响应时间,这就有效地提高了系统平台处理业务请求的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号