matlab爬虫(matlab爬虫书籍)
1、之前讲了用如何爬取网页数据,仅简单的爬取了纯文本网页,不涉及模拟登录等操作。因此实现起来比较简单。这次以爬取中国天气网的雷达图为例,讲一下如何使用爬取网页数据。
2、这时候,变为:://。这是默认的全国雷达拼图页地址,通常不需要雷达拼图,而是需要单站雷达图。因此,我们主要以下载单站雷达图为例。右击查看网页源代码,一直下拉可以看到单站雷达的名称,坐标以及信息。
3、后面可以根据此网页提供的单站雷达信息,通过单站雷达检索,跳转到指定的单站雷达页然后下载雷达图。以北京的单站雷达为例:。
4、以北京为关键词搜索,可以定位到北京雷达的,然后可以打开网页地址,即可跳转到北京雷达的页面:。单击图片可以发现,雷达图为格式,这样下面在搜索时直接搜索即可。跳转后右击查看网页源代码,然后以为关键词搜索,可以定位到雷达图的地址。
5、图中同一张图有两个,标签和标签均指向一个雷达图。为了方便定位,只检索标签的值,因为标签的值除了雷达图的外,还有很多干扰项,不便于获取雷达图。利用正则表达式,匹配雷达图,然后就可以下载图片了。
matlab爬虫(matlab爬虫书籍)
1、上述是获取网页数据的分析思路以及流程,下面上代码。毕竟实践出真知~。
2、在查看网页源代码时可以发现,网页编码采用的是:8编码方式。因此,获取数据之前,要配置一些参数:。
3、上述单站雷达的信息均包含在标签的信息中,因此对标签进行匹配。获取站点索引值之后就可以匹配雷达图的信息了:。获取到所有雷达图的地址之后就是循环下载了。至此,就完成了单站雷达基本发射率图的下载。
4、为了更好的利用函数,方便后面使用,还需要对函数进行一定的异常处理。比如,有时候站点信息不一定对,就要在站点错误时进行提示;由于网络连接或是其他原因,可能会导致一些图片下载出现问题,就要记录哪些下载成功了,哪些下载失败了。对于下载失败的图片是否再次下载还是忽略等等。如果要长期使用,并且要求用户友好,那么这些都需要进行处理。
5、网页中除了提供了雷达图之外,还提供了降雨量,风速等信息,如果感兴趣的话同样可以顺便下载。这部分就不说了,感兴趣的话可以查看网页源代码,确定这部分信息对应的哪些标签,然后正则匹配即可。关于上述命令的具体使用方法可查看。
暂无评论
发表评论