数极客首页

用 PHP 爬虫做旅游数据分析

声明:
采集程序只做技术研讨
运用
,切不可做出格的事以免惹来省事

第一
感激

宽广

网友的支持,现将源代码公开,地址如下:
https://github.com/owner888/phpspider
github地址的demo目录下的 mafengwo.php 和 mafengwo.sql
本程序所采集的数据都是马蜂窝上面公开的数据,并未触及隐私内容,也不公开数据库,宽广

网友无需担忧

你们有什么想要的功用
能够

在下面留言给我,我会搜集
一下给大家做出来。转载请注明本文地址,及作者seatle@foxmail.com

随着物质的进步
,旅游慢慢

成为人们的焦点,火热

的国庆刚刚过去,乘着这股余热,我想很多人都想知道

,大家普通
会去哪里玩呢,于是我花了10分钟写了一个采集马蜂窝游记的小程序,当然速度能有这么快,完好

依赖于PHP著名爬虫框架phpspider。

国际惯例,我们先来看看代码怎样
写,算作抛砖引玉吧?^_^

马蜂窝不同于常规网站,由于
并发量高并且某些数据需求
实时,比如

观看人数,点赞人数,所以网站多处运用
了Ajax,而Ajax关于
普通采集者来说,是个比较

大的问题。

察看

了一下马蜂窝网站,最终肯定
了采集道路

获取抢手
城市 -> 获取城市下的游记列表 -> 获取游记内容 -> 提取游记内容的游记标题、城市、动身
时间等,接下来我们用三个步骤来完成
它。。。

1、获取抢手
城市

http://www.mafengwo.cn/mdd/citylist/21536.html

用 PHP 爬虫做旅游数据剖析

第一
我们要采集下这些抢手
城市

用 PHP 爬虫做旅游数据剖析

当我们点击页数的时分
,发现他的数据是Ajax加载的,末页是297,而且运用
的是POST办法

用 PHP 爬虫做旅游数据剖析

提交的参数如下:

用 PHP 爬虫做旅游数据剖析

很显然
这个page就是页数了,这里就有个问题,phpspider框架是有 URL 去重机制的,POST的话URL只需

一个,但是query_string是不影响POST数据的,我们能够

在后面加上 ?page=1|2|3…,所以我们代码能够

这么写:

设置列表页规则:

1 2 3 ‘list_url_regexes’ => array( ”http://www.mafengwo.cn/mdd/base/list/pagedata_citylist?page=d+”, )

在入口回调函数入口一切
城市列表:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 $spider->on_scan_page = function($page, $content, $phpspider) { // 上面Ajax分页的末页是297页 for ($i = 0; $i$url, ’method’ => ‘post’, ’fields’ => array( ’mddid’=>21536, ’page’=>$i, ) ); // 热点城市列表页URL入队列 $phpspider->add_url($url, $options); } };

2、获取抢手
城市下的游记列表

点击进入一个城市后,我们能够

看到他下面的游记列表

用 PHP 爬虫做旅游数据剖析

当然和上面一样,也是Ajax加载的,我们能够

翻开
chrome的开发者工具,点击Network,然后随意点击一个分页得到Ajax的URL:

用 PHP 爬虫做旅游数据剖析

和城市列表一样,也是POST,参数如下:

用 PHP 爬虫做旅游数据剖析

很显然
page就是页数了,当然我们直接经过
POST方式访问Ajax地址:

http://www.mafengwo.cn/gonglve/ajax.php?act=get_t…

是直接报错的,他需求
来路,综合以上,我们代码能够

这么来写:

第一
我们要在 on_start 回调函数里面加上来路URL

1 2 3 4 $spider->on_start = function($phpspider) { $phpspider->add_header(‘Referer’,’http://www.mafengwo.cn/mdd/citylist/21536.html’); };

和上面获取城市列表一样,设置列表匹配规则:

1 2 3 ‘list_url_regexes’ => array( ”http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid=d+”, )

然后在 on_list_page 回调里面判别
假定

是第一页就获取总页数,然后循环入队列:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 preg_match(‘#<span>共<span>(.*?)</span>页#’, $data_page, $out); for ($i = 0; $i < $out[1]; $i++) { $v = $page[‘request’][‘fields’][‘mddid’]; $url = “http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid={$v}&page={$i}”; $options = array( ’url_type’ => $url, ’method’ => ‘post’, ’fields’ => array( ’mddid’=>$v, ’pageid’=>’mdd_index’, ’sort’=>1, ’cost’=>0, ’days’=>0, ’month’=>0, ’tagid’=>0, ’page’=>$i, ) ); // 游记列表页URL入队列 $phpspider->add_url($url, $options); }

经过
上面两个步骤,我们就把一切
抢手
城市下的游记列表都放入到了队列,接下来我们中止

第三步,从这些列表里面获取内容页URL,然后提取内容。

3、获取抢手
城市下的游记列表

在 on_list_page 办法

里面会得到列表页的内容,从这些内容里面我们能够

提取内容页的URL

1 2 3 4 5 6 7 8 9 10 11 // 获取内容页 preg_match_all(‘#<a href=”/i/(.*?).html” target=”_blank”>#’, $html, $out); if (!empty($out[1])) { foreach ($out[1] as $v) { $url = “http://www.mafengwo.cn/i/{$v}.html”; // 内容页URL入队列 $phpspider->add_url($url); } }

接下来我们来配置field提取内容页字段

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ‘fields’ => array( // 标题 array( ’name’ => “name”, ’selector’ => “//h1[contains(@class,’headtext’)]”, ’required’ => true, ), // 分类 array( ’name’ => “city”, ’selector’ => “//div[contains(@class,’relation_mdd’)]//a”, ’required’ => true, ), // 动身
时间 array( ’name’ => “date”, ’selector’ => “//li[contains(@class,’time’)]”, ’required’ => true, ), )

设计一张数据表:

用 PHP 爬虫做旅游数据剖析

当然我们还能够

获取游记的阅读
量、珍藏

、分享、置顶、游玩

金额等等,太多了,办法

相似

到此程序就设计完了,总共不到200行的代码,得益于phpspider自带了多进程采集功用
,数据很快就采集完成,总共7W多点。

用 PHP 爬虫做旅游数据剖析

用 PHP 爬虫做旅游数据剖析

得到这些数据以后,我们能干什么呢?!

Top10 旅游城市分别是

用 PHP 爬虫做旅游数据剖析

能够

看得出,云南是一个好中央
,也是博主日夜怀念

的中央
啊。。。

五一和国庆期间旅游城市占比

用 PHP 爬虫做旅游数据剖析

用 PHP 爬虫做旅游数据剖析

能够

看得出,五一的时分
大家喜欢去西藏玩,国庆却更喜欢

青岛,好吧,这两个中央
博主都没去过,表示好受伤~_~!

接下来我们来看看这一年来北京和杭州的旅游旺季

用 PHP 爬虫做旅游数据剖析

能够

看出七八月份去北京的人会比较

多,这个时分
北京是最爽的,不热也不冷,博主就曾经有有一年8月份去的北京,温馨

死了^_^

我们再来看看杭州

用 PHP 爬虫做旅游数据剖析

看得出3月底到4月中旬是杭州适合

游玩

的时节
啊,那时分
春暖花开,天气也不错,听说太子湾公园每年那时分
都会有樱花和郁金花展,十分

美,艾玛旅游病又犯了~_~!

好吧文章到此就终了

了,其实还想剖析

更多,比如

采集抢手
道路
啊,抢手
景点啊,抢手
图集啊,还有旅游道路
的价位啊,最终构成
一个旅游的APP,假定

你们有好的想法,也能够

来通知
我,我把他采集下来,供大家参考 ^_^

最终
,对源代码感兴味
的同窗
能够

上github搜索phpspider哈 ^_^

源代码地址如下: https://github.com/owner888/phpspider github地址的demo目录下的 mafengwo.php 和 mafengwo.sql

转自:伯乐在线

链接:http://blog.jobbole.com/106623/

本文作者: 伯乐在线 – 杨泽涛 ,seatle@foxmail.com

发表评论

评论已关闭。

相关文章