欢迎来到福编程网，本站提供各种互联网专业知识！

手机版

微信关注

快捷导航: 正则表达式 AJAX相关黑客相关相关技巧 Mysql MsSql MsSql2005 MsSql2008 MariaDB Oracle Access SQLite PostgreSQL MongoDB DB2 Redis 数据库文摘数据库其它 LINUX RedHat/Centos Ubuntu/Debian Fedora Solaris 红旗Linux Unix/BSD 苹果MAC 麒麟系统注册表 BIOS 系统安装系统进程 Fireworks教程

广告商业广告，理性选择

您的位置：网站首页 > 网络编程 > PHP编程 > php实例

php实现爬取和分析知乎用户数据

发布时间：2016-01-26　作者：崔小拽　来源：转载

标签：雪佛兰通用奢华劳斯莱斯旗舰版 64位收藏夹解调器

本文给大家介绍的是利用php的curl编写的爬取知乎用户数据的爬虫，并分析用户的各种属性，有需要的小伙伴可以参考下

背景说明：小拽利用php的curl写的爬虫，实验性的爬取了知乎5w用户的基本信息；同时，针对爬取的数据，进行了简单的分析呈现。

php的spider代码和用户dashboard的展现代码，整理后上传github，在个人博客和公众号更新代码库，程序仅供娱乐和学习交流；如果有侵犯知乎相关权益，请尽快联系本人删除。

无图无真相

移动端分析数据截图

pc端分析数据截图

整个爬取，分析，展现过程大概分如下几步，小拽将分别介绍

curl爬取知乎网页数据正则分析知乎网页数据数据数据入库和程序部署数据分析和呈现

curl爬取网页数据

PHP的curl扩展是PHP支持的，允许你与各种服务器使用各种类型的协议进行连接和通信的库。是一个非常便捷的抓取网页的工具，同时，支持多线程扩展。

本程序抓取的是知乎对外提供用户访问的个人信息页面https://www.zhihu.com/people/xxx,抓取过程需要携带用户cookie才能获取页面。直接上码

获取页面cookie

复制代码代码如下:

// 登录知乎，打开个人中心，打开控制台，获取cookie

document.cookie

"_za=67254197-3wwb8d-43f6-94f0-fb0e2d521c31; _ga=GA1.2.2142818188.1433767929; q_c1=78ee1604225d47d08cddd8142a08288b23|1452172601000|1452172601000; _xsrf=15f0639cbe6fb607560c075269064393; cap_id="N2QwMTExNGQ0YTY2NGVddlMGIyNmQ4NjdjOTU0YTM5MmQ=|1453444256|49fdc6b43dc51f702b7d6575451e228f56cdaf5d"; __utmt=1; unlock_ticket="QUJDTWpmM0lsZdd2dYQUFBQVlRSlZUVTNVb1ZaNDVoQXJlblVmWGJ0WGwyaHlDdVdscXdZU1VRPT0=|1453444421|c47a2afde1ff334d416bafb1cc267b41014c9d5f"; __utma=51854390.21428dd18188.1433767929.1453187421.1453444257.3; __utmb=51854390.14.8.1453444425011; __utmc=51854390; __utmz=51854390.1452846679.1.dd1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmv=51854390.100-1|2=registration_date=20150823=1^dd3=entry_date=20150823=1"

抓取个人中心页面

通过curl，携带cookie，先抓取本人中心页面

/**
 * 通过用户名抓取个人中心页面并存储
 * 
 * @param $username str :用户名 flag
 * @return boolean   :成功与否标志
 */
public function spiderUser($username)
{
  $cookie = "xxxx" ;
  $url_info = 'http://www.zhihu.com/people/' . $username; //此处cui-xiao-zhuai代表用户ID,可以直接看url获取本人id
  $ch = curl_init($url_info); //初始化会话
  curl_setopt($ch, CURLOPT_HEADER, 0);
  curl_setopt($ch, CURLOPT_COOKIE, $cookie); //设置请求COOKIE
  curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的信息以文件流的形式返回，而不是直接输出。
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
  $result = curl_exec($ch);

   file_put_contents('/home/work/zxdata_ch/php/zhihu_spider/file/'.$username.'.html',$result);
   return true;
 }

正则分析网页数据分析新链接，进一步爬取

对于抓取过来的网页进行存储，要想进行进一步的爬取，页面必须包含有可用于进一步爬取用户的链接。通过对知乎页面分析发现：在个人中心页面中有关注人和部分点赞人和被关注人。

如下所示

复制代码代码如下:

// 抓取的html页面中发现了新的用户，可用于爬虫

ok，这样子就可以通过自己-》关注人-》关注人的关注人-》。。。进行不断爬龋接下来就是通过正则匹配提取该信息

复制代码代码如下:

// 匹配到抓取页面的所有用户

preg_match_all('//people/([w-]+)"/i', $str, $match_arr);

// 去重合并入新的用户数组,用户进一步抓取

self::$newUserArr = array_unique(array_merge($match_arr[1], self::$newUserArr));

到此，整个爬虫过程就可以顺利进行了。

如果需要大量的抓取数据，可以研究下curl_multi和pcntl进行多线程的快速抓取，此处不做赘述。

分析用户数据，提供分析

通过正则可以进一步匹配出更多的该用户数据，直接上码。

// 获取用户头像
preg_match('//i', $str, $match_img);
$img_url = $match_img[1];

// 匹配用户名：
// 崔小拽
preg_match('/([x{4e00}-x{9fa5}]+).+span>/u', $str, $match_name);
$user_name = $match_name[1];

// 匹配用户简介
// class bio span 中文
preg_match('/([x{4e00}-x{9fa5}]+).+span>/u', $str, $match_title);
$user_title = $match_title[1];

// 匹配性别
// 男
// gender value1 ;结束 中文
preg_match('/
preg_match('//u', $str, $match_city);
$user_city = $match_city[1];

// 匹配工作
//人见人骂的公司
preg_match('//u', $str, $match_employment);
$user_employ = $match_employment[1];

// 匹配职位
// 程序猿
preg_match('//u', $str, $match_position);
$user_position = $match_position[1];

// 匹配学历
// 研究僧
preg_match('//u', $str, $match_education);
$user_education = $match_education[1];

// 工作情况
// 挨踢
preg_match('/([x{4e00}-
x{9fa5}]+)41 个话题
preg_match('/class="?zg-link-litblue"?>(d+)s.+strong>/i', $str, $match_topic);
$user_topic = $match_topic[1];

// 关注人数
// 关注了
preg_match_all('/(d+)<.+/i', $str, $match_care);
$user_care = $match_care[1][0];
$user_be_careed = $match_care[1][1];

// 历史浏览量
// 个人主页被 17 人浏览
preg_match('/class="?zg-gray-normal"?.+>(d+)<.+span>/i', $str, $match_browse);
$user_browse = $match_browse[1];

在抓取的过程中，有条件的话，一定要通过redis入库，确实能提升抓取和入库效率。没有条件的话只能通过sql优化。这里来几发心德。

数据库表设计索引一定要慎重。在spider爬取的过程中，建议出了用户名，左右字段都不要索引，包括主键都不要，尽可能的提高入库效率，试想5000w的数据，每次添加一个，建立索引需要多少消耗。等抓取完毕，需要分析数据时，批量建立索引。

数据入库和更新操作，一定要批量。 mysql 官方给出的增删改的建议和速度：http://dev.mysql.com/doc/refman/5.7/en/insert-speed.html

# 官方的最优批量插入 INSERT INTO yourtable VALUES (1,2), (5,5), ...;

部署操作。程序在抓取过程中，有可能会出现异常挂掉，为了保证高效稳定，尽可能的写一个定时脚本。每隔一段时间干掉，重新跑，这样即使异常挂掉也不会浪费太多宝贵时间，毕竟，time is money。

#!/bin/bash # 干掉 ps aux |grep spider |awk '{print $2}'|xargs kill -9 sleep 5s # 重新跑 nohup /home/cuixiaohuan/lamp/php5/bin/php /home/cuixiaohuan/php/zhihu_spider/spider_new.php &

数据分析呈现

数据的呈现主要使用echarts 3.0，感觉对于移动端兼容还不错。兼容移动端的页面响应式布局主要通过几个简单的css控制，代码如下

// 获取用户头像 preg_match('//i', $str, $match_img); $img_url = $match_img[1]; // 匹配用户名： // 崔小拽 preg_match('/([x{4e00}-x{9fa5}]+).+span>/u', $str, $match_name); $user_name = $match_name[1]; // 匹配用户简介 // class bio span 中文 preg_match('/([x{4e00}-x{9fa5}]+).+span>/u', $str, $match_title); $user_title = $match_title[1]; // 匹配性别 // 男 // gender value1 ;结束中文 preg_match('/ preg_match('//u', $str, $match_city); $user_city = $match_city[1]; // 匹配工作 //人见人骂的公司 preg_match('//u', $str, $match_employment); $user_employ = $match_employment[1]; // 匹配职位 // 程序猿 preg_match('//u', $str, $match_position); $user_position = $match_position[1]; // 匹配学历 // 研究僧 preg_match('//u', $str, $match_education); $user_education = $match_education[1]; // 工作情况 // 挨踢 preg_match('/([x{4e00}- x{9fa5}]+)41 个话题 preg_match('/class="?zg-link-litblue"?>(d+)s.+strong>/i', $str, $match_topic); $user_topic = $match_topic[1]; // 关注人数 // 关注了 preg_match_all('/(d+)<.+/i', $str, $match_care); $user_care = $match_care[1][0]; $user_be_careed = $match_care[1][1]; // 历史浏览量 // 个人主页被 17 人浏览 preg_match('/class="?zg-gray-normal"?.+>(d+)<.+span>/i', $str, $match_browse); $user_browse = $match_browse[1];

不足和待学习

整个过程中涉及php,shell,js,css,html,正则等语言和部署等基础知识，但还有诸多需要改进完善，小拽特此记录，后续补充例：
php 采用multicul进行多线程。正则匹配进一步优化部署和抓取过程采用redis提升存储移动端布局的兼容性提升 js的模块化和sass书写css。

上一篇：PHP内核学习教程之php opcode内核实现
下一篇：简单谈谈php延迟静态绑定

广告商业广告，理性选择

相关推荐

PHP命令行执行整合pathinfo模拟定时任务实例

PHP url的pathinfo模式加载不同控制器的简单实现

py文件转exe时包含paramiko模块出错解决方法

PHP 自动加载的简单实现(推荐)

php网页版聊天软件实现代码

php+jquery+html实现点击不刷新加载更多的实例代码

PHP请求Socket接口测试实例

PHPWind9.0手动屏蔽验证码解决后台关闭验证码但是依然显示的问题

PHP 读取大文件并显示的简单实例(推荐)

PHP Oauth授权和本地加密实现方法

Yii2.0中的COOKIE和SESSION用法

PHP实现四种基础排序算法的运行时间比较(推荐)

PHP身份证校验码计算方法

PHP通过加锁实现并发情况下抢码功能

Yii2的XSS攻击防范策略分析

Yii2基于Ajax自动获取表单数据的方法

Yii2实现上下联动下拉框功能的方法

Yii2实现同时搜索多个字段的方法

Yii2实现让关联字段支持搜索功能的方法

Yii2中关联查询简单用法示例

广告商业广告，理性选择

文章分类

php基础 php技巧 php实例 php文摘 php模板

热门关键词

雪佛兰通用奢华劳斯莱斯旗舰版 64位收藏夹解调器网卡网线分辨率家电 4k 显示器 header USER_AGENT 色彩图形商业生成

 广告商业广告，理性选择

热门文章

1 各大搜索引擎登录入口,网站收录入口

2 什么是Meta标签？哪些Meta标签对搜索引擎SEO优化有作用？

3 Mac设置VPN来登录youtube等国外网站的步骤

4 Openvpn在麒麟操作系统上的配置方法

5 联想笔记本BIOS设置图解中文详细说明

6 AMI BIOS设置图解教程+Award Bios设置全程图解

7 Mac怎么切换主显示器苹果电脑Mac双显示器设置主显方法图解

8 分享最受美国人喜欢的十大搜索引擎

9 ubuntu如何截图? ubuntu中截屏的三种方法

10 Win7系统怎么截图快捷键？5种Win7截图方法(图文教程)

最新更新

无线路由器经常断线故障解决

怎么在Mac上设置锁屏不待机

VHD和VHDX硬盘格式有什么区别?

关闭Aero Shake节约系统资源的方法

怎么更改Mac中的邮件字体大小

提高WIN7系统开机速度方法分享

Mac系统怎么更改用户登录密码

Mac上如何修改时间和日期

如何将常用应用固定至开始屏幕或任务栏

MySQL中replace into语句的用法详解（insert into 的增强版）

广告商业广告，理性选择

网站首页

网络编程

数据库

操作系统

平面设计

网站运营

网络安全

电脑相关

手机学院

php实现爬取和分析知乎用户数据

相关推荐

文章分类

热门关键词

热门文章

最新更新