PHP爬虫实战：抓取慕课网课程信息- 技术经验 -卓越飞翔博客

随着互联网的发展，爬虫技术在现代化的数据采集、数据分析和业务决策当中已经扮演了越来越重要的角色。学会如何利用爬虫技术，将会极大的提高我们处理数据的效率和准确性。在这篇文章中，我们将使用PHP编写一个爬虫，用于抓取慕课网上的课程信息。

本文将使用的工具如下：

PHP编程语言，版本为PHP 7.0
第三方库Guzzle HTTP Client，用于发送HTTP请求和接收HTTP响应
一个简单的MySQL数据库，用于存储我们抓取到的课程信息

1.准备工作

首先，我们需要在本地环境中安装PHP 7.0版本，安装过程略。

Guzzle HTTP Client是一个常用的HTTP客户端工具库，我们可以使用Composer进行安装。在命令行中切换到一个空白目录下，然后创建一个新的composer.json文件，添加如下内容：

{

"require": {
    "guzzlehttp/guzzle": "^6.3"
}

}

然后在同级目录下执行composer install，等待执行完成后，我们就成功安装了Guzzle HTTP Client。

2.分析目标网站结构

在开始编写代码之前，我们需要对目标网站的结构进行分析。我们选择的是慕课网（www.imooc.com）的Python课程，我们需要抓取的信息包括课程名称、课程编号、课程难度、课程时长和课程链接。

打开目标网站并进行一定的操作后（例如搜索“Python”课程），我们可以查看到网站返回的响应内容。我们可以使用浏览器的开发工具查看响应内容和网页结构。

我们可以看到，在慕课网上Python课程的列表是通过AJAX进行动态加载的。为了便于爬取数据，我们可以直接去查找AJAX请求的URL和参数，然后构造自己的HTTP请求来获取数据。

通过查看目标网站的XHR请求，我们可以发现Python课程实际请求的URL是 http://www.imooc.com/course/AjaxCourseMore?&page=1。

请求参数中的page表示当前要访问的页码。我们可以通过HTTP GET方法向该URL发送请求，并根据返回结果进行解析。

3.编写爬虫程序

在上一步我们已经获取了目标网站Python课程的列表URL，现在我们只需要编写PHP代码，使用Guzzle HTTP Client发送HTTP请求，然后解析返回结果即可。

首先，我们需要引入Guzzle HTTP Client库。在PHP文件的顶部添加如下代码：

require 'vendor/autoload.php';

然后创建一个Guzzle HTTP Client对象：

$client = new GuzzleHttpClient();

接下来，我们可以使用该对象发送HTTP请求：

$response = $client->request('GET', 'http://www.imooc.com/course/AjaxCourseMore?&page=1');

上述代码中，我们使用了Guzzle HTTP Client对象的request()方法，指定请求的方式是GET，请求的URL是我们在上一步中获取到的URL。

最后，我们需要从HTTP响应中获取到我们需要的课程信息。通过检查响应内容，我们可以看到课程信息包含在一个HTML标签中，标签的class属性为course-card-container。

我们可以使用PHP的DOMDocument类遍历HTML标签，将符合条件的标签解析出来。

最终的代码实现如下：

require 'vendor/autoload.php';

use GuzzleHttpClient;

$client = new Client([

'base_uri' => 'http://www.imooc.com'

]);

$response = $client->request('GET', '/course/AjaxCourseMore?&page=1');

if ($response->getStatusCode() == 200) {

$dom = new DOMDocument();
@$dom->loadHTML($response->getBody());

$xpath = new DOMXPath($dom);

$items = $xpath->query("//div[@class='course-card-container']");

foreach ($items as $item) {
    $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent);
    $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card'], $item)->item(0)->getAttribute('href'));
    $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent);
    $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent);
    $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href'));

    // 将抓取到的数据存储到MySQL数据库中
    // ...

    echo "课程名称：" . $courseName . "

    echo "课程编号：" . $courseId . "

    echo "课程难度：" . $courseDifficulty . "

    echo "课程时长：" . $courseDuration . "

    echo "课程链接：" . $courseLink . "

}

我们使用DOMDocument读取HTML响应内容，在使用DOMXPath遍历标签。最终，我们将抓取到的信息打印到屏幕上。

4.存储数据

现在我们已经成功的抓取到了Python课程的信息，并将信息打印到了屏幕上。但是，将数据打印到屏幕上并不实用，我们需要将数据保存到数据库中。

在MySQL数据库中，我们创建了一个表来存储Python课程的信息。表结构如下：

CREATE TABLE python_courses (
id int(11) unsigned NOT NULL AUTO_INCREMENT,
course_name varchar(255) NOT NULL DEFAULT '',
course_id varchar(255) NOT NULL DEFAULT '',
course_difficulty varchar(255) NOT NULL DEFAULT '',
course_duration varchar(255) NOT NULL DEFAULT '',
course_link varchar(255) NOT NULL DEFAULT '',
PRIMARY KEY (id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

在代码中，我们使用PDO连接MySQL数据库，并使用prepare()方法和execute()方法执行插入操作。最终的代码如下：

require 'vendor/autoload.php';

use GuzzleHttpClient;

$client = new Client([

'base_uri' => 'http://www.imooc.com'

]);

$response = $client->request('GET', '/course/AjaxCourseMore?&page=1');

if ($response->getStatusCode() == 200) {

$dom = new DOMDocument();
@$dom->loadHTML($response->getBody());

$xpath = new DOMXPath($dom);

$items = $xpath->query("//div[@class='course-card-container']");

$dsn = 'mysql:host=localhost;dbname=test';
$username = 'root';
$password = '';
$pdo = new PDO($dsn, $username, $password, [PDO::ATTR_ERRMODE => PDO::ERRMODE_EXCEPTION]);

$stmt = $pdo->prepare("INSERT INTO `python_courses` (`course_name`, `course_id`, `course_difficulty`, `course_duration`, `course_link`) VALUES (:course_name, :course_id, :course_difficulty, :course_duration, :course_link)");
foreach ($items as $item) {
    $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent);
    $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card']", $item)->item(0)->getAttribute('href'));
    $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent);
    $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent);
    $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href'));

    $stmt->bindParam(':course_name', $courseName);
    $stmt->bindParam(':course_id', $courseId);
    $stmt->bindParam(':course_difficulty', $courseDifficulty);
    $stmt->bindParam(':course_duration', $courseDuration);
    $stmt->bindParam(':course_link', $courseLink);
    $stmt->execute();
}

}

现在，我们已经成功的构建了一个简单的PHP爬虫，用于抓取慕课网上的Python课程信息。经过这个例子的介绍，你应该可以使用PHP编写你自己的爬虫程序，并获取到你需要的数据了。

相关推荐