爬取网站上的图片，并自动下载到本地- 技术经验 -卓越飞翔博客

在互联网时代，人们已经习惯于从图库、社交平台等各种网站上下载图片。如果只需要下载少量图片，手动操作并不繁琐。但是，如果需要下载大量图片，手动操作将变得非常费时费力，这时就需要使用自动化技术来实现图片的自动下载。

本文将介绍如何使用 Python 爬虫技术，从网站上自动下载图片到本地。这个过程分为两步：第一步，使用 Python 的 requests 库或者 selenium 库抓取网站上的图片链接；第二步，根据获取到的链接，通过 Python 的 urllib 或者 requests 库将图片下载到本地。

第一步：获取图片链接

使用 requests 库爬取链接

先来看看使用 requests 库爬取图片链接的方法。示例代码如下：

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

img_tags = soup.find_all('img')

urls = [img['src'] for img in img_tags]

这里以 Example 网站为例，首先使用 requests 库爬取网页内容，并使用 BeautifulSoup 库解析 HTML。然后，我们使用 soup.find_all('img') 方法来获取 HTML 中所有的 img 标签，并使用列表解析式将每个标签中的 src 属性的值提取出来。

使用 selenium 库爬取链接

另一种获取图片链接的方式是使用 selenium 库，示例代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from time import sleep

url = 'http://example.com'

options = Options()
options.add_argument('--headless')

service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

sleep(2)

img_tags = driver.find_elements_by_tag_name('img')

urls = [img.get_attribute('src') for img in img_tags]

这里我们使用了 ChromeDriver，使用时需要先将自己电脑上的 ChromeDriver 的路径填入到示例代码中的 'path/to/chromedriver' 处。第二行代码启用无头浏览器，避免在 Chrome 浏览器窗口中进行操作，提高运行速度。然后我们使用 selenium 库中的 webdriver 模块建立了一个 Chrome 浏览器的实例，通过设置 driver.get(url) 来打开 Example 网站。然后使用 driver.find_elements_by_tag_name('img') 获取到所有的 img 标签，进而获取每个标签中的 src 属性的值。

第二步：下载图片

下载图片的方式有多种，这里我们使用 Python 自带的 urllib 库或者 requests 库来下载。示例代码如下：

import urllib.request

for url in urls:
    filename = url.split('/')[-1]
    urllib.request.urlretrieve(url, filename)

这里使用 urllib.request 库将图片从网络上下载到本地，使用 url.split('/')[-1] 来获取图片的文件名，并将其赋值给变量 filename，最后使用 urllib.request.urlretrieve(url, filename) 将图片下载到本地。需要注意的是，如果 url 中包含中文，还需要对 url 进行编码处理。

这里再简单介绍一下使用 requests 库下载图片的方法，示例代码如下：

import requests

for url in urls:
    filename = url.split('/')[-1]
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

这里使用 requests 库获取图片二进制文件，将其写入文件。需要注意的是，由于二进制文件写入模式为 'wb'，需要使用 with open(filename, 'wb') as f: 的方式来打开文件并写入，确保每个文件都被正确关闭。

总结

综上所述，通过 Python 爬虫技术，我们能够非常容易地爬取网站上的图片，并将其自动下载到本地。这种自动化技术能够帮助我们提高工作效率，对于需要处理大量图片的工作非常有帮助。同时，需要提醒的是，爬取网站上的图片需要遵守相关法律法规，并尊重网站的版权。如果没有得到网站官方的授权或者许可，不要未经允许擅自爬取网站上的图片。

相关推荐