卓越飞翔博客卓越飞翔博客

卓越飞翔 - 您值得收藏的技术分享站
技术文章11179本站已运行3223

爬取网站上的图片,并自动下载到本地

在互联网时代,人们已经习惯于从图库、社交平台等各种网站上下载图片。如果只需要下载少量图片,手动操作并不繁琐。但是,如果需要下载大量图片,手动操作将变得非常费时费力,这时就需要使用自动化技术来实现图片的自动下载。

本文将介绍如何使用 Python 爬虫技术,从网站上自动下载图片到本地。这个过程分为两步:第一步,使用 Python 的 requests 库或者 selenium 库抓取网站上的图片链接;第二步,根据获取到的链接,通过 Python 的 urllib 或者 requests 库将图片下载到本地。

第一步:获取图片链接

  1. 使用 requests 库爬取链接

先来看看使用 requests 库爬取图片链接的方法。示例代码如下:

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

img_tags = soup.find_all('img')

urls = [img['src'] for img in img_tags]

这里以 Example 网站为例,首先使用 requests 库爬取网页内容,并使用 BeautifulSoup 库解析 HTML。然后,我们使用 soup.find_all('img') 方法来获取 HTML 中所有的 img 标签,并使用列表解析式将每个标签中的 src 属性的值提取出来。

  1. 使用 selenium 库爬取链接

另一种获取图片链接的方式是使用 selenium 库,示例代码如下:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from time import sleep

url = 'http://example.com'

options = Options()
options.add_argument('--headless')

service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

sleep(2)

img_tags = driver.find_elements_by_tag_name('img')

urls = [img.get_attribute('src') for img in img_tags]

这里我们使用了 ChromeDriver,使用时需要先将自己电脑上的 ChromeDriver 的路径填入到示例代码中的 'path/to/chromedriver' 处。第二行代码启用无头浏览器,避免在 Chrome 浏览器窗口中进行操作,提高运行速度。然后我们使用 selenium 库中的 webdriver 模块建立了一个 Chrome 浏览器的实例,通过设置 driver.get(url) 来打开 Example 网站。然后使用 driver.find_elements_by_tag_name('img') 获取到所有的 img 标签,进而获取每个标签中的 src 属性的值。

第二步:下载图片

下载图片的方式有多种,这里我们使用 Python 自带的 urllib 库或者 requests 库来下载。示例代码如下:

import urllib.request

for url in urls:
    filename = url.split('/')[-1]
    urllib.request.urlretrieve(url, filename)

这里使用 urllib.request 库将图片从网络上下载到本地,使用 url.split('/')[-1] 来获取图片的文件名,并将其赋值给变量 filename,最后使用 urllib.request.urlretrieve(url, filename) 将图片下载到本地。需要注意的是,如果 url 中包含中文,还需要对 url 进行编码处理。

这里再简单介绍一下使用 requests 库下载图片的方法,示例代码如下:

import requests

for url in urls:
    filename = url.split('/')[-1]
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

这里使用 requests 库获取图片二进制文件,将其写入文件。需要注意的是,由于二进制文件写入模式为 'wb',需要使用 with open(filename, 'wb') as f: 的方式来打开文件并写入,确保每个文件都被正确关闭。

总结

综上所述,通过 Python 爬虫技术,我们能够非常容易地爬取网站上的图片,并将其自动下载到本地。这种自动化技术能够帮助我们提高工作效率,对于需要处理大量图片的工作非常有帮助。同时,需要提醒的是,爬取网站上的图片需要遵守相关法律法规,并尊重网站的版权。如果没有得到网站官方的授权或者许可,不要未经允许擅自爬取网站上的图片。

卓越飞翔博客
上一篇: PHP 爬虫实战:爬取百度搜索结果
下一篇: PHP 爬虫:从网页中提取关键信息的方法
留言与评论(共有 0 条评论)
   
验证码:
隐藏边栏