一个图片网站的单页图片下载爬虫实例

by：磊落不羁分类：爬虫时间：3年前阅读：75 评论：0

网站是www.sj96.com

编写这个程序主要是学习爬虫技术

目标是下载页面所有的图片

程序已经基本实现，程序内容如下

import requests
import re
import time
import os

#===============================读取网页内容======================================
url='http://www.sj96.com/beauty/photos/64743.html'
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
html=requests.get(url=url,headers=headers)
html=html.text

#==============================解析网页获取图片地址=======================================
tagg='<a class="imgbox" href=".*?">.*?<img src="(.*?)"/>.*?</a>'
urls=re.findall('<img src="(.*?)"/>',html)
title=re.findall('<title>(.*?)_四季图片</title>',html)

#======处理urls====
new_url=[]
for values in urls:
    haspic='caiji'
    https='http'
    old_imgurl='https://img.99ym.cn'
    imgurlhost='http://192.250.198.123'
    if haspic not in values:
        urls.remove(values)
    if https not in values:
        urls.remove(values)
    if old_imgurl not in values:
        continue
    else:
        value=values.replace(old_imgurl, imgurlhost)
    new_url.append(value)
try:
    new_url.remove('/static/index/img/mob/icon-navlist.png')
except:
    pass
print(new_url)
tuheader={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
#====================创建一个图片目录==========================
fristdir='upload'
if not os.path.exists(fristdir):
    os.mkdir(fristdir)
dirname=fristdir+'/'+title[0]
if not os.path.exists(dirname):
    os.mkdir(dirname)
num=len(new_url)
print('共将采集'+str(num)+'张图片')
i=1
for url in new_url:
    time.sleep(2)
    try:
        file_name=url.split('/')[-1]
        response=requests.get(url,headers=tuheader)
        with open(dirname+'/'+file_name,'wb') as f:
            f.write(response.content)
            print('第'+str(i)+'张图片下载成功')
    except:
        print('第' + str(i) + '张图片下载失败')
    i+=1

非特殊说明，本文版权归原作者所有，转载请注明出处

本文地址：http://php.liulei.com.cn/?type=acticle&id=21

<<上一篇

爬虫写的一个查询单词的小程序

# 东海县教育局教育考试中心 # 作者：刘 &nb...

下一篇>>

Urllib库获取网页源码

1，获取网页的头部信息以确定网页的编码方式：import urllib.request res...

推荐阅读

最近发表

网站分类

文章归档

一个图片网站的单页图片下载爬虫实例

爬虫写的一个查询单词的小程序

Urllib库获取网页源码

评论列表

发表评论

推荐阅读

最近发表

网站分类

文章归档

一个图片网站的单页图片下载 爬虫实例

爬虫写的一个查询单词的小程序

Urllib库获取网页源码

相关文章

连云港楼市月销量爬虫

酷狗音乐单曲爬取

关于百合网会员资料搜索爬取的相关思路

百度好看视频单个视频爬取代码

抖音个人主页视频批量下载

抖音下载个人所有视频

评论列表

发表评论

一个图片网站的单页图片下载爬虫实例