爬虫-磊神笔记

连云港楼市月销量爬虫

日期：2022-09-24 11:27:23 作者：磊落不羁栏目：爬虫评论（0）

话不多说，只是为了数据分析而已import time import requests import re import xlwt list_url='http://lygfdc.com/WebSite/Portal/List.aspx?nodeid=4278FFB377C0D3FD' def get_lists(): lists_all = [] for i in ran...

酷狗音乐单曲爬取

日期：2022-09-22 15:27:55 作者：磊落不羁栏目：爬虫评论（0）

酷狗音乐单首歌曲下载单首歌曲下载没有问题url链接复制的别人的进行的修改。我就纳了闷了，怎么我复制的url链接就不行呢？明明区别不大。我这个脑子呀。。果然不如别人灵活。import requests from urllib import parse import json import time import re import os import webbrowser import warnings warnings.filterwarnings('ignore'...

关于百合网会员资料搜索爬取的相关思路

日期：2022-09-22 08:52:22 作者：磊落不羁栏目：爬虫评论（0）

今天原本拿百合网做自动化识别的学习测试，在编写过程中发现了百合网如下的爬取思路，可以大批量的获取百合网的会员内容。首先注册个账号，随后登录，便可进入百合网会员界面，随后可以点击搜索进入搜索。这都是正常操作。https://search.baihe.com/在百合网的搜索界面进入开发工具F12在基本搜索界面随便输入条件进行搜索。在开发工具NETwork--XHR中可以看到以下两个链接的出现。通过分析得知 getUserID页面是获取用户id列表的界面。getUserList?userID这个链接是通过getUserID所获取的列表进行的每次8个会员信息页面的展示。而getUserID每次获取的会...

百度好看视频单个视频爬取代码

日期：2022-09-20 15:52:45 作者：磊落不羁栏目：爬虫评论（0）

用这个下载在好看视频看好的单个视频下载速度稳定新能好目前使用流畅import requests import re import json import os import webbrowser from tqdm import tqdm def download(url: str, fname: str): header = { ...

抖音个人主页视频批量下载

日期：2022-09-15 09:40:28 作者：磊落不羁栏目：爬虫评论（0）

个人研究所用 ''' 本程序使用selenium编写本程序在pycharm中运行是没有问题的整个程序完整采用多进程下载技术所以下载速度也相对较快主要用途下载抖音个人主页中所有视频问题：使用pyinstaller进修打包操作后运行出现障碍，问题在哪里不清楚经验 selenium中获取元素必须使用By引用原来的获取方式似乎失效因为没有查询到相关资料所以...

抖音下载个人所有视频

日期：2022-09-10 21:53:47 作者：磊落不羁栏目：爬虫评论（0）

今天写了个抖音下载个人所有视频用的是selenium 自动化技术获取的链接，多进程下载。同时分享网上另外一个高手写的批量下载，带进度条先发布我的代码，很好用，但是一个缺陷没有解决就是不能按照文件夹归类，原因是无法从网页获取用户名称（待解决）from selenium import webdriver from selenium.webdriver.common.by import By import time import requests import re import js...

python 爬取抖音视频

日期：2022-09-02 16:34:23 作者：磊落不羁栏目：爬虫评论（0）

抖音爬取最困难的是抖音视频地址的提取，提取到视频地址之后即可进行保存下载抖音的地址存于script标签间是编码后的所以取到地址要进行解码本案例中使用的解码方式是request 解码具体其他解码方式 url其他包解码from urllib import parse #数据对象 data = { "a":"1", &...

爬取B站单个视频

日期：2022-09-02 15:14:42 作者：磊落不羁栏目：爬虫评论（0）

爬虫的基础是页面的分析，分析好页面才可以顺利爬取资源""" 2. 想办法在程序里拿到页面源代码 3. 写正则. 提取到playinfo中的内容 4. 转化成字典. 提取下载url(video, audio) 5. 下载视频和音频 6. 合并起来. """ import requests # 提前安装requests模块 pip install re...

爬虫 selenium的使用

日期：2022-03-09 10:39:07 作者：磊落不羁栏目：爬虫评论（0）

from selenium.webdriver import Chrome from selenium.webdriver.common.keys import Keys import time web = Chrome() web.get("http://lagou.com") # 找到某个元素. 点击它 el = web.find_element_by_xpath('//*[@id="change...

爬虫多进程多线程协程

日期：2022-03-09 10:33:35 作者：磊落不羁栏目：爬虫评论（0）

多线程# 线程, 进程 # 进程是资源单位, 每一个进程至少要有一个线程 # 线程是执行单位 # 启动每一个程序默认都会有一个主线程 # def func(): # for i in range(1000): # print("func", i) # # #&nbs...

爬虫模拟登录、防盗链及代理教案

日期：2022-03-09 10:31:13 作者：磊落不羁栏目：爬虫评论（0）

模拟登录# 登录 -> 得到cookie # 带着cookie 去请求到书架url -> 书架上的内容 # 必须得把上面的两个操作连起来 # 我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失 import requests # # 会话 # session = requests.session() #&nbs...

request 基本知识

日期：2022-03-09 10:07:06 作者：磊落不羁栏目：爬虫评论（0）

requests是爬虫重要的知识1、headers的传递 import requests query = input("输入一个你喜欢的明星") url = f'https://www.sogou.com/web?query={query}' dic = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac&...

re、bs4、xpath的基本使用学习笔记

日期：2022-03-09 08:18:19 作者：磊落不羁栏目：爬虫评论（0）

1、re的主要函数及使用#findall :匹配字符串中所有的符合正则的内容re.findall() #参数正则待处理文本返回的值是list 正则前面加上r 更好例如：re.findall(r"\d","ddddddddd")#finditer：匹配字符串中所有的内容【返回的是迭代器】it=re.finditer(r"\d","我的电话号码是111111，我女朋友的电话是：2222") print(...

招生考试网的自动更新爬虫

日期：2022-03-02 10:58:27 作者：磊落不羁栏目：爬虫评论（0）

本程序写的目的主要是同步单位的网站信息和上级网站信息，采用爬虫自动分析出信息URL所属类别，获取分类ID 然后对采集网站内容放入mysql数据库中程序整个过程使用pymysql request re time urllib3 1.25版本几个包思路如下1、获取列表页url列表2、循环url 获取网页的信息所属类别3、查询数据库中是否存在该来源url 如果存在说明文章存在跳过不存在则进入文章页面进行采集4、采集文章页面，获取几个信息5、写入信息到数据库中程序采用同步采集没有使用多线程多进程或者协程对于一个网站...

Urllib库获取网页源码

日期：2022-02-27 11:39:08 作者：磊落不羁栏目：爬虫评论（0）

1，获取网页的头部信息以确定网页的编码方式：import urllib.request res = urllib.request.urlopen('http://www.163.com') #info()方法用来获取网页头部 print(res.info())2，获取网页代码：#导入 urllib库的request模块 import urllib.request #指定要抓取的网页url，必须以http开头的 url =&nbs...

一个图片网站的单页图片下载爬虫实例

日期：2022-02-21 21:25:56 作者：磊落不羁栏目：爬虫评论（0）

网站是www.sj96.com编写这个程序主要是学习爬虫技术目标是下载页面所有的图片程序已经基本实现，程序内容如下import requests import re import time import os #===============================读取网页内容====================================== url='http://www.sj96.com/beauty/photos/64743.html' headers={ &n...

爬虫写的一个查询单词的小程序

日期：2022-02-11 10:14:34 作者：磊落不羁栏目：爬虫评论（0）

# 东海县教育局教育考试中心 # 作者：刘磊 # QQ: 247483085 # 编写时间：2022-02-11 --9:14 # coding=utf-8 import time import requests from bs4 import BeautifulSoup isrun=True while isrun: &nbs...

爬取南京房价爬虫系列

日期：2022-02-10 17:53:27 作者：磊落不羁栏目：爬虫评论（0）

1 基本概念网络爬虫（Crawler）：又称网络蜘蛛，或者网络机器人（Robots）. 它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。换句话来说，它可以根据网页的链接地址自动获取网页内容。如果把互联网比做一个大蜘蛛网，它里面有许许多多的网页，网络蜘蛛可以获取所有网页的内容。爬虫是一个模拟人类请求网站行为, 并批量下载网站资源的一种程序或自动化脚本。爬虫：使用任何技术手段，批量获取网站信息的一种方式。关键在于批量。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。误伤：在反爬虫的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能...

« 2025年11月 »
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30