2022年3月9日-磊神笔记

爬虫 selenium的使用

日期：2022-03-09 10:39:07 作者：磊落不羁栏目：爬虫评论（0）

from selenium.webdriver import Chrome from selenium.webdriver.common.keys import Keys import time web = Chrome() web.get("http://lagou.com") # 找到某个元素. 点击它 el = web.find_element_by_xpath('//*[@id="change...

爬虫多进程多线程协程

日期：2022-03-09 10:33:35 作者：磊落不羁栏目：爬虫评论（0）

多线程# 线程, 进程 # 进程是资源单位, 每一个进程至少要有一个线程 # 线程是执行单位 # 启动每一个程序默认都会有一个主线程 # def func(): # for i in range(1000): # print("func", i) # # #&nbs...

爬虫模拟登录、防盗链及代理教案

日期：2022-03-09 10:31:13 作者：磊落不羁栏目：爬虫评论（0）

模拟登录# 登录 -> 得到cookie # 带着cookie 去请求到书架url -> 书架上的内容 # 必须得把上面的两个操作连起来 # 我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失 import requests # # 会话 # session = requests.session() #&nbs...

request 基本知识

日期：2022-03-09 10:07:06 作者：磊落不羁栏目：爬虫评论（0）

requests是爬虫重要的知识1、headers的传递 import requests query = input("输入一个你喜欢的明星") url = f'https://www.sogou.com/web?query={query}' dic = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac&...

re、bs4、xpath的基本使用学习笔记

日期：2022-03-09 08:18:19 作者：磊落不羁栏目：爬虫评论（0）

1、re的主要函数及使用#findall :匹配字符串中所有的符合正则的内容re.findall() #参数正则待处理文本返回的值是list 正则前面加上r 更好例如：re.findall(r"\d","ddddddddd")#finditer：匹配字符串中所有的内容【返回的是迭代器】it=re.finditer(r"\d","我的电话号码是111111，我女朋友的电话是：2222") print(...

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

爬虫 selenium的使用

爬虫 多进程 多线程 协程

爬虫 模拟登录、防盗链及代理教案

request 基本知识

re、bs4、xpath的基本使用学习笔记

爬虫多进程多线程协程

爬虫模拟登录、防盗链及代理教案