爬虫 selenium的使用

日期:2022-03-09 10:39:07 作者:磊落不羁 栏目:爬虫 评论(0)
from selenium.webdriver import Chrome from selenium.webdriver.common.keys import Keys import time web = Chrome() web.get("http://lagou.com") # 找到某个元素. 点击它 el = web.find_element_by_xpath('//*[@id="change...

爬虫 多进程 多线程 协程

日期:2022-03-09 10:33:35 作者:磊落不羁 栏目:爬虫 评论(0)
多线程# 线程, 进程 # 进程是资源单位, 每一个进程至少要有一个线程 # 线程是执行单位 # 启动每一个程序默认都会有一个主线程 # def func(): #     for i in range(1000): #         print("func", i) # # #&nbs...

爬虫 模拟登录、防盗链及代理教案

日期:2022-03-09 10:31:13 作者:磊落不羁 栏目:爬虫 评论(0)
模拟登录# 登录 -> 得到cookie # 带着cookie 去请求到书架url -> 书架上的内容 # 必须得把上面的两个操作连起来 # 我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失 import requests # # 会话 # session = requests.session() #&nbs...

request 基本知识

日期:2022-03-09 10:07:06 作者:磊落不羁 栏目:爬虫 评论(0)
requests是爬虫重要的知识1、headers的传递 import requests query = input("输入一个你喜欢的明星") url = f'https://www.sogou.com/web?query={query}' dic = {     "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac&...

re、bs4、xpath的基本使用学习笔记

日期:2022-03-09 08:18:19 作者:磊落不羁 栏目:爬虫 评论(0)
1、re的主要函数及使用#findall  :匹配字符串中所有的符合正则的内容re.findall()    #参数 正则  待处理文本    返回的值是list  正则前面加上r 更好例如 :re.findall(r"\d","ddddddddd")#finditer:匹配字符串中所有的内容【返回的是迭代器】it=re.finditer(r"\d","我的电话号码是111111,我女朋友的电话是:2222") print(...