磊神笔记
技术笔记,编程笔记
首页
PHP
Python
前端
HTML+CSS
小程序
正则
操作教程
爬虫 selenium的使用
日期:2022-03-09 10:39:07
作者:磊落不羁
栏目:
爬虫
评论(0)
from selenium.webdriver import Chrome from selenium.webdriver.common.keys import Keys import time web = Chrome() web.get("http://lagou.com") # 找到某个元素. 点击它 el = web.find_element_by_xpath('//*[@id="change...
爬虫 多进程 多线程 协程
日期:2022-03-09 10:33:35
作者:磊落不羁
栏目:
爬虫
评论(0)
多线程# 线程, 进程 # 进程是资源单位, 每一个进程至少要有一个线程 # 线程是执行单位 # 启动每一个程序默认都会有一个主线程 # def func(): # for i in range(1000): # print("func", i) # # #&nbs...
爬虫 模拟登录、防盗链及代理教案
日期:2022-03-09 10:31:13
作者:磊落不羁
栏目:
爬虫
评论(0)
模拟登录# 登录 -> 得到cookie # 带着cookie 去请求到书架url -> 书架上的内容 # 必须得把上面的两个操作连起来 # 我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失 import requests # # 会话 # session = requests.session() #&nbs...
request 基本知识
日期:2022-03-09 10:07:06
作者:磊落不羁
栏目:
爬虫
评论(0)
requests是爬虫重要的知识1、headers的传递 import requests query = input("输入一个你喜欢的明星") url = f'https://www.sogou.com/web?query={query}' dic = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac&...
re、bs4、xpath的基本使用学习笔记
日期:2022-03-09 08:18:19
作者:磊落不羁
栏目:
爬虫
评论(0)
1、re的主要函数及使用#findall :匹配字符串中所有的符合正则的内容re.findall() #参数 正则 待处理文本 返回的值是list 正则前面加上r 更好例如 :re.findall(r"\d","ddddddddd")#finditer:匹配字符串中所有的内容【返回的是迭代器】it=re.finditer(r"\d","我的电话号码是111111,我女朋友的电话是:2222") print(...
‹‹
1
››