2022年3月2日-磊神笔记

招生考试网的自动更新爬虫

日期：2022-03-02 10:58:27 作者：磊落不羁栏目：爬虫评论（0）

本程序写的目的主要是同步单位的网站信息和上级网站信息，采用爬虫自动分析出信息URL所属类别，获取分类ID 然后对采集网站内容放入mysql数据库中程序整个过程使用pymysql request re time urllib3 1.25版本几个包思路如下1、获取列表页url列表2、循环url 获取网页的信息所属类别3、查询数据库中是否存在该来源url 如果存在说明文章存在跳过不存在则进入文章页面进行采集4、采集文章页面，获取几个信息5、写入信息到数据库中程序采用同步采集没有使用多线程多进程或者协程对于一个网站...

‹‹ 1 ››

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31