招生考试网的自动更新爬虫

日期:2022-03-02 10:58:27 作者:磊落不羁 栏目:爬虫 评论(0)
本程序写的目的主要是同步单位的网站信息和上级网站信息,采用爬虫自动分析出信息URL所属类别,获取分类ID 然后对采集网站内容 放入mysql数据库中程序整个过程使用pymysql request   re time  urllib3 1.25版本 几个包 思路如下1、获取列表页url列表2、循环url 获取网页的信息所属类别3、查询数据库中是否存在该来源url 如果存在说明文章存在 跳过 不存在则进入文章页面进行采集4、采集文章页面,获取几个信息5、写入信息到数据库中程序采用同步采集  没有使用 多线程 多进程或者协程  对于一个网站...