python中unicode编码转换为中文

日期:2022-09-02 22:50:13 作者:磊落不羁 栏目:语法字符串 评论(0)
我们使用python中,遇到爬取网站情况,用到unicode编码,我们需要将它转换为中文,unicode编码转换为中文的方法有四种:使用unicode_escape 解码、使用encode()方法转换,再调用bytes.decode()转换为字符串形式、 使用json.loads 解码(为json 格式)、使用eval(遇到Unicode是通过requests在网上爬取的时候)。具体内容请看本文。方法一:使用unicode_escape 解码unicode = b'\\u4f60\\u597d're = unicode.decode(&q...

python 爬取抖音视频

日期:2022-09-02 16:34:23 作者:磊落不羁 栏目:爬虫 评论(0)
抖音爬取最困难的是抖音视频地址的提取 ,提取到视频地址之后 即可进行保存下载     抖音的地址存于script标签间 是编码后的  所以取到地址要进行解码   本案例中使用的解码方式 是request  解码   具体其他解码方式 url其他包解码from urllib import parse #数据对象 data = {     "a":"1", &...

爬取B站单个视频

日期:2022-09-02 15:14:42 作者:磊落不羁 栏目:爬虫 评论(0)
爬虫的基础是页面的分析,分析好页面才可以顺利爬取资源""" 2. 想办法在程序里拿到页面源代码 3. 写正则. 提取到playinfo中的内容 4. 转化成字典. 提取下载url(video, audio) 5. 下载视频和音频 6. 合并起来. """ import requests   # 提前安装requests模块  pip install re...