爬取B站单个视频

by：磊落不羁分类：爬虫时间：3年前阅读：84 评论：0

爬虫的基础是页面的分析，分析好页面才可以顺利爬取资源

"""
2. 想办法在程序里拿到页面源代码
3. 写正则. 提取到playinfo中的内容
4. 转化成字典. 提取下载url(video, audio)
5. 下载视频和音频
6. 合并起来.
"""
import requests   # 提前安装requests模块  pip install requests
import re
import json
import os


# 想办法在程序里拿到页面源代码
url = "https://www.bilibili.com/video/BV15u41167Ch?spm_id_from=333.999.0.0&vd_source=47c7ffb06df7e09e7d93c63150e1ae60"

headers = {
    # 对网站最基本的尊重
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}

resp = requests.get(url, headers=headers)
# print(resp.text)  # 页面源代码

# 写正则. 提取到playinfo中的内容
play_info_re = re.compile(r"window.__playinfo__=(?P<play_info>.*?)</script>")
play_info = play_info_re.search(resp.text).group("play_info")
# print(play_info)  # 有用的

dic = json.loads(play_info)
# print(dic)

video_url = dic['data']['dash']["video"][0]['baseUrl']
audio_url = dic['data']['dash']["audio"][0]['baseUrl']

# print(video_url)
# print(audio_url)

headers['Referer'] = url  # 对上referer

# 下载视频和音频
# 发请求. 保存成文件
v_resp = requests.get(video_url, headers=headers)
with open("video.m4s", mode="wb") as f:
    f.write(v_resp.content)

a_resp = requests.get(audio_url, headers=headers)
with open("audio.m4s", mode="wb") as f:
    f.write(a_resp.content)

# 合并起来
# 借助专业工具来合并视频. 剪映, PR. FFMPEG
# FFMPEG, 下载之后. 解压缩. 把bin目录添加到环境变量.
# mac的同学特别简单. 百度一下.

# 执行一条命令
os.system("ffmpeg -i audio.m4s -i video.m4s -acodec copy -vcodec copy good.mp4")

非特殊说明，本文版权归原作者所有，转载请注明出处

本文地址：http://php.liulei.com.cn/?type=acticle&id=42

<<上一篇

JS 实现页面在浏览器中全屏显示（F11效果）

<!DOCTYPE html> <html> ...

下一篇>>

python 爬取抖音视频

抖音爬取最困难的是抖音视频地址的提取，提取到视频地址之后即可进行保存下载抖音的地址存于...

推荐阅读

最近发表

网站分类

文章归档

爬取B站单个视频

JS 实现页面在浏览器中全屏显示（F11效果）

python 爬取抖音视频

评论列表

发表评论

推荐阅读

最近发表

网站分类

文章归档

爬取B站单个视频

JS 实现页面在浏览器中全屏显示（F11效果）

python 爬取抖音视频

相关文章

连云港楼市月销量爬虫

酷狗音乐单曲爬取

关于百合网会员资料搜索爬取的相关思路

百度好看视频单个视频爬取代码

抖音个人主页视频批量下载

抖音下载个人所有视频

评论列表

发表评论