Python 爬取B站(bilibili.com)UP主的所有视频链接及详细信息
博客: https://blog.xieqiaokang.com/posts/36033.html
这里使用 conda 安装,也可使用 pip
conda install selenium bs4
selenium是一个操作浏览器的 Python 库, 需要安装相应的浏览器驱动 ,如 firefox:
conda install gtk3 firefox -c conda-forge
此外还需要
geckodriver
,可前往 github 下载,并放置于
/usr/local/bin/
:
~/bin
目录下,并将该路径添加进环境变量:
export PATH=~/bin${PATH:+:${PATH}}
如果需要永久将
~/bin
路径添加进环境变量,则将上述语句添加进
~/.bashrc
文件末尾即可(重启命令行生效,或手动输入
source ~/.bashrc
在当前命令行激活)。
geckodriver
所在路径加入
PATH
中,并重启。
见上一节环境准备部分,安装对应依赖环境。
# Github (国内访问网速不佳者可使用 Gitee)
git clone https://github.com/xieqk/Bilibili_Spider_by_UserID.git
# Gitee
git clone https://gitee.com/xieqk/Bilibili_Spider_by_UserID.git
如下图所示,进入该用户主页,地址栏后面红框中的数字即为该用户的
uid
。
进入代码目录中,直接执行
main.py
,传入
uid
参数即可:
python main.py --uid 362548791
爬取结果将保存于当前目录下的
json
目录,以
json
格式保存,为一个列表,内容如下:
json
。
False
(B站用户视频页一页一般为30个视频)。
2
(秒)。网络状况不佳时等待时间过短可能会导致爬取的数据不完全。
False
。
当加入
--detailed
参数后每个 url 的爬取结果为: