3、思路分析
1、通过对网页的详细分析,获取漫画的id->漫画详情页->获取每个类别下对应话的链接->获取每话对应的图片。
2、通过对网页搜索框的分析,向
http://api.acg.gd/comic/search
发送请求可以得到漫画的id,后面同上。
4、提出难点
获取每话对应的图片。
5、难点分析
对页面分析发现返回的页面中没有图片链接,后发现也没有使用Ajax,就怀疑是使用的js改变元素,就开始逆向,确定加密内容,确定加密区域,确定加密方式,最后本地模拟。
6、思路实现
1、加密内容:chapterImages
2、加密位置:下图红框框内
3、加密方式:AES加密,含key、iv和mode,调试它们都是定值。
4、本地模拟:
5、实践:spider爬取1~3(含)漫画所有章节。
部分代码:
图片下载用scrapy自带的ImagesPipeline,速度嘎嘎快。
当然最好等一会,因为打印出最后
下载
章数的时候,可能还有一些
下载
图片的进程在运行。使用临时账号和密码登陆,需要登陆的原因是有一些
漫画
不登陆不可见 (在50和51行处,可以不用修改 也可以修改成你的账号和密码)如果出现这种情况,可以如下解决。使用的是本机浏览器,例如代码中的Chrome浏览器 如果你的浏览器中已经登陆了拷贝网站,那么就可以省去登陆的步骤。
下载
的
漫画
全部存放于一个文件夹中,文件名格式由章节数_图片顺序_url中部分字符串构成。
下载
的图片新存放于本文件夹中的一个kaobei_images中。
你像这样运行脚本:
python
manga-downloader.py
[
python
exe路径,系统或虚拟环境] [脚本路径]
然后它会询问 URL。 只需在支持的站点(例如 Batoto.net)中输入
漫画
主页的 URL。
示例输入: :
然后脚本开始运行并在您的工作目录中创建一个文件夹,命名为:“Batoto - [
漫画
名称]”。 文件夹名称前缀表示
下载
漫画
的站点。 章节在此文件夹中创建为压缩的 ZIP 档案。
一旦您的工作目录中有几个
漫画
文件夹,就可以更轻松地一次性更新它们,而不是为每个
漫画
运行脚本并输入它们的 URL。 为此,您可以使用标志“-r”/“--reload”运行脚本。
东京电台深夜档《娘王》,改编自日本著名情色小说作家仓科辽企画霓虹街三部曲之一的“娘王”,有多名AV明星参演博得大量眼球。而
漫画
也是很JQ的啦,在线看太累,下到本地用Picasa看才爽啊。在网上又找不到有效的连接,还得靠自己。
迅雷的
批量
下载
功能以前一直没用过,现在发现用来下
漫画
简直就是神器啊!!!
先找个
漫画
网:
http://dm.99manga.com/comic/1519/
鉴于家里网速的问题,上同人の侍这个工口网站很慢而且提心吊胆而且一页一页的翻着很麻烦~于是出现了同人の侍专用
漫画
下载
器~ALPHA版同人の侍网址:http://samurai3.net/已完成功能:
下载
大部分的
漫画
欠缺:部分
漫画
的命名:有的是000~00n有的是00~n 未作相关处理,对于
漫画
页是否有效未作验证如
漫画
实际命名为000.JPG 001.JPG 002.JPG 09
Python
2.7
BeautifulSoup(使用pip install BeautifulSoup或pip install BeautifulSoup4安装)
在 Fedora 20 上测试过。只要安装了依赖项,就可以在任何 Linux 发行版上工作。
该脚本提供了许多值得注意的恢复功能。
Resume : 自动检测每一章的缺失页面,只要
下载
位置相同就
下载
。
选择性
下载
:您可以指定要
下载
的章节范围或
下载
特定章节。
目的地:您可以指定
下载
漫画
的位置。
该脚本通过命令行选项工作:
这将显示与可用选项相关的所有帮助
python
manga.py --help
这将manga_name
下载
manga_name