scrapy爬虫错误笔记------twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection

最新推荐文章于 2023-08-15 15:47:25 发布
最新推荐文章于 2023-08-15 15:47:25 发布阅读量1.7w
今天使用scrapy爬虫的时候，运行时报了下面的错：
Traceback (most recent call last):
  File "d:\python\lib\site-packages\scrapy\core\downloader\middleware.py", line 43, in process_request
    defer.returnValue((yield download_func(request=request,spider=spider)))
twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]
原因是没有设置请求头，所以在middlewares.py中修改了USER_AGENT的请求头。然后在我运行问题解决。
                    scrapy爬虫错误笔记------twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection
                    今天使用scrapy爬虫的时候，运行时报了下面的错：Traceback (most recent call last):  File &quot;d:\python\lib\site-packages\scrapy\core\downloader\middleware.py&quot;, line 43, in process_request    defer.returnValue((yield down...
				twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.
解决办法：
打开IE→Internet选项→连接→局域网设置→勾上“自动检测设置”
				基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化大屏展示-毕业源码案例设计.rar基于Python的网易新闻Scrapy爬虫：数据分析与可视化
				Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip
该项目代码主要针对计算机、自动化等相关专业的学生从业者下载使用，项目代码都经过严格调试，确保可以运行！放心下载使用。
也可作为期末课程设计、课程大作业、毕业设计等。具有较高的学习借鉴价值！也可直接当做个人项目使用。
## 开发环境：Python + Scrapy框架 + redis数据库
## 程序开发工具： PyCharm
  程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式， 设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：
scheduler - 调度器
dupefilter - URL去重规则（被调度器使用）
pipeline   - 数据持久化
  Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个主机的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。
  而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
				相关包的版本
twisted.internet.error.TCPTimedOutError: TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败
原因：被检测到为爬虫
解决：爬虫时间设置为白天
[<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]
				scrapy 爬虫时报错：
<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>
<twisted.python.failure.f...
					scrapy 爬虫报错: Connection to the other side was lost in a non-clean fashion: Connection lost.
				scrapy 爬虫时报错：
<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>
<twisted.python.failure.fa...
				解压缩后含有3.8python 32位和64位两个版本。根据python版本自己选择。
如果安装scrapy过程中出现异常 building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Build Tools for Visual Studio": https://visualstudio.microsoft.com/downloads/
将文件至python\Scripts目录下，然后执行
pip.exe install .\Twisted-20.3.0-cp38-cp38-win32.whl（32位）
pip.exe install .\Twisted-20.3.0-cp38-cp38-win_amd64.whl（64位）
 安装成功后再次安装scrapy 即可！
				1.错误信息
Traceback (most recent call last):
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/core/downloader/middleware.py", line 42, in process_request
今天爬取网站突然给我连断开，我楞了好一会，检查了请求头，ip，多线程，我还想是不是我请求太快了。。
这是报错：<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to th
e other side was lost in a non-clean fash...
  File "e:\python3.7.1\lib\site-packages\scrapy\core\downloader\middleware.py", line 43, in process_request
    defer.returnValue((yield download_func(request=requ...
				twisted.python.failure.failure twisted.internet.error.connectionlost: connection to the other side was lost in a non-clean fashion.>
在命令行是可以成功的，但是在pycharm 中会失败，应该和FQ有关系
scrapy现在没有scrapy.contri...
				scrapy爬虫错误笔记------twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection
					17515
				scrapy框架异常之no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
					11217
                scrapy爬虫错误笔记------twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection
                    Python_dafahao: 
                    加了headers还是会报错的话，可以把https写成http试试，它会重定向然后又可以爬了
                scrapy爬虫错误笔记------twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection
                    月下三木曲: 
                    好像都是反扒把、我忘了。一般都是换ip ，别的没找到合适的办法
                scrapy爬虫错误笔记------twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection
                    月下三木曲: 
                    请问解决了么？
                scrapy爬虫错误笔记------twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection
                    阿肆si: 
                    我也是，改了还是报错，我猜测应该是个别网页做的反爬手段，每个页面的useragent不一样，我在爬取的时候有的报这种错，有的却可以正常爬取
                Python爬虫错误之twisted.web.error.SchemeNotSupported: Unsupported scheme: b''
                    这是修改的哪一个文件啊