Python读取文件、大文件和指定行内容的几种方法

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

寂寞的红薯 · 专访易见天树朱振博：将区块链连成一张网，发挥 ...· 3 周前 ·

好帅的山羊 · 使用Typescript将JSON对象数组转 ...· 2 月前 ·

气宇轩昂的遥控器 · 狗头萝莉为什么上嘴唇不动-抖音· 3 月前 ·

面冷心慈的大象 · 不知君amar众乐乐（集团）有限公司· 4 月前 ·

风流倜傥的台灯 · 中华人民共和国个人所得税法_国家税务总局· 5 月前 ·

在使用python处理文本的时候，经常会需要读取文件的内容。如果文件比较小，那么直接使用open文件对象打开文件，再通过read()方法最为方便，这种方法就是把文件内容读出来后放到内存变量。

f = open('/var/log/nginx/blog.nbqykj.cn.log','rb')
#读取全部
log_data = f.read()
f.close()
# 按行读取
但是，当文件很大比如10GB，这种方法就会撑爆内存，爆出类似memoryError的错误。所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。
如果是处理连续文本内容，文件对象还支持readline()和readlines()两个方法。不同的是readline()没执行一次读取一行，readlines()会把所有内容都读出来。所以readlines方法不适用大文件。
readline
import time
f = open('/var/log/nginx/blog.nbqykj.cn.log','rb')
while True:
    print(f.readline())
    time.sleep(1)
内存使用：占用不到4兆。
readlines
import time
f = open('/var/log/nginx/blog.nbqykj.cn.log','rb')
for line in f.readlines():
    print(line)
    time.sleep(1)
内存使用：内存占用50多兆。
那么另外一个比较好的办法是把大文件分块，这里用到python迭代器yield。
# 读取大文件
def read_in_chunks(file_path, chunk_size=1024*1024):
    Lazy function (generator) to read a file piece by piece.
    Default chunk size: 1M
    You can set your own chunk size
    file_object = open(file_path)
    while True:
        chunk_data = file_object.read(chunk_size)
        if not chunk_data:
            break
        yield chunk_data
默认一次读取1兆大小的内容。
with open
另外找到一个办法。可以用with语句打开和关闭文件，包括抛出一个内部块异常。for line in f文件对象f视为一个迭代器，会自动的采用缓冲IO和内存管理，所以你不必担心大文件。
with open(...) as f:
　　for line in f:
　　　　process(line) # 
读取指定行内容
对于小文件，最简单是用readlines方法读取文件内容到列表，然后再使用列表和分片。
f = open('/var/log/nginx/blog.nbqykj.cn.log','rb')
data = f.readlines()
# 读取 第一行到第十行内容
print(data[0:10])
如果是大文件，可行的方法是先分块读取文件，然后再把指定行内容保存下来。不过这个办法有个小问题，被分块的那行内容取不全，而且效率不高。

# 读取文件多行间内容
def read_file_lines(file_path, line_start=1, line_end=-1):
    content_list = list()
    i = 1
    for chunk in read_in_chunks(file_path, 1024*1024*10):
        for tmp in chunk.split('n'):
            if line_end != -1:
                if i >= line_start and i <= line_end:                     content_list.append(tmp)             else:                 if i >= line_start:
                    content_list.append(tmp)
            i += 1
    return content_list
有更好的办法欢迎交流。
                            相关推荐
使用阿里云CDN后禁止疑似攻击IP的办法
Paramiko模块实现sftp文件的传输和操作
Paramiko模块远程连接和执行命令的常用方法
通过Python解析xml监控nowsms脚本
CentOS 6系统Phantomjs访问HTTPS网站内容为空的问题
Python计算文件行数和读取某一行的内容的方法
Python命令行解析argparse常用语法使用简介
Python字符串中去除数字之间的逗号
Django部署多个nginx反向代理后hostname获取错误的问题
Python 2.7安装gunicorn错误requires a different Python: 2.7.5 not in ‘>=3.4’