添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

运用pandas和openpyxl删除空行以及合并单元格

在工作中,我们有时会碰到这样一个问题,需要把一个表格的空行删除以及合并单元格,删除空行对于pandas来说小菜一碟,但是合并单元格呢,emmmmm,暂时没有想到更好的方法。
需求如下:
我现在有这样一个表格:
在这里插入图片描述
需要把它变成:
在这里插入图片描述
主要步骤如下:

  • 使用pandas对空行删除
  • 将pandas处理完的数据转成openpyxl中的Worksheet对象
  • 合并单元格和保存文件
    各步骤代码如下:

pandas删除空行和填充空值

# 导入pandas和openpyxl库
import pandas as pd
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
# 读取需要处理的excel文件
df = pd.read_excel('./hhhhhh.xlsx')
# 删除空行,原表替换
df.dropna(how='all',inplace=True)
# 填充空值,使用前一个值进行填充
df.fillna(axis=0,method='ffill',inplace=True)

将DataFrame数据转成openpyxl可以处理的Worksheet数据

wb=Workbook()
ws=wb.active
for row in dataframe_to_rows(df,index=False):
    ws.append(row)

合并单元格和保存文件

# 获取第一列数据
type_list = []
i = 2
while True:
    r = ws.cell(i, 1).value
    if r:
        type_list.append(r)
    else:
        break
    i += 1
file = r'aa.xlsx'
# 判断合并单元格的始末位置
start = 0
end = 0
flag = type_list[0]
for i in range(len(type_list)):
    if type_list[i] != flag:
        flag = type_list[i]
        end = i - 1
        if end >= start:
            ws.merge_cells("A" + str(start + 2) + ":A" + str(end + 2))
            start = end + 1
    if i == len(type_list) - 1:
        end = i
        ws.merge_cells("A" + str(start + 2) + ":A" + str(end + 2))
wb.save(file)
                                    插入和列¶可以使用工作表的一些方法插入或删除或列:openpyxl.worksheet.worksheet.Worksheet.insert_rows() openpyxl.worksheet.worksheet.Worksheet.insert_cols() openpyxl.worksheet.worksheet.Worksheet.delete_rows() openpyxl.works...
                                    I'm trying to delete cells from an Excel spreadsheet using openpyxl.  It seems like a pretty basic command, but I've looked around and can't find out how to do it.  I can set their values to None, but...
                                    Microsoft Office 被广泛用于商务和运营分析中, 其中 Excel 尤其受欢迎。Excel 可以用于存储表格数据、创建报告、图形趋势等。在深入研究用 Python 处理 E...
                                    多个excel, 每个excel有多个sheets. 要统计每个sheet的最大数,并写入到一个新的excel 文件中。
#import package
import pandas as pd
from openpyxl import load_workbook
from openpyxl import Workbook
import os
#将excel 表名,页签名,每页最大数记录到列表中lis,再将lis这个列表放入final_data列表中
def getrownum_allsheet(tab