数据导入导出
作为一名普通的数据分析师,我日常接触最多的数据是业务系统中的销售订单表、商品库存表、会员信息表,门店信息表,商品信息表等之类的业务表,但最初接触R时,看到的演示代码以及数据集大部分都是R包中内置的数据集,没有很明确操作数据的意义,没有代入感。在刚开始学习使用R做数据处理后,我就想使用自己的数据集来操作数据,用 R 去实现 Excel 的透视表或 sql 功能。这时就首先需要将原始数据导入
R中。
现实生活中数据来源复杂,商业环境中数据源同样具有多样性,如 SAP,不同的数据库、OA系统、EXCEL 手工文件等;我们想要统一数据做分析,就需要将不同的数据源整合导入R中。
我们从读取方式简单区分为本地文件数据、数据库数据,本章主要说明常用的 Excel 文件和csv
、txt 等文本文件的读写方式。关于数据库的数据的读取,可以参照后续 database
数据库章节
。
相信大家随便使用搜索引擎搜索诸如“将 Excel 导入 R”的关键词都能得到一些行之有效的方法,但是不够系统全面。本章主要简述R中数据导入导出的相关 R 包,如
readxl
,
writexl
,
openxlsx
,
readr
,
vroom
等主要处理 csv 或 Excel 的 R 包。
当有其它数据格式需求的时候,那时候的你肯定已经会自行查找相关R包使用了。
在本章开始前,假定已经有一些 R 相关基础。如使用 Rstudio 查看导入的数据,R 的数据结构等有一定认识。本章节主要分为:
excel 读写
csv 等平面文件读写
由于 R 是将数据加载至内存中,故数据集大小超过内存大小将导入失败。
csv 即 Comma-Separated Values,逗号分隔值,分隔符也可是不是逗号。
csv 文件是一种以纯文本形式存储的表格数据,可以通过记事本打开。与 Excel 不同的是,CSV 是一种文本格式,也不受 Excel 最大行数(1048576)限制。
csv 文件也被称作平面文件,结构简单,平面文件比结构文件占用更少的空间;平面文件在数据仓库项目中广泛用于导入数据。