利用 Pandas 将数据集中的某列文本拆分为多行

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

绅士的创口贴 · 震惊! ...· 1 月前 ·

被表白的橙子 · 使用Python ...· 1 月前 ·

打盹的桔子 · C++进制转换函数 - yyer - 博客园· 1 年前 ·

朝气蓬勃的油条 · javascript ...· 2 年前 ·

冷冷的青蛙 · 使用顶层await简化JS代码-js await· 2 年前 ·

豪气的感冒药 · Chrome 控制台 ...· 2 年前 ·

刚分手的椰子 · c++ 无法打印uint8 ...· 2 年前 ·

摘要：按照的要求我需要将的坐标拆分为多行。到这里相当于将列中所有文本拆成了一个巨大的表，表中每个单元格有一个值。有些行拆分后的元素比较少，没有值可以填充的单元格补充会把整个表逐行堆叠成一列。彩蛋我在列拆分为多行的基础上，还将拆分成了两个变量。

手头的项目要求用 Tableau 创建一个 story，数据集是摩拜上海城区用户使用数据。其中有一个维度的数据处理起来有点棘手。

注意 track 这个维度的数据，它表示的是在订单时间内的行车轨迹，里面包含了大量坐标点。

按照 tidydata 的要求：

Each variable forms a column.

Each observation forms a row.

Each type of observational unit forms a table.

我需要将 track 的坐标拆分为多行。

Google 了问题的解决方式，代码是

mobike.drop("track",axis = 1).join(mobike["track"].str.split("#",expand = True).stack().reset_index(level = 1,drop = True).rename("track"))

解决问题不能光知其然，不知其所以然。所以我将这行代码逐语句进行了拆分，一探代码内部的工作原理。

最外层代码是：

mobike.join({dataset})

这里调用了 dataframe 的 join 方法，很基础。

{dataset} 这部分做的工作比较多，首先是 split 方法。Python 的 split 方法可以将字符串按照指定的字符进行分割，这个例子中指定的字符是「#」。如果不加参数 expand = True ， split() 会返回拆分后的字符串数组。

mobike["track"].str.split("#")
# ["121.372,31.118","121.372,31.119","121.373,31.117","1...]
# ["121.419,31.200","121.419,31.201","121.420,31.199","1...]
# ...

加了 expand = True 会将数组拆开，数组中的每一个元素都会多带带保存。

mobike["track"].str.split("#",expand = True)
# "121.372,31.118" "121.372,31.119" "121.373,31.117" "1... 
# "121.419,31.200" "121.419,31.201" "121.420,31.199" "1...
# ...

到这里相当于将列中所有文本拆成了一个巨大的表，表中每个单元格有一个值。有些行拆分后的元素比较少，没有值可以填充的单元格补充 None

stack() 会把整个表逐行堆叠成一列。

这样就成功的将一列中的所有文本拆分成了多行，而且它是一个 dataframe 。不过到这里还没有结束，我们还需要将拆出来的这个 dataframe 与原数据集合并。

注意到拆分出来的 dataframe 是多重索引的，需要用 reset_index() 将多重索引重置掉。在 split() 的时候，我们引入了超级多的 None。这时候就可以通过 reset_index(..., drop =True) 将值为 None 的行删除。

与原数据集通过 join() 合并的时候， A.join(B) ,A、B两个 DataFrame 都需要有名字，因此需要 rename("track") 。

至此，我们的任务算做完了。

我在列拆分为多行的基础上，还将 track 拆分成了两个变量——track_x,track_y。这里用到了 pandas 的函数映射进行数据转换。

mobike["track" = mobike["track"].split(",")
mobike["track_x"] = mobike["track"].map(lambda x:x[0])
mobike["track_y"] = mobike["track"].map(lambda x:x[1])

通过 map 进行列的扩展速度非常非常快。

本文用到的摩拜数据及演示 notebook 均可在 DataWranglingMethod下载。

【数据科学系统学习】Python # 数据分析基本操作[四] 数据规整化和数据聚合与分组运算

摘要：数据规整化清理转换合并重塑数据聚合与分组运算数据规整化清理转换合并重塑合并数据集可根据一个或多个键将不同中的行链接起来。函数根据样本分位数对数据进行面元划分。字典或，给出待分组轴上的值与分组名之间的对应关系。本篇内容为整理《利用Python进行数据分析》，博主使用代码为 Python3，部分内容和书本有出入。在前几篇中我们介绍了 NumPy、pandas、matplotlib 三个...

The question 2019-07-31 11:11

**Python 数据分析入门之 pandas 总结基础（二）**

摘要：一大熊猫世界来去自如的老生常谈，从基础来看，我们仍然关心对于与外部数据是如何交互的。函数受限制问题唯一重要的参数，标志着一个的第个页将会被取出。数据分析入门之总结基础一欢迎来翔的博客查看完成版。一.大熊猫世界来去自如：Pandas的I/O 老生常谈，从基础来看，我们仍然关心pandas对于与外部数据是如何交互的。 1.1 结构化数据输入输出 read_csv与to_csv 是⼀对...

verano 2019-07-24 18:20

阅读 2555 · 2021-11-25 09:43

【数据科学系统学习】Python # 数据分析基本操作[四] 数据规整化和数据聚合与分组运算

**Python 数据分析入门之 pandas 总结基础（二）**

CloudCone黑色星期五促销：美国KVM VPS，洛杉矶MC机房，低至$14.2/年起

virmach：夏季促销，$7.2/年，1核/512M内存/10gSSD/1T流量/1Gbps带宽，

Codepen 每日精选（2018-4-24）

css flex => flex-wrap

实现环形进度条（CSS3+jQuery/Vue）

了解并使用CSS中的rem单位

切图崽的自我修养－[TOOL] 用Omnigraffle绘制UML