将csv的多列字符属性编码为数字型
38浏览 · 2024-02-25 22:52:04
将csv的多列字符属性编码为数字型,可以使用`sk[learn](https://geek.csdn.net/educolumn/00b6a1b1fad077eafad2b50b0230c4b0?spm=1055.2569.3001.10083).preprocessing`库中的`LabelEncoder`类。假设你有一个名为`data.csv`的文件,其中有多列字符属性,你想将它们编码为数字型,以下是一个示例[代码](https://geek.csdn.net/educolumn/1572ef9b473b4e00f6b2bf6d428b7c27?spm=1055.2569.3001.10083):
```python
from sk[learn](https://geek.csdn.net/educolumn/00b6a1b1fad077eafad2b50b0230c4b0?spm=1055.2569.3001.10083).preprocessing import LabelEncoder
import pandas as pd
# 读取csv文件
data = pd.read_csv('data.csv')
# 遍历所有字符属性列,将它们编码为数字型
for column in data.select_dtypes(include=['object']):
le = LabelEncoder()
data[column] = le.fit_transform(data[column])
# 保存到新的csv文件
data.to_csv('data_encoded.csv', index=False)
在这个示例中,我们首先使用`pandas`库中的`read_csv`[函数](https://geek.csdn.net/educolumn/ba94496e6cfa8630df5d047358ad9719?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6NDQ0MDg2MiwiZXhwIjoxNzA3MzcxOTM4LCJpYXQiOjE3MDY3NjcxMzgsInVzZXJuYW1lIjoid2VpeGluXzY4NjQ1NjQ1In0.RrTYEnMNYPC7AQdoij4SBb0kKEgHoyvF-bZOG2eGQvc&spm=1055.2569.3001.10083)读取`data.csv`文件,然后使用`select_dtypes`[函数](https://geek.csdn.net/educolumn/ba94496e6cfa8630df5d047358ad9719?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6NDQ0MDg2MiwiZXhwIjoxNzA3MzcxOTM4LCJpYXQiOjE3MDY3NjcxMzgsInVzZXJuYW1lIjoid2VpeGluXzY4NjQ1NjQ1In0.RrTYEnMNYPC7AQdoij4SBb0kKEgHoyvF-bZOG2eGQvc&spm=1055.2569.3001.10083)选择所有字符属性列,并遍历它们。对于每个字符属性列,我们使用`LabelEncoder`类将它们编码为数字型。最后,我们将编码后的数据保存到新的csv文件`data_encoded.csv`中,将`index`设置为`False`表示不保存行索引。
注意,这种方法只适用于字符属性只有少数取值的情况。如果字符属性取值很多,那么编码后的数字就失去了