使用sklearn来处理类别数据

在处理真实的数据集的时候,我们经常会遇见一个或多个的类别数据的特征。类别数据可以被分为标称特征(nominal feature)和有序特征(ordinal feature)。有序特征指的是类别的值是有序的或者是可以排序的,例如,衣服的尺码S、M、X、XL、XXL...就是属于有序特征。再例如,衣服的颜色,黑色、蓝色、白色、黄色...这些就属于标称特征。

一、有序特征的映射

我们可以将有序特征装换成为整数,整数包含一定的顺序。没有一个合适的方法可以自动将尺寸特征转换成为正确的顺序,所以我们需要手动来指定相应的映射关系。例如,S:1,M:2,X:3,我们可以利用pandas的map方法来实现。

import pandas as pd

if __name__ == "__main__":
    #定义衣服尺寸的映射关系
    size_mapping = {"S":1,"M":2,"X":3,"XL":4}
    #定义一个DataFrame数据
    data = pd.DataFrame([
        ["green","S",100],
        ["blue", "M", 110],
        ["red", "X", 120],
        ["black", "XL", 130]
    ])
    #设置列名
    data.columns = ["color","size","price"]
    #对size列的类别数据进行映射
    data["size"] = 
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付 9.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值