1 string->labelencoder(preprocessing.LabelEncoder())
Sklearn中的LabelEncoder可以将标签分配一个0到n_classes-1之间的编码 ,即将各种标签分配一个可数的连续编号。
2 可视化 matplotlib
data.hist(bins=50)#bin指定bin(箱子)的个数,也就是总共有几条条状图。
3 标准化、归一化
归一化算法是通过特征的最大最小值将特征缩放到[0,1]区间范围内。标准化是通过特征的平均值和标准差将特征缩放成一个标准的正态分布,均值为0,方差为1。standarscaler去均值和方差归一化是针对每一个特征维度来做的,而不是针对样本。