什么是数据处理
1、数倌栗受绽据格式统一。数据的来源是多样的,存储的格式也是不同的,包括数字、文本、文档、时间等,甚至不同机器或人员记录的时间的格式都是不旎髂坑若同的,为了便于对数据进行处理,需要将不同格式的数据按类以统一的方式进行存储。
2、重复条目处理。在一些问题中,会出现重复的条目,例如同一台机器对同一个样本在不同时刻的检测值。对于重复的条目并不能直接删除,需要根据需要进行选择,甚至增加一列用于记录该数据重复出现的次数。
3、缺失值处理。由于各种各样的原因,一些获得的数据的一些值是缺失的,或者记录为NULL值。而这些缺失值的存在可以通过删除该组数据、或该列特征,或者使用该列的平均值、众数、特殊值等进行补全。
4、数据数值化。数据处理常用于计算中进行分析,而计算机对数字的处理速度更快,因此在很多问题上需要将其他类型的数据转为数值。例如红绿灯的状态只有红、黄、绿三种,可以分别将其转为1、2、3进行存储处理。
5、数倌栗受绽据标准化。有些数据的数值特别大或者特别小,不利于数的计算,因此,数据标准化是很多数据处理中常用的。通过将数据减去最小值,再除以最大值与最小值的差,可以将数据的值化为0到1之间的数;在一些问题上也经常使用减去平均值,再除以标准差的方式,使数据规范化。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:37
阅读量:82
阅读量:66
阅读量:23
阅读量:80