预约成功
1、大数据的数据转换方法——最大最小规格化方法
该方法对被初始数据进行一种线性转换。
例如,假设属性的最大值和最小值分别是 98 000 元和 12 000 元,利用最大最小规格化方法将“顾客收入”属性的值映射到 0~1 的范围内,则“顾客收入”属性的值为 73 600 元时,对应的转换结果如下。
(73 600-12 000)/(98 000-12 000)*(1.0-0.0) + 0 = 0.716
计算公式的含义为“(待转换属性值-属性最小值)/(属性最大值-属性最小值)*(映射区间最大值-映射区间最小值)+映射区间最小值”。
2、大数据的数据转换方法——零均值规格化方法
该方法是指根据一个属性的均值和方差来对该属性的值进行规格化。
假定属性“顾客收入”的均值和方差分别为 54 000 元和 16 000 元,则“顾客收入”属性的值为 73 600 元时,对应的转换结果如下。
(73 600-54 000)/16000 = 1.225
计算公式的含义为“(待转换属性值-属性平均值)/属性方差”。
3、大数据的数据转换方法——十基数变换规格化方法
该方法通过移动属性值的小数位置来达到规格化的目的。所移动的小数位数取决于属性绝对值的最大值。假设属性的取值范围是 -986~917,则该属性绝对值的最大值为 986。属性的值为 435 时,对应的转换结果如下。
435/10^3 = 0.435
计算公式的含义为“待转换属性值/10”,其中,j 为能够使该属性绝对值的最大值(986)小于 1 的最小值。
属性构造方法可以利用已有属性集构造出新的属性,并将其加入到现有属性集合中以挖掘更深层次的模式知识,提高挖掘结果准确性。
例如,根据宽、高属性,可以构造一个新属性(面积)。构造合适的属性能够减少学习构造决策树时出现的碎块情况。此外,属性结合可以帮助发现所遗漏的属性间的相互联系,而这在数据挖掘过程中是十分重要的。
以上就是有关于大数据的数据转换方法的全部内容了,从文章中我们就可以看出大数据工程师之类的行业有多么受欢迎,所以想从事大数据行业的小伙伴们就要好好理解小编为大家整理的文章内容了,我们会从各种方面分析大数据行业的内容,环球网校小编希望大家的学习之路顺利。