terça-feira, 6 de março de 2018

Colocando as variáveis na mesma escala

#datascience #R #dataTransformation #rapidinha
Escala! Em certos algoritmos a escala diferente das variáveis pode comprometer o resultado... Imagine um dataset com a idade e o salário das pessoas: 
> idade <- c(27,32,36,48)
> salario <- c(7000.00,8000.00,10000.00,12000.00)
> df <- data.frame(idade = idade, salario = salario)
> df
idade salario
1 27 7000
2 32 8000
3 36 10000
4 48 12000
Como pode ver, as idades e os salários estão em escalas completamente diferentes, e isto pode afetar alguns algoritmos, como o Kmeans ou o SVM, por exemplo. Podemos colocar as duas na mesma escala de valores: 

> dfscaled <- scale(df)
> dfscaled
idade salario
[1,] -0.97675475 -1.0147221
[2,] -0.41860918 -0.5637345
[3,] 0.02790728 0.3382407
[4,] 1.36745665 1.2402159

Agora, ambas estão em uma mesma escala. 

Nenhum comentário:

Postar um comentário