Quienes practican el AA dedican mucho más tiempo a evaluar, limpiar y transformar datos que a crear modelos. Los datos son tan importantes que este curso dedica tres unidades enteras al tema:
- Trabajar con datos numéricos (esta unidad)
- Cómo trabajar con datos categóricos
- Conjuntos de datos, generalización y sobreajuste
Esta unidad se centra en datos numéricos, es decir, números enteros o valores de punto flotante que se comportan como números. Es decir, son aditivos, contables, ordenados, etcétera. La siguiente unidad se enfoca en los datos categóricos, que pueden incluir números que se comportan como categorías. La tercera unidad se enfoca en cómo preparar tus datos para garantizar resultados de alta calidad cuando entrenes y evalúes tu modelo.
Estos son algunos ejemplos de datos numéricos:
- Temperatura
- Peso
- La cantidad de ciervos que pasan el invierno en una reserva natural
Por el contrario, los códigos postales de EE.UU., a pesar de son números de cinco o nueve dígitos, no se comportan como números ni representan y las relaciones matemáticas. El código postal 40004 (en el condado de Nelson, Kentucky) no es el doble del código postal 20002 (en Washington, D.C.). Estos números representan categorías, específicamente áreas geográficas, y se consideran datos categóricos.