Como trabalhar com dados categóricos

Os dados categóricos têm um conjunto específico de valores possíveis. Exemplo:

  • As diferentes espécies de animais em um parque nacional
  • Os nomes das ruas de uma determinada cidade
  • Se um e-mail é ou não spam
  • As cores que o exterior das casas são pintados
  • Números agrupados, que são descritos no módulo Como trabalhar com dados numéricos

Os números também podem ser dados categóricos

Dados numéricos verdadeiros podem ser multiplicadas de modo significativo. Por exemplo, considere um modelo que prevê o valor de uma casa com base na área dela. Um modelo útil para avaliar preços de imóveis normalmente depende centenas de atributos. Dito isso, se tudo mais for igual, uma casa de 200 metros quadrados precisa ter o dobro do valor de uma casa idêntica de 100 metros quadrados.

Muitas vezes, é necessário representar os atributos que contêm valores inteiros como dados categóricos em vez de numéricos. Por exemplo, considere um recurso de código postal em que os valores são números inteiros. Se você representar esse atributo de forma numérica em vez de categórica, vai pedir ao modelo para encontrar uma relação numérica entre diferentes CEPs. Ou seja, você está dizendo ao modelo para considerar o código postal 20004 como duas vezes (ou metade) um sinal grande como o código postal 10002 A representação de códigos postais como dados categóricos permite que o modelo pese cada código postal individualmente.

Codificação

Codificação significa converter dados categóricos ou outros dados em vetores numéricos que um modelo pode treinar. Essa conversão é necessária porque os modelos podem Treinar somente em valores de ponto flutuante. os modelos não podem ser treinados com strings como "dog" ou "maple". Este módulo explica diferentes de codificação para dados categóricos.