Outliers: Descubra o que são e como contorná-los em sua análise de dados

Conteúdos deste artigo:

Ao trabalhar com dados, muitas vezes nos deparamos com discrepâncias. É normal se desesperar de início e não saber como lidar com elas, mas calma! Nesse post vamos te explicar como identificar essas anomalias e também dar algumas dicas de como tratar os outliers sem perder a efetividade da sua análise de dados. Confira a seguir!

outliers

O que são outliers?

Em seu livro “Fora de Série”, Malcom Gladwell traz a definição de outlier e de “fora de série’’:

Outlier:

  1. Algo que está afastado ou é classificado diferentemente de um corpo principal ou relacionado.
  2. Uma observação estatística cujo valor na amostragem é marcadamente diferente dos demais.

Fora de Série:

  1. Em pequena escala e de acordo com padrões próprios.
  2. Fora do comum; excepcional, singular.

Essas definições são bem claras e mostram exatamente o que é um outlier: uma anomalia na amostragem de dados. Em outras palavras, é um dado que foge do padrão dos demais.

É normal encontrarmos outliers em meio a uma grande quantidade de dados, e aprender a lidar com eles exige atenção. Esses valores discrepantes podem ser exatamente o que você está buscando na análise, mas também podem ser os responsáveis por negativar toda a pesquisa. Fique atento!

Como posso identificar um outlier?

Encontrar um dado que se distancia muito dos demais é mais fácil quando se trabalha com um dataset pequeno. Nesses casos, só de olhar para os dados de uma planilha ou tabela ficará fácil de encontrar o outlier.

Quando se tem um dataset maior, as planilhas podem se tornar inviáveis para encontrar inconsistências. Nesses casos, uma boa maneira de encontrar um outlier é através da plotagem de gráficos. Ao fazer isso, o analista consegue identificar rapidamente que existe algo de diferente na amostragem.

Qual a causa de um outlier?

Antes de encontrar a melhor forma de tratar um outlier, precisamos entender qual é a sua causa. Nesse sentido, temos dois tipos de outliers: naturais e artificiais.

Os outliers naturais, como o próprio nome já diz, representam as diferenças de dados a que todas as situações estão sujeitas. Alguns exemplos são:

  • Uma idade mais avançada ao se analisar a expectativa de vida em determinada região;
  • Declaração de renda, quando alguém se saiu muito melhor (ou pior) do que o restante do seu grupo de perfil econômico;
  • Uma loja específica que vendeu muito mais do que o restante da rede;
  • Um vendedor que ficou muito abaixo das metas do mês.

Embora eles sejam muito comuns, a maior parte dos outliers possui origem artificial – ou seja, provém de erros. Existem 5 erros principais que provocam esses outliers:

  • Erro de Input (entrada de dados): erros de digitação ou de coleta de informações;
  • Erro de Amostragem: ocorre por exemplo quando ao se avaliar o ticket médio de uma loja X da rede de varejo, é incluído o ticket médio da loja Y também;
  • Erro de Medida: ocorre quando instrumentos de medida estão danificados ou são usados de forma incorreta;
  • Erro ao processar dados: ocorre ao fazer o pré-processamento dos dados, pode-se utilizar um método que crie um outlier;
  • Erro Intencional: erros que são causados propositalmente para fraudar certas informações.

Se sua coleção de dados constantemente mostra diversos outliers, vale analisar se sua equipe não está cometendo um dos erros acima.

Ok, já identifiquei meus outliers. E agora?

Se você pensa que um outlier sozinho não representa tanta ameaça assim, você está enganado. Um erro inicial que não é impedido e se propaga, pode prejudicar e invalidar todo o resto da análise de dados. É como um efeito borboleta.

Por isso, após reconhecer os dados discrepantes da sua análise, é preciso tomar certos cuidados para que a efetividade da mesma não seja comprometida. Para isso, trouxemos algumas dicas:

#1: ELIMINAR O VALOR

Caso seu dataset seja amplo o suficiente, é possível simplesmente excluir o valor anômalo sem causar grandes prejuízos à análise de dados.

#2: TRATAR SEPARADAMENTE

Se a quantidade de outliers for relativamente grande, uma opção é realizar uma análise separada somente com esses dados. É possível separá-los em dois grupos e criar modelos específicos para analisá-los. Essa solução é útil para investigar casos extremos, como por exemplo casos de empresas que continuam vendendo bastante e lucrando mesmo em tempos de crise.

#3: TRANSFORMAÇÃO LOGARÍTMICA

Transformar os dados logaritmicamente é uma técnica que pode diminuir a variação causada pelos valores extremos e anômalos.

#4: MÉTODOS DE CLUSTERIZAÇÃO

Utilize esses métodos para achar uma aproximação que corrige e dá um novo valor aos outliers. Por exemplo, se os outliers forem causados por erros de input, ao invés de eliminar e perder uma linha inteira de registros, uma solução é usar algoritmos de clusterização. Esses algoritmos encontram o comportamento das observações mais próximas ao outlier e fazem uma interferência de qual seria o melhor valor aproximado.