SóProvas


ID
5261986
Banca
CESPE / CEBRASPE
Órgão
SERPRO
Ano
2021
Provas
Disciplina
Banco de Dados
Assuntos

    Dados ausentes são muito comuns em aplicações que envolvem preenchimentos de formulários. Para o seu tratamento estatístico, encontra-se, na literatura, uma taxonomia para o mecanismo gerador de dados ausentes que os classifica em tipos como MAR (missing at random), MCAR (missing completely at random) e MNAR (missing not at random).
Considerando essas informações, julgue os itens subsequentes, relativos ao tratamento de dados ausentes.  

Geralmente, os dados ausentes do tipo MNAR são ignoráveis por não haver relação entre o processo gerador de dados ausentes e os parâmetros que são objeto de estudo estatístico.

Alternativas
Comentários
  • Esse é o tipo mais geral e mais complexo. No modelo MNAR, a probabilidade é que os valores faltantes dependam não só dos dados observados assim como dos dados não observados. Não há como ignorar o mecanismo que levou os dados a estarem ausentes. Para esse tipo de dado, não podemos somente ignorar a situação, um tratamento precisa ser realizado.

  • Primeiro vamos as definições do tipo de Dados Ausentes:

      Missing completely at random (MCAR): Os dados são ditos do tipo MCAR quando “a probabilidade de estarem ausentes é independente de qualquer observação no dataset”. Ou seja, não conseguimos encontrar uma correlação entre as classes que possuem dados ausentes e as classes que não possuem dados ausentes. Para os dados do tipo MCAR, nós podemos simplesmente descartar as observações ausentes e trabalhar somente com as amostras completas.

             Missing at random (MAR): Há uma relação sistemática entre os dados ausentes e alguma informação coletada sobre os dados. Por exemplo, sabemos que os homens são mais propensos a responder perguntas sobre a sua idade e sobre o seu peso do que as mulheres. Portanto, em alguns datasets podemos encontrar uma relação entre os dados faltantes e a idade/sexo do entrevistado.

             Missing not at random (MNAR): Esse é o tipo mais geral e mais complexo. No modelo MNAR, a probabilidade é que os valores faltantes dependam não só dos dados observados assim como dos dados não observados. Não há como ignorar o mecanismo que levou os dados a estarem ausentes. Para esse tipo de dado,        não podemos somente ignorar a situação, um tratamento precisa ser realizado.

     Fonte: https://www.aprendadatascience.com/blog/tipos_missing_data

    Tendo isso em mente, vemos que a assertiva coloca a definição do MCAR no MNAR e por isso está ERRADA.

  • Faltando completamente ao acaso (MCAR):

    Nesse caso, o motivo da falta de dados não depende da variável a que pertence nem de outra variável do conjunto de dados. Nenhum recurso (coluna) do conjunto de dados é responsável por dados ausentes.

    A probabilidade de falta em uma variável é a mesma para todas as unidades.

    Considere um conjunto de dados contendo duas variáveis ​​(características ou colunas), a saber, x e y. 

    Suponha que haja valores ausentes em y . O valor ausente (y) não depende de x nem de y.

    Exemplo: Erros de entrada de dados ao inserir dados.

    Faltando aleatoriamente (MAR):

    Nesse caso, o motivo da falta de dados não depende de variáveis ​​cujo valor está faltando, mas sim de outras variáveis ​​do conjunto de dados.

    A probabilidade de falta de dados depende apenas da informação disponível.

    Considerando o conjunto de dados acima, o valor ausente (y) depende de x, mas não de y.

    Exemplo: os entrevistados na ocupação de serviços têm menos probabilidade de relatar renda.

    Faltando não ao acaso (MNAR):

    Nesse caso, o motivo do valor ausente depende da variável a que pertence.

    A probabilidade de falta na variável depende da informação que não foi registrada.

    O valor ausente (y) depende de y.

    Exemplo: respondentes com alta renda são menos propensos a relatar renda.

    fonte: https://medium.com/@codingpilot25/data-cleaning-types-of-missingness-40655a8b235e