SóProvas


ID
1194355
Banca
CESPE / CEBRASPE
Órgão
STF
Ano
2013
Provas
Disciplina
Estatística
Assuntos

Julgue o  item  a seguir, relativo à análise multivariada.

No método de agrupamento por k-médias, a probabilidade de que a configuração inicial seja próxima do resultado final do agrupamento é aproximadamente igual a 1.

Alternativas
Comentários
  • Afirmativa errada, até porque existem várias formas de se estabelecer os k elementos que formarão as sementes iniciais. Sendo assim, o resultado final pode ser bastante diferente do resultado inicial.

  • Existem várias formas de estabelecer os centroides iniciais, se o número de dimensões crescer e essa escolha dos centroides iniciais for aleatória o algoritmo tende a ter a probabilidade que a questão cita como sendo 0, devido a lei dos grandes números.

    Outro fato interessante desse algoritmo é que se k, o número de centroides for muito grande, o algoritmo pode entrar em overfitting. Na biblioteca Scikit learn o algoritmo k means por padrão treina 10 vezes, sendo a primeira com centroides aleatórios, depois dos dez treinamentos, escolhendo o melhor conjunto de centroides com base em minimizar a inércia, ele executa realmente o algoritmo. Pode se mudar esse número 10 padrão via código no scikitlearn

  • Note que quando a questão se refere ao método de agrupamento por k-médias ela está se referindo ao método não hierárquico. Lembre-se que o método não hierárquico primeiramente escolhe uma partição inicial, logo depois realiza o deslocamento de um objeto de um grupo para outros grupos e, por fim, verifica o valor do critério que está sendo utilizado, decidindo assim pela configuração que apresentar uma melhoria.

    Logo, perceba que a questão se encontra errada, pois existem diversas formas de estabelecer os k elementos que formarão os clusters iniciais e, portanto, o resultado final pode ser diferente do resultado inicial.

    Resposta: E