SóProvas


ID
2976268
Banca
NC-UFPR
Órgão
Prefeitura de Curitiba - PR
Ano
2019
Provas
Disciplina
Biblioteconomia
Assuntos

Com relação aos métodos de classificação de dados, identifique como verdadeiras (V) ou falsas (F) as seguintes afirmativas:

( ) Os métodos de classificação são descritivos.

( ) Na aprendizagem supervisionada, o modelo deve ser suficientemente flexível para aproximar os dados de treinamento, de tal forma que não absorva os ruídos.

( ) São métodos de classificação: C4.5, CART, Perceptron, Prism, K-Means e Apriori.

( ) O método de validação cruzada é utilizado como mecanismo para se estimar o erro de generalização dos algoritmos de classificação.

Assinale a alternativa que apresenta a sequência correta, de cima para baixo.

Alternativas
Comentários
  • e-

    Estatística Descritiva lida com coleta, resumo e simplificação dos dados.

    propósito: conclusões significativas extraídas dos dados, para compreender métodos e destacar as principais características do conjunto de dados.

    Uma forma de pensar sobre a extração de padrões de dados em uma maneira supervisionada é segmentar a população em subgrupos com diferentes valores para a variável de destino e, dentro do subgrupo as instâncias têm valores para a variável de destino. A segmentação fornece um conjunto de padrões de segmentações compreensíveis.

  • (F ) Os métodos de classificação são descritivos.

    Existe métodos descritivos, como por exemplo as medidas descritivas, como média, desvio padrão e variância, existe ainda métodos preditivos, como a regressão linear, por exemplo, são métodos que tentam prever o comportamento dos dados. Métodos de classificação são preditivos, não descritivos.

    (V) Na aprendizagem supervisionada, o modelo deve ser suficientemente flexível para aproximar os dados de treinamento, de tal forma que não absorva os ruídos.

    Os ruídos fazem com que o algoritmo dê em muitas vezes sobreajuste(overfitting) pense como exemplo de ruído um outlier, um salário de (menos) -10.000 em um banco, isso vai fazer com que a curva se ajuste sobre esse valor, causando overfitting. Nesse caso o modelo não generaliza muito bem. Uma forma de evitar o overfitting é fazendo a otimização de hiperparâmetros, na biblioteca Scikit learn tem SearchCV que busca os melhores hiperparâmetros, buscando o melhor k para KNN, por exemplo.

    ( F ) São métodos de classificação: C4.5, CART, Perceptron, Prism, K-Means e Apriori.

    C4.5 e CART são algoritmos de árvore de decisão, são algoritmos de classificação. Perceptron é uma arquitetura de neurônio artificial, pode ser usado para dar uma resposta binária (como é discreta, notoriamente classificação).

    Prism não conheço, mas a questão apresenta para mim falha quando diz que K-means e Apriori são de classificação, visto que classificação é uma tarefa de aprendizado supervisionado, esses dois algoritmos são de aprendizado não supervisionado, para resolver as tarefas de agrupamento e regras de associação, respectivamente.

    (V) O método de validação cruzada é utilizado como mecanismo para se estimar o erro de generalização dos algoritmos de classificação.

    Sim, correto, no scikit learn implementa isso usando a função train_test_split. Nela ao final do treinamento analisamos o y da predição e o y do conjunto de teste, avaliando métricas como o erro de generalização, acurácia e matriz de confusão.