SóProvas


ID
2827762
Banca
IADES
Órgão
APEX Brasil
Ano
2018
Provas
Disciplina
Banco de Dados
Assuntos

A escolha de qual modelo deve-se usar para se analisar um conjunto de dados depende do domínio do problema analisado. Acerca dessa escolha de modelos, na análise de dados no domínio de textos em linguagem natural, é correto afirmar que

Alternativas
Comentários
  • N-gramas de textos são amplamente utilizados em tarefas de mineração de texto e processamento de linguagem natural. Eles são basicamente um conjunto de palavras que ocorrem dentro de uma determinada janela e, ao calcular os n-gramas, você geralmente move uma palavra para frente (embora seja possível avançar X palavras em cenários mais avançados). Por exemplo, para a frase "The cow jumps over the moon". Se N = 2 (conhecido como bigramas), então os ngrams seriam:    

    -the cow
    -cow jumps
    -jumps over
    -over the
    -the moon

     

    fonte: http://text-analytics101.rxnlp.com/2014/11/what-are-n-grams.html

  • a) N-gramas são relativamente simples, nós conseguimos definir a probabilidade de cada palavra com base somente em função de suas antecedentes. É um modelo que utiliza as frequências com que os termos ocorrem para calcular suas probabilidades e tem bom desempenho em várias tarefas de PLN. CERTA

    b) Bag of words é um modelo muito simples, já que desconsidera completamente a ordem ou as relações entre as palavras, considerando um texto como uma simples sacola de palavras, cada uma representada de acordo com a quantidade de vezes que aparece no texto. ERRADA

    c) Se não pudéssemos analisar os textos, não existiria a PLN, não é? ERRADA

    d) O modelo TF-IDF produz bons resultados, sendo usado no lugar de se armazenar as frequências puras da palavra. Não há motivo pelo qual não podemos utilizá-lo na classificação de textos. ERRADA

    e) Uma vez que adotamos uma representação como a bag of words, por exemplo, os textos passam a ser representados como conjuntos de variáveis e seus valores. Dessa forma, podemos aplicar virtualmente qualquer modelo de aprendizado de máquina (incluindo redes neurais), desde que esse seja adequado ao propósito do processamento. ERRADA

  • a) N-gramas são relativamente simples, nós conseguimos definir a probabilidade de cada palavra com base somente em função de suas antecedentes. É um modelo que utiliza as frequências com que os termos ocorrem para calcular suas probabilidades e tem bom desempenho em várias tarefas de PLN. CERTA

    b) Bag of words é um modelo muito simples, já que desconsidera completamente a ordem ou as relações entre as palavras, considerando um texto como uma simples sacola de palavras, cada uma representada de acordo com a quantidade de vezes que aparece no texto. ERRADA

    c) Se não pudéssemos analisar os textos, não existiria a PLN, não é? ERRADA

    d) O modelo TF-IDF produz bons resultados, sendo usado no lugar de se armazenar as frequências puras da palavra. Não há motivo pelo qual não podemos utilizá-lo na classificação de textos. ERRADA

    e) Uma vez que adotamos uma representação como a bag of words, por exemplo, os textos passam a ser representados como conjuntos de variáveis e seus valores. Dessa forma, podemos aplicar virtualmente qualquer modelo de aprendizado de máquina (incluindo redes neurais), desde que esse seja adequado ao propósito do processamento. ERRADA