-
N-gramas de textos são amplamente utilizados em tarefas de mineração de texto e processamento de linguagem natural. Eles são basicamente um conjunto de palavras que ocorrem dentro de uma determinada janela e, ao calcular os n-gramas, você geralmente move uma palavra para frente (embora seja possível avançar X palavras em cenários mais avançados). Por exemplo, para a frase "The cow jumps over the moon". Se N = 2 (conhecido como bigramas), então os ngrams seriam:
-the cow
-cow jumps
-jumps over
-over the
-the moon
fonte: http://text-analytics101.rxnlp.com/2014/11/what-are-n-grams.html
-
a) N-gramas são relativamente simples, nós conseguimos definir a probabilidade de cada palavra com base somente em função de suas antecedentes. É um modelo que utiliza as frequências com que os termos ocorrem para calcular suas probabilidades e tem bom desempenho em várias tarefas de PLN. CERTA
b) Bag of words é um modelo muito simples, já que desconsidera completamente a ordem ou as relações entre as palavras, considerando um texto como uma simples sacola de palavras, cada uma representada de acordo com a quantidade de vezes que aparece no texto. ERRADA
c) Se não pudéssemos analisar os textos, não existiria a PLN, não é? ERRADA
d) O modelo TF-IDF produz bons resultados, sendo usado no lugar de se armazenar as frequências puras da palavra. Não há motivo pelo qual não podemos utilizá-lo na classificação de textos. ERRADA
e) Uma vez que adotamos uma representação como a bag of words, por exemplo, os textos passam a ser representados como conjuntos de variáveis e seus valores. Dessa forma, podemos aplicar virtualmente qualquer modelo de aprendizado de máquina (incluindo redes neurais), desde que esse seja adequado ao propósito do processamento. ERRADA
-
a) N-gramas são relativamente simples, nós conseguimos definir a probabilidade de cada palavra com base somente em função de suas antecedentes. É um modelo que utiliza as frequências com que os termos ocorrem para calcular suas probabilidades e tem bom desempenho em várias tarefas de PLN. CERTA
b) Bag of words é um modelo muito simples, já que desconsidera completamente a ordem ou as relações entre as palavras, considerando um texto como uma simples sacola de palavras, cada uma representada de acordo com a quantidade de vezes que aparece no texto. ERRADA
c) Se não pudéssemos analisar os textos, não existiria a PLN, não é? ERRADA
d) O modelo TF-IDF produz bons resultados, sendo usado no lugar de se armazenar as frequências puras da palavra. Não há motivo pelo qual não podemos utilizá-lo na classificação de textos. ERRADA
e) Uma vez que adotamos uma representação como a bag of words, por exemplo, os textos passam a ser representados como conjuntos de variáveis e seus valores. Dessa forma, podemos aplicar virtualmente qualquer modelo de aprendizado de máquina (incluindo redes neurais), desde que esse seja adequado ao propósito do processamento. ERRADA