C
As stopwords, palavras de parada, são palavras que em uma busca podem ser consideradas irrelevantes, como é o caso de os, as, de, etc. Cada aplicação pode possuir seu conjunto característico de stop words.
Assim, ao ser realizada uma busca textual em um banco de dados, as palavras são comparadas com esta lista stopwords para avaliar se elas devem ser desconsideradas.
[1] "Uma stop word é uma palavra muito comum no idioma que está sendo analisado. Muitas vezes são irrelevantes para buscas. As palavras "a", "e", "de", e "em" são consideradas stop words, por isso, costumam ser removidas.
Os números (1, 2, 3...) são comumente considerados detalhes sem importância para o processamento de texto, mas o propósito da representação é que deve decidir isso. Você pode imaginar contextos onde termos como “4TB” e “1Q13” não teriam sentido, e outros onde poderiam ser modificadores importantes. Por exemplo, as questões do QC são identificadas pelo caractere "Q" e uma sequencia de números (Ex.: Q776712). Aqui eles são relevantes!
Referências:
[1] DataScience para Negócios, T Fawcett