ainda continuam sendo aplicados com a integração aos métodos de base linguística
para indexação, assim como para extração de palavras nos processos de
elaboração de linguagens controladas, como os tesauros.
Quanto à identificação de termos de fato relevantes para indexação, houve
várias dificuldades, pois a aplicação apenas de métodos estatísticos não é capaz de
distinguir as variações linguísticas dos termos da linguagem natural, que são
suscetíveis a fenômenos como sinonímias, polissemias, homonímias, anáforas,
elipses, formas flexionadas de gênero e número, termos constituídos por mais de
uma unidade lexical, termos apresentados em formato de siglas ou sua forma por
extenso, conceitos implícitos e outras situações da linguagem. Por conta dessas
dificuldades, métodos linguísticos de tratamento automático foram desenvolvidos
principalmente a partir dos estudos de processamento de linguagem natural (PLN)
fundamentados na área de Linguística Computacional.
Os sistemas de indexação com base em métodos linguísticos foram
desenvolvidos principalmente a partir da década de 60, integrando analisadores
linguísticos dedicados a solucionar dificuldades referentes aos níveis de análise
morfológica, sintática e semântica. Os analisadores morfológicos dedicam-se à
análise de palavras que constituem os textos, buscando identificar os elementos que
as constituem, como, por exemplo, as raízes, os afixos (prefixos e sufixos) e os
fenômenos de flexão e derivação que estão relacionados à sua composição. A
análise linguística inicia-se por uma análise tipográfica e ortográfica em que ocorre a
segmentação do texto em frases, para identificação de erros tipográficos, de
ortografia e de acentuação. A partir daí, atua a análise morfológica, que reconhece
as palavras considerando as formas flexionadas. E, por fim, a análise léxica, que
reduz as variações dessas palavras em sua forma ou entrada de dicionários
(infinitivo para verbos, masculino singular ou feminino singular para nomes, e
masculino singular para os adjetivos) (MOREIRO GONZÁLEZ, 2004). Desse modo,
é possível atuar por meio de um processo de lematização; ou seja, da redução de
uma palavra ou conjunto de palavras à sua raiz, uma vez detectadas ou eliminadas
suas formas flexivas (número, gênero, desinência) e derivativas (-istico; -vel; -dade; -