O USO DE LINGUAGENS DOCUMENTÁRIAS ALFABÉTICAS NA
INDEXAÇÃO AUTOMATIZADA
Cristina Miyuki Narukawa1, Mariângela Spotti Lopes Fujita2
1Mestranda, Universidade Estadual Paulista (UNESP), Marília, São Paulo
Bibliotecária, Faculdade de Direito (USP), São Paulo, São Paulo
2Titular da Universidade Estadual Paulista (UNESP), Marília, São Paulo
RESUMO
No contexto da automatização da indexação, a Linguagem Documentária (LD) configura-se
como um instrumento importante na garantia da recuperação da informação e, como tal,
deve também ser adaptada a esse contexto. Dessa forma, verificamos a necessidade de
investigar a respeito da adequação de LDs para controle de vocabulário em software de
indexação, propondo investigar o uso e adequação de LDs alfabéticas em indexação
automatizada na aplicação do Sistema de Indización Semiautomática (SISA). Para tanto,
será desenvolvida análise comparativa entre indexação automática de artigos de agricultura
e indexação manual da Biblioteca Nacional de Agricultura (BINAGRI) com uso do Thesaurus
Agrícola Nacional (THESAGRO), associando esses resultados aos alcançados em pesquisa
anterior, buscando, assim, contribuir para desenvolvimento da automatização da indexação
no aperfeiçoamento do SISA.
Palavras-Chave: Indexação automática; Linguagem documentária; Sistemas de indexação
automatizada; Sistema de Indización Semiautomática (SISA); Avaliação da indexação
ABSTRACT
In the context of automation of indexing, the documentary language appears as an important
instrument in ensuring the retrieval of information and as such must also be adapted to this
context. Thus, we see the necessity to investigate the adequacy of documentary languages
to vocabulary control in indexing software, proposing to investigate the use and adequacy of
alphabetical documentary languages in indexing automation in the application of Sistema de
Indización Semiautomática (SISA), being developed by analysis comparative between
automatic indexing of articles for agriculture and manual indexing of the Biblioteca Nacional
de Agricultura (BINAGRI) using the Thesaurus Agrícola Nacional (THESAGRO), linking these
results to those achieved in previous research, looking for, in this manner, contributing to
development of automation of the indexing improvement of SISA.
Keywords: Automatic Indexing; Documentary language; automated indexing system;
Sistema de Indización Semi-Automática (SISA); valuation of Indexing
1 Introdução
A aplicação de Linguagem Documentária (LD) na indexação automatizada
requer investigação, associando tanto os critérios de análise de conteúdo adotados
pelo sistema de indexação automática, quanto as características das LDs que
possam interferir nos resultados de indexação. Em Narukawa (2008), verificamos a
necessidade de investigação sobre a atuação e adequação de LDs alfabéticas, para

controle de vocabulário em sistemas de indexação automática, considerando-se os
problemas apresentados pelo uso da linguagem Descritores em Ciência da Saúde
(DeCS) com o Sistema de Indización Semi-Automático (SISA). Assim, objetivamos:
(1) estudar sobre o uso de LD e da linguagem natural na indexação automatizada,
destacando, da mesma forma, as propostas de sistemas de indexação automática;
(2) verificar a atuação da LD Thesaurus Agrícola Nacional (THESAGRO) no
processo de indexação automática do SISA em relação à indexação manual
realizada pela Biblioteca Nacional de Agricultura (BINAGRI), associando esses
resultados aos obtidos mediante a atuação da LD DeCS; e, (3) levantar os subsídios
que possam auxiliar na definição dos aspectos a respeito da adequação de LD para
aplicação na indexação automatizada. Nesse sentido, buscamos contribuir com o
desenvolvimento da automatização da indexação no aperfeiçoamento do SISA, para
que pesquisadores e profissionais da informação reconheçam e considerem os
princípios fundamentais de LDs na aplicação de sistemas de indexação e possam,
assim, avaliar criticamente as possibilidades de aplicações automatizadas.
2 Revisão de Literatura
A partir da concepção de que indexação automatizada compreende os
conceitos que relacionam, de alguma forma, a aplicação de sistemas
computacionais na atividade de indexação, para efeito de esclarecimento destacam-
se três conceitos apresentados por Moreiro González (2004) e definidos por Gil
Leiva (1999). Um desses conceitos, definido como indexação assistida por
computador, refere-se ao processo em que o indexador humano realiza toda a
atividade de análise do conteúdo do documento e utiliza um sistema computacional
apenas para armazenar sua representação. O outro está relacionado ao processo
em que um sistema computacional realiza a atividade de análise do conteúdo do
documento e, posteriormente, um indexador humano avalia os termos para
indexação propostos pelo sistema, conhecida, como indexação semiautomática. Por
último, existe o conceito de indexação automática, em que ocorre a atividade de
análise do conteúdo do documento por um sistema computacional sem que haja

uma avaliação posterior, ou seja, os termos de indexação são definidos apenas pela
análise realizada pelo sistema (GIL LEIVA, 1999). Nesse sentido, esta pesquisa
pretende considerar os dois últimos conceitos, especialmente o conceito de
indexação automática, visto que a análise comparativa do SISA nela proposta será
focalizada sobre seu processo automático, apesar de a proposta inicial ser de um
sistema de indexação semiautomático.
Os primeiros sistemas de indexação automática foram baseados
exclusivamente em métodos estatísticos e probabilísticos, passando a incorporar,
somente a partir da década de 80, os métodos linguísticos, embora estes estivessem
sendo desenvolvidos desde os anos 60. A automatização da indexação iniciou-se
com a proposta de Hans Peter Luhn em desenvolver a indexação por meio da
extração de palavras do título do documento para construir o índice conhecido como
Keyword In Context (KWIC). O método de indexação automática empregado por
Luhn na construção de índices consistia em confrontar uma lista de palavras vazias
com o texto do documento e dessa forma eliminar as palavras insignificantes, tais
como artigos, preposições e conjunções, restando assim, as palavras que figurariam
como termos de indexação. Apesar de a lista de palavras vazias reduzir em grande
proporção as palavras do texto, esse método, muito simples, gerava muitas entradas
temáticas no índice, o que exigia a aplicação de outra forma de filtro após a
eliminação de palavras vazias. Dessa forma, a partir do princípio de mínimo esforço,
que se refere ao valor constante entre a frequência das palavras e a posição que
essas ocupam na ordem frequencial, proposta por Zipf em 1949, Luhn, em 1957
sugeriu que a frequência das palavras em um texto tem relação com sua utilidade na
indexação, aplicando, portanto, o critério de frequência para determinar se uma
palavra seria considerada termo de indexação.
Mendez Rodríguez e Moreiro González (1999) ressaltam a importância
significativa dos primeiros modelos para indexação automática baseados em
critérios estatísticos ou probabilísticos, pois foram os primeiros métodos que
surgiram como alternativa à indexação, aproveitando o avanço da informática, e

ainda continuam sendo aplicados com a integração aos métodos de base linguística
para indexação, assim como para extração de palavras nos processos de
elaboração de linguagens controladas, como os tesauros.
Quanto à identificação de termos de fato relevantes para indexação, houve
várias dificuldades, pois a aplicação apenas de métodos estatísticos não é capaz de
distinguir as variações linguísticas dos termos da linguagem natural, que são
suscetíveis a fenômenos como sinonímias, polissemias, homonímias, anáforas,
elipses, formas flexionadas de gênero e número, termos constituídos por mais de
uma unidade lexical, termos apresentados em formato de siglas ou sua forma por
extenso, conceitos implícitos e outras situações da linguagem. Por conta dessas
dificuldades, métodos linguísticos de tratamento automático foram desenvolvidos
principalmente a partir dos estudos de processamento de linguagem natural (PLN)
fundamentados na área de Linguística Computacional.
Os sistemas de indexação com base em métodos linguísticos foram
desenvolvidos principalmente a partir da década de 60, integrando analisadores
linguísticos dedicados a solucionar dificuldades referentes aos níveis de análise
morfológica, sintática e semântica. Os analisadores morfológicos dedicam-se à
análise de palavras que constituem os textos, buscando identificar os elementos que
as constituem, como, por exemplo, as raízes, os afixos (prefixos e sufixos) e os
fenômenos de flexão e derivação que estão relacionados à sua composição. A
análise linguística inicia-se por uma análise tipográfica e ortográfica em que ocorre a
segmentação do texto em frases, para identificação de erros tipográficos, de
ortografia e de acentuação. A partir daí, atua a análise morfológica, que reconhece
as palavras considerando as formas flexionadas. E, por fim, a análise léxica, que
reduz as variações dessas palavras em sua forma ou entrada de dicionários
(infinitivo para verbos, masculino singular ou feminino singular para nomes, e
masculino singular para os adjetivos) (MOREIRO GONZÁLEZ, 2004). Desse modo,
é possível atuar por meio de um processo de lematização; ou seja, da redução de
uma palavra ou conjunto de palavras à sua raiz, uma vez detectadas ou eliminadas
suas formas flexivas (número, gênero, desinência) e derivativas (-istico; -vel; -dade; -

ista; -ção etc.) mediante um sistema computacional, para que se possa calcular a
frequência da ocorrência de um termo a partir de uma mesma raiz identificada (GIL
LEIVA, 2008). Esse procedimento pode ser útil para unificar o tratamento estatístico
e facilitar as operações de filtro, de criação de relações e de redes semânticas de
representação dos conceitos (MOREIRO GONZÁLEZ, 2004).
Sendo assim, os analisadores sintáticos atuam por meio de uma gramática,
um dicionário com palavras e suas possíveis categorias gramaticais que foram
formalizadas na análise morfológica e de um algoritmo de análise (GIL LEIVA, 2008)
para solucionar a ambiguidade e definir as relações entre as palavras, assim como
determinar a disposição das palavras nas orações, sua função, e, entender a
combinação entre as palavras para obter orações gramaticalmente corretas
(MOREIRO GONZÁLEZ, 2004).
Em síntese, na análise sintática, acontece o procedimento em que as
palavras são definidas em função de seu papel no contexto em que ocorrem em uma
oração, determinadas segundo princípios de construção e coordenação das frases,
disposição das palavras na oração, e das orações no período. A relação dessa
análise, assim como da análise morfológica com a análise semântica, se define pela
elaboração e estabelecimento de dados formalizados, para que o analisador
semântico identifique o significado expresso no texto do documento.
É importante destacar que, por mais que esses dados estejam formalizados, o
nível de análise semântica almejado torna-se de difícil alcance, visto que na busca
do significado das orações estão muitas vezes envolvidos aspectos implícitos, muito
além das estruturas e formalismos explícitos demarcados nas análises morfológicas
e sintáticas.
Dessa forma, o que se espera dos analisadores semânticos é que operem
mediante processos de inferências para extraírem conhecimento dos documentos e
representá-los em forma de termos. Ou seja, que tenham a capacidade de
reconhecer conceitos, identificando o significado das palavras e orações,
considerando fenômenos como as sinonímias, as anáforas, frases e palavras
compostas, homógrafos, homonímias, as polissemias e introduzindo relações de

hierarquia entre as palavras (MOREIRO GONZÁLEZ, 2004).
A análise semântica objetiva descobrir o significado das palavras (semântica
léxica), reconhecer sinônimos, situar o significado das palavras dentro das orações
(semântica gramatical), estabelecer o conjunto de palavras que se relacionam com
um mesmo campo semântico (semântica contextual), determinar os termos gerais e
específicos e estabelecer enlaces com os antônimos (MOREIRO GONZÁLEZ,
2004). No entanto, para que essas condições possam realmente ser concretizadas,
é necessário amplo conhecimento sobre as palavras e seu significado no universo
do discurso, com o objetivo de formalizar tais interpretações (GIL LEIVA, 1999),
exigindo muitas vezes a associação de aplicação de instrumentos linguísticos e
terminológicos, tais como bases de conhecimento, ontologias, tesauros, vocabulários
controlados, listas de descritores, etc.
Em contraposição à iniciativa da indexação automática, derivada
exclusivamente de métodos estatísticos ou apenas de métodos linguísticos, existem
atualmente propostas de integração de métodos. Com base no modelo de
arquitetura de um sistema de indexação automática, apresentado por Gil Leiva
(2008), constata-se a atuação da análise linguística nos tratamentos morfológico,
sintático e semântico, para em seguida operar o analisador estatístico para efetuar
os cálculos de frequência de ocorrência sobre dados tratados linguisticamente e
formalizados em etapa anterior e, subsequentemente aplicando um vocabulário
controlado, cotejá-lo com os termos candidatos à indexação e permitir a atribuição
definitiva dos termos de indexação.
Nesse sentido, constata-se o valor conferido aos recursos de controle de
vocabulário, inclusive quando se trata de aplicações a áreas do conhecimento
especializado, visto que essas áreas possuem uma terminologia própria que lhes
definem como tais. De acordo com Currás (1995, p.21), terminologia pode ser
entendida segundo dupla concepção: a primeira como um “processo para a
consecução de um fim”; e a segunda, como “unidades acumuladas, do processo
anterior”. Ou seja, essas unidades acumuladas são o conjunto de termos de um

determinado domínio, enquanto o processo para o desenvolvimento dessas
unidades é o estudo dos termos de uma linguagem especializada, compreendendo
também a terminologia, portanto, como um campo disciplinar.
Segundo Lancaster (2004), o uso de linguagens por sistemas de indexação
caracteriza uma indexação automática por atribuição, que consiste na representação
do conteúdo mediante termos selecionados de alguma LD, que para Lancaster
(2004, p.289) realiza-se, em maior parte, por seres humanos, e é considerada mais
difícil quando aplicada a computadores. Para efetuar a indexação por atribuição
automática, é necessário “[...] desenvolver, para cada termo a ser atribuído, um
‘perfil’ de palavras ou expressões que costumam ocorrer frequentemente nos
documentos [...]”. Desse modo, supõe-se que a aplicação de LD na indexação
automática exija um processo mais complexo que leve em conta não apenas as
estruturas textuais, mas as relações semânticas entre a linguagem controlada e a
linguagem natural, submetida à análise automática. Com base no modelo de
arquitetura de um sistema de indexação automática apresentado por Gil Leiva
(2008) e por análise de sistemas de indexação automática (SOUZA, 2005), constata-
se; de um modo geral; que o processo envolvendo o uso de LDs ocorre com a
atuação da análise linguística nos tratamentos morfológico, sintático e semântico,
para em seguida operar o analisador estatístico para efetuar os cálculos de
estatísticos e probabilísticos sobre dados tratados linguisticamente e formalizados
em etapa anterior e, subsequentemente aplicando um vocabulário controlado para
cotejá-lo com os termos candidatos à indexação e permitir a atribuição definitiva dos
termos de indexação.
Por meio de análise dos sistemas de indexação e propostas metodológicas,
constata-se que os primeiros modelos de indexação automática fundamentavam-se
na extração de palavras do texto dos documentos e, com base na frequência de sua
ocorrência, analisavam as partes específicas que constituem os textos, como os
títulos e resumos. Ainda que não exclusivamente, esses princípios continuam sendo
aplicados por vários sistemas atualmente. No entanto, algumas limitações que seu
uso ocasiona, tornaram necessário pensar em integrar alternativas. Nesse sentido,

surgem os estudos associando as análises linguísticas, sintáticas e semânticas,
incorporando também instrumentos como os dicionários de palavras proibidas
(stopword), dicionários morfológicos e tesauros. Os modelos de sistemas de
indexação ulteriores fundamentam-se em princípios mais complexos, dando atenção
às questões da contextualização dos termos para representação e recuperação da
informação. Essa preocupação com o contexto de significado, ou seja, com a
semântica, pode ser constatada nas propostas de pesquisas de Kuramoto (2002),
Souza (2005) e Gottschalg-Duque (2005), envolvendo sintagmas nominais, e de
Café (2003) ao propor o estudo das Unidades Terminológicas Complexas, sobretudo
para identificação dos termos constituídos por mais de uma unidade lexical, para
manter o real significado dos termos, aspecto extremamente relevante para a análise
automática de textos.
Da mesma forma, Gottschalg-Duque (2005) destaca essa questão ao afirmar
que sua proposta, o sistema SiRiLiCO, não utiliza os recursos de stemming,
stopword e tesauro, uma vez que estes podem desconstruir discursos durante a
análise automática, assim como Souza (2005) verifica que a aplicação de tesauros
oferece alguns inconvenientes durante o processo de análise por conta de
características pouco flexíveis desse recurso. Além disso, verificamos iniciativas
importantes, como a apresentada por Bräscher (2003), que se dedicou ao estudo de
fenômenos linguísticos de ambiguidade, investigação que também envolve a
compreensão do contexto dos termos, para que os sistemas automáticos possam
identificá-los. Ademais, verificamos uma concepção voltada ao usuário com a
proposta de aplicação de sintagmas nominais nas interfaces de busca, sugerida por
Kuramoto (2002), e com a proposta de Ferneda (2009) de aperfeiçoar a
representação dos documentos mediante os recursos oferecidos pelos algoritmos
genéticos que atuam nas buscas realizadas pelos usuários.
3 Materiais e Métodos
A pesquisa possui caráter teórico-prático pautada em uma abordagem
qualitativa por pesquisa exploratória, buscando proporcionar o aprimoramento de

ideias ou a descoberta de intuições, mediante uma pesquisa bibliográfica nas
literaturas nacional e internacional de Ciência da Informação e áreas afins. E
abordagem quantitativa, em que será realizada avaliação da aplicação da LD
THESAGRO no processo de indexação automática de cem artigos científicos
agrícolas com o SISA e comparando seus resultados aos da indexação manual
realizada pela BINAGRI, por meio da análise dos índices de consistência na
indexação, exaustividade e precisão na recuperação da informação.
4 Resultados Parciais
Quanto aos métodos de indexação automática, verifica-se o avanço dessa
área quando se passa de uma abordagem com enfoque na palavra como unidade de
representação, para um enfoque voltado à investigação de estruturas mais
complexas, como os sintagmas nominais. Ou seja, verifica-se a importância da
identificação de conceitos, tornando evidente que o valor de uma análise automática
se traduz na identificação do significado das idéias expressas, que podem estar
explícitas e da mesma forma implícitas no texto dos documentos.
Ainda que analisadores morfológicos e sintáticos possam realizar a análise de
estruturas linguísticas, a análise semântica não depende apenas dessas análises
precedentes. Exige uma base de conhecimento, como explica Kuramoto (2002),
existe uma grande diferença entre indexação automática e indexação pelo
indexador, pois na indexação realizada pelo ser humano, utiliza-se a base de
conhecimento da pessoa, do especialista, assim como técnicas de análises de
assunto e outras ferramentas (tesauros, vocabulários controlados, lista de termos),
enquanto que na indexação automática, a máquina não possui essa base de
conhecimentos e tampouco utiliza qualquer técnica de análise de assuntos, mas tão
somente a extração de palavras isoladas dos documentos.
Quanto às linguagens de indexação, constatamos que a aplicação de LDs
continua sendo de importância fundamental, mesmo que muitos sistemas de
indexação possam trabalhar apenas com a linguagem natural. Considerando todos
os problemas envolvendo aspectos linguísticos e a dificuldade em solucioná-los, é

possível dizer que investigações sobre LDs mesmo no contexto automatizado
precisam ser intensamente desenvolvidas.
O desenvolvimento de LDs ao longo dos tempos passou por várias
mudanças. De uma concepção voltada às LDs pré-coordenadas, com os sistemas
de classificação e as listas de cabeçalhos de assunto que passaram a não atender
todas as exigências de um contexto em que o conhecimento tornava-se cada vez
mais especializado, verificou-se também que uma estrutura mais rica em
relacionamentos semânticos poderia oferecer melhorias à atividade de indexação,
surgindo, portanto, os tesauros. As LDs passaram a ter papel importante no
tratamento temático da informação, tornando-se instrumentos de interlocução entre
as necessidades de uma comunidade usuária e o conhecimento registrado nos
documentos.
Constatamos ainda que, no contexto da indexação automática, as questões
que envolvem a aplicação de LDs também necessitam de discussões mais
profundas, justamente porque se verifica que sua aplicação não se configura da
mesma forma. Ou seja, trata-se de um contexto que exige atenção sobre outros
aspectos ao mesmo tempo, tais como o processo e os critérios envolvidos na análise
automática pelo sistema e os critérios aplicados pelo sistema no momento de
transpor o resultado dessa análise para uma LD. Ou seja, como o sistema realiza a
indexação automática utilizando uma LD. Como foi possível constatar, alguns
sistemas aplicam os métodos linguísticos e matemáticos, para em seguida,
operarem sobre a LD, não existindo, ainda, uma preocupação sobre as condições de
adaptação da linguagem utilizada e do próprio sistema automático que irá atuar
sobre a análise e sobre a linguagem, para que se permita uma indexação de
qualidade.
Verificamos, também, a necessidade de integrar, cada vez mais, a aplicação
de linguagem natural e LDs, uma vez que no processamento automático realizado
por sistemas de indexação automática, o processo de análise torna-se complexo por
envolver o reconhecimento da linguagem natural dos documentos por parte desses
sistemas, reconhecimento da LD e a realização da correspondência com a

linguagem natural. Isto é, busca-se um processo similar à análise humana, o que, de
fato, ainda é muito difícil.
Quanto aos sistemas de indexação automática, verifica-se que houve
avanços significativos nas concepções que hoje regem o desenvolvimento de
sistemas de indexação automática, uma vez que, décadas atrás, essa concepção se
voltava a critérios simples e rígidos de indexação automática, enquanto atualmente
constatamos propostas que focam principalmente esses aspectos linguísticos e que
proporcionam soluções cada vez mais próximas para efetiva indexação. Podemos
considerar os avanços que ocorreram no desenvolvimento de analisadores
lingüísticos, tais como, morfológicos e sintáticos, lembrando, contudo, que nem
todas as situações ainda são solucionadas por esses analisadores, devido, por
exemplo, às dificuldades existentes em identificar situações em que ocorrem
conceitos implícitos.
5 Considerações parciais
As constatações apresentadas mostram que ainda não há suficiente literatura
que trate da questão da aplicação de LDs comumente utilizadas na indexação
manual, no contexto da automatização da indexação. Verificamos que, entre os
sistemas de indexação automática, há uma preocupação com o processamento da
linguagem natural, que realmente é importante, por ser base para análise
automática. No entanto, é necessário refletir sobre o papel que exerce a LD nesse
contexto, para controle vocabular, já que os princípios que a norteiam podem
oferecer contribuições significativas. Os aspectos levantados até o momento indicam
que a aplicação da LD THESAGRO no sistema SISA poderá proporcionar alguns
impasses para indexação, justamente pelas características pouco integradas da
atuação dos métodos de indexação e da forma de configuração da LD exigida pelo
SISA.
Considerando todos os problemas envolvendo aspectos linguísticos e a
dificuldade em solucioná-los, é possível dizer que investigações sobre LDs, mesmo
no contexto automatizado, precisam ser intensamente desenvolvidas e melhor

adaptadas.
6 Referências
BRÄSCHER, Marisa. A ambigüidade na recuperação da informação. DataGramaZero:
Revista de Ciência da Informação, v. 3, n. 1, fev. 2002.
CAFÉ, L. Contribuições da Gramática Funcional da delimitação de segmentos descritores de
informação. In: Organização e representação do conhecimento na perspectiva da ciência da
informação. Georgete Medleg Rodrigues e Ilza Leite Lopes (organizadoras). Brasília:
Thesaurus, 2003, p. 118-140. (Estudos Avançados em Ciência da Informação, v.2)
CURRÁS, Emília. Ontologias, taxonomias y tesauros: manual de construccíon y uso. 3.ed.
Gígon: Ed TREA, 2005.
FERNEDA, E. Aplicando Algoritmos Genéticos na Recuperação de Informação.
DataGramaZero, v.10, n.1, fev. 2009. Disponível em: <
http://www.dgz.org.br/fev09/Art_04.htm>. Acesso em: 20 de mar. 2010.
GIL LEIVA, I. La automatización de la indización de documentos. Gijón: Trea, 1999. 221 p.
GIL LEIVA, I. Manual de indización. Teoría y práctica. Gijón: Trea, 2008.
GOTTSCHALG-DUQUE, Cláudio. SiRILiCO: uma proposta para um sistema de recuperação
de informação baseado em teorias da linguística computacional e ontologia. 2005. Tese
(Doutorado)- Escola de Ciência da Informação da Universidade Federal de Minas Gerais,
Belo Horizonte, 2005.
KURAMOTO, H. Sintagmas nominais: uma nova proposta para a recuperação de
informação . DataGramaZero, v. 3, n. 1, fev. 2002.
LANCASTER, F.W. Indexação e resumos: teoria e prática. 2.ed. Tradução de Antonio
Agenor Briquet de Lemos. Brasília: Briquet de Lemos, 2004. Tradução de: Indexing and
abstracting in theory and practice.
MENDEZ RODRÍGUEZ, E. M., MOREIRO GONZÁLEZ, J. A. Lenguaje natural e indización
automatizada. Ciencias de la Información, v. 30, n.3, p.11-24, set., 1999.
MOREIRO GONZÁLEZ, J. A. El contenido de los documentos textuales: su análisis y
representación mediante el lenguaje natural. Gijón (Astúrias): Trea, 2004. 291 p.
NARUKAWA, C. M., GIL LEIVA, I., FUJITA, M. S. L. Indexação automatizada de artigos de
periódicos científicos: análise da aplicação do software SISA com uso da terminologia DeCS
na área de odontologia. Inf. & Soc.:Est., João Pessoa, v.19, n.2, p. 99-118, maio/ago. 2009.
SOUZA, Renato Rocha. Uma proposta de metodologia para escolha automática de
descritores utilizando sintagmas nominais. 2005. Tese (Doutorado em Ciência da
Informação) – Universidade Federal de Minas Gerais.