Busca no site da UFMG

Nº 1846 - Ano 40
25.11.2013

Textos modelados com números

Estudo da área de linguística vale-se de dados quantitativos e estatísticos para propor a elaboração de materiais mais acessíveis ao público leigo

Luana Moreira

Um estudo linguístico acerca de textos sobre a anemia falciforme constatou que em matéria de textos as aparências também enganam. Cartilhas que deveriam reunir informações em linguagem acessível apresentam-se como extratos de manuais técnicos, com estruturas linguísticas que se aproximam mais de textos para leitores especializados do que de materiais para o público leigo. Essa é uma das conclusões do estudo da pesquisadora Kelen Cristina Sant’Anna de Lima, coordenadora do setor de Tradução e Relações Internacionais do Núcleo de Ações e Pesquisa em Apoio Diagnóstico (Nupad), da Faculdade de Medicina, que resultou em tese de doutorado defendida em agosto.

“Percebi que o material de comunicação disponível fazia uso de formas linguísticas que dificultavam a compreensão da população, principalmente a de origem mais humilde”, constatou a autora do trabalho, desenvolvido no âmbito de projeto de cooperação mantido entre o Laboratório Experimental de Tradução da Faculdade de Letras (Letra) e o Nupad. A pesquisa se debruçou em torno de três tipos de textos sobre a anemia falciforme: artigos científicos, manuais técnicos, cartilhas e folders de divulgação. Os materiais selecionados foram coletados de registros autênticos e originais de Medicina em português e inglês, de 2002 a 2012, a partir do banco de dados do Nupad.

A pesquisa valeu-se de conjuntos de textos em formato eletrônico, chamados de corpora, anotados por meio de
softwares específicos. Eles foram selecionados de acordo com os princípios da Teoria de Linguística de Corpus, que fornece bases para escolha de número de palavras necessárias para a compreensão de determinado texto. A partir dessa teoria, a pesquisadora utilizou o programa computacional R, para extrair padrões de ocorrência entre dados ou corpora lexicais e gramaticais mais frequentes e específicos. Após a organização numérica do texto ou a tabulação dos itens, Kelen fez uso de um etiquetador morfossintático chamado Treetagger, que etiquetou os corpora em classes de palavras, como substantivos, advérbios e adjetivos, entre outros.

Durante a fase de mapeamento, a pesquisadora conseguiu identificar o número total de palavras obtidas e o de palavras diferentes, para, a partir daí, analisar a variação lexical dos textos. Assim, características típicas de cada conjunto de textos foram observadas. “Nos artigos científicos há menos verbos, e a linguagem é mais condensada, com mais substantivos. Nos manuais técnicos, a linguagem possui características diferentes do artigo acadêmico. Percebi também que a maioria das cartilhas disponíveis seguia o padrão dos manuais técnicos, o que faz prever que a compreensão desse tipo de texto pelo leitor leigo é bem pequena”, afirma Kelen Lima. Nessa etapa foi possível identificar os padrões de uso linguístico e descrever o perfil para cada tipo de texto.

Com essa categorização textual baseada na variação e densidade lexical dos textos, a pesquisadora aplicou testes estatísticos para identificar a relação existente entre as palavras e determinados tipos de textos. Aqui, confirmou-se que havia significativa semelhança entre os textos de manuais técnicos e os das cartilhas informativas. Desse ponto, ela partiu para uma análise mais aprofundada com base na Linguística Sistêmico-Funcional.

Para identificar as principais diferenças entre os artigos científicos, os manuais técnicos e as cartilhas, a última fase da pesquisa recorreu ao método de descrição do perfil metafuncional dos textos por meio do software UAM CorpusTool, que permitiu a descrição de sistemas linguísticos e a caracterização de orações. “Constatei que as cartilhas continham informações reduzidas extraídas de manuais técnicos e que necessitavam de recomendações mais precisas sobre a conduta das pessoas no caso da ocorrência de sintomas da anemia falciforme”, informa. Para construir um modelo de texto para cartilhas, a pesquisadora recorreu a textos de popularização da ciência e extraiu deles padrões lexicais e gramaticais.

Modelo

A pesquisa teve como desdobramento a construção de um modelo de produção de cartilha sobre a anemia falciforme em língua portuguesa que será aplicado durante o estudo de pós-doutorado de Kelen Lima. Ela também está trabalhando na tradução para o português de um formato de cartilha disponibilizado por uma universidade inglesa.

Para a professora do Programa de Pós-graduação em Estudos Linguísticos Adriana Pagano, a pesquisa é inovadora pelo seu caráter multidisciplinar e relevância social. “Existem poucos estudos no Brasil e no âmbito internacional na área da linguística aplicada que modelem a produção textual com base em dados extraídos de conjuntos de textos em formato eletrônico, anotados com categorias lexicais e gramaticais comuns às diferentes línguas e submetidos a tratamento estatístico”, afirma a pesquisadora.

Tese: Caracterização de registros orientada para a produção textual no ambiente multilíngue: um estudo baseado em corpora comparáveis
Defesa: agosto de 2013, junto ao Programa de Pós-graduação em Estudos Linguísticos da Faculdade de Letras
Autora: Kelen Cristina Sant’Anna de Lima
Orientadora: Adriano Pagano