Imagens: Foca Lisboa

Marcelo Azevedo: parcerias para pesquisas de excelência na Estatística

Comunicação não tecnicista pode beneficiar sociedade com a ciência produzida na Universidade, reflete Marcelo Azevedo

quarta-feira, 27 de abril de 2011, às 12h42

Aparentemente, o tema é apenas técnico. Mas um olhar mais aproximado abre a compreensão para conhecimentos e tecnologias que podem beneficiar a gestão de informações úteis para as comunidades. Esse poderia ser um dos resumos de longa conversa do Portal UFMG com o pesquisador Marcelo Azevedo, sobre o software SaTScan e projetos do Departamento de Estatística da UFMG, onde é professor.

A área, à primeira vista pouco afeita a aplicações, surpreende com trabalhos teóricos destinados a descobertas bem práticas como desenvolver recursos para conhecer o percurso de epidemias em diversas vias de transporte. Mobilizado com a presença do professor da Universidade de Harvard Martin Kulldorff em workshops, encontros e seminário na UFMG entre 15 e 21 de abril, Azevedo abriu parênteses para explicar alguns trabalhos e problemas próprios de sua área e, em especial, falar sobre as implicações do software SaTScan, proposto por Kulldorff.

Em sua vinda à UFMG, o professor Kulldorff teve encontros de trabalho com a comunidade em torno do software SaTScan. O que esse programa faz?
É um software muito utilizado para fazer vigilância epidemiológica, mas com aplicações em diversos campos. Ele trabalha com dados pontuais ou de áreas. Então, permite extrair informações sobre eventos de interesse para a população que habita os bairros de uma cidade. Por exemplo, número de casos de dengue ou de pessoas com câncer que há em determinado bairro. A ação de vigilância epidemiológica ocorre nesse procedimento, de encontrar a área, ou agregado de áreas, no qual a ocorrência dos casos está acima de um nível seguro, ou seja, está irregular. O instrumento serve para os profissionais de saúde pública em vigilância focarem os seus recursos nas áreas onde há evidência de que alguma coisa incomum está acontecendo. Do ponto de vista espaço-temporal, é possível extrair esses casos não somente num ano, mas ao longo de uma sequência de anos, de dias, ou meses. E o objetivo é explorar em qual região geográfica e extensão de tempo aquele evento incomum se manifesta. É um software muito utilizado para detectar o que chamamos de clusters, ou conglomerados, onde a incidência de eventos pode ser muito alta ou muito baixa.

A identificação de ocorrrências por população significa também acesso a informações pessoais registradas por gestores em seus bancos de dados?
Não. É respeitada a confidencialidade da informação. O dado acessado é agregado. Por exemplo, ele é agregado por área, onde se retira informação do indivíduo. O interesse não é identificar ou expor o indivíduo. O objetivo é identificar a região onde há maior incidência de pessoas doentes.

Mas pode haver locais com "epidemias" mais relacionadas a faixas etárias e menos a fatores externos. Exemplificando, a população idosa do centro da cidade pode, em tese, apresentar perfil específico de doença. Esse tipo de conhecimento também é extraído do programa?
Você pode, por exemplo, estratificar o seu evento de acordo com o seu interesse – como detectar uma região onde os idosos têm ocorrência maior. Então selecionam-se os casos para aquela faixa etária e as análises produzidas são focadas para aquela informação. É muito comum fazer um ajuste por variável. Por exemplo: fazer a conexão da região crítica com dados diferenciados para idosos, crianças e jovens. Então ajusta-se o aplicativo para ele levar em consideração que há faixas etárias distintas com comportamentos diferentes.

Como é a aplicação dele no mundo? Ele é usado apenas na academia?
Não. O software é gratuito, então pode ser feito download pela internet. Ele é muito utilizado. Na última vez que verifiquei, havia mais de mil citações na literatura científica em relação ao artigo original em que foi apresentada sua metodologia. Particularmente, fiz uma revisão bibliográfica em que identifiquei mais de 20 áreas de aplicações – entre elas geologia, medicina veterinária, imagem médica, desmatamento, violência. Então, a diversidade de aplicações é enorme.

Isso envolve também uma certa cultura de registro de dados. Se um país quiser adotar o sistema na área de saúde, ele precisa realizar de modo eficiente esse registro...
Sim, o aplicativo funciona, no caso da saúde, em contextos micro e macro. Então, o aplicativo, por exemplo, pode ser usado dentro de um hospital, onde a geografia é o edifício, e os andares são localizações diferentes, e assim seria possível obter o registro de alguma infecção, e das localizações onde ela ocorre ou não. Por meio dele também é possível detectar a região do hospital mais suscetível àquele evento. Da mesma forma, isso pode ser dimensionado sob ponto de vista de uma cidade, por exemplo, Belo Horizonte, que seria dividida em bairros para se conhecer o comportamento de uma epidemia, como já mencionei. No Estados Unidos, a maior experiência era com registros de seguros de saúde. As seguradoras têm o registro sobre o paciente que precisou de um hospital, onde é o hospital, qual o sintoma que o paciente apresentou. Esses dados eram utilizados, por exemplo, para fazer a vigilância em torno da gripe – para tentar identificar regiões geográficas onde a incidência da gripe, no caso, a Influenza, era maior e mais grave. Ele pode ser utilizado desde que se tenha uma base de dados confiável.

Na revisão bibliográfica sobre aplicações que fez houve algum caso brasileiro que queira apontar?
Não houve. Mas temos um projeto aqui para trabalhar com dengue. Estamos começando a usar esse aplicativo para fazer análise dos conglomerados de dengue nos últimos anos.

Desde quando?
Esse projeto tem aproximadamente dois anos. É uma parceria que envolve a UFMG, a Fiocruz e outras unidades acadêmicas. Não sou o expert nesse projeto, sou uma das pessoas que está realizando análises dessa base de dados, em particular, usando esse aplicativo.

O valor dele é fazer projeções? Por exemplo: em um mapeamento passa-se a conhecer o padrão de ocorrência de um evento. O que passou, passou, mas isso serve para fazer predições?
Temos dois tipos de análises. Ou você pode utilizar a sua base de dados e fazer um estudo retrospectivo ou pode fazer um estudo prospectivo. O estudo retrospectivo consiste em tentar explicar um evento que aconteceu no passado ou detectar comportamentos incomuns. A partir daí poderíamos tentar conhecer os padrões e, de acordo com o comportamento presente, identificar algo no passado que tenha o mesmo perfil do atual. O outro caso é o prospectivo. É claro que prever o futuro é algo bem difícil. Mas podemos tentar identificar o que está acontecendo hoje, procurando um cluster de doenças que se manifesta hoje. É possível identificar uma região em que a doença é crítica, hoje, e nela atuar, acompanhando-a para saber se aquele conglomerado (de eventos) irá desaparecer no futuro.

O Observatório da Dengue, do INCT para Web, coordendo pelo DCC, trabalha com registros de redes sociais. Estudo científico demonstrou que há relação entre o registro que as pessoas fazem na rede de uma doença e o surgimento da epidemia. Uma das vantangens da ferramenta é sua instantaneidade em identificar uma tendência. Como os registros oficiais exigem mais tempo para serem processados e gerar informação, esse fator faz a diferença em combater uma epidemia. O SatScan sofreria desse problema?
No caso, existem exemplos de aplicações online. Então, por exemplo, assim que o dado é disponibilizado, o próprio software faz análise quase instantânea, liberando um relatório que traz as regiões atualizadas com seus eventos.

Os aplicativos para registro e análise de dados são distintos no SatScan?
A idéia é que haja uma base de dados e assim o aplicativo permite criar um procedimento para que, periodicamente, seja extraída a análise. Desde que haja uma integração do aplicativo com a base de dados, não é necessário ter dois softwares distintos para essas funções. É comum incorporar a esse aplicativo um sistema automático. Significa que assim que a base de dados é atualizada, e periodicamente, o aplicativo é executado. Quando o sistema identifica alguma região que é crítica, emails são enviados automaticamente com relatório para todos os profissionais associados com aquele evento.

Aparentemente, essas funcionalidades já existem em outros softwares. Qual a contribuição dele?
É claro que existe toda a parte matemática, a formalização da metodologia, mas a ideia principal, de autoria de Joseph Glaz, é muito simples.

Ele foi o pioneiro nessa modalidade de aplicativo?
Sim. E o problema era muito simples na época. Imagine um quadrado unitário com pontos incidindo nele. Fazendo outro quadradinho, menor e de dimensões conhecidas, passear no maior, ao final do passeio ele encontrará uma região com mais pontos do que outras regiões. O objetivo é saber se essa região é crítica ou não. Qual a probabilidade disso acontecer? Parece ser muito simples pensar um quadradinho passeando num quadrado maior, mas o problema é a complexidade de calcular essa probabilidade porque alguns princípios de probabilidade não se aplicam nesse caso, como independência. Então o primeiro procedimento foi generalizar esse trabalho, colocar num contexto realmente de geoprocessamento, onde há pontos numa região, ou população. Como, a partir daí, dimensionar essa estatística, realizar os cálculos e fazer inferência? Posso dizer que algo incomum está acontecendo? É preciso então fazer uma inferência para saber se o evento espacial segue um padrão.

O senhor mencionou a função temporal. Ela mede se a velocidade de ocorrência de casos em um local é maior do que em outras regiões?
Existem algumas nuances no momento de elaborar a metodologia, então o aplicativo tenta identificar uma região no tempo onde existam muitos casos. É possível também realizar ajustes temporais, levando em consideração que os casos estão aumentando ao longo do tempo.

Se eu quiser saber se o número de casos na Pampulha, por exemplo, está aumentando e em qual proporção numa semana...
O interessante, no caso da Pampulha, é fazer uma análise comparativa. Então imagine as doenças ou casos particulares em duas sequências distintas de tempo. É possível comparar hoje com o passado. Um passado recente. Este procedimento permite identificar uma região que, em relação ao passado, apresenta uma maior incidência. Isso significa que os eventos realmente estão aumentando.

A ideia de aumento da epidemia é um número absoluto ou ele é relativo ao crescimento da população e da região?
Esse aumento é quantificado a partir de uma população de referência. Há o risco relativo da região e normalmente a estatística de teste leva em consideração um aumento relativo e não um aumento absoluto.

A contribuição do método então foi desenvolver espécie de código para responder à hipótese sobre a probabilidade de ocorrência de determinados eventos?
Há todo um procedimento sobre como realizar o cálculo, como identificar o evento, como fazer inferência – e realmente é possível ter um resultado com nível de significância atribuída, em que temos uma certa certeza sobre a ocorrência do evento.

Qual o trabalho que desenvolvem com o Centers for Disease Control and Prevention (CDC) de Atlanta em que averiguam a questão de controle de epidemias?
No Departamento de Estatística temos trabalhos que envolvem tanto o professor Kulldorff quanto profissionais do CDC para fazer modelagem de doenças. Escrevemos inclusive um artigo que será publicado este ano sobre pneumococcos pneumonia nos Estados Unidos. E qual era o problema? O registro não é feito em todas as cidades, então há uma amostra muito pequena. No nosso caso só contávamos com 170 cidades onde havia registros confiáveis dessa doença. O objetivo era conhecer a incidência da doença em todos as 3.108 municípios daquele país. O problema consistia no uso de uma amostra muito limitada, ou seja, menor do que 10% do total de regiões, e, a partir da mesma, fazer uma estimativa para toda a nação. Então a ideia foi usar modelagem estatística, informações de censos para poder construir o modelo, identificar as componentes realmente importantes para aquela doença, extrapolar e encontrar o valor para a incidência.

Essa extrapolação que fizeram se refere a qual ano?
Foi feita para o ano de 2005, porque estávamos usando variáveis de censos e elas também são variáveis antigas.

Então na realidade vocês estavam verificando se a metodologia batia com a realidade?
Esse era um caso em que você não teria como fazer estimativa da realidade, porque os dados eram muito limitados.

Qual era então o valor do resultado?
Primeiro, que é uma estimativa para gerar um número nacional. O que fizemos foi utilizar um procedimento de validação cruzada. Tínhamos uma amostra, muito pequena, mas não tínhamos a realidade. Pegamos, então, essa amostra e a particionamos em pedaços. No processo, separamos um pedaço como sendo a realidade. Utilizamos o restante da amostra para estimar o nosso modelo. De certa forma, contornamos o problema da falta de informação para muitos municípios, usando a própria amostra para dois papéis: ajustar o modelo e dizer algo sobre a realidade.

Posteriormente foram obtidos ou registrados mais dados sobre a doença?
Não. Mas a ideia é que, uma vez geradas as estimativas, você pode, de certa forma, procurar junto nas secretarias de saúde o registro real para fazer o estudo comparativo e validar o modelo que estava sendo utilizado.

Quando o artigo será publicado?
Ele já foi aceito e será publicado no American Journal of Epidemiology. Provavelmente sairá este ano ou no início do próximo. Existem coautores neste artigo junto ao CDC.

Quais outros projetos de parceria você destacaria nessa área que estão sendo desenvolvidos pelo grupo da UFMG?
Temos muitos professores aqui do Departamento de Estatística que trabalham em parceria com o professor Kulldorff. Um das finalidades é tentar estender esse aplicativo do SaTScan para utilizar, por exemplo, em informações sobre grafos. Você comentou que a Ciência da Computação está desenvolvendo essa questão dos grafos; então hoje temos desenvolvido uma versão do aplicativo agregando essa metodologia para obter, por exemplo, informação de arruamento, ou mesmo de trânsito aéreo. Imagine que possamos ter as ruas ou o deslocamento do meio de transporte representadas por uma estrutura de grafo, em que uma pessoa sai de uma origem e vai para um destino. Então, você pode pensar que uma epidemia não está somente associada à geografia, mas também ao movimento geográfico das pessoas. A epidemia pode seguir esse caminho. Mesmo num caso mais macro, uma epidemia segue rotas de aviões. Suponha um indivíduo infectado que entra num determinado avião e é transportado para um outro ponto. Poderíamos tentar detectar o caminho ou as regiões mais críticas, a informação do fluxo e do trânsito dos indivíduos dentro dessa rede.

Alguém já aplicou esse estudo?
Estamos começando a aplicar. Estamos terminando as análises e esperamos submeter o artigo em breve. Temos o protótipo do aplicativo, mas ele ainda não está disponível. É um trabalho de minha autoria com coautorias do professor Renato Assunção do Departamento de Estatística da UFMG e do professor Kulldorff. O artigo da metodologia acabou de ser aceito e deve ser publicado, provavelmente no final deste ano.

Então é desenvolvimento metodológico, não há ainda análise de caso....
Temos um estudo de caso, em que usamos dados de 1996 e 1997 de Influenza nos Estados Unidos, utilizando a rede de transporte, também ao longo do tempo. Mas ainda estamos finalizando essa aplicação.

Por que os dados são sempre mais antigos?
Existe toda uma confidencialidade envolvendo o uso de dados recentes. Mas o uso de dados antigos traz vantagens. Muitas vezes são dados já publicados, em artigos com referência a esses conjuntos, logo eles possibilitam uma comparação melhor do método.

Há diferenças entre software público e livre. Em um deles, você tem acesso ao aplicativo, mas no momento de sua customização, não consegue e aí necessário pagar. Como é o modelo do SatScan?
Ele é um software gratuito, mas não é um software livre. Ele não permite modificar a metodologia, pois a entrada e a saída de dados já são padronizadas. O aplicativo tem duas versões. Existe uma versão com interface gráfica em que o usuário entra com suas informações e há também a versão denominada batch, que permite integrar esse aplicativo a qualquer outro que você tenha. Então você pode desenvolver o seu código e colocar sua base de dados no formato do aplicativo. A versão batch executa o aplicativo e já disponibiliza os resultados também em arquivo. Sintetizando, o usuário pode construir sua interface, fazer o seu aplicativo e simplesmente fazer uma chamada para esse programa.

Quando se baixa o programa não é necessário compartilhar a base de dados com o fornecedor do programa?
Não. Isso é seu. Você tem o seu registro para obter o aplicativo. Para a palestra de Kulldorff na UFMG, recebi uma mensagem dele com o registro de todas as pessoas que haviam obtido o software na região.

Em quais idiomas ele está disponível?
Em inglês. No site, inclusive, está disponível uma extensa bibliografia por área de aplicação.

De modo geral ele melhora a gestão e propicia um conhecimento probabilístico, vamos dizer assim, de um evento...
Sim. A definição de SaTScan é estatística de varredura espaço-tempo. O que isso significa? Você está interessado em identificar uma área, então você realiza uma varredura na região, procurando identificar uma sub-região, uma partição, onde há uma alta incidência ou uma baixa incidência de um evento.

É possível comparar os Estados Unidos e o Brasil no uso desses aplicativos de gestão de informação, que buscam maior racionalidade para a administração pública ou empresarial?
Nos Estados Unidos e na Europa há divulgação muito mais ampla do uso desse aplicativo. Creio que há interesse das pessoas aqui, mas ainda existe a questão de como divulgar, se fazer conhecido e utilizar. Então, parte da importância dessa visita e do workshop de Kulldorff foi divulgar para a comunidade que existe um aplicativo muito utilizado em vigilância na área de saúde e em outros campos, e que é um aplicativo relativamente simples – no uso e na interpretação de resultados.

Como administrar esses problemas sem esse tipo de instrumento? Isso deveria ser básico na administração pública, por exemplo.
Sim, é uma ferramenta muito poderosa, mas ainda desconhecida. Creio que é preciso uma integração entre nós, pesquisadores, que somos pessoas que conhecemos esses métodos, para procurar divulgar, dizer que existe essa ferramenta e que ela é utilizada com sucesso.

Universidade Federal de Minas Gerais

Comunicação não tecnicista pode beneficiar sociedade com a ciência produzida na Universidade, reflete Marcelo Azevedo

CEDECOM