Busca no site da UFMG

Nº 1647 - Ano 35
6.4.2009

Na cromatografia gasosa monodimensional, uma amostra em solução líquida é inserida em aparelho que torna a solução gasosa. Ao passar por uma coluna, os compostos da mistura são separados e, em seguida, detectados e quantificados em um espectrômetro de massas. Já a cromatografia bidimensional abrangente usa duas colunas em sequência, permitindo a separação e observação, com alto grau de resolução e sensibilidade, de compostos que passam despercebidos pela cromatografia convencional.

Fruto proibido

DCC desenvolve software que pode funcionar como
vacina antispam

Filipe Chaves
Pedro Guerra, Dorgival, Douglas e Meira Jr.: estudo sobre 500 milhões de mensagens

Ana Maria Vieira

O Comitê Gestor da Internet (CGI) do Brasil adotará, nas próximas semanas, um software sem similar, em matéria de spam, para máquinas distribuídas pela rede nacional de computadores. Resultado de parceria com o Laboratório e-SPEED, do Departamento de Ciência da Computação (DCC) da UFMG, o sistema, denominado Spam Miner, vai além da detecção de mensagens indesejáveis e ilícitas realizada pelos filtros disponíveis, pois propõe identificar e monitorar a evolução de técnicas de disseminação de spams.

Por essa rota, o programa abre perspectiva para barrar campanhas de spam – conjunto de mensagens disparado por um mesmo emissor com características e propósito similares –, em tempo real, mesmo que seus autores adotem novas estratégias e tecnologias de invasão de máquinas. O uso do software poderá ganhar escala mundial, visto que o próprio CGI já está negociando sua adoção com comitês gestores de diversos países, como informa o professor Wagner Meira Jr., do DCC, coordenador do projeto na UFMG ao lado do colega de departamento Dorgival Guedes.

“Se focássemos a proposta apenas na detecção de spams, conseguiríamos remediar o problema, oferecendo um simples medicamento. Mas o nosso trabalho procura uma vacina para que tais mensagens não voltem a ocorrer ou que sejam identificadas tão cedo quanto possível”, observa Meira Jr., ressaltando aspectos diferenciados do trabalho. Para chegar ao protótipo atual, os pesquisadores se debruçaram, nos últimos dois anos, sobre uma massa de dados considerável: 500 milhões de mensagens capturadas durante 15 meses em uma dezena de computadores que integram infraestrutura de coleta de spam do Núcleo de Informação e Coordenação da Internet no Brasil (Nic.br), ligado ao CGI.

Chamadas de honeypots, ou potes de mel, essas máquinas constituem-se em verdadeiras ratoeiras, pois são configuradas de modo a emular o funcionamento de proxies e relays abertos – máquinas na rede comumente abusadas por spammers para disseminação de spams. Desse modo, o spammer invade um honeypot, acreditando que encontrou uma máquina comum mal configurada, própria para suas estratégias de disseminação de spam ou de phishing – que têm propósito de coletar dados pessoais com fins ilícitos. Mas os honeypots apenas armazenam as mensagens com o objetivo de produzir estatísticas sobre elas. “Uma mesma pessoa chega a enviar milhões de mensagens de spam. Em nossa pesquisa tentamos extrair informação dessa massa de dados, identificando padrões em conjuntos de mensagens e a partir daí agrupando-as em campanhas”, relata Douglas Pires, aluno de graduação do curso de Ciência da Computação, que integra a equipe de bolsistas de iniciação científica do projeto. O grupo utilizou técnicas de mineração de dados para processar grande volume de dados. O método permite estabelecer, por meio de agrupamento, regras de associação entre informações diversas – a frequência com que determinados fatores surgem sempre associados expressa a regra de um caso, por exemplo.

‘Ideogramático’

O trabalho se inicia com o levantamento de todas as características das mensagens de spam – lay-out, URL, assunto, idioma, texto, imagem, a porta do computador do usuário utilizada pelo spammer para se conectar, entre outras. Após serem extraídas, as informações são “mineradas” e inseridas em uma estrutura de dados – a árvore de padrões frequentes. É por meio desse recurso que automaticamente ocorre o agrupamento de mensagens que compartilham os aspectos mais constantes “e se diferenciam apenas por uma característica infrequente”, explicam os autores do projeto, em texto denominado Caracterização de estratégias de disseminação de spams. Isso significa que mensagens derivadas de uma mesma campanha são agrupadas não apenas por afinidade de características, mas também por pequenas variações em seu “corpo”, inseridas como recursos de “ofuscação” ou despistamento. A estratégia é adotada pelos spammers para escapar dos filtros de detecção. Para trafegarem na rede anonimamente, grandes volumes de spams precisam agregar pequenas alterações em uma de suas características – como trechos finais da URL, que, por sinal, é a estratégia mais comum. Adotando ramificações em seu endereço, eles confundem os filtros sobre o fato de terem se originado de uma mesma mensagem de spam.

Apesar disso, no entanto, seus autores acabam mantendo constantes os outros dados. “Eles não podem alterar tudo, pois comprometeriam a comunicação com o usuário”, salienta Meira Jr. A mesma lógica está presente em diversos padrões de disseminação de spams na rede. Mas como seu DNA foi dissecado, a estratégia de inserir mutações no próprio código não será suficiente para que permaneça anônimo daqui para frente. Por esse motivo, o método adotado pelo DCC pode ser usado para se antecipar a múltiplas estratégias de distribuição de spams. “O protótipo permite conhecer padrões, no entanto, não é um filtro de detecção de mensagens”, ressalta Meira Jr. Isso não impede que haja desenvolvimentos nessa direção.

Por meio dessa técnica de “rastreamento” e agregação de dados, os pesquisadores concluíram ainda que os 500 milhões de mensagens capturadas pelos honeypots do CGI podem ser agrupadas em 60 mil campanhas – seriam, assim, oriundas de igual número de autores. Eles observaram também que, quando se associam as variáveis idioma, países de origem e de destino, a árvore faz emergir, majoritariamente, spams oriundos da China e de Taiwan e escritos em mandarim. Foi verificado por sua vez que, mesmo quando o IP (espécie de endereço postal do computador) é brasileiro, há regras que associam essa característica com mensagens em alemão e mandarim. “Spammers desses países se escondem em máquinas brasileiras para disparar suas mensagens”, ressalta Marco Túlio Ribeiro, graduando em Ciência da Computação, que também participa da pesquisa. Ele lembra que esse dado, ao revelar um comportamento dos spammers na rede mundial, põe sob suspeição a suposta liderança do Brasil no envio dessa modalidade de mensagem.

Além desses aspectos, os autores do projeto ressaltam também que, entre alguns padrões de comportamento encontrados, existem oito perfis distintos de abuso das portas das máquinas-alvo, e, em cada um, diferentes portas são exploradas em diferentes frequências. A pesquisa contou com financiamento das agências CNPq, Capes, Fapemig, Finep e do Nic.br. Saiba mais sobre o projeto no endereço http://spammining.speed.dcc.ufmg.br.

Jogo de gato e rato

Espécie de epidemia da rede mundial, o spam, com fins comerciais, e o phishing – que tem propósitos de fraude – se expandiram junto com a própria Internet. Segundo estatísticas do Comitê Gestor da Internet no Brasil, apenas nos meses de janeiro e fevereiro deste ano foram detectadas 669.345 mensagens dessa modalidade. Em 2008, os números chegaram a 3.297.973.

Na UFMG, o problema não é diferente. Em fevereiro, das 1.636.403 mensagens enviadas ao conjunto de usuários da rede da Universidade, 67,5% (cerca de 1,1 milhão) foram rejeitadas por apresentarem características usadas por spammers, como informa o Centro de Computação (Cecom). Do total de mensagens aceitas (531.544), pelo menos 164.408, ou 30,9%, eram comprovadamente spams.
Para disseminar suas mensagens com tal eficiência, os spammers invadem máquinas vulneráveis, que passam a agir como zumbis, monitoradas por controle remoto. Como num jogo de gato e rato, os filtros de detecção vão se aperfeiçoando à medida em que os spammers mudam suas técnicas de ataque ou despistamento para permanecer no anonimato e continuar disparando mensagens e phishings a partir dos zumbis.

“O spam gera muitos gastos para a economia, seja em termos de perda de tempo para o usuário que precisa apagá-los de sua caixa postal, seja de recursos despendidos pelos servidores para transportar, coletar e armazenar tal volume de mensagens. Filtrá-los antes que cheguem à caixa postal permitirá mitigar esse custo”, avalia Pedro Calais Guerra, aluno de doutorado do DCC, que em março concluiu mestrado sobre o projeto Árvore de Spam.

Leia também: "Como nasce e cresce uma árvore de spam".