Ferramenta identifica usuários oportunistas nas redes sociais

Tese do DCC estuda interações mantidas em sites como YouTube e Orkut

Ana Maria Vieira

Fotos Foca Lisboa

Benevenuto: maioria dos usuários navega sem deixar rastros

Pedido de patente para tecnologia capaz de detectar comportamento oportunista em sites de interação por vídeo recebeu, há poucos meses, aprovação provisória nos Estados Unidos. De autoria de pesquisadores do Departamento de Ciência da Computação (DCC) da UFMG, a ferramenta ficará protegida por um ano, período necessário para que sejam atendidas as exigências relativas ao processo de obtenção da carta definitiva.

“Desenvolvemos um método de detecção de spammers e promoters que acredito ser válido para identificar usuários oportunistas em outros ambientes da web”, diz Fabrício Benevenuto, cujas investigações para tese de doutorado defendida em março, pelo DCC, forneceram a base para a tecnologia. Denominado Uma análise empírica das interações em redes sociais online, o estudo rastreou sites populares como Orkut, Hi5, MySpace, LinkedIn e YouTube, dos quais extraiu dados para compreender e caracterizar o comportamento de seus usuários.

Em sua pesquisa, Benevenuto recolheu as informações a partir de um agregador de redes sociais, responsável por fazer convergir o conteúdo de sites de relacionamento para um único local. Por meio do agregador, cada clique dos usuários dessas redes foi contabilizado durante 12 dias: de 26 de março a 6 de abril de 2009. “O rastreamento incluiu 77.407 sessões, abrangendo 16.175 usuários de diferentes endereços IP”, registra o pesquisador. Ele obteve ainda dados sobre cookies, sessão, bytes enviados e recebidos, IP do usuário, ID de login do site agregador, URL da página da rede social, entre outros.

Por essa via, Benevenuto descobriu um comportamento surpreendente entre indivíduos que acessam serviços como o Orkut: 92% navegam sem deixar rastros; apenas “fuçam” as páginas dos conhecidos – ou dos amigos deles – lendo mensagens, vendo fotos e listas de amizades. “É um tipo de interação silenciosa”, explica. Além disso, quando realizam uma ação – navegar em fotos, por exemplo – as pessoas tendem a repeti-la. “Para a computação, é importante encontrar padrão no número de repetição de uma atividade, pois isso permite antecipar ações e mudar o design do sistema para melhorar o seu desempenho”, esclarece Benevenuto.

Uma das motivações de Benevenuto para realizar a pesquisa sobre o tema decorreu das implicações para a internet da proliferação das redes sociais em todo o mundo e do aumento da comunicação por meio de conteúdos multimídia – vídeo, texto e foto. Entreter, educar, negociar, noticiar, promover ideias e pessoas e trapacear ganharam novas dimensões nesse espaço. Porém, o conhecimento advindo da medição do comportamento é considerado insuficiente.

“A quantidade de conteúdo carregado para o YouTube, em 60 dias, equivale ao que seria transmitido durante 24 horas, diariamente, em 60 anos, pela emissoras norte-americanas NBC, CBS e ABC”, exemplifica Benevenuto em artigo recente sobre o tema, produzido com o professor Virgílio Augusto Fernandes Almeida, seu orientador no doutorado e coautor da patente.

Poluição no YouTube

Eles observam que, apesar da nova realidade, a literatura científica produzida sobre essas interações e repercussões na estrutura da rede ainda é limitada. Por essa razão, Benevenuto dedicou-se inicialmente a compreender a dinâmica de relacionamento em diversos ambientes, buscando métricas diversas. Seu foco, no entanto, recaiu sobre os sistemas de compartilhamento de vídeo, como o YouTube. Por meio de avaliação de postagem de vídeos em top lists, e de outras informações, o pesquisador consolidou dados que lhe permitiram classificar modalidades de poluição produzidas por usuários, que futuramente poderiam causar impacto negativo no desempenho dos sistemas e na confiança que os indivíduos depositam neles.

Postar vídeos com informações indesejadas, maliciosas ou de conteúdo repetido, comercial e alheio ao tema da conversa foram algumas dessas situações identificadas de vídeo poluição no YouTube. Nesse sistema, a comunicação entre os usuários ocorre sobretudo por meio de postagem de vídeos e consequentes vídeos respostas.

Benevenuto analisou 829 usuários do YouTube e, a partir daí, extraiu 60 padrões de comportamento relativos a spammers, promoters e usuários denominados legítimos, com os quais “treinou” um algoritmo. Em geral, os ilegítimos não possuem amigos, postam vídeos que não são bem recebidos, ganham notas baixas, e ninguém os adiciona como favoritos. “Reconhecer e identificar a poluição de vídeo é um problema difícil, pois a tecnologia tem limitações para fazer o trabalho dos revisores humanos”, observou.

Ainda assim, teste mostrou que a ferramenta é capaz de reconhecer 57% dos spammers (relacionados a interesses comerciais), 96% dos promoters (dedicados a conteúdos inúteis) e 94% dos usuários legítimos. O pesquisador explica que o recurso pode ser modelado de acordo com o interesse do gestor. Caso ele prefira maior rigor na identificação dos spammers, o algoritmo é estruturado nessa direção. Outra vantagem é que, pelo fato de se ancorar em 60 atributos, mudanças nas estratégias de usuários oportunistas continuam a ser detectadas com alto grau de acerto.