Bruna Brandão/UFMG |
Alguém imagina descobrir o resultado de um jogo de futebol consultando um gráfico que representa, minuto a minuto, a quantidade de tuítes e posts que mencionam os dois times e a partida? Pois é possível, com grande chance de acerto. E o gráfico é apenas um dos recursos oferecidos pelo Observatório do Brasileirão , que acaba de ser lançado pelo Observatório da Web, coordenado por pesquisadores do Departamento de Ciência da Computação (DCC) da UFMG. Além de acompanhar em tempo real as partidas do Campeonato Brasileiro da primeira divisão (incluindo o período pós-jogo), o Observatório trabalha sem interrupção para medir o volume de tuítes por clube e indicar vídeos do Youtube e links de notícias mais populares, entre diversas outras informações. O Observatório da Web é um dos projetos de pesquisa do Instituto Nacional de Ciência e Tecnologia para a Web (INWeb), de que participam, além da UFMG, o Cefet-MG e as universidades federais do Amazonas e a Universidade Federal do Rio Grande do Sul, com financiamento do CNPq e da Fapemig. Na UFMG, os pesquisadores utilizam conjunto inédito de tecnologias para a Web – como recuperação de informação, gerenciamento de dados, mineração de dados e visualização – para entender o que está sendo veiculado nas várias mídias e pelos vários usuários. “O objetivo amplo do Observatório da Web é descobrir até que ponto as manifestações nesse ambiente são reflexo do que acontece na sociedade”, explica o professor Wagner Meira Jr., do Departamento de Ciência da Computação da UFMG e coordenador do Observatório do Brasileirão. Ainda segundo ele, a escolha do futebol como tema de mais um projeto do gênero não é por acaso. “Fala-se de tudo na internet, mas não de forma tão estruturada quanto no caso do futebol. O esporte tem um público fanático e que usa de fato as redes sociais.” O Observatório da Web já foi aplicado às eleições presidenciais e à Copa do Mundo de 2010, e está em funcionamento o Observatório da Dengue, versão que visa à prevenção da doença no país (leia mais). Sumarização Palavras-chaves de diversos tipos, a partir de nomes e apelidos de times e jogadores (incluindo suas inúmeras variações geradas por erros ortográficos), alimentam o sistema, que está programado para “aprender” a identificar combinações de palavras. “Nesse universo, muitos termos emergem e desaparecem, e o banco de dados precisa ser constantemente atualizado. Além disso, quando percebemos um forte potencial de ambiguidade, os filtros passam a funcionar em padrão mais conservador, para não comprometer a fidelidade das informações”, explica o coordenador técnico do Observatório do Brasileirão, Walter dos Santos Filho. A primeira página do portal oferece os gráficos que mostram o volume de tuítes por clube e o de ocorrências simultâneas de menções. Em outra camada, aparecem mensagens escolhidas aleatoriamente e localizadas em um mapa do Brasil. Ainda que o usuário não declare origem geográfica em seu perfil ou que não tenha habilitado mecanismo de geolocalização, o sistema do Observatório pode deduzir o local de origem da mensagem a partir de combinação de informações. O Observatório relaciona também as notícias mais acessadas (no cômputo geral e por time), tanto em números absolutos, quanto, por exemplo, nos últimos 30 minutos. As notícias e vídeos (que podem ser acessadas diretamente de links no portal) estão distribuídas em páginas de cada um dos 20 clubes participantes do campeonato; ou seja, um torcedor pode procurar apenas dados diretamente ligados ao seu time. Durante os jogos, uma nuvem de frases extraídas das redes sociais dá ideia da variação do humor das torcidas. Uma novidade trazida por essa versão do Observatório da Web é o monitoramento da repercussão das informações fornecidas pelo portal. Ou seja, o intuito é descobrir como usuário vai utilizar o mecanismo e compartilhar nas redes sociais. Menos falsos positivos Ele informa ainda que o projeto tem atualmente participação de cerca de 35 pesquisadores, incluindo alunos dedicados a aspectos como filtros específicos. Novos mecanismos estão em estágio de teste e podem ser incorporados ao sistema quando demonstrarem estabilidade. Meira Jr. ressalta, a propósito, que o foco dos observatórios está menos nos temas, como eleições e campeonatos de futebol, que no desenvolvimento de técnicas exclusivas de monitoramento da web. O sistema continuará a ser desenvolvido no Centro de Tecnologia para a Web (CTWeb), emm fase de implantação no Parque Tecnológico de Belo Horizonte (BH-Tec, visando à transferência para empresas e outras organizações. (Itamar Rigueira Jr.)
A associação de grande quantidade de informação com altas doses de ironia que permeia o tema adiou o provimento de técnicas de detecção de “sentimentos” vinculados às manifestações dos usuários. O objetivo dessa primeira versão é a sumarização que agrega várias mídias, sobretudo o Twitter e o Facebook.
De acordo com Wagner Meira Jr., o Observatório do Brasileirão se beneficia fortemente do que os pesquisadores aprenderam com a experiência dos projetos anteriores. Já sistematizado, o processo de montagem é mais rápido e há mais cuidado com relação às ambiguidades. “No início, fomos mais audaciosos, porque era necessário arriscar, uma vez que estávamos lidando com algo desconhecido. Hoje trabalhamos com mais segurança e diminuiu muito a incidência do que chamamos de falsos positivos”, explica o coordenador.