Com a volumosa quantidade de dados disponibilizados na internet, o desenvolvimento de ferramentas para obter as informações que realmente interessam é cada vez mais estratégico. Esse é um dos focos de estudos de um grupo de pesquisadores do Departamento de Ciência da Computação da UFMG (DCC). Conhecido como “mineração de dados”, esse campo de investigação busca extrair informações ou padrões relevantes a partir de grandes volumes de dados. Segundo o professor do DCC Wagner Meira Jr, o trabalho de mineração de dados é impossível de ser feito manualmente e, por isso, o desenvolvimento de técnicas para que as informações sejam filtradas na internet e em outras redes é essencial. “As informações que a mineração de dados busca são aquelas úteis, novas e que estavam implícitas e escondidas nos próprios dados. No caso da internet, que envolve uma quantidade gigantesca de informações, esse trabalho é muito importante”, explica. O trabalho com mineração de dados é complexo por dois motivos. Em primeiro lugar, a natureza da informação, chamada pelos pesquisadores de “padrão”, pode não ser muito clara. Um padrão básico em mineração de dados é uma regra, e o desafio inicial das pesquisas sobre o assunto é defini-lo. A segunda dificuldade enfrentada pelos estudiosos do assunto é que, uma vez definido esse padrão, é preciso decidir como esse volume de dados disponível será trabalhado. Entre os estudos desenvolvidos na UFMG nesse campo, o professor Wagner Meira Jr. destaca a dissertação de mestrado defendida pelo pesquisador Arlei Silva, que agora está cursando doutorado na Universidade da Califórnia. Intitulado Structural correlation pattern mining for large graphs, o trabalho do estudante compreendeu o projeto, o desenvolvimento e a aplicação de novos algoritmos e técnicas para que informações inesperadas surgissem por meio de dados obtidos em redes. A pesquisa teve dois momentos principais. De início, para resolver o problema da dificuldade em definir padrões, Arlei propôs a criação de novo padrão, chamado de “correlação estrutural”. A partir daí, foram desenvolvidas técnicas baseadas em amostragem de dados para extrair os padrões de forma eficiente. “Essa pesquisa definiu um novo tipo de padrão e, a partir dele, foi desenvolvido um conjunto de técnicas que tornam a mineração viável para uma base de dados reais. Com os algoritmos criados por Arlei, o processo de extrair um novo tipo de informação útil de uma grande base de dados se tornou extremamente prático”, aponta Meira. Laços e conexões “O padrão de correlação estrutural leva em conta a estrutura da rede e o conteúdo associado aos seus nós. No caso de uma rede social, os nós são os pontos de encontro entre as pessoas, os atributos e as suas características, e a rede representa as relações entre elas”, explica Wagner Meira Jr. Um exemplo dado pelo professor é a rede da qual fazem parte os pesquisadores que participam do Instituto Nacional de Ciência e Tecnologia para a Web (InWeb), grupo de pesquisa com sede no DCC que tem a internet como foco de seus estudos. “Em uma rede de coautoria de artigos dos pesquisadores integrantes do InWeb, se você agrega os títulos de artigos escritos por eles e aplica o algoritmo desenvolvido na pesquisa de mestrado, é possível separar a informação de forma muito interessante, pois a visualização de quais autores têm relação com determinados temas se torna evidente. Vê-se claramente com quem cada pesquisador está de fato ligado”, diz. Busca social “Com o uso de padrões e algoritmos, o Facebook sugere aos usuários pessoas que ele deve adicionar a sua rede social. Os algoritmos conseguem mostrar que há pessoas que poderiam, devido às suas conexões, fazer parte também das relações do usuário que recebe as sugestões. A mineração de dados segmenta as redes”, conclui Wagner Meira Jr. (Luana Macieira)
A “correlação estrutural” parte de uma constatação simples: em um mundo extremamente conectado, em que as pessoas têm acesso ilimitado à internet e às redes sociais, são criados laços entre elas. As redes que se formam por conexões entre as pessoas precisam ser entendidas, e essa é uma das tarefas da mineração de dados, por meio de seus padrões e algoritmos.
O sistema de mineração de dados está presente também nas redes sociais. No Facebook, por exemplo, o usuário se relaciona com amigos, colegas de trabalho e familiares. Para facilitar a vida desse usuário, o facebook criou a “busca social”, modalidade de mineração de dados.