Busca no site da UFMG

Nº 1960 - Ano 43
10.10.2016

A palavra é a chave

Método desenvolvido por pesquisadores do DCC melhora sistema de criação de tags na internet

Luana Macieira

Em meio à grande quantidade de informações disponíveis na internet, é cada vez mais importante a classificação e organização dos dados on-line. O uso de tags, palavra que em inglês significa "etiquetas", consiste na adoção de palavras-chave para relacionar informações semelhantes ou que remetem a conteúdos comuns.

Por meio do projeto Além da relevância: abordando novidade, diversidade e personalização na recomendação de tags [extensão], um grupo de pesquisadores do Departamento de Ciência da Computação (DCC) da UFMG está desenvolvendo novos métodos de recomendação de tags. O objetivo é criar uma ferramenta que proponha palavras-chave mais estritamente relacionadas aos conteúdos da Web.

"As tags são uma boa fonte de informação porque servem para organizar os conteúdos disponíveis na internet. Percebemos, em pesquisas anteriores, que elas estão ausentes em uma grande parcela de páginas da Web. A ferramenta que estamos criando pode facilitar o uso de tags e possibilitar seu emprego em mais sites", explica Fabiano Muniz Belém, estudante de doutorado em Ciência da Computação e um dos participantes do projeto.

Fabiano Belém explica que, na internet, há muitas tags que apresentam ruídos. Os ruídos surgem quando as palavras-chave são formadas por termos não relacionados ao conteúdo procurado pelo usuário. "Para evitar esse tipo de tag de má qualidade, nosso projeto busca recomendar tags que ajudem os usuários a gerar palavras-chave mais descritivas e com relação mais estreita com seus conteúdos", diz.

O grupo desenvolveu algoritmos computacionais que, de forma automática, consideram quatro fatores ao sugerir as tags que serão criadas: relevância, novidade, diversidade e personalização. A relevância leva em consideração o quão as palavras-chave estão relacionadas ao conteúdo buscado pelo internauta. A novidade refere-se à especificidade da palavra-chave, ou seja, à capacidade de o sistema recomendar tags que o usuário dificilmente relacionaria com o conteúdo pesquisado. A diversidade, por sua vez, é a competência de cobrir os diversos assuntos e tópicos relacionados ao tempo procurado. Por fim, a personalização refere-se à proximidade do termo com os interesses e o perfil do internauta. "O algoritmo que desenvolvemos explora conjuntamente esses quatro pontos e possibilita a geração de tags mais personalizadas, adequadas ao perfil do usuário e que sumarizam o conteúdo de forma mais precisa e completa", resume Belém.

Financiamento

O projeto, que teve início no ano passado, conta com financiamento e apoio da Google por meio do Programa de Bolsas de Pesquisa Google para a América Latina. Além das bolsas de estudos mensais concedidas aos participantes, há reuniões de orientação de funcionários da empresa de tecnologia.

Além de Fabiano Muniz Belém, participam do projeto os professores do DCC Jussara Marques de Almeida e Marcos André Gonçalves. Para o desenvolvimento dos algoritmos e realização dos testes, o grupo utilizou as tags de sites como o YouTube, página para visualização de vídeos, e o LastFM, serviço de streaming de músicas.

Segundo Fabiano Belém, a recomendação das tags no sistema desenvolvido pelos pesquisadores é feita em duas etapas. Na primeira, extraem-se termos candidatos, palavras que podem aparecer, ao mesmo tempo, no título e na descrição do conteúdo do vídeo no YouTube, por exemplo; na segunda, as palavras são classificadas, considerando a relevância, a novidade, a diversidade e a personalização.

"Também criamos os atributos que medem a qualidade das tags. Um deles observa como a tag está espalhada em vários campos textuais da página da internet. Se aparece no título do vídeo e na descrição, isso indica que a tag é mais relevante que uma que figura apenas nos comentários dos usuários", diz.

O pesquisador acrescenta que o sistema, além de ajudar os usuários a criar as tags, também melhora a busca de conteúdos on-line, uma vez que poderá ser usado por mecanismos de buscas da internet, a exemplo do próprio Google. "A nossa pesquisa pode ser aplicada em qualquer site, facilitando a organização da informação disponível", conclui Fabiano Belém.