Universidade Federal de Minas Gerais

Foca Lisboa / UFMG
Pedro-Vaz-e-Tulio-Loures-Foca-Lisboa.jpg
Pedro Vaz de Melo e Túlio Loures: testes em universo de séries de TV

Projeto do DCC criará ferramenta para descrever postagens com base em comentários e conversas on-line

segunda-feira, 12 de dezembro de 2016, às 7h08

Seria possível descrever um episódio de Game of thrones com base em discussões postadas na rede social Reddit pelos seguidores do seriado? De acordo com pesquisadores do Departamento de Ciência da Computação, o sucesso nessa tarefa abre possibilidades para identificar, resumir e associar conversas textuais ocorridas em quaisquer mídias on-line, como comentários em blogs de notícias, fóruns de discussão, vídeos do Youtube, conversas no Twitter e no Facebook e troca de e-mails.

Com bolsa de pesquisa da Google, o mestrando Túlio Corrêa Loures, sob a orientação do professor Pedro Vaz de Melo, tem trabalhado na elaboração de ferramenta que, com base em discussões on-line, possa apreender representações de vídeos ou quaisquer outras postagens, que são definidas no projeto como “entidades”.

A intenção é criar método capaz de gerar automaticamente resumos sobre essas entidades, mesmo quando nada se tenha dito, de forma explícita, a seu respeito. Para atingir esse objetivo, os pesquisadores criaram um vetor numérico para representar a entidade com base nos comentários a ela associados. Esse vetor pode ser a chave, por exemplo, para facilitar a indexação – e a busca – de informações de qualquer natureza no vasto universo da rede mundial de computadores.

Para que as buscas na internet funcionem, é necessário que as palavras ou imagens tenham sido associadas a índices que, nesse caso, são os vetores. “O problema é que certos vídeos não têm informações explícitas que os caracterizem. Nosso intuito é processar os comentários, para obter informações que possibilitem a indexação”, explica Vaz de Melo.

Associações com a realidade
O universo escolhido para testes foram séries de televisão, como a norte-americana Game of thrones, e as centenas de comentários que cada episódio recebe na rede social Reddit. “Reunimos todos os episódios para os quais há sequência de comentários, algumas vezes mais de mil por episódio. Futuramente, pretendemos testar também com notícias”, informa Pedro Vaz de Melo, lembrando que a ideia é criar uma ferramenta genérica, que navegue por toda a internet e não fique restrita a plataformas ou temas específicos.

Inicialmente, Túlio Loures desenvolveu script na linguagem Python, que simula a navegação de uma pessoa no Reddit. “O script age como uma pessoa muito curiosa, que vai ler tudo e armazenar em disco rígido”, explica o orientador.

Após a coleta dos dados, vem a parte principal do trabalho, que é transformar conversas e opiniões em vetores numéricos. O processamento das informações se torna especialmente complexo quando surgem, nos comentários, derivações para outros temas ou metáforas que associam fatos ocorridos no mundo real a aspectos da entidade que se quer caracterizar.

“Ao se falar, por exemplo, sobre um episódio de Game of thrones, é possível que surjam associações do mundo ficcional com fatos da política brasileira ou com disputas de times de futebol, além de usuários que interagem entre si”, pondera Loures, lembrando que se trata de ambiente muito desafiador para a tarefa de extrair as informações que possam ser relevantes na descrição da entidade.

Pedro Vaz de Melo enfatiza que identificar o modo como uma discussão se relaciona com a entidade é tarefa extremamente complexa, pois envolve grande compreensão da linguagem natural humana e suas formas de interação. “Nossa ideia é usar algoritmos de aprendizado de máquina, que são capazes de encontrar essas conexões, tais como redes neurais, modelos de tópico e métodos de processamento de linguagem natural”, diz.

O professor explica que, em diversas situações na internet, algoritmos são usados para calcular a distância matemática entre vários vetores e identificar os que têm características parecidas. Com isso, é possível, por exemplo, fazer recomendações de filmes e seriados similares aos que o usuário tem assistido.

A novidade da pesquisa de Túlio Loures é a construção de uma representação numérica sobre entidades com base na sequência de comentários, e não da descrição formal do objeto em foco. “Considere, por exemplo, o problema de descrever o conteúdo de um vídeo pessoal postado no Facebook ou de um evento associado a uma hashtag do Twitter”, observa Vaz de Melo. Segundo ele, com base na representação vetorial de cada conversa, é possível estabelecer conexões nos inúmeros ambientes da internet e sugerir aos usuários acesso a outros que contemplem temas de interesse.

Bolsa de pesquisa
O trabalho de Túlio Loures é um dos cinco projetos da UFMG selecionados pelo Programa de Bolsas de Pesquisa Google para a América Latina, cujo resultado foi anunciado em agosto passado. Ao todo, foram 24 projetos beneficiados na América Latina, 17 deles no Brasil. Depois da UFMG, a USP e a Unicamp aparecem com maior número de propostas premiadas (três cada).

Ao longo de 12 meses, os professores e estudantes de pós-graduação vencedores receberão bolsas de estudo mensais para conduzir pesquisas pioneiras em áreas relacionadas à Ciência da Computação.

“Ter sido selecionado já nos dá uma ideia de que nosso trabalho tem relevância”, afirma Loures, lembrando que os pesquisadores contemplados com a bolsa detêm o controle sobre os resultados. “Podemos, inclusive, tornar essa ferramenta de uso público, sem necessidade do aval da empresa”, enfatiza.

Pesquisa: Representação de entidades baseada em discussões
Autores: Pedro Vaz de Melo e Túlio Corrêa Loures

(Ana Rita Araújo)

05/set, 13h24 - Coral da OAP se apresenta no Conservatório, nesta quarta

05/set, 13h12 - Grupo de 'drag queens' evoca universo LGBT em show amanhã, na Praça de Serviços

05/set, 12h48 - 'Domingo no campus': décima edição em galeria de fotos

05/set, 9h24 - Faculdade de Medicina promove semana de prevenção ao suicídio

05/set, 9h18 - Pesquisador francês fará conferência sobre processos criativos na próxima semana

05/set, 9h01 - Encontro reunirá pesquisadores da memória e da história da UFMG

05/set, 8h17 - Sessões do CineCentro em setembro têm musical, comédia e ficção científica

05/set, 8h10 - Concerto 'Jovens e apaixonados' reúne obras de Mozart nesta noite, no Conservatório

04/set, 11h40 - Adriana Bogliolo toma posse como vice-diretora da Ciência da Informação

04/set, 8h45 - Nova edição do Boletim é dedicada aos 90 anos da UFMG

04/set, 8h34 - Pesquisador francês aborda diagnóstico de pressão intracraniana por meio de teste audiológico em palestra na Medicina

04/set, 8h30 - Acesso à justiça e direito infantojuvenil reúnem especialistas na UFMG neste mês

04/set, 7h18 - No mês de seu aniversário, Rádio UFMG Educativa tem programação especial

04/set, 7h11 - UFMG seleciona candidatos para cursos semipresenciais em gestão pública

04/set, 7h04 - Ensino e inclusão de pessoas com deficiência no meio educacional serão discutidos em congresso

Classificar por categorias (30 textos mais recentes de cada):
Artigos
Calouradas
Conferência das Humanidades
Destaques
Domingo no Campus
Eleições Reitoria
Encontro da AULP
Entrevistas
Eschwege 50 anos
Estudante
Eventos
Festival de Inverno
Festival de Verão
Gripe Suína
Jornada Africana
Libras
Matrícula
Mostra das Profissões
Mostra das Profissões 2009
Mostra das Profissões e UFMG Jovem
Mostra Virtual das Profissões
Notas à Comunidade
Notícias
O dia no Campus
Participa UFMG
Pesquisa
Pesquisa e Inovação
Residência Artística Internacional
Reuni
Reunião da SBPC
Semana de Saúde Mental
Semana do Conhecimento
Semana do Servidor
Seminário de Diamantina
Sisu
Sisu e Vestibular
Sisu e Vestibular 2016
UFMG 85 Anos
UFMG 90 anos
UFMG, meu lugar
Vestibular
Volta às aulas

Arquivos mensais:
outubro de 2017 (1)
setembro de 2017 (33)
agosto de 2017 (206)
julho de 2017 (127)
junho de 2017 (171)
maio de 2017 (192)
abril de 2017 (133)
março de 2017 (205)
fevereiro de 2017 (142)
janeiro de 2017 (109)
dezembro de 2016 (108)
novembro de 2016 (141)
outubro de 2016 (229)
setembro de 2016 (219)
agosto de 2016 (188)
julho de 2016 (176)
junho de 2016 (213)
maio de 2016 (208)
abril de 2016 (177)
março de 2016 (236)
fevereiro de 2016 (138)
janeiro de 2016 (131)
dezembro de 2015 (148)
novembro de 2015 (214)
outubro de 2015 (256)
setembro de 2015 (195)
agosto de 2015 (209)
julho de 2015 (184)
junho de 2015 (225)
maio de 2015 (248)
abril de 2015 (215)
março de 2015 (224)
fevereiro de 2015 (170)

Expediente