Agenda de defesas Agenda de defesas

Voltar

Ciência da Computação tem defesa de dissertação nesta quinta-feira (29)

Defesa será no auditório do CIn às 14h

Nesta quinta-feira (29), o Programa de Pós-Graduação em Ciência da Computação terá a defesa da dissertação “Aplicando Ensemble para Classificação de Textos Curtos em Português do Brasil”. A dissertação, desenvolvida por Paulo de Assis Nascimento e orientada pelo professor Leandro Maciel Almeida, será defendida a partir das 14h no auditório do Centro de Informática. A banca examinadora será formada pelo professor orientador e pelos professores Paulo Salgado Gomes de Mattos Neto (CIn/UFPE) e João Fausto Lorenzato de Oliveira (Escola Politécnica de PE/UPE).

Resumo

A popularização da internet no Brasil e o vasto uso das redes sociais permitem às pessoas a ter voz ativa onde suas opiniões não estão mais restritas a ambientes familiares. O constante uso da internet desencadeia a criação de conteúdos diversos e muito valiosos para negócios e tomadas de decisão. Estima-se que no Brasil haverá 99,4 milhões de usuários acessando a internet até o final do ano 2019. O conteúdo lançado na web, chamado de Conteúdo Gerado pelo Usuário (CGU), desperta o interesse das empresas que desejam melhorar seus produtos e serviços. Nas redes sociais, os CGUs passam a ter um papel fundamental, devido ao seu conteúdo carregado de opinião. Reunir esses dados, processá-los e transformá-los em informação útil, é essencial para mapear os perfis de consumo dos usuários na web. Para isso, é necessário lançar mão de recursos automáticos de processamento de textos. O processamento automático desse tipo de informação está ligado à atividade de Análise de Sentimentos, que trata do processamento automático de textos opinativos na web classificando-os em diversas polaridades ou entimentos. Infelizmente, a aplicação dessa técnica em português do Brasil ainda é bastante modesta. Neste sentido, este trabalho explora a aplicação da técnica de ensemble para classificar de textos curtos em português do Brasil, sobre o problema de múltiplas classes, utilizando a abordagem de Aprendizagem de Máquina. Para tal, sete classificadores clássicos de Aprendizagem de Máquina foram selecionados. Para os experimentos, os corpora 2000-tweets-BR (2000 tweets) e o TweetSentBR (15.000 tweets) disponíveis na literatura recente foram utilizados, ambos contém três classes (positivo, negativo e neutro). Nos experimentos, todos os classificadores foram treinados e testados de forma isolada a fim de obter seus resultados médios em acurácia, F-Measure, Brier Score e tempo de execução por meio da técnica de validação cruzada. O teste de Shapiro-Wilk foi utilizado sobre os dados a fim de verificar a normalidade, e assim decidir o tipo de teste de hipótese a ser aplicado. Todos os classificadores isolados foram combinados entre si formando oito ensembles dos quais uma combinação foi baseada na métrica Brier Score. Os testes com algoritmos clássicos obtiveram os resultados médios de 71% de acurácia, 46% F-Measure, e 93 segundos de tempo de execução sobre o corpus TweetSentBR. E sobre o corpus 2000-tweets-BR foram obtidos 68% de acurácia, 57% de F-Measure e 0,430 segundos de tempo de execução. Os resultados obtidos em valores médios nos testes combinando classificadores em ensemble juntamente com o voto majoritário foram de 71% de acurácia, 50% de F-Measure, e 189 segundos em tempo de execução sobre o corpus TweetSentBR. Sobre o córpus 2000-tweets-BR, os resultados médios obtidos foram de 69% de acurácia, 52% F-Measure e 163 segundos de tempo de execução.

Data da última modificação: 27/08/2019, 13:39