Barómetro do sentimento político nas redes sociais: Metodologia

O barómetro de sentimento político nas redes sociais é um barómetro semanal que recolhe e analisa as opiniões expressas pelos portugueses nas redes sociais a propósito das três principais figuras da política portuguesa: Presidente da República, Primeiro-Ministro e líder da oposição.

Presentemente a recolha incide sobre publicações nas redes sociais a propósito de Marcelo Rebelo de Sousa, António Costa e Rui Rio.

O Barómetro é construído usando uma ferramenta de recolha e tratamento de dados chamada Forsight Brandwatch, uma evolução do software Crimson Hexagon, a cujo desenvolvimento esteve ligado o investigador Gary King.

O princípio de funcionamento da análise de sentimento é explicado num artigo intitulado “A Method of Automated Nonparametric Content Analysis for Social Science”, assinado por Gary King e Daniel J. Hopkins.

Se pretende uma versão sintetizada desta metodologia, visite a nossa página de perguntas frequentes (FAQ).

Redes monitorizadas

Para este barómetro o software Forsight Brandwatch monitoriza as seguintes redes:

Twitter: todos os tweets, retweets e respostas/menções públicos com referência a um dos políticos monitorizados;
Facebook: Todos os posts e comentários referentes aos políticos monitorizados nas páginas públicas dos 20 principais meios de comunicação generalistas portugueses. Essa lista inclui atualmente as páginas de Facebook oficiais dos seguintes meios: CM TV; Correio da Manhã; Dinheiro Vivo; Diário de Notícias; Diário de Notícias da Madeira; Expresso; Jornal de Notícias; Jornal Económico; MSN Portugal; Observador; Público; Renascença; Revista Visão; RTP; Sapo; SIC Notícias; Sábado; TSF – Rádio Notícias; TVI24;
Reddit: todas as publicações ou comentários a posts que contêm referência a um dos políticos monitorizados;
Fóruns: Todas as publicações ou comentários que contêm referência a um dos políticos monitorizados;
Blogues: Todas as publicações ou comentários que contêm referencia a um dos políticos monitorizados.

Presentemente, a nossa monitorização não inclui dados do YouTube, Instagram, Tumblr ou de quaisquer outras plataformas não referidas acima.

Recolha de dados

Os dados para este barómetro são recolhidos automaticamente pela plataforma Forsight Brandwatch a partir de uma query de pesquisa diferente para cada um dos políticos monitorizados. Para cada um deles foi testada e desenhada uma query que capture o máximo de posts, tweets ou comentários correspondentes à figura política em causa, sem recolher outros que não lhe sejam referentes. Assim, as três queries de base que estão a ser usadas são as seguintes:

Marcelo Rebelo de Sousa: “Marcelo Rebelo de Sousa” OR RebeloDeSousa
António Costa: antoniocostapm OR “António Costa”
Rui Rio: RuiRioPSD OR “rui rio” OR #ruirio

Não foram incluídos nestas queries os termos “Marcelo”, “Costa” e “Rio” devido ao facto de gerarem um grande número de falsos positivos.

Todas as semanas, cada uma destas queries é corrida em todas as redes, de forma a recolher todos os objetos de media (posts, tweets, retweets, respostas, comentários, etc.) referentes a cada um dos políticos, publicados dentro do período de tempo considerado (uma semana). Todos esses dados são reunidos em três monitores, um para cada uma das figuras políticas. Cada monitor congrega os dados de todas as redes sociais analisadas.

Não existe limitação geográfica à recolha de dados, mas são apenas recolhidos posts, tweets ou comentários em português, espanhol, inglês e francês.

Tratamento dos dados

Depois de recolhidos, os dados são sujeitos a um tratamento semi-automático para determinar o sentimento dominante. Esse tratamento é semi-automático porque parte de uma grande quantidade de dados recolhidos, permite ao investigador atribuir uma conotação positiva a uma amostra de dados e depois aplica essa conotação treinada ao universo dos dados recolhidos. Este processo desenrola-se em três fases:

1ª fase: O software Forsight Brandwatch seleciona aleatoriamente uma amostra de cerca de 10 por cento de todos os posts, tweets ou comentários publicados, no período considerado (uma semana) correspondente à query definida e apresenta-os ao codificador uma lista não ordenada. Nesta lista podem aparecer posts, tweets ou comentários de qualquer das redes analisadas;
2ª fase: Um investigador codifica todos os posts, tweets ou comentários que lhe são aleatoriamente sugeridos em quatro grupos diferentes: Favorável, Neutro, Desfavorável ou Off-Topic.
- São considerados favoráveis ou desfavoráveis todos os posts, tweets ou comentários que incluam, explícita ou implicitamente, um elogio ou uma crítica à atuação, personalidade, política ou liderança do político em causa. São considerados neutros todos os posts que sejam meramente informativos e não contenham nenhum juízo de valor sobre os atores políticos ou a sua ação. Por fim, são considerados Off-Topic todos os posts, tweets ou comentários que não têm a ver diretamente com o político em causa.
- Esta codificação é exaustiva, ou seja, são codificados todos os posts, tweets ou comentários que forem sugeridos ao codificador até que seja atingido um número razoável de elementos treinados. Para determinação desse número razoável seguimos as indicações do fabricante do software, assim como as ‘best practices’ do Pew Research Center. O software apenas permite avançar no processo de tratamento de dados depois de serem treinados pelo menos 10 tweets, posts ou comentários em cada categoria. No nosso treino, o tratamento de dados não avança para a fase seguinte sem que cada categoria tenha pelo menos 20 elementos treinados, sem limite superior.
3ª fase: Depois de completado o treino dos monitores, o software Forsight Brandwatch aplica os resultados da amostra ao universo de posts, tweets e comentários recolhidos, identificando automaticamente como Favoráveis, Neutros ou Desfavoráveis, todos os posts, tweets ou comentários de teor semelhante ou relacionados entre si (por exemplo, retweets). Os posts Off-Topic são descartados. No final, o software contabiliza as percentagens de posts Favoráveis, Neutros e Desfavoráveis no total do universo de posts e permite analisar cada uma das categorias até ao detalhe de cada post.

Exemplos de sentimentos favoráveis, desfavoráveis e neutros

Os codificadores que fazem o treino dos monitores dispõem de um livro de códigos com indicação de quais os tipos de posts, tweets ou comentários que devem ser considerados Favoráveis, Neutros, Deafavoráveis ou Off-Topic. No entanto, em face a grande volatilidade de conteúdos que é possível encontrar nas redes sociais, este é um documento de trabalho que está em permanente atualização e renovação.

Eis alguns exemplos de posts, tweets ou comentários categorizados como Favoráveis, Desfavoráveis ou Neutros:

Posts categorizados como Favoráveis:

Posts categorizados como Neutros:

Posts categorizados como Desfavoráveis:

Publicação dos resultados

Os resultados do Barómetro de Sentimento Político são publicados todas as semanas no site do MediaLab. Nessa publicação são identificadas:

As percentagens de sentimentos favoráveis, neutros e desfavoráveis relativas a cada um dos políticos;
A evolução dos sentimentos favoráveis nas últimas três semanas;
E os dois tweets mais retweetados e representativos para cada um dos políticos.

O Barómetro de Sentimento Político é desenvolvido no MediaLab Cies_Iscte. É coordenado por Gustavo Cardoso e a codificação é realizada por José Moreno e Ângela Rijo.