Monitorização de Propaganda e Desinformação nas Redes Sociais: Perguntas Frequentes

Este documento pretende responder de uma forma simples às perguntas mais frequentes que nos são colocadas a propósito dos estudos que o MediaLab CIES Iscte tem vindo a publicar sobre desinformação (que podem ser vistos aqui, aqui e aqui, por exemplo). A pesquisa académica sobre a desinformação nas redes sociais é complexa e exige a utilização de várias ferramentas e a definição muito precisa das metodologias usadas. Muitas vezes essas metodologias e essa ferramentas carecem de uma explicação adicional. Este documento pretende responder a essa necessidade.

Que estudos foram realizados pelo MediaLab CIES sobre desinformação?

Até ao momento foram realizados estudos de desinformação política, com foco nas eleições legislativas de Outubro de 2019 (aqui) e estudos de desinformação na área da saúde pública, relacionados com a pandemia Covid-19 (aqui e aqui).

Que ferramentas de extração de dados foram usadas nesses estudos?

Para os vários estudos que já realizámos sobre desinformação, foi utilizada uma grande diversidade de instrumentos de recolha e ferramentas: Crowdtangle, Forsight Brandwatch, IBM Watson e Barómetro de Notícias MediaLab, etc.

Como foi utilizada a plataforma Crowdtangle?

A plataforma Crowdtangle foi usada para extrair dados de páginas e grupos públicos do Facebook previamente agrupados em listas (ver critérios de seleção noutra resposta), assim como para extrair dados das páginas de Facebook dos 70 principais meios de comunicação social portugueses, segundo uma lista preparada pelo próprio Facebook. As duas primeiras dessas listas foram monitorizadas, em todo o seu conteúdo, para os estudo de desinformação. E as três listas foram monitorizadas segundo uma query, para os estudos relacionados com o Covid-19. Essa query foi a seguinte: “coronavírus, corona vírus, covid19, covid 19, covid-19, covit19, covit 19, covit-19, coronavirus, corona virus, virus da china, vírus da china”. Depois de pesquisar os dados nas páginas ou grupos públicos do Facebook usando a plataforma Crowdtangle, estes dados são exportados em formato CSV (Comma Separated Values) para serem objeto de tratamento posterior (ordenações, médias e totais).

Como foi utilizada a plataforma Forsight Brandwatch?

A plataforma Forsight Brandwatch (anteriormente Crimson Hexagon) foi usada para extrair dados do Twitter, Facebook, Reddit, YouTube, blogues e fóruns. Por congregar várias redes, esta plataforma permite obter uma grande abrangência de dados. O Forsight Brandwatch funciona por pesquisa de palavras-chave, agrupadas em queries. Uma query é um conjunto articulado de diferentes palavras incluídas na pesquisa. No caso dos estudos sobre Covid-19, a query utilizada foi a seguinte: “coronavírus OR “corona vírus” OR covid19 or “covid 19” OR “covid-19” OR covit19 OR “covit 19” OR “covit-19” OR coronavirus OR “corona virus” OR “virus da china” OR “vírus da china””. No caso do Twitter, o Forsight Brandwatch permite extrair todos os tweets, retweets e menções/respostas correspondentes a essa query, para um determinado período de tempo. No caso do Facebook, o Forsight Brandwatch permite extrair posts e comentários de uma página ou um grupo de páginas correspondentes a uma query, durante um determinado período de tempo. No caso dos estudos de desinformação que publicámos, a query acima foi aplicada sobre todo o conteúdo (post e comentários) das páginas oficiais de Facebook dos maiores meios de comunicação social generalistas em Portugal, segundo a quantidade de fãs de cada uma no início da pesquisa. No caso do YouTube, o Forsight Brandwatch aplica essa mesma query, mas sobre a descrição do vídeo e sobre os comentários ao mesmo, o que significa que capturar – e permite descarregar – todos os vídeos que tenham menção à query definida na sua descrição ou em algum dos monetários. Nos casos do Reddit, blogues e fóruns, a plataforma Forsight Brandwatch permite recolher – e descarregar – todos os posts ou comentários aos posts correspondentes à query. Quando uma query é definida e aplicada, ela corre em todas essas redes em simultâneo. Depois de extraídos todos esses dados nas plataformas pesquisadas, os mesmos são exportados via Excel para posterior tratamento (ordenação, médias e totais).

Como foram obtidos dados do WhatsApp?

Para o estudo sobre o COVID19 os dados do WhatsApp foram obtidos na sequência de uma campanha de sensibilização dinamizada pelo MediaLab nas diversas redes sociais, com início a 12 de Março de 2020. Nessa campanha, pedimos aos utilizadores que nos reencaminhassem para uma conta de WhatsApp do MediaLab conteúdo que considerassem suspeito sobre o COVID19, nomeadamente áudios. O perfil de WhatsApp do MediaLab tinha o ícone do laboratório na foto e na biografia explicava que se tratava de uma iniciativa integrada no nosso projeto de investigação sobre desinformação nas redes sociais, contendo um link para o referido projeto. Houve uma grande adesão que correspondeu a milhares de mensagens. A cada utilizador foi efetuado um agradecimento, uma explicação de que nenhuns dados pessoais seriam guardados e informando-o que caso não quisesse participar era só responder aquela mensagem e os dados partilhados seriam removidos, com nenhum caso registado até ao momento nesse sentido.

Como foram obtidos os dados do Barómetro de Notícias MediaLab CIES?

O Barómetro de Notícias é desenvolvido pelo Laboratório de Ciências de Comunicação do ISCTE-IUL como produto do Projeto Jornalismo e Sociedade e em associação com o Observatório Europeu de Jornalismo. Todas as semanas é feita uma análise de conteúdos a partir de uma amostra de aproximadamente 413 notícias destacadas diariamente em 17 órgãos de comunicação social generalistas. São analisadas as 4 notícias mais destacadas nas primeiras páginas da Imprensa (CM, PÚBLICO, JN e DN), as 3 primeiras notícias nos noticiários da TSF, RR e Antena 1 das 8 horas, as 4 primeiras notícias nos jornais das 20 horas nas estações de TV generalistas (RTP1, SIC, TVI e CMTV) e as 3 notícias mais destacadas nas páginas online de 6 órgãos de comunicação social generalistas selecionados com base nas audiências de Internet e diversidade editorial (amostra revista anualmente). Atualmente fazem parte da amostra as páginas de Internet do PÚBLICO, Expresso, Observador, TVI24, SIC Notícias e JN.

Como foram selecionados os grupos e páginas que são monitorizados?

Para a pesquisa sobre desinformação política, o objetivo era monitorizar páginas e grupos públicos de Facebook que tratassem de temas políticos e pudessem disseminar desinformação. O nosso ponto de partida foram os temas da corrupção, porque percebemos, por pesquisas anteriores e por sondagens entretanto vindas a público (nomeadamente a sondagem do ISCTE/ICS para o Expresso de Julho 2019), que identificaram a corrupção como um dos temas que mais preocupavam os portugueses antes das eleições.
Foi construído um syllabus de palavras associadas a corrupção, e os diferentes termos foram utilizados para efetuar pesquisas booleanas em diversos motores de busca para identificar grupos de Facebook públicos e páginas onde o termo surgisse. A partir dessa pesquisa foi construída uma lista de excel.
Deste conjunto inicial eliminámos meios de comunicação social e páginas oficiais de partidos políticos. O conjunto de páginas e grupos de Facebook restante (58 grupos e 63 páginas) foram ordenados segundo 3 critérios: a quantidade de fãs ou membros; o número de posts de carácter político; e a quantidade de posts publicados nos últimos 7 dias. Considerámos como tendo caráter político todos os posts diretamente sobre política ou aqueles que eram sobre tema sociais mas em que existia, na publicação ou nos comentários, manifestações evidentes de responsabilidade governamental sobre uma determinada matéria. Foram selecionadas as páginas e grupos públicos com mais fãs ou membros que respeitassem os outros dois critérios. No total, foram selecionadas 47 páginas e 38 grupos, que começaram a ser monitorizadas em 03/09/2019).

Nos estudos sobre Covid-19, foram usados os mesmos viveiros de páginas e grupos definidos acima, mas foram monitorizadas também as páginas oficiais dos meios de comunicação social portugueses. No caso do Crowdtangle foi monitorizada uma lista das páginas de Facebook dos media portugueses, construída pelo próprio Facebook, e que inclui as 70 principais páginas. Esta plataforma permite pesquisar apenas no texto dos posts (ou, nalguns casos, no texto incluído em imagens), mas não nos comentários aos posts. No caso do Forsight Brandwatch, a pesquisa é extensível a posts ou comentários, mas, no caso do nosso estudo, foi restrita às 20 páginas dos meios de comunicação social generalistas portugueses. com mais fãs.

Como surgiu a ideia de fazer uma pesquisa sobre desinformação política em Portugal?

A ideia surgiu na sequência de uma cooperação com a ONG Democracy Reporting International que manifestou interesse em compreender o peso que a desinformação teria na campanha eleitoral portuguesa. A Democracy Reporting International trabalha há já vários anos na monitorização de eleições por todo o mundo, apurando se as mesmas foram feitas com base nos critérios de justiça, transparência e cumprimentos das normas necessários. Pode consultar algum do trabalho que a Democracy International tem realizando, incluindo os nossos relatórios no seu site.

Porque é que a maioria das páginas e grupos monitorizados são de direita? Porque não incluíram páginas de esquerda?

O processo de seleção das páginas e grupos a monitorizar não teve critérios de orientação política. Seguimos critérios objetivos (ver descrição noutra pergunta) para a seleção das páginas e grupos a monitorizar e não tivemos em consideração o seu pendor político. Apenas considerámos critérios formais: ter uma razoável dimensão em termos de fãs/membros; ter predominância de conteúdo político (qualquer que ele fosse); e ter novos conteúdos frequentes. Em nenhum ponto do estudo definimos sequer o que era ser de direita ou de esquerda. Isso seria outro estudo.

Como foram extraídos os dados do Facebook?

Os dados do Facebook foram extraídos através da plataforma Crowdtangle. Esta plataforma é propriedade do Facebook e permite, entre outras coisas, agrupar páginas e grupos públicos de Facebook em listas. No nosso caso, fizemos uma lista com as 47 páginas e outra com o 38 grupos a monitorizar, a que chamámos os nossos “viveiros”. Depois, cada um desses “viveiros” pôde ser monitorizado em todo o seu conteúdo, permitindo identificar os posts que geraram mais interações (a soma de ‘likes’, comentários e partilhas) dentro da cada página ou grupo durante um determinado período de tempo. Os dados puderam então ser extraídos em formato CSV (Comma Separated Values) para posterior tratamento de dados (ordenações, médias, totais, etc). Em regra fizémos extrações de dados semanais de cada um dos viveiros, assim como extrações mensais, durante os 4 meses que durou esta investigação.

Foram monitorizadas outras redes para além do Facebook?

Sim. No estudo sobre o COVID-19 concentramos nos no WhatsApp e no estudo das eleições também extraímos conteúdo do Twitter para análise do estudo de caso da narrativa desinformativa sobre as férias do Primeiro Ministro durante os incêndios de Pedrogão. Para o estudo das eleições também chegou a ser considerado o WhatsApp, tendo sido feita adesão a grupos com link público partilhado nas redes sociais para adesão livre, com identificação do perfil do MediaLab, mas não tendo identificado conteúdo político, optou-se por não avançar com esta linha de pesquisa, não tendo sido extraídos nenhuns dados.

Como são extraídos os dados das outras redes (Twitter, YouTube, WhatsApp)?

Para o estudo sobre COVID-19, os dados do WhatsApp foram extraídos manualmente, os nomes dos ficheiros partilhados alterados e os meta-dados apagados.

No vosso estudo, quando é que uma notícia é considerada desinformação?

O nosso processo de verificação segue o código de princípios da International Fact Checking Network e utiliza como ferramentas e metodologias as propostas por Craig Silverman no Verification Handbook. Normalmente procuramos primeiro para ver se as alegações em causa já foram validadas por alguma organização de fact-checking certificada, que em Portugal são o Polígrafo e o Observador. Caso não tenha sido ainda efetuado esse rastreio, ele é feito manualmente pelos nossos investigadores seguindo as linhas indicadas e o processo de codificação é revisto em conjunto. Para dar ainda mais transparência ao processo, publicamos o processo de verificação que nos levou a rotular algo como desinformativo no nosso site, com os respetivos passos e links para o conteúdo que nos levou a tomar essa decisão. Essa abertura será prática de todos os trabalhos efetuados pelo MediaLab e encontra-se disponível para o estudo das eleições e do COVID-19.

Como é feita a seleção dos conteúdos que vocês investigam para determinar se são desinformação ou não?

No estudo da desinformação para as eleições, foi feita uma avaliação, um a um, dos 20 posts mais virais que tivessem conteúdo político para cada uma das 4 semanas antes das eleições, quer para o conjunto dos grupos, quer para o conjunto das páginas. Não foi feita uma análise às páginas ou aos grupos mas sim às publicações. No caso do COVID-19, essa avaliação foi feita para o período entre 12 e 15 de Março para os 10 conteúdos que nos tivessem chegado mais vezes, mais uma vez usando um possível proxy para a viralidade como critério.

Conseguem identificar quais são as páginas ou grupos de desinformação em Portugal?

Não. Este estudo não permite dizer que determinado grupo ou página é um grupo ou página “de desinformação”. Não existe nenhuma página ou grupo de Facebook, daquelas e daqueles que monitorizamos, que só transmita desinformação. O que existem são conteúdos que, em maior ou menor grau, podem ter um teor desinformativo (ver critérios de desinformação noutra resposta). Por isso, não podemos dizer que determinadas páginas ou grupos são desinformativos mas apenas que determinados conteúdos específicos são desinformativos.

Porque é que as notícias dos meios de comunicação social tradicionais nunca são consideradas desinformação?

Os meios de comunicação social tradicionais não são objeto de estudo nesta investigação. Ela apenas se foca em páginas e grupos públicos que veiculam frequente conteúdo político, mas não são de meios de comunicação social nem de partidos políticos.

O ISCTE ou o MediaLab CIES estão ligados institucionalmente a algum partido político? Algum dos investigadores deste projeto está ligado a algum partido político?

Não. Nem o ISCTE nem o MediaLab CIES têm qualquer ligação institucional com qualquer partido ou movimento político. Nenhum dos investigadores que participaram neste projeto de investigação é filiado em qualquer partido político.

Vão fazer mais pesquisas sobre desinformação no futuro?

Sim. A lista de páginas e grupos irá sendo atualizada, segundo os mesmo critérios, para permitir continuar a monitorizar os conteúdos políticos partilhados no Facebook no futuro, nomeadamente no contexto dos ciclos eleitorais.