Recolha e análise de dados no Twitter
Com que antecedência devemos pedir dados do twitter?
O contacto com o MediaLab, para avaliar disponibilidade e capacidade de resposta, deve ser feito com a máxima antecedência possível. Se o estudo estiver relacionado com uma pesquisa por palavras-chave (query), deve ter-se em conta o limite de dois anos de pesquisa (retroativa) permitida pela plataforma Brandwatch Consumer Research (BCR). Existem formas de contornar estas limitações mas pode implicar demora na obtenção dos dados.
Se o que pretende são os dados totais de uma conta, ou seja, métricas de desempenho de uma determinada conta (gostos, retweets, etc.), então esses dados só podem ser recolhidos a partir da data em que essa conta é registada pelo utilizador, ou seja, os dados começam a ficar registados desse dia em diante. Na conta de utilizador do MediaLab, na plataforma BCR, já são monitorizadas contas dos principais meios de comunicação social, alguns políticos e clubes de futebol, única forma de poder aceder a métricas de desempenho de contas com retroatividade.
Até quando é que os dados de Twitter estão disponíveis após a sua publicação?
Depende do tipo de pesquisa. O conteúdo dos tweets fica guardado em arquivo, quando se trata de uma pesquisa por termos ou palavras-chave (query) e é possível aceder, retroativamente, até dois anos de arquivo. O mesmo não acontece quando se pretende monitorizar o desempenho de uma determinada conta (recolha de métricas de engajamento). Neste caso, os dados só são recolhidos pela plataforma a partir do momento em que a pesquisa é montada e deixam de estar disponíveis quando termina e a respetiva query é ‘libertada’ do sistema. O número de pesquisas que se podem manter abertas, em simultâneo, é muito limitado.
Pelo que sei, é possível recolher informação sobre quantos comentários, likes e retweets há numa publicação. Mas é possível recolher uma lista dos utilizadores que fizeram esses comentários, likes e Retweets ou apenas quantificá-los?
Na plataforma BCR é possível extrair comentário e retweet, mas não likes ou outras métricas de desempenho. É possível que outras ferramentas o consigam fazer, dada a evolução constante de ferramentas e processos de data mining. Nas análises orientadas para o desempenho de contas (para monitorizações não retroativas) é possível filtrar e exportar, em formato CSV, a lista dos utilizadores que fizeram retweet, juntamente com as respetivas métricas.
É possível distinguir retweets e quote tweets?
Não. Os retweets e os quote-tweets são tratados da mesma forma pela API.
Pelo que sei, é possível saber o número de reach (a quantas pessoas chegou a publicação). É possível saber também que contas são?
O indicador de Reach apenas permite obter o número, não é possível identificar as contas.
O Brandwatch tem capacidade de Machine Learning? Ou seja, se eu recolher milhares de publicações, é possível categorizar algumas centenas e depois as restantes serem categorizadas de forma automática (por exemplo, categorizando se o teor da publicação é político ou pessoal)?
Sim, a plataforma Brandwatch Consumer Research tem um sistema de ‘treino’ que permite categorizar um determinado número de posts/tweets e depois aplicar essa categorização ao total de documentos, através do algoritmo.
Em relação à partilha de hiperligações (links), é possível analisar de forma automática quais são os websites mais usados como fonte da informação partilhada (e.g., para demonstrar que uma conta partilha muitos links relativos a jornais online)?
Não. A plataforma apenas permite retirar os 30 endereços (URL) mais influentes (que receberam mais links) num determinado período de tempo. Na análise de desempenho de conta (ou conjunto de contas), é possível visualizar os sites mais referidos, mas não com opção de download das métricas.
Recolha e análise de dados de ‘jornais’
Com que antecedência devemos pedir dados relativos à análise de jornais – online e em papel?
O contacto com o MediaLab deve ser feito com a maior antecedência possível, face à data em que pretende obter os dados. A capacidade de resposta é muito limitada e a antecedência necessária depende da complexidade inerente à pesquisa e da possibilidade de realizar a recolha de forma autónoma ou com ajuda de investigadores que colaboram no MediaLab.
Como é que tenho acesso às edições dos jornais em papel?
A consulta de artigos e pesquisa terá que ser feita nas instalações do MediaLab. Em contexto pandémico, aplicam-se restrições e alterações à forma de acesso. A pesquisa de artigos nas versões ‘em papel’ (formato PDF ou epaper) não permite a exportação de artigos selecionados. A consulta é feita online.
Até quando é que os dados de jornais estão disponíveis após a sua publicação – online e em papel?
A disponibilidade dos artigos de imprensa é muito diferente, consoante se trata de edição online ou na sua versão papel (disponibilizada em formato PDF ou e-paper). Algumas indicações relativamente às edições disponíveis no MediaLab:
- Jornal Público (PDF e versão e-paper): Todo o arquivo digital, desde fevereiro de 2001, sem limitações.
- Jornal Expresso, edição diária e semanal (apenas epaper): Todo o arquivo digital desde meados de 2014, sem limitações.
- Pesquisa geral de artigos online através da plataforma Brandwatch Consumer Research: Arquivo de múltiplas fontes dos últimos dois anos.
Há alguma pré-categorização que seja feita dos jornais de forma habitual, por exemplo sinalizando os artigos relativos a política? Caso não seja feita, é algo que é possível pedir?
Não é possível segmentar as pesquisas por editorias.
Relativamente aos artigos online, é possível fazer uma pré-seleção temática (por exemplo, só artigos relativos ao Orçamento do Estado)?
As pesquisas por artigos online na plataforma Brandwatch Consumer Research apenas permite a delimitação temática com recurso a pesquisa booleana. No caso das pesquisas nas edições digitais dos jornais Público e Expresso, é possível encontrar cadernos temáticos organizados pelas respetivas redações.
É possível fazer uma pré-selecção por palavra-chave, por exemplo “Twitter”, de forma a identificar todos os artigos que referem essa palavra num período de tempo?
Sim, é possível. Uma vez mais, a forma de pesquisa é sensível ao tipo de conteúdo que se pretende: versões digitais das edições em papel ou pesquisa de artigos publicados em websites de notícias.
Relativamente aos artigos de jornais em papel, qual o formato em que são disponibilizados?
Atualmente, o MediaLab tem acesso às edições ‘em papel’, em formato digital, dos jornais Público e Expresso. O jornal Expresso só permite acesso a versões epaper (navegação dinâmica). O jornal Público permite acesso a versões PDF (estático, idêntico à versão papel) e epaper (acesso dinâmico aos artigos, paginação diferente da versão papel).
Os jornais em papel são disponibilizados na integra ou artigo a artigo?
As versões em PDF e leitor ‘epaper’ são acedidas na íntegra (jornal completo). Nas versões ‘epaper’, os artigos são acedidos através de hiperlinks mas não é possível fazer download de artigos.