Plataforma T: base sólida e flexível para análise do Twitter

Para realizar análises robustas de forma flexível e personalizável, desenvolvemos nossa própria plataforma, composta de  diversos scripts criados principalmente por Rodrigo Travitzki, nas linguagens:

  • PHP (internet dinâmica);
  • MySQL (banco de dados);
  • R (análise estatística).

Os scripts funcionam como plugin de um programa com licença GNU/GPL (YourTwapperKeeper) e já foram testados em sistemas UNIX (Linux e Mac OS).

Além de coletarem dados diversificados e confiáveis, os scripts produzem uma análise exploratória básica de cada amostra (tuítes com texto em comum, em geral uma hashtag) e produzem diversos objetos - tabelas, matrizes e redes - que podem ser utilizados a posteriori com diferentes metodologias e objetivos .

Abaixo, um esquema geral da plataforma, mostrando a diversidade de APIs utilizadas e a articulação geral entre Twitter, PHP, MySQL e R.


 

Twitter API

O Twitter é dividido em três distintas APIs (Application Programming Interfaces). As mais utilizadas para análise estatística são a Search API e a Streaming API. A Search API faz um REST URL e pode ser acessada com um simples HTTP GET. Ela pode trabalhar em conjunto com a Streaming API, permitindo assim a coleta de tuítes ao vivo e também a busca no banco de dados do Twitter.

O projeto Ecologia Digital utiliza uma plataforma própria, desenvolvida para coletar dados utilizando diversos métodos nas três APIs do Twitter e integrá-los de múltiplas formas, permitindo flexibilidade na análise posterior. Os tipos de dados incluem informações básicas a respeito dos tuítes e dos usuários, assim como dados sociais relativos à topografia das redes.

Os principais desafios foram, nesta fase inicial, obter dados confiáveis e garantir um fluxo constante de grandes quantidades de bits. Para isso, conectamos nossa plataforma ao programa YourTwapperKeeper e utilizamos IPs incluídos em uma lista de exceção (whitelistened IP). Essa lista especial permite aos nossos servidores fazerem até 20 mil API requests por hora, o que é suficiente para a extração de todos os dados necessários à análise desse projeto.

Twitter API e os IDs que não são IDs

No submundo dos softwares, o ID costuma ser um número único de identificação, que serve para os computadores não confundirem registros diferentes. Como pode haver mais do que uma Maria Oliveira registrada nos cartórios do Brasil, criou-se o CPF. Para os softwares, os IDs funcionam de maneira parecida, servindo como fonte confiável de referência.

Mas como para tudo há uma excessão, o Twitter apresenta a singular característica de ter mais do que um ID para a mesma coisa. Seja por questões históricas ou falta de interesse, as diferentes APIs do Twitter podem trazer informações iguais com diferentes IDs (Twitter API Issue 214). O que pode se tornar um verdadeiro pesadelo para quem busca coletar dados confiáveis e realizar análises robustas.

Felizmente, é possível utilizar a diversidade de APIs do Twitter de forma complementar, conhecendo as limitaçoes e potencialidades de cada tipo de dado. Desenvolvemos nossa plataforma seguindo estes principios, com o objetivo de garantir a qualidade das informações coletadas e geradas.