Data scraping é uma técnica computacional na qual um programa extrai dados de saída legível somente para humanos, proveniente de um serviço ou aplicativo. Os dados extraídos geralmente são minerados e estruturados em um formato padrão como CSV, XML ou JSON.
A raspagem de dados (web scraping) é uma maneira de extrair informações apresentadas nos sites. Com estes raspadores, também chamados de “bots”, é possível coletar grandes quantidades de dados para reportagens. Por exemplo: o autor utilizou um raspador para fazer esta reportagem. Outro colega usou esta técnica para coletar de dados e .
Mas quais são as regras éticas que os repórteres devem seguir durante a raspagem na web?
Essas regras são particularmente importantes, pois, para pessoas que não são nerds, a raspagem de dados na web parece uma invasão. Infelizmente, os códigos de ética não dão uma resposta clara a esta pergunta.
Este é o primeiro consenso dos jornalistas de dados: se uma instituição publicar dados em seu site, esses dados são automaticamente públicos.
“Seja um humano que copia e cola os dados, ou um humano que cria um programa de computador para fazer isso, é o mesmo. É como contratar 1000 pessoas que trabalhariam para você. É o mesmo resultado”, afirma , que trabalha para o,
No entanto, os servidores do governo também hospedam informações pessoais sobre os cidadãos. Aqui está o limite muito importante entre raspagem na web e hackers: o respeito à lei.
Os repórteres não devem investigar dados protegidos. Se um usuário comum não puder acessá-lo, os jornalistas não devem tentar obtê-lo. , que até recentemente era repórter de dados do Montreal Gazette, acrescenta que os jornalistas devem sempre ler os termos e condições de uso do usuário para evitar problemas.
Outro detalhe importante a ser verificado: o arquivo robots.txt, que pode ser encontrado na raiz do site e que indica o que pode ser raspado ou não.