Questão Q1158421

Qual é a técnica que consiste em extrair dados de sites e transportá-los para um formato mais simples e maleável para que possam ser analisados e cruzados com mais facilidade, sendo cada vez mais utilizada por jornalistas?

Alternativas

Outsourcing.

Data Scraping

Downsizing.

Turnover.

Kaizen.

Comentários

Data scraping (do inglês, raspagem de dados) é uma técnica computacional na qual um programa extrai dados de saída legível somente para humanos, proveniente de um serviço ou aplicativo. Os dados extraídos geralmente são minerados e estruturados em um formato padrão como CSV, XML ou JSON.

https://pt.wikipedia.org/wiki/Raspagem_de_dados
Data scraping é uma técnica computacional na qual um programa extrai dados de saída legível somente para humanos, proveniente de um serviço ou aplicativo. Os dados extraídos geralmente são minerados e estruturados em um formato padrão como CSV, XML ou JSON.

A raspagem de dados (web scraping) é uma maneira de extrair informações apresentadas nos sites. Com estes raspadores, também chamados de “bots”, é possível coletar grandes quantidades de dados para reportagens. Por exemplo: o autor utilizou um raspador para fazer esta reportagem. Outro colega usou esta técnica para coletar de dados e .
Mas quais são as regras éticas que os repórteres devem seguir durante a raspagem na web?
Essas regras são particularmente importantes, pois, para pessoas que não são nerds, a raspagem de dados na web parece uma invasão. Infelizmente, os códigos de ética não dão uma resposta clara a esta pergunta.

Este é o primeiro consenso dos jornalistas de dados: se uma instituição publicar dados em seu site, esses dados são automaticamente públicos.
“Seja um humano que copia e cola os dados, ou um humano que cria um programa de computador para fazer isso, é o mesmo. É como contratar 1000 pessoas que trabalhariam para você. É o mesmo resultado”, afirma , que trabalha para o,
No entanto, os servidores do governo também hospedam informações pessoais sobre os cidadãos. Aqui está o limite muito importante entre raspagem na web e hackers: o respeito à lei.
Os repórteres não devem investigar dados protegidos. Se um usuário comum não puder acessá-lo, os jornalistas não devem tentar obtê-lo. , que até recentemente era repórter de dados do Montreal Gazette, acrescenta que os jornalistas devem sempre ler os termos e condições de uso do usuário para evitar problemas.
Outro detalhe importante a ser verificado: o arquivo robots.txt, que pode ser encontrado na raiz do site e que indica o que pode ser raspado ou não.

SóProvas

Continue usando...

O que está incluso