-
Spark: estrutura de computação open-source em cluster com inteligência analítica in-memory. Componente de software que pode ser executado sobre ou junto com o Hadoop e atingiu status de nível máximo no projeto da Apache.
-
Trazendo um estudo sobre Big data:
BIG DATA
☑ Grande banco de dados.
☑ Engloba todos os tipos de dados.
☑ Dados estruturados ou não estruturados.
☑ Para melhor proveito, usa-se Data Mining e Data Warehouse.
☑ Os dados possuem "5V's":
Volume -> Grande quantidade.
Variedade -> São variados.
Velocidade -> São criados de uma forma extremamente rápida.
Valor -> Devem possuir valor, ou seja, deve agregar conhecimento.
Veracidade -> Devem ser verídicos, verdadeiros.
_________
Bons Estudos!
-
Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS.
Fonte: Wikipédia
-
O Victor Dinís desde o ano passado já sabia que Big Data entraria no edital da PRF. Monstro!!
-
Agora são 7 Vs.... é pra cabar com o pequi do Goiás.
Volume: Está relacionado com a quantidade de espaço
Velocidade: Está relacionado ao fluxo contínuo.
Variedade: Está ligada ao fato dos dados possuírem diferentes naturezas
Variabilidade: É a oscilação.
Viscosidade: Relação com a dificuldade de navegar entre os dados.
Volatilidade: São inconsistências nos dados.
Veracidade: São dados verídicos
Valor: São dados valorados
-
Gabarito: D
Complementando :
O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído (em clusters). A etapa de mapeamento se baseia em uma combinação de chave-valor.
Apache Hadoop é apenas uma das implementações da técnica de MapReduce – existem outras implementações, mas essa é a mais famosa! Em outras palavras, ele é um software de código aberto, implementado na linguagem de programação Java, para implementar o algoritmo de MapReduce em máquinas comuns.
-
O Spark é executado em Hadoop, Apache Mesos, Kubernetes, autônomo ou na nuvem. Ele pode acessar diversas fontes de dados.
-
Hadoop é um banco de dados, o Spark é uma ferramenta de Big Data (Ambos são estruturas de Big Data).
Hadoop é um software de código aberto que lhe permitirá armazenar dados de forma confiável e segura.
Spark é uma ferramenta para a compreensão dos dados.
Se Hadoop é a Bíblia escrita em russo, Spark é um dicionário de russo.
GABARITO: LETRA ''D''
-
Única Spark que conheço é a teaser...
-
A) Hadoop RTime. Invenção da banca
B Kubernetes. Kubernetes é um sistema de orquestração de contêineres open-source que automatiza a implantação, o dimensionamento e a gestão de aplicações em contêineres
C Elasticsearch. Elasticsearch é um mecanismo de busca baseado na biblioteca Lucene.
D Spark. é um sistema de processamento de código aberto distribuído usado comumente para cargas de trabalho de big data.
E RealStorm. Invenção da banca
-
d-
Spark Streaming supports the processing of real-time data from various input sources and storing the processed data to various output sinks.
https://www.analyticsvidhya.com/blog/2021/06/real-time-data-streaming-using-apache-spark/
-
GABA d)
Spark ➜ é um poderoso mecanismo de processamento de código aberto construído em torno de velocidade, facilidade de utilização, e análises sofisticadas.
a) de armadilha. rsrsrs