-
Hadoop é uma estrutura de software open-source para armazenar dados e executar aplicações em clusters de hardwares comuns. Ele fornece armazenamento massivo para qualquer tipo de dado,
Uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS (GFS). Trata-se de um projeto da Apache de alto nível, construído por uma comunidade de contribuidores e utilizando a linguagem de programação Java
-
GABARITO: ERRADO
Hadoop não é um produto único como afirma a questão, e sim uma plataforma composta por vários módulos:
*Hadoop Common - Contém as bibliotecas e arquivos comuns e necessários para todos os módulos Hadoop.
*Hadoop Distributed File System (HDFS) - Sistema de arquivos distribuído que armazena dados em máquinas dentro do cluster, sob demanda, permitindo uma largura de banda muito grande em todo o cluster.
*Hadoop Yarn - Trata-se de uma plataforma de gerenciamento de recursos responsável pelo gerenciamento dos recursos computacionais em cluster, assim como pelo agendamento dos recursos.
*Hadoop MapReduce - Modelo de programação para processamento em larga escala.
*******************************************************
RESUMO DE HADOOP :
-Código aberto
-Economia
-Robustez
-Escalabilidade
-Simplicidade
-Utiliza máquinas comuns
-
HADOOP (conjunto de programas)
- Um projeto desenvolvido e mantido pela apache Software Foundation. (software livre)
- Um framework de código aberto para processamento de software em larga escala
- Garante alto desempenho utilizando arquitetura em cluster.
Ecossistema Hadoop "FAMILIA"
- HDFS (worm) - principio de armazenamento. Sistemas de recursos
- MapReduce - processamento paralelo (chaves e valores) - Mapeados 1º fase ; Reduzidos 2º fase
NODES (node slave "armazenamento" ; node master "gerenciamento" ; HDFS
- Ferramentas complementares
Fonte: Curso Leo matos
-
https://www.youtube.com/watch?v=SwvxptivrL0
-
Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas