-
Job Tracker: tarefas de Map-Reduce são submetidas ao Job Tracker. Ele precisa falar com o Namenode para conseguir os dados. O Job Tracker submete a tarefa para os nós task trackers. Esses task tracker precisam se reportar ao Job Tracker em intervalos regulares, especificando que estão “vivos” e efetuando suas tarefas. Se o task tracker não se reportar a eles, então o nó é considerado “morto” e seu trabalho é redesignado para outro task tracker. O Job tracker é novamente um ponto crucial de falha. Se o Job Tracker falhar, não poderemos rastrear as tarefas.
https://imasters.com.br/tecnologia/redes-e-servidores/melhores-de-2014-big-data-e-hadoop-o-que-e-tudo-isso/#
-
O Hadoop é uma implementação de código aberto do paradigma de programação Map-Reduce. Map-Reduce é um paradigma de programação introduzido pelo Google para processar e analisar grandes conjuntos de dados. Todos esses programas que são desenvolvidos nesse paradigma realizam o processamento paralelo de conjuntos de dados e podem, portanto, ser executados em servidores sem muito esforço. A razão para a escalabilidade desse paradigma é a natureza intrinsecamente distribuída do funcionamento da solução. Uma grande tarefa é dividida em várias tarefas pequenas que são então executadas em paralelo em máquinas diferentes e então combinadas para chegar à solução da tarefa maior que deu início a tudo. Os exemplos de uso do Hadoop são analisar padrões de usuários em sites de e-commerce e sugerir novos produtos que eles possam comprar.
A arquitetura do MapReduce é semelhante ao do HDFS, master-slave. No MapReduce os componentes são:
JobTracker: Ele recebe o job MapReduce e programa as tarefas map e reduce para execução, coordenando as atividades nos TaskTrackers;
TaskTracker: Componente responsável por executar as tarefas de map e reduce e informar o progresso das atividades.
Fonte: imasters e sensedia
-
Na verdade, o JobTracker é o nó mestre no MapReduce, sendo responsável por aceitar as submissões de tarefas globais MapReduce, realizar a função de administração do MapReduce no cluster e atribuir e gerenciar a execução de tarefas map e reduce pelos nós escravos.
-
Gabarito: Errado. A questão descreve o TaskTracker e não o JobTracker.
-
O processo JobTracker roda em nós mestres e não em nós escravos. O
processo JobTracker possui uma função de gerenciamento sobre o plano
de execução das tarefas a serem processadas pelo MapReduce. Sua
função então é designar diferentes nós para processar as tarefas de uma
aplicação e monitorá-las enquanto estiverem em execução. Um dos objetivos
do monitoramento é, em caso de falha, identificar e reiniciar uma tarefa no
mesmo nó ou, em caso de necessidade, em um nó diferente
-
Rápido resumo do Hadoop. (Quase) Tudo o que vc precisa saber sobre o Hadoop em provas.
___________
Os principais elementos (em termos de importancia em provas, sobretudo)do Hadoop sao o MapReduce e HDFS (Hadoop Distributed File System)
MapReduce realiza o processamento dos dados. É dividido em duas fases: Map e Reduce.
Map faz o mapeamento, o processamento primário dos dados de entrada (imputs). Reduce gera os resultados desse processamento, as saídas (outputs).
Componentes do MapReduce
- Jobtraker - gerenciador do processamento. Distribui, organiza as tarefas (tasks) entre as diversas máquinas. Por ex, direciona algumas para a funçao de map e outras para a de reduce. É único para cada aplicaçao (MASTER)
- Tasktraker - executa as tarefas repassadas pelo Jobtracker. Instanciado para cada máquina (SLAVE).
HDFS - Responsável pelo armazenamento de dados, tendo como princípio o acrônimo WORM (Write-once, Read Many - "escrita uma vez, múltiplas leituras" - escrita controlada, leitura livre)
Componentes HDFS
- NameNode - Gerencia o armazenamento de dados. É único para cada aplicaçao (MASTER)
- SecondaryNameNode - Auxilia o NameNode na funçao de gestor do armazenamento. Ou ainda, funciona como alternativa àquele. É único para cada aplicaçao (MASTER)
- Datanode - É quem executa efetivamente as tarefas de armazenamento. Instanciado para cada máquina (SLAVE).
Q862680 CESPE - 2018 - TCE-PB - Auditor de Contas Públicas
Em big data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída, tendo como princípio o write-many, read-once.
Fonte:
https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-data/30034
-
Hadoop:
É uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é possível criar uma estrutura para armazenamento e processamento de sistemas. Para tanto, é preciso ter:
• Escalabilidade (horizontal)
• Processamento paralelo (possibilidade de espalhar o poder de processamento)
• Confiabilidade
• Flexibilidade (um sistema flexível)
• Baixo custo (se custar uma fortuna, pode ser inviável economicamente).
Entre os módulos utilizados, destacam-se dois: HDFS (Hadoop File System) e MapReduce.
O HDFS é um sistema de armazenamento distribuído de arquivos muito grandes. Sua principal premissa é atender aos 3Vs principais do Big Data. Nele, há escalabilidade e tolerância a falhas. Além disso, segue a regra WORM (Write Once / Read Many), que dita que um dado deve ser escrito uma única vez (write once) – sem poder ser modificado – e lido várias vezes (read many).
O MapReduce, por sua vez, é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um processamento paralelo em um ambiente distribuído. Para tanto, trabalha com agrupamento por chave-valor e transformação de dados maiores em dados menores, fazendo um mapeamento das informações de forma descentralizada e espalhada.
-
P/ fixar - com o comentário do colega:
Componentes do MapReduce
- Jobtraker - É único para cada aplicaçao (MASTER) - GERENCIADOR
- Tasktraker -Instanciado para cada máquina (SLAVE) - ESCRAVO.
NÃO CONFUNDIR COM:
Componentes HDFS
- NameNode -É único para cada aplicaçao (MASTER) - GERENCIADOR
- SecondaryNameNode - É único para cada aplicaçao (MASTER) - GERENCIADOR AUXILIAR
- Datanode - Instanciado para cada máquina (SLAVE) - ESCRAVO