Questão Q933196

Julgue o item seguinte, a respeito de big data e tecnologias relacionadas a esse conceito.

MapReduce permite o processamento de dados massivos usando um algoritmo paralelo mas não distribuído.

Alternativas

Certo

Errado

Comentários

MapReduce permite o processamento de dados massivos usando um algoritmo paralelo mas não distribuído.

" O MapReduce e um modelo de programação que permite o processamento de dados massivos em um algoritmo escalavel, paralelo e distribuído, geralmente utilizando um cluster de computadores"

Fonte: MapReduce: Simplified Data Processing on Large Clusters - Dean, Ghemawat (2008)
O MapReduce é uma estrutura de software que permite que desenvolvedores escrevam programas que possam processar quantidades massivas de dados desestruturados em paralelo, através de um grupo distribuído de processadores.

#CursoAdonai
O MapReduce é um modelo de programação para processar grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster (fonte: Wikipedia).
Justamente o fato de ser distribuído é o que faz aumentar o pode de processamento computacional, é como utilizar o algoritmo "Dividir para conquistar".
O MapReduce foi realmente feito para processar conjuntos massivos de dados com a utilização de paralelismo. No entanto, um dos pontos centrais da tecnologia é precisamente fazer uso dos potenciais dos sistemas distribuídos, permitindo fazer uma divisão adequada da tarefa entre os vários nós do cluster. É dividir para conquistar!
MapReduce é um modelo de programação que permite o processamento de dados massivos em um algoritmo escalável, paralelo e distribuído, geralmente utilizando um cluster de computadores
Gabarito:Errado
Item incorreto.
MapReduce é um método de programação para a execução de processamento paralelo em grandes quantidades de dados, cuja base é relativamente simples, apesar de constituir um recurso poderoso. Com um conjunto de itens a processar, o algoritmo MapReduce corresponde às seguintes etapas:
a)       utilizar uma função map para transformar cada item em zero ou mais pares chave-valor;
b)       juntar todos os pares com chaves idênticas;
c)       usar uma função reduce em cada conjunto de valores agrupados para produzir valores de saída para a chave correspondente.

A função map mencionada acima recebe um par composto de chave e valor e retorna uma lista de pares ordenados. A operação reduce, também mencionada acima, recebe um par composto por chave e lista de valores e retorna um terceiro valor, já que os valores retornados por map que tinham a mesma chave foram agrupados em uma lista.
Intuitivamente, percebe-se que o estágio de map pode ser facilmente executado em paralelo. Além disto, MapReduce pode executar seus procedimentos em máquinas diferentes em uma rede e conseguir os mesmos resultados, como se todo o trabalho fosse executado em uma única máquina. Também pode extrair a partir de múltiplas fontes de dados, internas ou externas. Este recurso controla o trabalho criando uma única chave e assegurando que todo o processamento seja relacionado para resolver o mesmo problema. Essa chave também é usada para juntar todos os resultados no fim de todas as tarefas distribuídas.
MapReduce é um algorítimo paralelo e distribuído para processamento de grande volume de dados, de modo a agilizar pela busca de resultados
ele é um modelo de programação que permite o processamento de dados massivos em um algoritmo escalável, paralelo e distribuído, geralmente utilizando um cluster de computadores (Errado).

Estratégia Concursos

#PCDF
Mapduce:
Dados Massivos
Algoritmo escalável, distribuído e paralelo
Tudo no Big Data é paralelo e distribuído!
Errado

O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído.
GABARITO ERRADO!

MapReduce pode ser definido como um paradigma de programação voltado para processamento em lotes (batch) de grande volume de dados ao longo de várias máquinas, obtendo resultados em tempo razoável. Utiliza-se o conceito de programação distribuída para resolver problemas, adotando a estratégia de dividi-los em problemas menores e independentes. (WHITE, 2012)

O MapReduce é um modelo de programação paralela para grandes volumes de dados. Ele é inspirado na estratégia dividir e conquistar, mas abstrai do programador a complexidade dos problemas típicos do gerenciamento de aplicações distribuídas, permitindo que o desenvolvedor possa se dedicar apenas à solução do problema a ser tratado, deixando que a aplicação execute a distribuição e o paralelismo. (PAIVA, REVOREDO, 2016)
Hadoop MapReduce é um modelo de programação e um arcabouço especializado no processamento de conjuntos massivos de dados distribuídos em um aglomerado computacional (cluster), é uma excelente solução para o processamento paralelo de dados devido ao fato de serem inerentemente paralelos.
Map: fase de mapeamento, processamento primário dos dados
Reduce: geração do resultado final
A leitura é realizada de arquivos com pares chave/valor (geralmente .csv)
Só queria avisar o CESPE que está faltando uma vírgula antes do MAS.
ERRADO

RESPOSTA DE UMA QUESTÃO.

Q862680
O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído.
→ MapReduce permite o processamento de dados massivos usando um algoritmo paralelo mas distribuído.

exemplo da lista com 100 milhões de nomes dividido para 100 computadores, é muito mais produtivo DISTRIBUIR ESSA TAREFA (procurar 100 milhões de nomes) em 100 computadores do que em 1 único só.

pra facilitar o entendimento: imagina que um computador para procurar todos esses nomes use 18 horas, em um sistema distribuído, utilizariam-se 1 hora.

Map: processo de decomposição dos dados
→ a etapa de mapeamento se baseia em uma combinação chave-valor. (DECORE ISSO)
exemplo- procurar questões aqui no QC
mapeamento (chave, valor) mapeamento (banca, Cespe)

etapa de Reduce: consolidação do resultado do mapeamento
→ responsável por consolidar os resultados, gerando um agregado.

exemplo de programa de baseado MapReduce : HADOOP.
Pra facilitar ainda mais o entendimento segue o exemplo do sanduíche pra você lembrar na prova: imagina uma empresa de fast-food que atende centenas de pessoas todas as horas, é muito mais eficaz que cada funcionária seja encarregado de colocar um ingrediente do que um funcionário só montar o sanduíche inteiro (DISTRUIBUIÇÃO DE TAREFAS)
O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído.
Prezados,

MapReduce é uma estrutura que permite escrever facilmente aplicativos que processam grandes quantidades de dados (conjuntos de dados de vários terabytes) em paralelo em grandes clusters (milhares de nós) de hardware comum de maneira confiável e tolerante a falhas.

Portanto a questão está errada.

Fonte:
Disponível no site do Hadoop.apache.

Gabarito do Professor: ERRADO.
Imagine que uma celebridade, com milhões de seguidores no Instagram, vai subir uma foto para o site. Imagine agora se, em todo o mundo, apenas um servidor fosse responsável por disseminar, espalhar essa foto na rede mundial de computadores. Impossível, né? Imagina milhões de pessoas acessando a mesma foto em um único servidor. O negócio não ia aguentar e ia cair [tipo quando todo mundo acessa junto um site para para comprar algo em promoção e a página fica indisponível]. A grosso modo, o MapReduce distribui essa foto [processamento] para diversos servidores espalhados pelo mundo inteiro, com o intuito de descentralizar os esforços desses servidores. Por isso, o MapReduce é, sim, distribuído. Essa é a principal característica dele.
No Big Data, no geral, tudo ocorre de forma distribuída. O MapReduce, por sua vez, tem como premissa oferecer processamento paralelo em ambiente distribuído.
Resposta: Errado
Além de aprendermos informática, o colega corrigiu o CESPE no erro de português, muito bem.
(CESPE TCE-PB 2018) O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído

CERTO
maP reDucE – Paralelo, Distribuído e Escalável;

Peguei esse macete por aí!
O MapReduce "basicamente divide o trabalho em tarefas como um mapeador (mapper) e um resumidor (reducer) que manipulam dados distribuídos em um cluster de servidores usados de forma massivamente paralela."[1]

O MapReduce manipula dados de forma distribuídas, o famoso "dividir para conquistar". Tal se dá de forma que o trabalho de análise dos dados seja dividido para reduzir o tempo e melhorar o desempenho das análises. Lembrando que estamos lidando com dados em um contexto de Big Data. A clusterização permite que tal escalabilidade horizontal manipule dados de forma paralela e distribuída para uma mais rápida saída (output).

Fonte:[1]: Cezar Taurion
Contexto de Big Data: Hadoop:

armazenamento dos dados > HDFS
processamento de dados > Map Reduce.

Tudo isso dentro de um CLUSTER (várias máquinas formando uma unidade de armazenamento de processamento de dados).

Ps: é feito de forma paralela e distribuída e é tolerante a falhas.
Complementando:

HDFS (Hadoop Distributed File System) é um sistema de arquivos distribuído, projetado para armazenar arquivos muito grandes

Hadoop MapReduce Para PROCESSAMENTO dos dados.
O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído por meio de uma combinação entre chaves e valores.
Só 17% de erro? "Çei..."
Quem entender melhor? assista esses vídeos.
https://youtu.be/qX5edsUWadE
Este link contém a parte 1, assista as 3 partes.
https://www.youtube.com/watch?v=ugmyDx2nxJk
Esse outro vídeo também é muito bom.
São vídeos rápidos que fará vc visualizar melhor o que foi proposto na questão.
Bons estudos.
GAB. ERRADO
MAP REDUCE = PROCESSAMENTO , ELE FATIA, MAPEIA E REDUZ, DADOS PARALELOS E DISTRIBUÍDOS.
HDFS = ARMAZENAMENTO, PRINCÍPIO WORM: ESCREVA UMA VEZ E LEIA VÁRIAS VEZES.
ERRADO
MapReduce (Hadoop)
- é um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído, geralmente em clusters (conjunto de servidores)
- possui grande poder de ARMAZENAMENTO e PROCESSAMENTO de todos os tipos de dados
- possui software open-source (código aberto)
- é usado no Big Data, pois possui escalabilidade, durabilidade e disponibilidade
- Custo é baixo: estrutura gratuita
Desvantagens:
- Não é eficiente para tarefas de inteligência analítica iterativas e interativas (computação analítica avançada)
- Problema de segurança com os dados fragmentados
Gab: Errado

O MapReduce, de fato, permite o processamento de dados massivos. No entanto, utiliza um algoritmo PARALELO e DISTRUBUÍDO.

Resuminho:

Hadoop é um projeto que oferece uma solução para problemas relacionados à BigData; seu núcleo é constituído de duas partes essenciais:

1º) Hadoop Distributed Filesystem (HDFS) - sistema de arquivos distribuído e confiável, responsável pelo armazenamento dos dados (arquivos muito grandes), o qual é realizado através de uma combinação chave e valor.

2º) Hadoop MapReduce - responsável pela análise e processamento dos dados através de um modelo de programação em um algoritmo paralelo e distribuído, geralmente em um cluster de computadores. O modelo de programação é formado por duas operações básicas:

map (Processo de Mapeamento) - os dados são separados em pares, transformados e filtrados; depois são distribuídos para os nodes (nós) e processados.

reduce (Processo de Redução) - os dados são agregados em conjuntos menores e os dados resultantes do processo são transformados em um formato padrão chave-valor.

Foco, força e fé! Desistir, jamais! Bons estudos!
ERRADO

maP reDucE – Paralelo, Distribuído e Escalável

Map (Processo de Mapeamento) - os dados são separados em pares, transformados e filtrados; depois são distribuídos para os nodes (nós) e processados.
Reduce (Processo de Redução) - os dados são agregados em conjuntos menores e os dados resultantes do processo são transformados em um formato padrão chave-valor.

MapReduce (Hadoop)
- é um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído, geralmente em clusters (conjunto de servidores)
- possui grande poder de ARMAZENAMENTO e PROCESSAMENTO de todos os tipos de dados
- possui software open-source (código aberto)
- é usado no Big Data, pois possui escalabilidade, durabilidade e disponibilidade
- Custo é baixo: estrutura gratuita
Desvantagens:
- Não é eficiente para tarefas de inteligência analítica iterativas e interativas (computação analítica avançada)
- Problema de segurança com os dados fragmentados
MapReduce é sim distribuído em clusters (conjunto de máquinas que operam para a mesma finalidade), que no caso, é resolver grandes problemas computacionais, fragmentando o problema e fazendo o processamento paralelo, para facilitar a obtenção da "solução".
questão errada Mapreduce é SIM paralelo, mas tbm é distribuído !
ERRADO!

Processamento PaDi: Paralelo e Distribuído.

SóProvas

Continue usando...

O que está incluso