Memoria

Páginas: 17 (4146 palabras) Publicado: 22 de octubre de 2015
A. de Bases de Datos

Seminario - Big Data II

ÍNDICE:
1) INTRODUCCIÓN

2

2) MAPREDUCE

2

2.1) Funcionamiento

3

2.2) Ventajas

4

2.3) Desventajas

4

2.4) Aplicaciones

4

2.5) Ejemplos

5

3) NUEVAS HERRAMIENTAS TECNOLÓGICAS
3.1) Hadoop
– 3.1.1) Utilidades
3.2) HBase
– 3.2.1) Utilidades

7
7
8
9
11

4) PROBLEMA GENERAL DE BIG DATA

12

5) REFERENCIAS

13

1 / 14

A. de Bases de DatosSeminario - Big Data II

1) INTRODUCCIÓN
Las grandes empresas son un referente a la hora de afrontar la problemática subyacente a
la gestión de los grandes volúmenes de datos disponibles dentro del fenómeno Big Data. Por
ejemplo, Google estableció el modelo MapReduce como un estándar para el procesamiento de
Big Data. MapReduce es utilizado por muchas compañías para llevar a cabo tareas deinteligencia de negocios, como tendencias de mercado, introducción de un nuevo producto o
minería de datos.
En este seminario se va a realizar una visión global de cómo opera este modelo, sus funciones
fundamentales y ventajas y desventajas de utilizar este modelo. También se tratarán las
herramientas que se han desarrollado en torno a MapReduce como son Hadoop y HBase y cómo
utilizando estas tecnologías sepuede afrontar un problema general de Big Data.

2) MAPREDUCE
MapReduce es un framework o entorno de desarrollo
(desarrollado inicialmente para lenguaje C, aunque posteriormente se
ha implementado para otros lenguajes como Java) que permite
trabajar en paralelo con grandes cantidades de datos en sistemas de
memoria distribuida (clusters, sistemas Grid y entornos Cloud).
Con este framework, tantolos datos de entrada como los de salida se
almacenan en ficheros , así como los resultados intermedios que se
produzcan. Este entorno se basa en el modelo maestro/esclavo, de
manera que uno de los nodos lleve el control del programa (nodo
maestro) y va enviando trabajo al resto de los nodos (nodos esclavos)
según vayan quedando libres.

Ilustración 1: MapReduce

El objetivo principal de MapReducees permitir la computación paralela sobre grandes
colecciones de datos evitando la computación distribuida. De esta manera, al utilizar la
computación paralela, se obtienen las siguientes ventajas:
– mayor velocidad de ejecución y precisión en los cálculos,
– buena relación coste / prestaciones,
– permite atacar problemas considerados irresolubles;
y se evitan los grandes problemas de lacomputación distribuida relacionados con:
– el software: diseño, implantación y uso,
– las redes de comunicación: existencia de múltiples puntos de fallo, falta de seguridad.

2 / 14

A. de Bases de Datos

Seminario - Big Data II

2.1) Funcionamiento
Como se ha visto anteriormente, MapReduce
se basa en el modelo maestro/esclavo de manera
que el nodo maestro(nodo que lleva el control del
programa) toma elinput, lo divide en pequeñas
partes o problemas de menor envergadura, y los
distribuye a los denominados esclavos según vayan
quedando libres. Un nodo esclavo puede volver a
subdividir el input, dando lugar a una estructura en
Ilustración 2: Modelo maestro-esclavo
forma de árbol. El esclavo procesa el problema y
pasa la respuesta al nodo maestro.
Los nodos esclavos pueden realizar cada una de lasdos funciones separadas y diferentes de
MapReduce, ambas programadas por el desarrollador:
– Map: función encargada del mapeo y se aplica en paralelo para cada ítem en la entrada
de datos. Recibe un conjunto de datos organizados en tuplas formadas por pares clavevalor y produce una lista de estos pares en grupos dependiendo de la clave.
– Reduce: se aplica en paralelo para cada lista de valoresrelacionados con una clave.
Esta función combina las tuplas de datos produciendo un conjunto más pequeño de
tuplas. Puede producir diferentes salidas en función de su implementación: conjunto
vacío, un valor, un par clave-valor, un conjunto de valores para esa clave, ....
Llegados a este punto la duda es: ¿y cómo se pasa del conjunto de salidas de las diferentes
funciones Map al conjunto de listas...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • La memoria
  • Memoria
  • Memoria
  • Memoria
  • Memoria
  • La Memoria
  • Memorias
  • Memorias

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS