Hadoop ensayo asi tipo
Patrocinado por Bahía Software
Tomás Fernández Pena
Centro Singular de Investigación en Tecnoloxías da Información
Universidade de Santiago de Compostela
Curso de verano BDDS
citius.usc.es
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce en Java
Alternativas a Java
¿Qué es MapReduce?
Modelo de programación data-parallel diseñadopara escalabilidad y
tolerancia a fallos en grandes sistemas de commodity hardware
Basado en la combinación de operaciones Map y Reduce
Diseñado originalmente por Google (2004)
Usado en múltiples operaciones
Manejo de varios petabytes diarios
Popularizado por la implementación open source Apache Hadoop
Usado por múltiples organizaciones como Facebook, Twitter, Tuenti,
Last.fm, eBay,LinkedIn, Rackspace, Yahoo!, AWS, etc.
Curso de verano BDDS
1/46
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce en Java
Alternativas a Java
Hadoop
Implementación open-source de MapReduce
Procesamiento de enormes cantidades de datos en grandes clusters
de hardware barato (commodity clusters)
Escala: petabytes de datos en miles de nodos
Curso de verano BDDS2/46
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce en Java
Alternativas a Java
Características de Hadoop
Incluye
Almacenamiento: HDFS
Procesamiento: MapReduce
Ventajas
Bajo coste: clusters baratos o cloud
Facilidad de uso
Tolerancia a fallos
Curso de verano BDDS
3/46
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce enJava
Alternativas a Java
Instalación
Instalación relativamente simple: aplicación Java (múltiples opciones de
optimización)
Paquete fuente: http://hadoop.apache.org/releases.html
Sistemas preconfigurados proporcionados por empresas como
Cloudera (www.cloudera.com), MapR (www.mapr.com) o
Hortonworks (hortonworks.com)
Modos de funcionamiento:
Standalone: todo en un nodo, para pruebasPseudodistribuido: funciona como una instalación completa, pero en
un solo nodo
Totalmente distribuido, en un cluster
Curso de verano BDDS
4/46
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce en Java
Alternativas a Java
Arquitectura
Cluster de prueba (instalado en AWS):
6 máquinas en AWS: 1 máster, 4 workers y 1 máster secundario
Curso de veranoBDDS
5/46
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce en Java
Alternativas a Java
YARN
Este esquema se ha modificado en Hadoop 2.0 con YARN (Yet Another
Resource Negociator)
separa las dos funcionalidades del Jobtracker (gestión de recursos y
job-scheduling/monitorización) en demonios separados
permite que diferentes tipos de aplicaciones (no soloMapReduce)
se ejecuten en el cluster
Curso de verano BDDS
6/46
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce en Java
Alternativas a Java
Ecosistema Hadoop (I)
Diversas tecnologías relacionadas:
Pig: lenguaje data-flow de alto nivel para facilitar la programación
MapReduce
Hive: infraestructura de data-warehouse construida sobre Hadoop
Avro: sistema deserialización de datos (alternativa a los Writables)
Oozie, Cascading, Azkaban, Hamake: planificadores de workflows
para gestionar trabajos Hadoop
Whirr: herramientas para iniciar clusters Hadoop y otros servicios
en diferentes proveedores cloud
Ambari: herramienta basada en web para provisionar, gestionar y
monitorizar clusters Hadoop
Hue: interfaz web para simplificar el uso de Hadoop
Cursode verano BDDS
7/46
Introducción a MapReduce
Hadoop
HDFS
MapReduce
MapReduce en Java
Alternativas a Java
Ecosistema Hadoop (II)
HBase: base de datos distribuida no-relacional (NoSQL) que corre
sobre HDFS (inspirado en Google BigTable)
Sqoop: transferencia eficiente de datos eficiente entre Hadoop y
bases de datos relacionales
ZooKeeper: servicio centralizado de...
Regístrate para leer el documento completo.