Hadoop

Páginas: 13 (3233 palabras) Publicado: 6 de noviembre de 2013
Introducción

A medida que las organizaciones se centran en aprovechar al máximo el valor contenido en sus recursos de información, están descubriendo que la recopilación de datos es un arma de doble filo. En realidad, debido que se ven enfrentadas al reto de administrar datos que están creciendo a una gran velocidad (solo Facebook ahora recopila más de 100 terabytes de datos por día), lamayoría de las organizaciones consideran que la administración del crecimiento de datos, el aprovisionamiento de almacenamiento y la ejecución rápida y confiable de análisis de “big data” son sus principales prioridades.
Se define el análisis de big data como la práctica de analizar conjuntos de datos completos a la vez, sin limitarse a la forma en que están estructurados los datos, usandotecnología especialmente diseñada para realizar tareas de análisis de datos simples a complejos de forma oportuna, rentable y eficiente.
Los lugares donde se almacenan los datos pueden soportar hasta 80 TB en sistemas con memoria compartida (SMP) y el salto a los Petabytes generalmente requiere procesamiento paralelo.



¿Qué es hadoop?

Hadoop es un sistema de código abierto que se utiliza paraalmacenar, procesar y analizar grandes volúmenes de datos; cientos de terabytes, peta bytes o incluso más.
Hadoop surgió como operativa de open source (software libre) a raíz de publicaciones de varios documentos de google sobre un sistema de archivo, su herramienta de mapas y el sistema big table reduce. Como resultado nació un conjunto de soluciones en el entorno apache HDFS apache, apacheMapReduce y apache HBase que se conocen como hadoop con herramientas como sqoop que se utiliza para importar datos estructurados en haddoop-cluster o noSQL que se utiliza para realizar análisis de los datos no estructurados.




En que nos ayuda hadoop

En el entorno tecnológico que actualmente se mueven todas las organizaciones, donde los sistemas no sólo son capaces de generar e ingestarlos datos rápidamente sobre formatos estructurados (SQL), también, cada vez más, se generan datos que no son estructurados (NoSQL).

Hadoop es capaz de almacenar toda clase de datos: estructurados, no estructurados, semis estructurados; archivos de registro, imágenes, video, audio, comunicación, etc.
Por otra parte Hadoop también destaca por tener una arquitectura con capacidad de asegurar unaalta disponibilidad y recuperación de los datos que ingesta.

Además es muy útil cuando vamos a realizar proyectos que necesiten de escalabilidad. Al disponer los datos de forma distribuida, la búsqueda se puede realizar muy rápidamente ya que Hadoop puede acceder a ella de forma paralela. Y aunque los datos estén distribuidos, no hay que preocuparse de fallos ya que dispone de un sistema deseguridad.








Arquitectura

La arquitectura de Hadoop se vertebra sobre tres pilares fundamentales:

Sistema de ficheros: Hadoop se apoya para su funcionamiento en un sistema de ficheros distribuido, denominado HDFS.
Hadoop MapReduce: El motor de Hadoop consta de un planificador de trabajos MapReduce, así como de una serie de nodos encargados de llevarlos a cabo.
HadoopCommon: conjunto de utilidades que posibilitan la integración de subproyectos de Hadoop.

Una funcionalidad clave es que para la programación efectiva de trabajo, cada sistema de archivos debe conocer y proporcionar su ubicación: el nombre del rack (más precisamente, del switch) donde está el nodo trabajador. Las aplicaciones Hadoop pueden usar esta información para ejecutar trabajo en el nodo dondeestán los datos y, en su defecto, en el mismo rack/switch, reduciendo así el tráfico de red troncal.
El sistema de archivos HDFS usa esto cuando replica datos, para intentar conservar copias diferentes de los datos en racks diferentes. El objetivo es reducir el impacto de un corte de energía de rack o de fallo de interruptor de modo que incluso si se producen estos eventos, los datos todavía...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • HADOOP
  • Hadoop
  • Hadoop
  • Hadoop Correciones
  • Hadoop ensayo asi tipo

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS