HDFS

Páginas: 18 (4380 palabras) Publicado: 10 de diciembre de 2014
UNIVERSIDAD NACIONAL DE INGENIERIA
FACULTAD DE INGENIERIA INDUSTRIAL Y SISTEMAS
SECCION DE POSTGRADO
DOCTORADO EN INGENIERIA DE SISTEMAS

ANÁLISIS E INTERPRETACIÓN DEL PAPER
The Hadoop Distributed File System

CURSO: SISTEMAS COOPERATIVOS DISTRIBUIDOS
PROFESOR: DR. GLEN RODRIGUEZ

AUTOR
PAUL MILLER TOCTO INGA

2014


Índice
1. PROBLEMA
2. TRABAJOS ANTERIORES
3. REVISIONDE LITERATURA
4. SOLUCIÓN
5. RESULTADOS
6. CONCLUSIONES
7. BIBLIOGRAFÍA

1. PROBLEMA
Debido al desarrollo exponencial de usuarios del internet 2 billones de usuarios con tendencia a un crecimiento, así como los celulares activos en una cantidad cercano a los 7.3 billones y los datos procesados diariamente en Twitter cercano a 7 TB, como en Facebook los datos procesados diariamente cercanoa 500 TB; se tiene que los datos procesados son no estructurados en aproximadamente 80 %, esta información se necesita procesar para obtener información que permita la toma de decisiones.
2. TRABAJOS ANTERIORES
Al igual que HDFS, existen sistemas de archivos distribuidos, que almacenan los archivos de metadata del sistema y los datos de aplicación separadamente:
PVFS: Un sistema de archivosparalelo para clústeres en Linux
Sistema de archivo Lustre
GFS: Evolución en avance rápido
Pero HDFS no utiliza mecanismo de protección de datos como Lustre y PVFS, como también si utiliza replicación de datos como GFS.
3. REVISION DE LITERATURA
La implementación distribuida del namespace tiene o están intentando en los siguientes sistemas:
Ceph: A Scalable High-Performance Distributed FileSystem
GFS está evolucionando a un Sistema de namespace distribuido
Lustre tiene una implementación de namespace con clústeres.

4. SOLUCIÓN
Hadoop tiene como sistema de archivos distribuidos al Hadoop Distributed Filesystem (HDFS).
4.1 Diseño de HDFS.- Tiene las siguientes características:
Soporta Archivos muy grandes.- Donde archivos muy grandes son cientos de megabytes, gigabytes, óterabytes de tamaño. Actualmente tenemos clústeres de Hadoop ejecutando que almacenan peta bytes.
Acceso de datos inmediatamente.- Cumple con la idea que el patrón de procesamiento de datos más eficiente es grabar una vez y leer muchas veces. Lo que importa es la lectura de todos los datos.
Hardware estándares.- Su diseño contempla la ejecución en hardware disponible comúnmente por muchosdistribuidores, y en el caso de fallas continuar funcionando sin interrupción.
4.2 Arquitectura HDFS.- Tiene los siguientes componentes:
NameNode.- Está formado por inodes, mantiene el árbol de namespace y la relación de los blocks de archivos con los DataNodes.
Inodes.- Representa archivos y directorios, tiene la siguiente información: permisos, modificación, tiempo de accesos, namespace y tamaño delespacio en disco
Cuando un cliente HDFS desea leer un archivo primero trabaja con el NameNode para conocer la ubicación de los bloques de datos que forman parte del archivo, luego de lo cual lee los contenidos de los bloques de datos cercanos al cliente, ver figura 1.


Figura 1
Cuando un cliente HDFS desea escribir los datos, solicita al NameNode, tres DataNodes donde replicar los datos,entonces el cliente graba los datos en el DataNode en forma secuencial, ver figura 2

Figura 2
El diseño actual considera un NameNode por cada clúster. El clúster puede tener cientos de DataNodes y cientos de HDFS clientes por clúster, porque cada DataNode puede ejecutar múltiples aplicaciones concurrentemente. Ver figura 3

Figura 3
HDFS mantiene todo el namespace en RAM
Los datos inodo y lalista de bloques que pertenecen a cada archivo comprenden los metadatos del sistema de nombres llamado la imagen.
En el sistema de archivos nativo del host local se almacenan:
Los registros permanentes de la imagen se llaman checkpoint.
El log de las modificaciones llamado Journal
Para mejorar la duración, se pueden almacenar copias del checkpoint y del Journal en otros servidores.
Durante el...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS