que es big data

Páginas: 9 (2079 palabras) Publicado: 28 de octubre de 2013
¿Qué es “Big Data”?

El análisis de 'grandes datos' es el proceso de examinar grandes cantidades de datos de una variedad de tipos (big data) para descubrir patrones ocultos, correlaciones desconocidas y otra información útil. Tal información puede proporcionar ventajas competitivas a través del marketing.
El objetivo principal del análisis de datos grandes es ayudar a las empresas a tomarmejores decisiones de negocios al permitir a los científicos y otros usuarios de datos analizar grandes volúmenes de datos transaccionales, así como otras fuentes de datos que puedan haber quedado sin explotar por la inteligencia de negocio convencional (BI) programas.
Estas fuentes de datos pueden incluir registros del servidor web y datos de seguimiento de clics en internet, informes deactividades sociales, medios de comunicación, teléfonos móviles registros detallados de llamadas y la información captada por los sensores.
Algunas personas asocian exclusivamente grandes datos y análisis de grandes volúmenes de datos con datos no estructurados de ese tipo, pero consultoras como Gartner y Forrester Research Inc. también consideran las transacciones y otros datos estructurados como formasválidas de datos grandes.
El análisis de big data puede hacerse con herramientas de software de uso común en el marco de disciplinas analíticas avanzadas, como el análisis predictivo y la minería de datos. Sin embargo, las fuentes de datos no estructurados utilizados para el análisis de grandes datos tal vez no encajen en los almacenes de datos tradicionales. Además, los almacenes de datostradicionales pueden no ser capaces de manejar las demandas de procesamiento de grandes datos.
Como resultado, una nueva clase de tecnología de datos grandes ha surgido y está siendo utilizado en muchos análisis de datos grandes. Las tecnologías relacionadas con el análisis de datos incluyen bases de datos grandes NoSQL, Hadoop y MapReduce. Estas tecnologías forman el núcleo de un marco de software decódigo abierto que soporta el procesamiento de grandes volúmenes de datos a través de sistemas en clúster.
Los peligros potenciales que pueden provocar tropiezos en las iniciativas de análisis de big data en las organizaciones incluyen la falta de habilidades de análisis internos y el alto costo de la contratación de profesionales con experiencia analítica, además de desafíos en la integraciónde sistemas Hadoop y almacenes de datos, ofrecen conexiones de software entre las tecnologías.


Las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas montañas de información han generado un costo potencial al no descubrir el gran valor asociado. Desde luego, el ángulo correcto que actualmente tiene el liderazgo en términos de popularidad para analizar enormescantidades de información es la plataforma de código abierto Hadoop.
Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer) para manipular los datos distribuidos a nodos de un clúster logrando un alto paralelismo en el procesamiento Hadoop está compuesto de tres piezas: HadoopDistributed File System (HDFS), Hadoop MapReduce y Hadoop Common.

Hadoop Distributed File System(HDFS)

Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes.La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena en un diferente rack para lograr redundancia.
Ejemplo de HDFS



Hadoop MapReduce

MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Big Data
  • BIG DATA
  • Big Data
  • QUE ES BIG DATA
  • Big Data
  • Big Data
  • Big Data
  • big data

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS