Cient fico de datos con Software Libre
Científico de datos con
Software Libre
Ing. Mauricio Arancibia
2
Datos, el nuevo petróleo.
En los últimos 10 minutos se generan
más datos que desde la prehistoria
hasta el 2003.
3
Todo eltiempo estamos generando
información
4
5
BIG DATA
Término que hace referencia a una cantidad de datos tal que supera la
capacidad del software habitual para ser capturados, gestionados yprocesados en un tiempo razonable. Deben garantizarse las 3 Vs
(volumen, variedad y velocidad)
6
7
Científico de datos (Data Scientist)
8
Data Scientist: El trabajo más sexy
del siglo 21
9
Que es“Data Science”
Habilidades para resolver problemas
Habilidades de comunicación
Mente abierta
Otras cualidades:
Es escéptico y curioso.
Conocimientos sobre machine learning
Estadísticas y probabilidad
Aplica el método científico.
Ejecuta experimentos.
Es bueno codificando y hackeando.
Capaz de hacer frente a la ingeniería de datos de TI.
Capaz deencontrar respuestas a las incógnitas.
Tiene conocimiento del dominio
10
11
Que hacen los Data Scientists
Diseña y personaliza sistemas y herramientas
Trabaja con datos estructurados y noestructurados
Crea flujos de procesos de datos
Analiza grandes volúmenes de datos (TB, PB)
Construye modelos predictivos
Crea visualizaciones
Diseña productos de datos
UsaHadoop, MapReduce, Hive, Python, R
12
BI vs Data Science
13
14
Flujo del proceso de un Data Scientist
15
Aplicaciones
16
Data Science y el Open Source
Sistemas operativos:
Linux + Shelltools
Instrumentos Big data:
Hadoop (MapReduce) + hadoop tools
Hive, Pig
NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
Bases de datos
SQL
17
Data Science y el Open Source
Programación:
Python
Java
R
Machine Learning:
Matlab
Python libraries (NumPy, SciPy, Nltk)
Java Libraries (Mahout)
18
Programación en R
Here are just a few examples:
Google uses R to calculate...
Regístrate para leer el documento completo.