Analisis Datos Replicable
Análisis de datos reproducible con R:
métodos, herramientas y tendencias
Felipe Ortega.
Dpto. Estadística e Investigación Operativa.
Universidad Rey Juan Carlos
email: felipe.ortega@urjc.es Twitter: @jfelipe
13-12-2013
Etopía-Centro de Arte y Tecnología
Zaragoza
© 2013 Felipe Ortega.
Algunos derechos reservados.
Este documento se distribuye bajo una licenciaCreative
Commons Reconocimiento-CompartirIgual 3.0, disponible en
http://creativecommons.org/licenses/by-sa/3.0/es/
13-12-2013
Etopía-Centro de Arte y Tecnología
Zaragoza
Julio de 1996...
13-12-2013
Etopía-Centro de Arte y Tecnología
Zaragoza
Posible consecuencia...
13-12-2013
Etopía-Centro de Arte y Tecnología
Zaragoza
Pero también...
13-12-2013
Etopía-Centro de Arte y TecnologíaZaragoza
Replicando la clonación
●
Artículo original en Nature:
–
●
Viable offspring derived from fetal and adult mammalian cell [PDF]
Nature 1997 Feb. 27; 385(6619) Wilmut I, Schnieke AE, McWhir J,
Kind AJ, Campbell KH Roslin Institute (Edinburgh), Roslin, Midlothian,
UK.
Sucesivos experimentos de clonación.
–
Octubre 1997: ratones.
–
Abril 1999: cabras.
–
Agosto 2000: cerditos.
–Febrero 2002: gatitos...
–
Clonación de animales extintos...
13-12-2013
Etopía-Centro de Arte y Tecnología
Zaragoza
...¿Y el análisis de datos?
●
Elementos necesarios:
–
Conjuntos de datos utilizados.
–
Infraestructura (recursos computacionales).
–
Software:
–
●
Código para llevar a cabo el análisis.
●
Dependencias (otros programas, bibliotecas).
●
Configuración original.Metodología.
●
13-12-2013
Explicación detallada del proceso (limpieza y preparación de
datos, análisis, resultados, conclusiones).
Etopía-Centro de Arte y Tecnología
Zaragoza
El análisis de datos
Recursos computación
Software, dependencias y configuración
Datos
Datos
Preparación
de
datos
Modelo
Datos
13-12-2013
Etopía-Centro de Arte y Tecnología
Zaragoza
Visualización
y
Publicación
resultadosReplicación en análisis de datos
●
●
A veces no es posible la replicación completa [1]:
–
No se puede recopilar de nuevo un conjunto de datos
equivalente.
–
Demasiados datos para ser almacenados.
–
Falta de recursos (computacionales, humanos...).
–
Costes medioambientales, sociales, económicos o de otra
índole no asumbiles.
Soluciones alternativas.
–
13-12-2013
Diferentes grados dereproducibilidad.
Etopía-Centro de Arte y Tecnología
Zaragoza
Espectro de reproducibiliad
Elementos adicionales
Sólo publicación
Código
No
Reproducible
13-12-2013
Código
y datos
Replicación total
Entorno de
ejecución
y datos
enlazados
Gold
standard
Grados de replicación
Etopía-Centro de Arte y Tecnología
Zaragoza
En la práctica...
●
Resultados de investigación no reproducibles.
–Oncología [2]: Dpto. Biotecnología de la firma Amgen (Thousand
Oaks) sólo confirmó 6 de un total de 53 artículos emblemáticos.
Bayer HealthCare (Alemania) pudo validar un 25% de estudios.
–
Psicología [3]: De un total de 249 artículos de la APA, el 73% de
los autores no respondieron sobre sus datos en 6 meses.
–
Economía, finanzas [4]: Diferentes paquetes software producen
resultados muy distintos contécnicas estadísticas directas
aplicadas sobre datos idénticos a los originales.
–
Ing. Software [5]: 171 artículos analizados, la mayoría sin
software fuentes de datos u otros elementos que permitan
replicación.
13-12-2013
Etopía-Centro de Arte y Tecnología
Zaragoza
A favor de la reproducibiliad
●
Diversos argumentos [6]:
–
Favorecer el desarrollo científico.
●
●
–
Estándar para juzgarresultados.
Evitar duplicación de esfuerzo, y fomentar desarrollo acumulativo de
conocimiento.
En nuestro propio beneficio.
●
Mejores hábitos de trabajo.
●
Introducción de cambios más sencilla, trabajo en equipo.
●
Mayor impacto publicaciones (aunque hay contradicciones).
–
Beneficios para editores.
–
Ventajas para empresas privadas.
13-12-2013
Etopía-Centro de Arte y Tecnología...
Regístrate para leer el documento completo.