USTED S.A
Ing. Adolfo Vega Fajardo
CONSTRUCCIÓN DE LA ARQUITECTURA
PROCESOS DE EXTRACCIÓN ETL
• Procesos para alimentar de datos el almacén (ETL):
o Extracción (Extraction)
o Limpieza (Cleaning) y Transformación
(Transformation)
o Carga (Loading)
o Refresco
EXTRACCIÓN
• Es el subproceso ETL encargado de recuperar los datos de las fuentes de
información. Seextraen los datos con el uso de una herramienta ETL, pero
se podrían extraer también de manera manual, con lenguajes de
programación.
• Lo más sencillo sería duplicar los datos de las fuentes de información y
pasar este conjunto a la herramienta ETL, pero de esta forma se hace
trabajar a la herramienta con enormes cantidades de datos, cuando en
realidad no se necesitarán todos.
• La maneraóptima sería limpiar, filtrar y ordenar los datos requeridos al
data warehouse, y si es posible en un sólo paso. Pero esto cuenta con el
inconveniente de que es posible que tuvieran que desmontarse las bases
de datos de la organización durante unas horas, teniendo que parar las
actividades que se estén realizando en ese momento contra las fuentes de
información. Esta es la razón por la que sedivide el proceso en extracción,
transformación y carga.
LIMPIEZA (CLEANING)
• Este subproceso puede considerarse un paso intermedio entre el subproceso de extracción y el de
transformación.
• Terminado el subproceso anterior, se poseen los datos en bruto, éstos deben ser limpiados antes de
ser cargados en el data warehouse.
• Hay una serie de problemas que pueden darse cuando se extraenlos datos de las fuentes
originales:
o Claves primarias inconsistentes: Es posible que las claves primarias que se utilizan en las fuentes
de información de origen no sean las que están definidas en el data warehouse.
o Valores inconsistentes: Puede que existan duplicados en las fuentes, que originalmente lo eran,
pero que al realizar modificaciones sobre alguna de las copias dejaron de serlo.Se deben
conciliar ambos valores.
o Datos con diferentes formatos: Los campos como el campo fecha por ejemplo, admiten varios
formatos posibles, se deben aplicar rutinas de estandarización para convertir todos los registros
que se tengan de este campo, a un único formato, que será el que se almacene en el data
warehouse.
o Valores erróneos: Estarán presentes en las fuentes de informacióncampos cuyos valores no
serán correctos. Para su corrección la herramienta ETL aplica algoritmos de corrección en los que
realiza cálculos y búsquedas en tablas e incluso en fuentes de datos externas para corregir, en la
medida de lo posible, estos valores.
o Datos redundantes: No siempre son fáciles de detectar, ya que el mismo nombre en varías
fuentes pudiera referirse a elementos distintos,o al revés el mismo elemento de datos puede
llamarse diferente en distintas fuentes.
TRANSFORMACIÓN (TRANSFORM)
• Después de limpiar los datos se procede al paso de transformación, que está
destinado a la integración, derivación, agregación y totalización de los datos.
o Integración. Cada elemento debe conocerse con un nombre estándar.
Renombraremos, de ser necesario, conforme al estándarque se siga en el data
warehouse. Así se renombrará por ejemplo DNI a DNI_Usuario.
o Derivación. Partiendo de datos individuales se calcularán nuevos datos, mediante
la realización de cálculos o búsquedas. Un ejemplo sería a partir de dos datos
numéricos calcular un total.
Opuestamente, también puede crearse un nuevo dato a partir de un solo dato de
origen, como por ejemplo podrían crearselos campos, día, mes, año, hora,
minuto, y segundo, a partir de un campo timestamp7
Pero la parte primordial de la transformación se basa en el pre-cálculo de datos, para
optimizar las futuras consultas al data warehouse.
o Totalización. Se basa en el procesamiento de datos de origen de carácter numérico
para obtener otro valor numérico que corresponderá a promedios, totales,
máximos,...
Regístrate para leer el documento completo.