Quimiometria
___________________________________________________________________________________________________________
Quimiometría y análisis de datos
La quimiometría es la aplicación de métodos estadísticos y matemáticos a
los problemas químicos con el objetivo de extraer la máxima y más útil información
de los mismos. La definición exacta de quimiometría según la ICS(Internacional
Chemometrics Society) es la “ciencia que permite relacionar las medidas realizadas
en un sistema químico o proceso con el estado del mismo mediante la aplicación de
métodos matemáticos o estadísticos”. El desarrollo de la instrumentación química
ha llevado a la necesidad de utilizar métodos avanzados de diseño de
experimentos, calibración y análisis de los datos resultantes. Durantemuchos años,
ha existido la preponderante idea de que si se necesitaban métodos “ingeniosos” de
tratamiento de datos es porque los experimentos no habían sido correctamente
planeados, sin embargo, hoy se reconoce que la mayoría de los sistemas tienen
naturaleza multivariante y que las metodologías univariantes son incapaces de
proporcionar soluciones óptimas. En este capítulo se recoge unresumen de las
principales técnicas quimiométricas y estadísticas aplicadas para el tratamiento de
los datos en el desarrollo de esta tesis doctoral.
1. Métodos de pretratamiento de datos
El pretratamiento de los datos es un paso fundamental antes de realizar
cualquier otro cálculo, ya sea de regresión o clasificación. En el caso de trabajar con
datos espectroscópicos NIR, los espectrosrecogidos están influenciados por las
propiedades físicas de la muestras. En las muestras líquidas, la temperatura o la
turbidez son relevantes y deben ser consideradas antes de la etapa de procesado
de los datos. En estas situaciones, el pretratamiento de los datos se utiliza para
minimizar dichas contribuciones de variables físicas que incorporan información
irrelevante en los espectros, demanera que se puedan construir modelos más
simples y robustos.
Algunos de los pretratamientos más comunes y utilizados a lo largo de la
presente tesis doctoral se describen brevemente a continuación.
1.1. Centrado de columna
Consiste en cambiar el origen de la nueva escala de variables por la media
de la variable antes del centrado. Para cada valor xi,m de una columna m el nuevo
valor es:x' i , m = x i , m − x m
siendo x’i,m el dato centrado, xi,m el dato de la fila i y la columna m antes del
centrado, x m media de la columna m ( x m = ∑ x i , m / I ) [1]. La propiedad
i
fundamental de los datos centrados es que el valor medio de cada una de las
Fundamentos teóricos___________________________________________________________________________________________________________
variables es igual a cero. Este pretratamiento no modifica la varianza de los datos
[2].
1.2. Autoescalado
El autoescalado consiste en un centrado seguido de una normalización:
x' i , m =
xi ,m − xm
sm
donde x’i,m es el dato autoescalado, xi,m es el dato antes del autoescalado, x m la
media de la columna m y sm la desviación estándar de la columna m. De esta
forma, lamedia y la varianza de las nuevas variables autoescaladas es de 0 y 1
respectivamente [2].
1.3. Derivadas (primera y segunda) y suavizado
Mediante el suavizado se intenta reducir el ruido aleatorio existente en la
señal instrumental. La técnica más utilizada es la propuesta por Savitzky y Golay
[3]. El principio en el que se basa este método es que, para un pequeño intervalo
de longitudesde onda, se puede ajustar un polinomio del grado adecuado. Los
nuevos valores tras el ajuste son una mejor estima que los valores medidos ya que
se ha eliminado parte del ruido que los afectaba.
La diferenciación o cálculo de derivadas permite acentuar las diferencias
existentes en los datos espectrales. Tanto la primera como la segunda derivada se
utilizan a menudo para el tratamiento de...
Regístrate para leer el documento completo.