SlideShare una empresa de Scribd logo
Tratamiento quimiométrico de datos cromatográficos.
Aplicación a la clasificación tecnológica de manzanas de sidra

Objetivo

       Se pretende utilizar una serie de análisis quimiométricos para el tratamiento de los datos
cromatográficos obtenidos a partir de una cromatografía de gases de distintas clases de
manzanas. Con ello se puede obtener un modelo que puede predecir la clasificación de diferentes
muestras de manzanas. Todas los análisis quimiométricos se realizan en el programa Statgraphics
excepto la selección de variables que se utiliza PARVUS.


Exploración de datos

       El análisis exploratorio de los datos se realiza para obtener información sobre las variables,
sobre los objetos y sobre su relación.

        Se realizó un test de normalidad de las variables para dos casos: análisis univariante y
análisis multivariante.
En el primero de los casos, se realizó el análisis para alguna de las variables como ejemplo, y
todas las variables analizadas siguen la distribución normal.
En el análisis multivariante, algunas variables se desviaban en pequeña medida de esta
distribución, pero esta pequeñas diferencias no es causa para la eliminación de esas variables en
posteriores análisis multivariantes.

        Se realizó una búsqueda de outliers, que son valores de las variables que no están
distribuidos homogéneamente. Para ello se realiza una gráfica de cajas y bigotes, donde los
puntos que estén en el exterior de esta gráfica, si los hubiera, deberían ser eliminados.




       En la figura se puede ver el ejemplo de una gráfica de cajas y bigotes, para la variable
hexanol.
Para las variables realizadas, no se encontró ningún punto fuera de la gráfica.


Selección de variables

       En los análisis multivariantes (como es el caso que se está estudiando), el número de
objetos debe ser dos o tres veces el número de variables. Por lo que se deben seleccionar
correctamente las variables con las cual trabajar en los siguientes análisis, que serán las que
menos correlacionadas estén.
Se realizó una selección de variables utilizando como criterio el peso de clasificación (peso
de Fisher), es decir, fueron seleccionadas las variables que diferencian en mejor medida las
diferentes clases de manzanas. Esta selección se realizó frente a un conjunto de entrenamiento,
que es un conjunto de muestras ya clasificadas conociendo los valores de las variables para ellas.
Se debe realizar un autoescalado de las variables, para que valores absolutos altos de las
variables no tengan mayor peso que los valores bajos.
Se añade un valor de corte para seleccionar variables que tengan un peso estadístico por encima
de esta valor (en el caso estudiado 0.05).

       Se obtienen las variables más significativas que son las siguientes:

                                                     Peso estadistico (%)
                            but hex                         50.13
                            hexanol                         11.81
                             hept et                         0.68
                             prop et                         0.27
                        __met_1_propanol                     0.09



Agrupamiento

        El objetivo del análisis de agrupamiento es agrupar objetos que tengan características
similares.

· Análisis de conglomerados (dendograma) ·

        Con este análisis se obtiene una representación de la correlación que existe entre las
variables analizadas y objetos. Se obtiene el siguiente dendograma, donde se puede observar la
similitud entre las diferentes muestras, según el criterio de distancia euclídea:



                                                     Dendograma
                                  Método del Vecino Más Cercano,Euclideana Cuadrada
                                  5

                                  4

                                  3
                      Distancia




                                  2

                                  1

                                  0
                                       1
                                       2
                                       3
                                       4
                                       5
                                       6
                                       7
                                       8




                                       9
                                      11
                                      12
                                      13
                                      14
                                      20
                                      21
                                      16
                                      17
                                      18
                                      19
                                      10
                                      15




        Se puede observar en el dendograma, como las muestras más correlacionadas son los
distintos ensayos para una misma muestra (por ejemplo entre 1 y 2), después hay más correlación
para manzanas de la misma cosecha (entre 1-2 y 3-4), y hay menor correlación entre distintos
tipos de manzanas.
· Análisis de componentes principales ·

        El objetivo es obtener una combinación de las variables que agrupe los datos según su
variablidad y expliquen la mayor parte de la varianza del sistema.
Este ensayo se realiza con las variables seleccionadas en PARVUS.

       Se obtienen dos gráficas con este análisis:

        Gráfica de sedimentación: determina las componentes (combinaciones lineales de las
variables, que retienen la información de las originales) que están por encima de una varianza
determinada. Con estas componentes se puede explicar con alta probabilidad la variabilidad de la
mayor parte del sistema.



                                                                            Gráfica de Sedimentación

                                                     3

                                                    2,5

                                                     2
                                       Eigenvalor




                                                    1,5

                                                     1

                                                    0,5

                                                     0
                                                          0             1          2      3            4         5
                                                                                  Componente




      Gráfica de dispersión 2D: es una representación de los dos componentes con las
mayores varianzas. En este caso entre las dos explican el 70% de la variablilidad del sistema.



                                                                                      Bigráfica

                                               3,6
                                                                            prop et
                                               2,6
                                                              hept et
                        Componente 2




                                               1,6
                                                                                                   __met_1_propanol
                                               0,6

                                             -0,4 hex
                                                but
                                                hexanol
                                             -1,4
                                                     -2,8        -1,8         -0,8   0,2    1,2            2,2   3,2
                                                                                 Componente 1
Se consigue una mayor separación entre las muestras de los diferentes tipos de manzana,
como se puede ver en la gráfica. Se observa que las variables “but hex” y “hexanol”, permiten
diferenciar el tipo de manzana Clara del resto. En el caso de la Coloradona, se consigue
diferenciar mediante las variables “prop et” y “hep et”. Mientras que para diferenciar la Ernestina
del resto, se usaría la variable “2-met-1-propanol”



Clasificación

        Se realizó un análisis clasificatorio para poder predecir el grupo al que pertenece una
muestra de manzanas a partir de otras variables cuantitativas.
El factor discriminante utilizado es los diferentes grupos de manzanas (Clara, Coloradona y
Ernestina). Se utilizan las variables seleccionadas con PARVUS: “but hex”, “hexanol”, “hep et”,
“prop et” y “2-met_1_propanol”.


        Con este análisis se obtienen unas combinaciones lineales de las variables seleccionadas
con el objetivo de diferenciar entre los grupos de manzanas (mayor varianza) al tiempo que
minimizar (menor varianza) entre las muestras de un mismo grupo.



                                             Gráfica de Funciones Discriminantes

                                   10                                                   Col_28
                                                                                          1
                                    7                                                     2
                                                                                          3
                                    4                                                     Centroides
                       Función 2




                                    1

                                   -2

                                   -5

                                   -8
                                        -7    -4      -1      2      5      8      11
                                                           Función 1




        La gráfica representa las dos funciones discriminantes obtenidas con este análisis que
mejor diferencian los grupos. Se puede observar que las diferentes muestras de cada grupo de
manzana están alineadas en la gráfica, por lo que se consigue separar en buena medida los
diferentes grupos de manzanas (de manera probabilística). De este modo, teniendo el análisis de
una muestra se podría determinar con una alta probabilidad a que grupo de manzanas pertenece.

Más contenido relacionado

PPS
La Importancia Del Contexto
PPS
El Vino Alberto Cortez
PDF
Experiencias en Emprendimiento Tecnológico
PPTX
Sttratégies
PPSX
Le changement
PDF
Appel ã  communication cmlf 2014
PDF
Bts services informatiques aux organisations 2
PDF
Baromètre EY_FD 2014: La performance économique et sociale des startups numé...
La Importancia Del Contexto
El Vino Alberto Cortez
Experiencias en Emprendimiento Tecnológico
Sttratégies
Le changement
Appel ã  communication cmlf 2014
Bts services informatiques aux organisations 2
Baromètre EY_FD 2014: La performance économique et sociale des startups numé...

Destacado (20)

PPT
Sectores económicos
PPT
PPT
Sistema solar
PPS
Recortables
PDF
Introduction à la gestio...essentiel de la gestion
PDF
Bilan énergétique global et meilleure efficience
PDF
Confort estival - Comment éviter la surchauffe? Exemple 1
PPT
Un recurso natural
RTF
PPT
Capacitados Siempre
ODP
4ºeso Chapitre 2 L'héritage
PPS
El Águila
PPS
Biologia Oral Neuropilates
PPTX
Relevancia del factor de impacto y otras mediciones estandarizadas de revista...
PPT
Puestas&nbspde&nbspsol vhci
PPS
PresentacióN Cayuela
PPTX
PPSX
6. pres 10
PPT
Redes Sociales De Internet
PPTX
Le féminin des nationalités prof. gustavo castillo
Sectores económicos
Sistema solar
Recortables
Introduction à la gestio...essentiel de la gestion
Bilan énergétique global et meilleure efficience
Confort estival - Comment éviter la surchauffe? Exemple 1
Un recurso natural
Capacitados Siempre
4ºeso Chapitre 2 L'héritage
El Águila
Biologia Oral Neuropilates
Relevancia del factor de impacto y otras mediciones estandarizadas de revista...
Puestas&nbspde&nbspsol vhci
PresentacióN Cayuela
6. pres 10
Redes Sociales De Internet
Le féminin des nationalités prof. gustavo castillo
Publicidad

Similar a Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra (20)

PDF
Determinación de hierro en vino
DOCX
diagramas de dispersión
DOCX
Interpretacion de correlacion
DOCX
Diagramas de dispersion
DOCX
Aplicación de diagramas de dispersión
ODS
Ejemplo
PPTX
Histograma
DOC
Diluciones y graficas
PPTX
Histograma 01
PPT
5. graficas de control
DOCX
Practica 34 ciencias iii
XLS
Bidimensional
DOCX
Tabla de frecuencias
ODS
Ejemplo
XLS
DOCX
Practica 4 de ciencias ii
ODS
Ejemplo
DOCX
Laboratorio 3de tecnologia_de_materiales[1]
PPT
herramientas de la calidad
PPT
CARACTERIZACIÓN GEOLÓGICA Y MINERA DE LOS FELDESPATOS ENTRE CAMANÁ Y QUILCA -...
Determinación de hierro en vino
diagramas de dispersión
Interpretacion de correlacion
Diagramas de dispersion
Aplicación de diagramas de dispersión
Ejemplo
Histograma
Diluciones y graficas
Histograma 01
5. graficas de control
Practica 34 ciencias iii
Bidimensional
Tabla de frecuencias
Ejemplo
Practica 4 de ciencias ii
Ejemplo
Laboratorio 3de tecnologia_de_materiales[1]
herramientas de la calidad
CARACTERIZACIÓN GEOLÓGICA Y MINERA DE LOS FELDESPATOS ENTRE CAMANÁ Y QUILCA -...
Publicidad

Más de Daniel Martín-Yerga (20)

PPTX
Grupo de Inmunoelectroanálisis
PDF
Póster: Sensor químico para la detección de mercurio en aguas
PDF
Póster: Metabolismo energético y deporte
PPTX
Determinación de mercurio en aguas con transductores electroquímicos nanoes...
PDF
Póster: Utilización de materiales nanohíbridos como transductores de sensores...
PDF
Herramientas de software libre en investigación en Química Física
PPTX
Síntesis de Nanomateriales por Deposición
ODT
Construcción de un biosensor amperométrico de glucosa. Cuantificación de gluc...
ODT
Análisis espectrofotométrico de mezclas de fármacos mediante regresión lineal...
ODT
Determinación de sodio por emisión atómica en llama en muestras reales
PDF
Determinación de quinina en agua tónica mediante Espectrometría de Fluorescen...
ODT
Determinación voltamétrica de ácido ascórbico sobre electrodos de pasta de ca...
DOC
Determinación potenciométrica de nitratos
ODT
Cromatografia de capa fina
PDF
Smog fotoquimico
PDF
Residuos químicos en un laboratorio
PDF
Reacciones químicas explosivas
PDF
Obtención de los parámetros cinéticos de una reacción iónica
PDF
Introducción a los métodos analíticos instrumentales
PPTX
CasualServices - Búsqueda de información sobre negocios y lugares de interés
Grupo de Inmunoelectroanálisis
Póster: Sensor químico para la detección de mercurio en aguas
Póster: Metabolismo energético y deporte
Determinación de mercurio en aguas con transductores electroquímicos nanoes...
Póster: Utilización de materiales nanohíbridos como transductores de sensores...
Herramientas de software libre en investigación en Química Física
Síntesis de Nanomateriales por Deposición
Construcción de un biosensor amperométrico de glucosa. Cuantificación de gluc...
Análisis espectrofotométrico de mezclas de fármacos mediante regresión lineal...
Determinación de sodio por emisión atómica en llama en muestras reales
Determinación de quinina en agua tónica mediante Espectrometría de Fluorescen...
Determinación voltamétrica de ácido ascórbico sobre electrodos de pasta de ca...
Determinación potenciométrica de nitratos
Cromatografia de capa fina
Smog fotoquimico
Residuos químicos en un laboratorio
Reacciones químicas explosivas
Obtención de los parámetros cinéticos de una reacción iónica
Introducción a los métodos analíticos instrumentales
CasualServices - Búsqueda de información sobre negocios y lugares de interés

Último (20)

PDF
Introducción a la historia de la filosofía
PDF
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
PDF
TOMO II - LITERATURA.pd plusenmas ultras
PDF
Aqui No Hay Reglas Hastings-Meyer Ccesa007.pdf
PDF
2.0 Introduccion a processing, y como obtenerlo
PDF
La Formacion Universitaria en Nuevos Escenarios Ccesa007.pdf
DOCX
V UNIDAD - PRIMER GRADO. del mes de agosto
DOCX
PLANES DE área ciencias naturales y aplicadas
PDF
Atencion prenatal. Ginecologia y obsetricia
PPTX
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
PDF
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
PDF
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
PDF
EL aprendizaje adaptativo bajo STEM+H.pdf
PPTX
Doctrina 1 Soteriologuia y sus diferente
PDF
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf
PDF
Unidad de Aprendizaje 5 de Matematica 2do Secundaria Ccesa007.pdf
DOCX
PLAN DE CASTELLANO 2021 actualizado a la normativa
PDF
La Evaluacion Formativa en Nuevos Escenarios de Aprendizaje UGEL03 Ccesa007.pdf
PDF
ACERTIJO Súper Círculo y la clave contra el Malvado Señor de las Formas. Por ...
PDF
Unidad de Aprendizaje 5 de Matematica 1ro Secundaria Ccesa007.pdf
Introducción a la historia de la filosofía
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
TOMO II - LITERATURA.pd plusenmas ultras
Aqui No Hay Reglas Hastings-Meyer Ccesa007.pdf
2.0 Introduccion a processing, y como obtenerlo
La Formacion Universitaria en Nuevos Escenarios Ccesa007.pdf
V UNIDAD - PRIMER GRADO. del mes de agosto
PLANES DE área ciencias naturales y aplicadas
Atencion prenatal. Ginecologia y obsetricia
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
EL aprendizaje adaptativo bajo STEM+H.pdf
Doctrina 1 Soteriologuia y sus diferente
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf
Unidad de Aprendizaje 5 de Matematica 2do Secundaria Ccesa007.pdf
PLAN DE CASTELLANO 2021 actualizado a la normativa
La Evaluacion Formativa en Nuevos Escenarios de Aprendizaje UGEL03 Ccesa007.pdf
ACERTIJO Súper Círculo y la clave contra el Malvado Señor de las Formas. Por ...
Unidad de Aprendizaje 5 de Matematica 1ro Secundaria Ccesa007.pdf

Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra

  • 1. Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra Objetivo Se pretende utilizar una serie de análisis quimiométricos para el tratamiento de los datos cromatográficos obtenidos a partir de una cromatografía de gases de distintas clases de manzanas. Con ello se puede obtener un modelo que puede predecir la clasificación de diferentes muestras de manzanas. Todas los análisis quimiométricos se realizan en el programa Statgraphics excepto la selección de variables que se utiliza PARVUS. Exploración de datos El análisis exploratorio de los datos se realiza para obtener información sobre las variables, sobre los objetos y sobre su relación. Se realizó un test de normalidad de las variables para dos casos: análisis univariante y análisis multivariante. En el primero de los casos, se realizó el análisis para alguna de las variables como ejemplo, y todas las variables analizadas siguen la distribución normal. En el análisis multivariante, algunas variables se desviaban en pequeña medida de esta distribución, pero esta pequeñas diferencias no es causa para la eliminación de esas variables en posteriores análisis multivariantes. Se realizó una búsqueda de outliers, que son valores de las variables que no están distribuidos homogéneamente. Para ello se realiza una gráfica de cajas y bigotes, donde los puntos que estén en el exterior de esta gráfica, si los hubiera, deberían ser eliminados. En la figura se puede ver el ejemplo de una gráfica de cajas y bigotes, para la variable hexanol. Para las variables realizadas, no se encontró ningún punto fuera de la gráfica. Selección de variables En los análisis multivariantes (como es el caso que se está estudiando), el número de objetos debe ser dos o tres veces el número de variables. Por lo que se deben seleccionar correctamente las variables con las cual trabajar en los siguientes análisis, que serán las que menos correlacionadas estén.
  • 2. Se realizó una selección de variables utilizando como criterio el peso de clasificación (peso de Fisher), es decir, fueron seleccionadas las variables que diferencian en mejor medida las diferentes clases de manzanas. Esta selección se realizó frente a un conjunto de entrenamiento, que es un conjunto de muestras ya clasificadas conociendo los valores de las variables para ellas. Se debe realizar un autoescalado de las variables, para que valores absolutos altos de las variables no tengan mayor peso que los valores bajos. Se añade un valor de corte para seleccionar variables que tengan un peso estadístico por encima de esta valor (en el caso estudiado 0.05). Se obtienen las variables más significativas que son las siguientes: Peso estadistico (%) but hex 50.13 hexanol 11.81 hept et 0.68 prop et 0.27 __met_1_propanol 0.09 Agrupamiento El objetivo del análisis de agrupamiento es agrupar objetos que tengan características similares. · Análisis de conglomerados (dendograma) · Con este análisis se obtiene una representación de la correlación que existe entre las variables analizadas y objetos. Se obtiene el siguiente dendograma, donde se puede observar la similitud entre las diferentes muestras, según el criterio de distancia euclídea: Dendograma Método del Vecino Más Cercano,Euclideana Cuadrada 5 4 3 Distancia 2 1 0 1 2 3 4 5 6 7 8 9 11 12 13 14 20 21 16 17 18 19 10 15 Se puede observar en el dendograma, como las muestras más correlacionadas son los distintos ensayos para una misma muestra (por ejemplo entre 1 y 2), después hay más correlación para manzanas de la misma cosecha (entre 1-2 y 3-4), y hay menor correlación entre distintos tipos de manzanas.
  • 3. · Análisis de componentes principales · El objetivo es obtener una combinación de las variables que agrupe los datos según su variablidad y expliquen la mayor parte de la varianza del sistema. Este ensayo se realiza con las variables seleccionadas en PARVUS. Se obtienen dos gráficas con este análisis: Gráfica de sedimentación: determina las componentes (combinaciones lineales de las variables, que retienen la información de las originales) que están por encima de una varianza determinada. Con estas componentes se puede explicar con alta probabilidad la variabilidad de la mayor parte del sistema. Gráfica de Sedimentación 3 2,5 2 Eigenvalor 1,5 1 0,5 0 0 1 2 3 4 5 Componente Gráfica de dispersión 2D: es una representación de los dos componentes con las mayores varianzas. En este caso entre las dos explican el 70% de la variablilidad del sistema. Bigráfica 3,6 prop et 2,6 hept et Componente 2 1,6 __met_1_propanol 0,6 -0,4 hex but hexanol -1,4 -2,8 -1,8 -0,8 0,2 1,2 2,2 3,2 Componente 1
  • 4. Se consigue una mayor separación entre las muestras de los diferentes tipos de manzana, como se puede ver en la gráfica. Se observa que las variables “but hex” y “hexanol”, permiten diferenciar el tipo de manzana Clara del resto. En el caso de la Coloradona, se consigue diferenciar mediante las variables “prop et” y “hep et”. Mientras que para diferenciar la Ernestina del resto, se usaría la variable “2-met-1-propanol” Clasificación Se realizó un análisis clasificatorio para poder predecir el grupo al que pertenece una muestra de manzanas a partir de otras variables cuantitativas. El factor discriminante utilizado es los diferentes grupos de manzanas (Clara, Coloradona y Ernestina). Se utilizan las variables seleccionadas con PARVUS: “but hex”, “hexanol”, “hep et”, “prop et” y “2-met_1_propanol”. Con este análisis se obtienen unas combinaciones lineales de las variables seleccionadas con el objetivo de diferenciar entre los grupos de manzanas (mayor varianza) al tiempo que minimizar (menor varianza) entre las muestras de un mismo grupo. Gráfica de Funciones Discriminantes 10 Col_28 1 7 2 3 4 Centroides Función 2 1 -2 -5 -8 -7 -4 -1 2 5 8 11 Función 1 La gráfica representa las dos funciones discriminantes obtenidas con este análisis que mejor diferencian los grupos. Se puede observar que las diferentes muestras de cada grupo de manzana están alineadas en la gráfica, por lo que se consigue separar en buena medida los diferentes grupos de manzanas (de manera probabilística). De este modo, teniendo el análisis de una muestra se podría determinar con una alta probabilidad a que grupo de manzanas pertenece.