lunes, 17 de marzo de 2014

Análisis de Datos Funcionales



Se presenta un método que últimamente conoce gran interés en el área de la investigación estadística. Se trata del Análisis de Datos Funcionales, método que pretendemos aplicar a un conjunto de datos reales, datos que corresponden al número medio lunar de fallecimientos, por culpa de una enfermedad pulmonar, en UK, durante 1974-1979. Vamos a aplicar las técnicas de dicho método con la ayuda del software estadístico de licencia gratuita R, utilizando el paquete fda. El análisis de datos funcionales dispone de varias técnicas para su desarrollo, en función de las necesidades de cada caso en parte. Para nuestro conjunto de datos nos ha parecido adecuado utilizar el análisis de datos exploratorio funcional, descriptivo funcional y el análisis de componentes principales funcionales. El fallecimiento, por cualquier razón, es motivo suficiente como para intentar analizar, entender y explicar todo lo que sea posible sobre el tema. Nuestro objetivo es presentar los datos, calcular las medias funcionales, las desviaciones de la media y con la ayuda de los   componentes principales funcionales, intentar explicar la variabilidad que pueda existir en los datos. 


Palabras clave: Análisis de datos funcionales; Análisis de componentes principales funcionales; Enfermedades pulmonares; R y fda.

Introducción


Los datos que vamos a utilizar para nuestro análisis están representados en la Figura 1. Se trata del número medio lunar de fallecidos, por culpa de alguna enfermedad pulmonar,  registrados durante 1974-1979 en UK. De esta forma tenemos seis variables (N=6) representadas sobre el intervalo (T=1:12), intervalo que corresponde a los doce meses del año. Analizando el primer gráfico se observa que para los seis años, el mayor número de fallecidos se registra durante los meses del invierno y el menor número se      registra durante los meses de verano.

Figura 1. Fallecidos por enfermedades pulmonares en UK
El análisis de datos funcionales transforma los datos discretos en funciones, y a estas funciones se les aplica varias técnicas con el objetivo de descubrir estructuras intrínsecas que con una simple representación no sería posible evidenciar. Para la transformación de los datos vamos a utilizar el suavizado y para la representación de las funciones utilizaremos las  funciones bases B-spline. El sistema de funciones bases tiene ϕ_k (ϕ_1,…,ϕ_k) funciones independientes unas a otras y tienen la propiedad de que podemos aproximar bastante bien cualquiera función, tomando la suma de los coeficientes, o una combinación lineal de un número bastante grande de K de estas funciones. Una función spline está definida como:

S(t)=∑_(k=1→m+L-1)[c_k B_k (t,τ) ]


El segundo objetivo será el cálculo de las medias funcionales y la  representación de las varianzas funcionales que nos informará acerca de la distribución de variabilidad.
Nuestros primeros objetivos  van a ser: suavizar las funciones, analizar el ajuste, los coeficientes y los errores. El suavizado se realizará mediante  la reducción de rugosidad siguiendo el siguiente modelo:

 F(c)=∑_j[(y_j-x(t_j ))^2+λ∫(D^2 x(t))^2 dt


En esta ecuación el parámetro de suavizado es  lambda, más grande el valor de lambda más suave será la función, pero hay que tener cuidado porque si seleccionamos un valor demasiado grande entonces se llegaría a una línea recta, que no será muy descriptiva (para una información más detallada el lector debe consultar Ramsay (2005)) Los coeficientes de las funciones nos permiten buscar más  información acerca de la distribución de los datos, de igual modo que los errores resultantes tras realizar dicho ajuste.

El segundo objetivo será el cálculo de las medias funcionales y la  representación de las varianzas funcionales que nos informará acerca de la distribución de variabilidad.

-x(t)=N^(-1) ∑_(i=1→N) [x_i (t)]


var_X (t)=(N-1)^(-1) ∑_(i=1→N)[x_i (t)-x(t) ]^2 


Nuestro tercer objetivo será la exploración de la variabilidad mediante el análisis de componentes principales funcionales. Dado que las variaciones entra-funciones se analizan con el suavizado, en esta ocasión analizaremos las variaciones inter-funcionales. Queremos ver qué tipo de variaciones existen en los datos y cuantas de estas variaciones son substanciales. Como es el caso del análisis multivariante, los eigenvalues de la función de varianza-covarianza  bivariante ν(s,t) son indicadores de la importancia de estos componentes principales y la gráfica de los eigenvalues es un método para determinar cuantas componentes principales son necesarias para explicar los datos ( Peña, 2002). En el análisis de componentes principales funcionales es preferible una eigenfunction asociada a cada eigenvalue y no a cada eigenvector. Estos eigenfunctions describen la mayor variabilidad. Muchas veces, aplicando una rotación a los componentes, podemos obtener una representación más descriptiva (para mayor información se recomienda al lector el libro de M.J. Valderrama, A.M. Aguilera y F.A Ocaña, 2000). 

Notamos que en el análisis la variación se puede calcular con la ayuda de la matriz de covarianzas o con la matriz de correlaciones. En el análisis multivariante, normalmente se utiliza la matriz de correlación, porque la escala y la locación influyen de manera desinteresada. En cambio, en el caso funcional los valores x_j (t),x_s (t)  tienen las mismas escalas y orígenes. Entonces la función de covarianza estimada


ν(s,t)=(N-1)^(-1) ∑_(i=1→N) [x_i (s)-x(s)][x_j (s)-x(t)]

, o el producto cruzado funcional


ν(s,t)=N^(-1) ∑_(i=1→N) x_i (s) x_i (t)

tienden a ser más útiles que la correlación funcional. Más información sobre análisis de componentes principales funcionales también en  Ramsay (2005) y Horvath (2012).


Para el análisis de los datos se ha utilizado el software de licencia gratuita R, que es un lenguaje de alto nivel y un entorno para el análisis de datos y gráficos. Puede descargarse libremente del sitio llamado CRAN (Comprehensive R Archive Network) en la siguiente dirección: http://cran.r-project.org/

Entre otras características dispone de:
-          almacenamiento y manipulación efectiva de datos;
-          operadores para cálculo sobre variables indexadas (Arrays), en particular matrices;
-          una amplia, coherente e integrada colección de herramientas para análisis de datos;
-          posibilidades gráficas para análisis de datos, que funcionan directamente sobre pantalla o impresora;
-          un lenguaje de programación bien desarrollado, simple y efectivo, que incluye: condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas.

El término “entorno" lo caracteriza como un sistema completamente diseñado y coherente, antes que como una agregación incremental de herramientas muy específicas e inflexibles. R es en gran parte un vehículo para el desarrollo de nuevos métodos de análisis interactivo de datos.


 Aunque R puede entenderse como un lenguaje de programación, los programas escritos en R deben considerarse esencialmente efímeros. Para su uso se pone a la disposición del usuario un número bastante grande de librerías (paquetes), cada una diseñada para algún tipo de análisis especifico. Nosotros, para el análisis de datos funcionales, vamos a utilizar el paquete estadístico fda, paquete diseñado por  J.O. Ramsay, Hadley Wickham y Giles Hooker en 2012.

Metodología


Primero se definen las funciones bases ϕ_k, que en este caso van a ser 7 funciones B-spline elegidas en un intervalo T=1…12 . Se utilizarán splines de orden cuatro, consistiendo en polinomios cúbicos de grado tres y un solo nudo para cada punto de corte. Para ello hemos dividido nuestro intervalo T en sub-intervalos (1-4, 4-8 y 8-12). En cada sub-intervalo suponemos un  solo nudo interno, en total tres. Para el cálculo del K se utilizó la fórmula K=O+N, donde O(4) es el orden y N(3)) es el número de nudos internos, por lo cual K=4+3=7.
Figura 2. Siete funciones bases B-splines

 Basis object:
Type:   bspline
Range:  1  to  12
Number of basis functions:  7
Order of spline:  4
[1] "  Interior knots"
[1] 3.75 6.50 9.25                                                       

Observamos que los nudos internos están calculados automáticamente en los puntos 3,75; 6,50 y 9,25.Tenidas ya las funciones bases ϕ_k podemos ocuparnos del cálculo de los coeficientes c_k ,y después podemos construir el objeto funcional y representarlo mediante una gráfica. Los coeficientes se pueden calcular mediante la ecuación que se utiliza para el cálculo de los coeficientes en regresión: b=(X’X)^(-1) X'y.

La posibilidad de utilizar derivadas  de una función es quizá la tarea más distintiva de los datos funcionales. Proponiendo una combinación lineal de derivadas llegaremos a operadores lineales diferenciales. Nosotros utilizaremos para el suavizado la segunda derivada y un valor mínimo para el lambda 0,01.
Figura 3. Reducción de rugosidad utilizando la segunda derivada y el lambda de 0.01

Podemos dibujar las segundas derivadas en busca de puntos de inflexión. En la Figura 4 se observa que para 1979 e incluso para el 1975  no hay puntos de inflexión  (la segunda derivada se mantiene a cero por todo el recorrido), pero no es el caso de los otros años donde se observa un punto de inflexión importante en el cuarto mes (Abril). Remarcamos también que el cambio de las funciones no es para los cuatro años en el mismo sentido, dos cambia a concavidad y dos a convexidad.
Figura 4. Las segundas derivadas de las funciones

Antes de pasar al análisis descriptivo funcional podemos analizar la calidad del ajuste mediante las 7 funciones bases B-splines. Para ello se compara cada curva con los datos de donde provienen. En R se puede hacer con la ayuda de la función plotfit. fd(), que nos devuelve también la varianza de dicho ajuste.


Figura 5. El ajuste de las curvas y la deviación estándar de sus variaciones

En la Figura 5 se observa que el ajuste de los datos mediante las funciones bases utilizadas es bastante bueno, con una varianza residual baja, la más grande 102, 08 para el año 1977.


A continuación realizaremos el análisis descriptivo funcional, donde calcularemos la media funcional y la matriz de varianza-covarianza funcional, y para entender mejor la variabilidad funcional, lo que podemos hacer es dibujar las varianzas mediante un gráfico de superficie.


Observamos que la mayor variabilidad esta en los primeros meses del año y en los últimos, es decir en los meses de invierno. Entendemos que el número de fallecimientos sea mayor en los meses de invierno, pero la variabilidad es un dato bastante interesante dado que tenemos que entender porque en un año la tasa de fallecimiento por culpa de una enfermedad pulmonar es mayor que en otro, en las mismas fechas. Quizá sería interesante analizar las variaciones climáticas en esas fechas.     
Figura 6. Covarianza funcional

Más información acerca de la variabilidad podemos encontrar analizando los componentes principales funcionales (ACPF). Los componentes principales representan variaciones alrededor de la media. Los más y menos indican las consecuencias de añadir o sustraer una pequeña parte de cada componente principal. Es usual que las CPF no rotados  representen la misma secuencia de variación, indiferente de lo que se analiza. La primera componente será un movimiento constante, la segunda tendrá un contraste  entre la primera y la segunda mitad cruzando cero sólo una vez, la tercera tendrá un patrón cuadrático, etc. Se vendrán las secuencias de un polinomio ortogonal. Por lo cual surge la necesidad de rotar los componentes principales, descubriéndose de esta forma más variaciones. Para este objetivo el algoritmo Varimax es bastante utilizado.  


Figura 7.  La varianza explicada con los CPF rotados con Varimax 


Como en el caso del análisis multivariante estudiar los residuos nos puede ayudar a descubrir nuevas informaciones. En este caso vamos a calcular  los residuos funcionales como  diferencia entre los valores funciones ajustadas  y los valores funcionales sin error (para poder obtener las funciones sin error hemos considerado unas funciones bases Bspline con K=n) y vamos a dibujar dichos residuos tras aplicarles un suavizado lineal. El resultado se puede ver en la figura 8, donde remarcamos que lo que más influye en la variabilidad de los primeros 6 meses es el año 1976 y lo que más influye en la variabilidad de los últimos 6 meses es el año 1977.
Figura 8. Residuos suavizados

Conclusiones


Recordamos que en este trabajo nuestro objetivo ha sido la presentación de algunas de las técnicas del ADF con la ayuda de unos datos reales. Nuestros datos corresponden a los fallecimientos medios lunares, registrados durante seis años, por culpa de alguna enfermedad pulmonar, en UK.

Se ha empezado con la presentación gráfica de los datos (véase la Figura 1) donde se observa, en general, que los datos siguen una distribución descendente empezando con  Enero hasta  Agosto-Septiembre y luego otra vez empiezan a ascender de nuevo, con una mayor variabilidad inter-funcional en los primeros tres meses.

Se ha procedido a la transformación de datos discretos en funciones, mediante siete funciones bases Bspline, utilizándose también la reducción de rugosidad. Esta reducción se realiza con la ayuda del cuadrado de la segunda derivada, nivel de suavizado controlado con el parámetro de   suavizado lambda.

Una vez obtenidas las funciones y calculados los coeficientes de ajuste se ha podido calcular y representar la segunda derivada de las funciones (véase Figura 4), descubriéndose un importante punto de inflexión existente en el mes de abril, donde los años 1976 y 1978 cambian de la concavidad la convexidad y los años 1977 y 1974 cambian de convexidad a concavidad. También se ha podido comprobar (Figura 5) que los ajustes mediante las siete funciones bases Bspline han sido bastante buenos, con valores de las desviaciones menores de 100,03.

Representando la gráfica de las varianzas-covarianzas funcionales (Figura 5) se ha podido demonstrar que la variabilidad existe no solamente en los primeros cuatro meses sino también en los últimos dos. Algo de variabilidad existe también en el mes de Agosto, aunque pequeña.

Gracias al análisis de componentes principales funcionales se ha podido ver  que más de 64 % de la variabilidad total está en los primeros tres meses, y 32 % de la variabilidad está en los últimos 4 meses y en primavera.

Después de observar las fechas con mayor variabilidad, nos interesa saber cual son los años, las funciones, las variables que más influyen en la variabilidad. Para ello hemos calculado y representado los residuos funcionales suavizados (Figura 8), donde remarcamos que la variabilidad de los primeros meses está en principal explicada por la función que representa el año 1976 y la variabilidad de los últimos meses está explicada, en su mayor parte, por el año 1977.


Bibliografía

1.       Daniel Peña; Análisis de Datos Multivariantes, 2002.
2.       J.O. Ramsay, B.W. Silverman;  Functional Data Analysis, Editorial Springer, 2005.
3.   J.O. Ramsay, Giles Hooker, Spencer Graver; Functional Data Analysis with R and Matlab, Editorial Springer, 2009.
4.   Lajos Horvath, Piotr Kokoszka; Inference for Functional Data with Applications, Editorial Springer, 2012.


5.     M.J. Valderrama, A.M. Aguilera y F.A Ocaña, Predicción Dinámica mediante Análisis de Datos  Funcionales, Editorial La Muralla, Madrid, 2000.

miércoles, 5 de febrero de 2014

Análisis exploratorio con IBM SPSS


El análisis exploratorio de los datos es un paso necesario, que habitualmente se descuida por parte de los analistas de datos, donde el examinador gana una comprensión básica de los datos y obtiene información acerca de la relación entre las variables. Un análisis cuidadoso de los datos conduce a una mejor predicción y a una evaluación más precisa de la dimensionalidad. Las técnicas multivariantes plantean grandes demandas al analista en la comprensión, interpretación y articulación de resultados basados en relaciones cuya complejidad está en continuo aumento. El conocimiento de las interrelaciones de variables puede ayudar enormemente en la especificación y refinamiento del modelo multivariante, así como proporcionar una perspectiva razonable para la interpretación de los resultados. [1]

Si tenemos recogidos datos sobre n empleados y queremos hacer un análisis estadístico, podemos empezar, por ejemplo, con un análisis exploratorio de las variables salario actual (salario) y meses desde el contrato (tiempemp), según categoría laboral (catlab) y etiquetando los casos según nivel educativo (educ).

En Vista de datos vemos si hay datos faltantes, las variables,  el número de sujetos, etc. En Vista de variables si nos parece conveniente, podemos hacer cambios acerca de los nombres de las variables, de los tipos de datos, de las etiquetas, de las medidas, etc.                     
Para realizar el análisis exploratorio con SPSS seleccionamos: Analizar-Estadísticos descriptivos- Explorar.
Pasamos las variables salario actual y meses desde el contrato en la casita de las variables dependientes y la variable categoría laboral en la casita de los factores (variable independiente) y etiquetamos los casos según la variable nivel educativo.

Figura 1. Cuadro de diálogo para el análisis exploratorio

A continuación, en Estadísticos (véase la Figura 2) podemos seleccionar que el programa nos calcule los intervalos de confianza, los estimadores robustos, los valores atípicos y los percentiles.

Figura 2. Cuadro de diálogo para el análisis exploratorio. Estadísticos

Con la opción Gráficos (Figura 3) podemos elegir que nos devuelva el diagrama de cajas, el diagrama de tallo y hojas, el  histograma, los gráficos con pruebas de normalidad.

Figura 3. Cuadro de diálogo para el análisis exploratorio. Gráficos

En Vista de datos y Vista de variables hemos podido proporcionar el tipo de medida, utilizando en nuestro análisis dos tipos de datos: cuantitativos (salario actual y  meses desde el contrato) como variables dependientes y cualitativos ( categoría laboral) como variable independiente. Nada mas empezando por aquí nos podemos hacer una idea del tipo de técnica o técnicas adecuadas para el análisis estadístico de las variables en cuestión. Entonces, por un lado, tenemos una relación de interdependencia con dos variables dependientes y una variable independiente, y por el otro lado tenemos las  variables dependientes cuantitativas (métricas) y la variable independiente cualitativa (no métrica), por lo cual la técnica adecuada sería el Análisis Multivariante de varianzas [véase 1, página 16-17]


Tabla 1. Resumen del procesamiento de los casos

Categoría laboral
Casos

Válidos
Perdidos
Total

N
Porcentaje
N
Porcentaje
N
Porcentaje
Salario actual
Administrativo
363
100,0%
0
0,0%
363
100,0%
Seguridad
27
100,0%
0
0,0%
27
100,0%
Directivo
84
100,0%
0
0,0%
84
100,0%
Meses desde el contrato
Administrativo
363
100,0%
0
0,0%
363
100,0%
Seguridad
27
100,0%
0
0,0%
27
100,0%
Directivo
84
100,0%
0
0,0%
84
100,0%

En la Tabla 1 se observa que no tenemos datos ausentes y que existen un total de 363 individuos trabajando como Administrativo, 27  individuos trabajando en Seguridad y 84 Directivos, tanto para la variable salario actual como para la variable meses desde el contrato.

Tabla 2. Estadísticos



En la Tabla 2 presentamos el análisis descriptivo para las dos variables dependientes en función de la variable independiente. 
En el primer caso,  salario actual, observamos que:
-         El salario medio de los administrativos es de 27.838$, el de los de seguridad es de 30.938$ y el  de los directivos es mucho más grande, es 63.977$;
-        El salario de los administrativos oscila entre un mínimo de 15.750$ y un máximo de 80.000$ (que significa una dispersión alta). El salario de los de seguridad oscila entre 24.300$ y 35.250$ (dispersión pequeña) y el salario de los directivos oscila entre 34.410$ y 135.000$ (dispersión alta).
-        Los administrativos tienen un coeficiente de asimetría de 1.905 positivo, igual que los directivos 1,181 frente a -0.368 el coeficiente de asimetría de los de seguridad. Sabiéndose que si el coeficiente de asimetría se aproxima a cero tenemos una distribución simétrica de los datos, si toma valore positivos (como es el caso de los administrativos y de los directivos) la asimetría es a la derecha,  y si toma valores negativos la asimetría es a la izquierda, aunque en el caso de los de seguridad con el valor de -0.368 se acerca bastante a una distribución simétrica [2];
-       Otro coeficiente que nos devuelve el programa es el curtosis, que se aplica a distribuciones unimodales y simétricas o levemente asimétricas, como puede ser el caso de la categoría seguridad. Sabemos que si el coeficiente de curtosis es igual a cero tenemos una distribución normal, si el coeficiente de curtosis es positivo significa una curva más apuntada (leptocúrtica) y si el coeficiente es  negativo la curva es menos apuntada (platicúrtica) [2].  En el caso salarial, los de seguridad  tienen un coeficiente de curtosis igual a 2.107 lo que significa una distribución leptocúrtica;
En el segundo caso, meses desde el contrato, observamos que:
-        Las medias de contrato, el mínimo y el máximo son casi iguales para las tres categorías;
-        Observamos que las medias son casi iguales a las medianas, lo que puede significar una distribución normal;
-          Los coeficientes de asimetría, -0,021 para los administrativos, -0,087 para los de seguridad y -0,164 para los directivos respalda la idea de normalidad en la distribución de los datos;
-        Y, tenemos los coeficientes de curtosis negativos lo que significa una distribución platicúrtica para las tres categorías de la variable meses desde el contrato;
Otro punto de partida, para entender la naturaleza de las variables, es caracterizar la forma de su distribución. Se puede obtener una perspectiva adecuada de las variables a través de: histogramas (representación gráfica de los datos que muestra la frecuencia de los casos en categorías de datos), diagramas de tallos y hojas, diagramas de cajas y bigotes, gráficos con pruebas de normalidad.
En este caso, analizaremos las diagramas de cajas (los boxplot). Se observa que en el caso de la variable salario actual por la categoría laboral hay diferencias significativas inter-categorías, tanto por la dispersión de los datos como por el valor de los mismos. 



Lo más indicado, acerca de la distribución de normalidad, sería interpretar los coeficientes de las pruebas de normalidad Kolmogorov-Smirnov (para n>=50) o Shapiro-Wilk (para n<50).


Tabla 3. Pruebas de normalidad 

Categoría laboral
Kolmogorov-Smirnova
Shapiro-Wilk

Estadístico
gl
Sig.
Estadístico
gl
Sig.
Salario actual
Administrativo
,107
363
,000
,882
363
,000
Seguridad
,276
27
,000
,818
27
,000
Directivo
,109
84
,016
,929
84
,000
Meses desde el contrato
Administrativo
,084
363
,000
,955
363
,000
Seguridad
,136
27
,200*
,948
27
,191
Directivo
,108
84
,017
,934
84
,000

La prueba de Kolmorov-Smirnov se realiza para contrastar la hipótesis nula de que la muestra procede de una distribución Normal, frente a la hipótesis alternativa de que la muestra no proviene de una distribución Normal, a un nivel alpha considerado. Si consideramos el nivel de significación de .05 vemos que solamente en el caso de la categoría seguridad para la variable meses desde el contrato no se puede rechazar la hipótesis nula, por lo cual en este caso la muestra puede provenir de una distribución Normal. En el resto de los casos, la hipótesis nula debe ser  rechazada, por lo cual nos quedamos con la hipótesis alternativa de que la muestra no proviene de una población normal.
Con la prueba de Shapiro-Wilk obtenemos resultados parecidos a los obtenidos con la prueba Kolmogorov-Smirnov.
En el caso de que no se cumplan los supuestos de normalidad multivariante se puede intentar hacer algunas transformaciones, pero en este caso ninguna de las transformaciones posibles en SPSS no han servido para mejorar los coeficientes de normalidad.

Figura 4. Transformaciones para la normalidad


Hablamos también de la prueba de homocedasticidad de Levene, que se usa para evaluar la homocedasticidad sobre una base univariante, donde se compara la varianza de una variable métrica (cuantitativa) a lo largo de los niveles de las variables no métricas (cualitativas).  Estos análisis son apropiados  en preparación, tanto del análisis de la varianza como del análisis multivariante de la varianza, donde las variables no métricas (cualitativas) son las variables independientes, como es en nuestro caso también.


Tabla 4. Pruebas de homocedasticidad entra-categorías

Estadístico de Levene
gl1
gl2
Sig.
Salario actual
Basándose en la media
59,733
2
471
,000
Basándose en la mediana.
51,189
2
471
,000
Basándose en la mediana y con gl corregido
51,189
2
240,176
,000
Basándose en la media recortada
56,201
2
471
,000
Meses desde el contrato
Basándose en la media
1,071
2
471
,344
Basándose en la mediana.
1,130
2
471
,324
Basándose en la mediana y con gl corregido
1,130
2
469,607
,324
Basándose en la media recortada
1,071
2
471
,343

En otras palabras, la prueba Levene, contrasta la hipótesis nula de homogeneidad de varianzas de la variable dependiente en los grupos o subpoblaciones de la variable independiente. Si el p-valor asociado al estadístico de contraste es menor que el nivel de significación fijado (normalmente .05) rechazaríamos la hipótesis nula de igualdad de varianzas y, con ello, obviaríamos uno de los supuestos paramétricos en los que se podría basar el análisis.

Tabla 5. Correlaciones 

Salario actual
Meses desde el contrato
Salario actual
Pearson Correlation
1
.084
Sig. (2-tailed)

.067
N
474
474
Meses desde el contrato
Pearson Correlation
.084
1
Sig. (2-tailed)
.067

N
474
474

En la Tabla 5 observamos que las variables dependientes son incorreladas.

En conclusión podemos decir que de los tres supuestos principales que presenta el Análisis multivariante de la varianza: normalidad multivariante, varianza homogenea y variables dependientes incorreladas, solamente se cumple el de variables dependientes incorreladas, por lo cual, en este caso, sobre estas variables el Análisis multivariante de la varianza carece de sentido. Una alternativa sería utilizar otras técnicas, más robustas a estos incumplimientos, como es el caso de las Redes Neuronales.


[1] Hair J. F. Jr., Anderson R. E., Tathan R. L., Black W. C., Análisis Multivariante, 5ª edición;  Editora Prentice Hall Iberia, Madrid, 1999

[2] Agustín Hernández Bastida, Curso elemental de Estadística Descriptiva, Ediciones Pirámide, 2008, Madrid, España.