miércoles, 5 de febrero de 2014

Análisis exploratorio con IBM SPSS


El análisis exploratorio de los datos es un paso necesario, que habitualmente se descuida por parte de los analistas de datos, donde el examinador gana una comprensión básica de los datos y obtiene información acerca de la relación entre las variables. Un análisis cuidadoso de los datos conduce a una mejor predicción y a una evaluación más precisa de la dimensionalidad. Las técnicas multivariantes plantean grandes demandas al analista en la comprensión, interpretación y articulación de resultados basados en relaciones cuya complejidad está en continuo aumento. El conocimiento de las interrelaciones de variables puede ayudar enormemente en la especificación y refinamiento del modelo multivariante, así como proporcionar una perspectiva razonable para la interpretación de los resultados. [1]

Si tenemos recogidos datos sobre n empleados y queremos hacer un análisis estadístico, podemos empezar, por ejemplo, con un análisis exploratorio de las variables salario actual (salario) y meses desde el contrato (tiempemp), según categoría laboral (catlab) y etiquetando los casos según nivel educativo (educ).

En Vista de datos vemos si hay datos faltantes, las variables,  el número de sujetos, etc. En Vista de variables si nos parece conveniente, podemos hacer cambios acerca de los nombres de las variables, de los tipos de datos, de las etiquetas, de las medidas, etc.                     
Para realizar el análisis exploratorio con SPSS seleccionamos: Analizar-Estadísticos descriptivos- Explorar.
Pasamos las variables salario actual y meses desde el contrato en la casita de las variables dependientes y la variable categoría laboral en la casita de los factores (variable independiente) y etiquetamos los casos según la variable nivel educativo.

Figura 1. Cuadro de diálogo para el análisis exploratorio

A continuación, en Estadísticos (véase la Figura 2) podemos seleccionar que el programa nos calcule los intervalos de confianza, los estimadores robustos, los valores atípicos y los percentiles.

Figura 2. Cuadro de diálogo para el análisis exploratorio. Estadísticos

Con la opción Gráficos (Figura 3) podemos elegir que nos devuelva el diagrama de cajas, el diagrama de tallo y hojas, el  histograma, los gráficos con pruebas de normalidad.

Figura 3. Cuadro de diálogo para el análisis exploratorio. Gráficos

En Vista de datos y Vista de variables hemos podido proporcionar el tipo de medida, utilizando en nuestro análisis dos tipos de datos: cuantitativos (salario actual y  meses desde el contrato) como variables dependientes y cualitativos ( categoría laboral) como variable independiente. Nada mas empezando por aquí nos podemos hacer una idea del tipo de técnica o técnicas adecuadas para el análisis estadístico de las variables en cuestión. Entonces, por un lado, tenemos una relación de interdependencia con dos variables dependientes y una variable independiente, y por el otro lado tenemos las  variables dependientes cuantitativas (métricas) y la variable independiente cualitativa (no métrica), por lo cual la técnica adecuada sería el Análisis Multivariante de varianzas [véase 1, página 16-17]


Tabla 1. Resumen del procesamiento de los casos

Categoría laboral
Casos

Válidos
Perdidos
Total

N
Porcentaje
N
Porcentaje
N
Porcentaje
Salario actual
Administrativo
363
100,0%
0
0,0%
363
100,0%
Seguridad
27
100,0%
0
0,0%
27
100,0%
Directivo
84
100,0%
0
0,0%
84
100,0%
Meses desde el contrato
Administrativo
363
100,0%
0
0,0%
363
100,0%
Seguridad
27
100,0%
0
0,0%
27
100,0%
Directivo
84
100,0%
0
0,0%
84
100,0%

En la Tabla 1 se observa que no tenemos datos ausentes y que existen un total de 363 individuos trabajando como Administrativo, 27  individuos trabajando en Seguridad y 84 Directivos, tanto para la variable salario actual como para la variable meses desde el contrato.

Tabla 2. Estadísticos



En la Tabla 2 presentamos el análisis descriptivo para las dos variables dependientes en función de la variable independiente. 
En el primer caso,  salario actual, observamos que:
-         El salario medio de los administrativos es de 27.838$, el de los de seguridad es de 30.938$ y el  de los directivos es mucho más grande, es 63.977$;
-        El salario de los administrativos oscila entre un mínimo de 15.750$ y un máximo de 80.000$ (que significa una dispersión alta). El salario de los de seguridad oscila entre 24.300$ y 35.250$ (dispersión pequeña) y el salario de los directivos oscila entre 34.410$ y 135.000$ (dispersión alta).
-        Los administrativos tienen un coeficiente de asimetría de 1.905 positivo, igual que los directivos 1,181 frente a -0.368 el coeficiente de asimetría de los de seguridad. Sabiéndose que si el coeficiente de asimetría se aproxima a cero tenemos una distribución simétrica de los datos, si toma valore positivos (como es el caso de los administrativos y de los directivos) la asimetría es a la derecha,  y si toma valores negativos la asimetría es a la izquierda, aunque en el caso de los de seguridad con el valor de -0.368 se acerca bastante a una distribución simétrica [2];
-       Otro coeficiente que nos devuelve el programa es el curtosis, que se aplica a distribuciones unimodales y simétricas o levemente asimétricas, como puede ser el caso de la categoría seguridad. Sabemos que si el coeficiente de curtosis es igual a cero tenemos una distribución normal, si el coeficiente de curtosis es positivo significa una curva más apuntada (leptocúrtica) y si el coeficiente es  negativo la curva es menos apuntada (platicúrtica) [2].  En el caso salarial, los de seguridad  tienen un coeficiente de curtosis igual a 2.107 lo que significa una distribución leptocúrtica;
En el segundo caso, meses desde el contrato, observamos que:
-        Las medias de contrato, el mínimo y el máximo son casi iguales para las tres categorías;
-        Observamos que las medias son casi iguales a las medianas, lo que puede significar una distribución normal;
-          Los coeficientes de asimetría, -0,021 para los administrativos, -0,087 para los de seguridad y -0,164 para los directivos respalda la idea de normalidad en la distribución de los datos;
-        Y, tenemos los coeficientes de curtosis negativos lo que significa una distribución platicúrtica para las tres categorías de la variable meses desde el contrato;
Otro punto de partida, para entender la naturaleza de las variables, es caracterizar la forma de su distribución. Se puede obtener una perspectiva adecuada de las variables a través de: histogramas (representación gráfica de los datos que muestra la frecuencia de los casos en categorías de datos), diagramas de tallos y hojas, diagramas de cajas y bigotes, gráficos con pruebas de normalidad.
En este caso, analizaremos las diagramas de cajas (los boxplot). Se observa que en el caso de la variable salario actual por la categoría laboral hay diferencias significativas inter-categorías, tanto por la dispersión de los datos como por el valor de los mismos. 



Lo más indicado, acerca de la distribución de normalidad, sería interpretar los coeficientes de las pruebas de normalidad Kolmogorov-Smirnov (para n>=50) o Shapiro-Wilk (para n<50).


Tabla 3. Pruebas de normalidad 

Categoría laboral
Kolmogorov-Smirnova
Shapiro-Wilk

Estadístico
gl
Sig.
Estadístico
gl
Sig.
Salario actual
Administrativo
,107
363
,000
,882
363
,000
Seguridad
,276
27
,000
,818
27
,000
Directivo
,109
84
,016
,929
84
,000
Meses desde el contrato
Administrativo
,084
363
,000
,955
363
,000
Seguridad
,136
27
,200*
,948
27
,191
Directivo
,108
84
,017
,934
84
,000

La prueba de Kolmorov-Smirnov se realiza para contrastar la hipótesis nula de que la muestra procede de una distribución Normal, frente a la hipótesis alternativa de que la muestra no proviene de una distribución Normal, a un nivel alpha considerado. Si consideramos el nivel de significación de .05 vemos que solamente en el caso de la categoría seguridad para la variable meses desde el contrato no se puede rechazar la hipótesis nula, por lo cual en este caso la muestra puede provenir de una distribución Normal. En el resto de los casos, la hipótesis nula debe ser  rechazada, por lo cual nos quedamos con la hipótesis alternativa de que la muestra no proviene de una población normal.
Con la prueba de Shapiro-Wilk obtenemos resultados parecidos a los obtenidos con la prueba Kolmogorov-Smirnov.
En el caso de que no se cumplan los supuestos de normalidad multivariante se puede intentar hacer algunas transformaciones, pero en este caso ninguna de las transformaciones posibles en SPSS no han servido para mejorar los coeficientes de normalidad.

Figura 4. Transformaciones para la normalidad


Hablamos también de la prueba de homocedasticidad de Levene, que se usa para evaluar la homocedasticidad sobre una base univariante, donde se compara la varianza de una variable métrica (cuantitativa) a lo largo de los niveles de las variables no métricas (cualitativas).  Estos análisis son apropiados  en preparación, tanto del análisis de la varianza como del análisis multivariante de la varianza, donde las variables no métricas (cualitativas) son las variables independientes, como es en nuestro caso también.


Tabla 4. Pruebas de homocedasticidad entra-categorías

Estadístico de Levene
gl1
gl2
Sig.
Salario actual
Basándose en la media
59,733
2
471
,000
Basándose en la mediana.
51,189
2
471
,000
Basándose en la mediana y con gl corregido
51,189
2
240,176
,000
Basándose en la media recortada
56,201
2
471
,000
Meses desde el contrato
Basándose en la media
1,071
2
471
,344
Basándose en la mediana.
1,130
2
471
,324
Basándose en la mediana y con gl corregido
1,130
2
469,607
,324
Basándose en la media recortada
1,071
2
471
,343

En otras palabras, la prueba Levene, contrasta la hipótesis nula de homogeneidad de varianzas de la variable dependiente en los grupos o subpoblaciones de la variable independiente. Si el p-valor asociado al estadístico de contraste es menor que el nivel de significación fijado (normalmente .05) rechazaríamos la hipótesis nula de igualdad de varianzas y, con ello, obviaríamos uno de los supuestos paramétricos en los que se podría basar el análisis.

Tabla 5. Correlaciones 

Salario actual
Meses desde el contrato
Salario actual
Pearson Correlation
1
.084
Sig. (2-tailed)

.067
N
474
474
Meses desde el contrato
Pearson Correlation
.084
1
Sig. (2-tailed)
.067

N
474
474

En la Tabla 5 observamos que las variables dependientes son incorreladas.

En conclusión podemos decir que de los tres supuestos principales que presenta el Análisis multivariante de la varianza: normalidad multivariante, varianza homogenea y variables dependientes incorreladas, solamente se cumple el de variables dependientes incorreladas, por lo cual, en este caso, sobre estas variables el Análisis multivariante de la varianza carece de sentido. Una alternativa sería utilizar otras técnicas, más robustas a estos incumplimientos, como es el caso de las Redes Neuronales.


[1] Hair J. F. Jr., Anderson R. E., Tathan R. L., Black W. C., Análisis Multivariante, 5ª edición;  Editora Prentice Hall Iberia, Madrid, 1999

[2] Agustín Hernández Bastida, Curso elemental de Estadística Descriptiva, Ediciones Pirámide, 2008, Madrid, España.

No hay comentarios:

Publicar un comentario