El análisis
exploratorio de los datos es un paso necesario, que habitualmente se
descuida por parte de los analistas de datos, donde el examinador gana una
comprensión básica de los datos y obtiene información acerca de la relación
entre las variables. Un análisis cuidadoso de los datos conduce a una mejor
predicción y a una evaluación más precisa de la dimensionalidad. Las técnicas
multivariantes plantean grandes demandas al analista en la comprensión,
interpretación y articulación de resultados basados en relaciones cuya
complejidad está en continuo aumento. El conocimiento de las interrelaciones de
variables puede ayudar enormemente en la especificación y refinamiento del
modelo multivariante, así como proporcionar una perspectiva razonable para la
interpretación de los resultados. [1]
Si tenemos recogidos datos sobre n empleados y queremos hacer un análisis
estadístico, podemos empezar, por ejemplo, con un análisis exploratorio de las
variables salario actual
(salario) y meses desde el contrato (tiempemp), según categoría laboral (catlab) y etiquetando los casos
según nivel educativo (educ).
En Vista de datos vemos si hay datos
faltantes, las variables, el número de
sujetos, etc. En Vista de variables si
nos parece conveniente, podemos hacer cambios acerca de los nombres de las
variables, de los tipos de datos, de las etiquetas, de las medidas, etc.
Para realizar el análisis
exploratorio con SPSS seleccionamos: Analizar-Estadísticos descriptivos- Explorar.
Pasamos las variables salario actual y meses desde el contrato en la casita de las variables dependientes y la variable categoría
laboral en la casita de los
factores (variable independiente) y etiquetamos los casos según la variable nivel educativo.
Figura 1. Cuadro de diálogo para el análisis exploratorio |
A continuación, en Estadísticos (véase la Figura 2) podemos seleccionar que el programa nos calcule los intervalos de confianza, los estimadores robustos, los valores atípicos y los percentiles.
Figura 2. Cuadro de diálogo para el análisis exploratorio. Estadísticos |
Figura 3. Cuadro de diálogo para el análisis exploratorio. Gráficos |
En Vista de datos y Vista de variables hemos podido proporcionar el tipo de medida, utilizando en nuestro análisis dos tipos de datos: cuantitativos (salario actual y meses desde el contrato) como variables dependientes y cualitativos ( categoría laboral) como variable independiente. Nada mas empezando por aquí nos podemos hacer una idea del tipo de técnica o técnicas adecuadas para el análisis estadístico de las variables en cuestión. Entonces, por un lado, tenemos una relación de interdependencia con dos variables dependientes y una variable independiente, y por el otro lado tenemos las variables dependientes cuantitativas (métricas) y la variable independiente cualitativa (no métrica), por lo cual la técnica adecuada sería el Análisis Multivariante de varianzas [véase 1, página 16-17]
Tabla 1. Resumen del procesamiento
de los casos
|
|||||||
Categoría
laboral
|
Casos
|
||||||
Válidos
|
Perdidos
|
Total
|
|||||
N
|
Porcentaje
|
N
|
Porcentaje
|
N
|
Porcentaje
|
||
Salario actual
|
Administrativo
|
363
|
100,0%
|
0
|
0,0%
|
363
|
100,0%
|
Seguridad
|
27
|
100,0%
|
0
|
0,0%
|
27
|
100,0%
|
|
Directivo
|
84
|
100,0%
|
0
|
0,0%
|
84
|
100,0%
|
|
Meses desde el contrato
|
Administrativo
|
363
|
100,0%
|
0
|
0,0%
|
363
|
100,0%
|
Seguridad
|
27
|
100,0%
|
0
|
0,0%
|
27
|
100,0%
|
|
Directivo
|
84
|
100,0%
|
0
|
0,0%
|
84
|
100,0%
|
En la Tabla 1 se observa que no tenemos datos ausentes y que existen un
total de 363 individuos trabajando como Administrativo, 27 individuos trabajando en Seguridad y 84 Directivos,
tanto para la variable salario actual como para la variable meses desde el contrato.
Tabla 2. Estadísticos
En la Tabla 2 presentamos el análisis
descriptivo para las dos variables dependientes en función de la variable
independiente.
En el primer
caso, salario actual, observamos que:
- El
salario medio de los administrativos es de 27.838$, el de los
de seguridad es de 30.938$ y el de los directivos
es mucho más grande, es 63.977$;
- El salario de los administrativos
oscila entre un mínimo de 15.750$ y
un máximo de 80.000$ (que significa
una dispersión alta). El salario de los de seguridad
oscila entre 24.300$ y 35.250$ (dispersión pequeña) y el salario de los directivos oscila entre 34.410$ y
135.000$ (dispersión alta).
- Los
administrativos tienen un coeficiente de
asimetría de 1.905 positivo,
igual que los directivos 1,181 frente
a -0.368 el coeficiente de asimetría
de los de seguridad. Sabiéndose que si el coeficiente de asimetría se aproxima
a cero tenemos una distribución simétrica de los datos, si toma valore
positivos (como es el caso de los administrativos
y de los directivos) la asimetría es
a la derecha, y si toma valores
negativos la asimetría es a la izquierda, aunque en el caso de los de seguridad
con el valor de -0.368 se acerca
bastante a una distribución simétrica [2];
- Otro coeficiente que nos devuelve el programa es el curtosis, que se aplica a
distribuciones unimodales y simétricas o levemente asimétricas, como puede ser
el caso de la categoría seguridad. Sabemos que si el coeficiente de curtosis es
igual a cero tenemos una distribución normal, si el coeficiente de curtosis es
positivo significa una curva más apuntada (leptocúrtica) y si el coeficiente
es negativo la curva es menos apuntada
(platicúrtica) [2]. En el caso salarial, los de seguridad tienen un coeficiente de curtosis igual a 2.107 lo que significa una distribución
leptocúrtica;
En el segundo caso, meses desde el contrato, observamos que:
- Las medias
de contrato, el mínimo y el máximo son casi iguales para las tres categorías;
- Observamos que las medias son casi iguales a las medianas, lo que puede significar una
distribución normal;
-
Los coeficientes
de asimetría, -0,021 para los administrativos, -0,087 para los de seguridad
y -0,164 para los directivos respalda la idea de normalidad en la distribución
de los datos;
- Y, tenemos los coeficientes
de curtosis negativos lo que significa una distribución platicúrtica para
las tres categorías de la variable meses
desde el contrato;
Otro punto de partida, para
entender la naturaleza de las variables, es caracterizar la forma de su
distribución. Se
puede obtener una perspectiva adecuada de las variables a través de: histogramas (representación gráfica de
los datos que muestra la frecuencia de los casos en categorías de datos), diagramas de tallos y hojas, diagramas de cajas y bigotes, gráficos con pruebas de normalidad.
En este caso, analizaremos las diagramas de cajas (los boxplot). Se observa que en el caso de la
variable salario actual por la categoría laboral hay diferencias
significativas inter-categorías, tanto por la dispersión de los datos como por
el valor de los mismos.
Lo más indicado, acerca de la distribución de normalidad,
sería interpretar los coeficientes de las pruebas de normalidad Kolmogorov-Smirnov (para n>=50) o Shapiro-Wilk (para n<50).
Tabla 3. Pruebas de normalidad
|
|||||||
Categoría laboral
|
Kolmogorov-Smirnova
|
Shapiro-Wilk
|
|||||
Estadístico
|
gl
|
Sig.
|
Estadístico
|
gl
|
Sig.
|
||
Salario
actual
|
Administrativo
|
,107
|
363
|
,000
|
,882
|
363
|
,000
|
Seguridad
|
,276
|
27
|
,000
|
,818
|
27
|
,000
|
|
Directivo
|
,109
|
84
|
,016
|
,929
|
84
|
,000
|
|
Meses
desde el contrato
|
Administrativo
|
,084
|
363
|
,000
|
,955
|
363
|
,000
|
Seguridad
|
,136
|
27
|
,200*
|
,948
|
27
|
,191
|
|
Directivo
|
,108
|
84
|
,017
|
,934
|
84
|
,000
|
La prueba de Kolmorov-Smirnov
se realiza para contrastar la hipótesis nula de que la muestra procede de una
distribución Normal, frente a la hipótesis alternativa de que la muestra no
proviene de una distribución Normal, a un nivel alpha considerado. Si
consideramos el nivel de significación de .05 vemos que solamente en el caso de la categoría seguridad para la variable meses desde el contrato no se puede
rechazar la hipótesis nula, por lo cual en este caso la muestra puede provenir
de una distribución Normal. En el resto de los casos, la hipótesis nula debe
ser rechazada, por lo cual nos quedamos
con la hipótesis alternativa de que la muestra no proviene de una población
normal.
Con la prueba de Shapiro-Wilk obtenemos resultados parecidos a los obtenidos con la prueba Kolmogorov-Smirnov.
En el caso de que no se cumplan los supuestos de
normalidad multivariante se puede intentar hacer algunas transformaciones, pero
en este caso ninguna de las transformaciones posibles en SPSS no han servido para mejorar los coeficientes de normalidad.
Figura 4. Transformaciones para la normalidad |
Hablamos también
de la prueba de homocedasticidad de
Levene, que se usa para evaluar la homocedasticidad sobre una base
univariante, donde se compara la varianza de una variable métrica
(cuantitativa) a lo largo de los niveles de las variables no métricas
(cualitativas). Estos análisis son
apropiados en preparación, tanto del
análisis de la varianza como del análisis multivariante de la varianza, donde
las variables no métricas (cualitativas) son las variables independientes, como
es en nuestro caso también.
Tabla 4. Pruebas de homocedasticidad entra-categorías
|
|||||
Estadístico
de Levene
|
gl1
|
gl2
|
Sig.
|
||
Salario
actual
|
Basándose
en la media
|
59,733
|
2
|
471
|
,000
|
Basándose
en la mediana.
|
51,189
|
2
|
471
|
,000
|
|
Basándose
en la mediana y con gl corregido
|
51,189
|
2
|
240,176
|
,000
|
|
Basándose
en la media recortada
|
56,201
|
2
|
471
|
,000
|
|
Meses
desde el contrato
|
Basándose
en la media
|
1,071
|
2
|
471
|
,344
|
Basándose
en la mediana.
|
1,130
|
2
|
471
|
,324
|
|
Basándose
en la mediana y con gl corregido
|
1,130
|
2
|
469,607
|
,324
|
|
Basándose
en la media recortada
|
1,071
|
2
|
471
|
,343
|
En otras palabras, la prueba Levene, contrasta la
hipótesis nula de homogeneidad de varianzas de la variable dependiente en los
grupos o subpoblaciones de la variable independiente. Si el p-valor asociado al
estadístico de contraste es menor que el nivel de significación fijado (normalmente
.05) rechazaríamos la hipótesis nula de igualdad de varianzas y, con ello, obviaríamos
uno de los supuestos paramétricos en los que se podría basar el análisis.
Tabla 5. Correlaciones
|
|||
Salario
actual
|
Meses
desde el contrato
|
||
Salario actual
|
Pearson Correlation
|
1
|
.084
|
Sig. (2-tailed)
|
.067
|
||
N
|
474
|
474
|
|
Meses desde el contrato
|
Pearson Correlation
|
.084
|
1
|
Sig. (2-tailed)
|
.067
|
||
N
|
474
|
474
|
En la Tabla 5 observamos que las variables dependientes son incorreladas.
En conclusión podemos decir que de los tres supuestos principales que presenta el Análisis multivariante de la varianza: normalidad multivariante, varianza homogenea y variables dependientes incorreladas, solamente se cumple el de variables dependientes incorreladas, por lo cual, en este caso, sobre estas variables el Análisis multivariante de la varianza carece de sentido. Una alternativa sería utilizar otras técnicas, más robustas a estos incumplimientos, como es el caso de las Redes Neuronales.
[1] Hair
J. F. Jr., Anderson R. E., Tathan R. L., Black W. C., Análisis Multivariante, 5ª edición; Editora Prentice Hall Iberia, Madrid, 1999
[2] Agustín
Hernández Bastida, Curso elemental de
Estadística Descriptiva, Ediciones Pirámide, 2008, Madrid, España.
No hay comentarios:
Publicar un comentario