miércoles, 5 de febrero de 2014

Cubos OLAP con IBM SPSS

Después de recoger datos sobre distintas variables de interés, como: sexo, edad, número de años de escolarización, número de años de escolarización del padre, número de años de escolarización del cónyugue, puntuación de prestigio profesional, categoría ocupacional, obedecer es importante, trabajar duro es importante, podemos realizar, fácilmente, un resumen estadístico de la información almacenada mediante la utilización de Cubos OLAP.
                                           
Un cubo OLAP, OnLine Analytical Processing o procesamiento Analítico en Línea, término acuñado por  Edgar Frank Codd de EF Codd & Associates, encargado por Arbor Software (en la actualidad Hyperion Solutions), es una base de datos multidimensional, en la cual el almacenamiento físico de los datos se realiza en un vector multidimensional. Los cubos OLAP se pueden considerar como una ampliación de las dos dimensiones de una hoja de cálculo.  [1]

En los sistemas OLAP la información ya no se almacena en tablas, sino en cubos de n dimensiones. Se construye a partir de una tabla principal, llamada tabla de hechos, que enumera los hechos ciertos en el sistema. A ella se va añadiendo una dimensión por relación cuya información que se quiera almacenar, de manera que todas están pre calculadas en el sistema.
Los sistemas OLAP son los que implementan finalmente los llamados Data Warehouse o depósitos de datos que podemos definir como un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.  

En IBM SPSS obtenemos cubos OLAP mediante el menú: Analizar-Informes- Cubos –OLAP. En el  cuadro de diálogo obtenido tenemos que introducir en primer lugar  las variables de resumen y las variables de agrupación. Mencionamos que las variables de resumen deben ser cuantitativas (variables continuas medidas en una escala de intervalo o de razón) y las variables de agrupación deben ser categóricas (los valores de las variables categóricas pueden ser numéricos). Nosotros seleccionamos como variables resumen las variables: edad, educ, educpad, educesp y prestg, y como variables de agrupación seleccionamos las variables: sexo, catocu, obedecer y trabajar.

Figura 1. Cuadro de diálogo para Cubos OLAP: Variables

Una vez seleccionadas las variables, con el botón Estadísticos podemos calcular una serie de estadísticos, como bien se puede ver en la siguiente ventana.  Nosotros, para la práctica, vamos a seleccionar algunos de estos estadísticos, pero hay que tener en cuenta que los estadísticos se seleccionan en función de las características de los datos, y en función de los objetivos finales del  análisis estadístico. 

Figura 2. Cuadro de diálogo para Cubos OLAP: Estadísticos

A continuación podemos pedir mediante el botón Diferencias que nos calcule el porcentaje y las diferencias aritméticas entre las variables de resumen o entre los grupos definidos por una variable de agrupación. 
 
Figura 3. Cuadro de diálogo para Cubos OLAP: Diferencias 
Antes de aceptar todos estos órdenes podemos seleccionar con el botón Título el  título del cubo y algún subtítulo si queremos.


Figura 4. Cuadro de diálogo para Cubos OLAP: Títulos

En la Tabla 1 tenemos la primera tabla devuelta por el SPSS, donde tenemos los estadísticos pedidos.
-       Las medias de cada variable resumen con sus desviaciones típicas;
-       Los coeficientes de asimetría, que nos dicen si las distribuciones, de cada variable, son normales [2]. En tal caso el coeficiente es igual a cero, donde se observa que las variables que más se acerca a la normalidad son las educ, educpad y educesp, las otras dos tienen una cola a la derecha.
-       El coeficiente de curtosis mide el grado de apuntamiento de la curva de distribución, por si los datos se agrupan o no en torno a un punto central [2] Si el coeficiente es igual a cero la distribución es normal (mesocúrtica), como puede ser el caso de la variable educpad. Si el coeficiente de curtosis es positivo, como es el caso de la variable educ y educcesp, significa que  las observaciones se concentran más (leptocúrtica), y presenta cola más larga que en el caso de la distribución normal, y en el caso en que los coeficientes son negativos, como es el caso de la variable edad, e incluso de la variable prestg, hay menos cola (platicúrtica).
-       También tenemos los coeficientes de varianza, que miden la dispersión en torno a la media;
-        La mediana que es el valor que tiene por encima y por debajo la mitad de los valores;

-       Varios errores de cálculo.


N
Media
Desv. típ.
% de la suma total
% del total de N
Cur
tosis
Error típ. de la curtosis
Asimetría
Error típ. de la asimetría
Varianza
Mediana
Error típ. de la media
Edad
916
45,3
17,17
100%
100%
-,656
,161
,587
,081
295,0
41
,568
Educ.
915
13,0
2,93
100%
100%
,829
,162
-,187
,081
8,6
12
,097
Educpad.
651
10,9
4,11
100%
100%
-,095
,191
-,160
,096
16,9
12
,161
Educesp.
513
13,0
2,98
100%
100%
1,184
,215
-,203
,108
8,9
12
,132
Prestg
917
43,3
13,03
100%
100%
-,364
,161
,430
,081
169,9
42
,431
Edad-educación
0,1%
247%
485%
0,0%
0,0%
-179%
-0,1%
-413%
-0,1%
3322%
241%
484%
 Tabla 1. Resultados estadísticos
    
    Pero, en la Tabla 1 se presentan los estadísticos deseados solamente para el Total, y si queremos obtener los valores en función de las variables agrupadas, previamente seleccionadas (por cada categoría o por total), solamente tenemos que pinchar en la tabla y seleccionar en la nueva ventana en función de que variable queremos los estadísticos. La Tabla Pivote Cubos OLAP es de la siguiente forma:.

Figura 5. Tabla pivote para Cubos OLAP



[2] Agustín Hernández Bastida, Curso elemental de Estadística Descriptiva, Ediciones Pirámide, Madrid, España, 2008

1 comentario:

  1. Slots | Play With £20 Bonus at Lucky Club Online Casino
    Lucky Club is a new online casino with the best welcome bonuses and offers luckyclub.live to keep you entertained at the casino. The site has over 500+ casino games.

    ResponderEliminar