jueves, 16 de enero de 2014

Sierra Nevada/Medios Sociales/Twitter/Minería de Textos/Análisis de Sentimientos

Los medios de comunicación sociales o simplemente medios sociales (social media en inglés), son plataformas de comunicación en línea donde el contenido es creado por los propios usuarios mediante el uso de las tecnologías de la Web 2.0, que facilitan la edición, la publicación y el intercambio de información [1].

Figura 1. Términos frecuentes


En esta ocasión vamos a analizar los tweets publicados durante el mes de diciembre en la red social Twitter, tweets que contenían las palabras sierra nevada. Se han recuperado un total de 162 tweets, de lo cual 122 en castellano y 40 en inglés. Se han analizado por separado utilizándose las técnicas de Minería de Textos (Text Mining) disponibles hasta la fecha con el software de licencia gratuita R, versión 3.0.2.

Minería de Textos (Text Mining) es una de las ramas de la lingüística computacional que trata de obtener información y conocimiento a partir de conjuntos de datos que en principio no tienen un orden o no están dispuestos en origen para transmitir esa información.

Es una técnica clave en un mundo como el actual en el que continuamente se recogen datos desde distintas perspectivas y de muchos aspectos diferentes de todas las actividades propias de los seres humanos [2].

Dentro de los tweets en castellano, las palabras más utilizadas han sido: sierra y nevada (como éstas son las palabras utilizadas como filtro era lógico que sean las más frecuentes), granada (el lugar donde está situada la estación turística), nieve (principalmente lo que se busca en Sierra Nevada), precios@ (un atributo positivo), bonita(s) (también un atributo positivo), amig@ (por supuesto que no se puede disfrutar en sierra nevada (granada) de la nieve, de cosas preciosas y bonitas sin amig@s). La lista continúa, como bien se puede ver en la Figura 1  con: amo, lado, disco, etc.(el tamaño del término está directamente relacionado con la frecuencia que tiene en los tweets, más frecuencia más grande el tamaño).



Término
Frecuencia
Absoluta
sierra
144
nevada
128
granada
20
nieve
18
precios@
18
bonita(s)
17
amig@
16
amo
15
lado
15
disco
7
vista
7
noche(s)
6
partimos
5
ski
5
hoy
4
rio
4
turismo
4
vamos
4
……………
…………………

Tabla 1. Términos y frecuencias

A continuación podemos realizar un análisis de conglomerados (cluster analysis)  y/o un análisis de correspondencia, y para ello nos quedamos con las primeras 18 palabras más utilizadas, palabras expuestas en la Tabla 1.

El análisis de conglomerados es la denominación de un grupo de técnicas multivariantes cuyo principal propósito es agrupar objetos basándose en las características que poseen. El análisis de conglomerados clasifica objetos (es decir, sujetos, productos,  u otras entidades) de tal forma que cada objeto es muy parecido a los que hay en el conglomerado con respecto a algún criterio de selección predeterminado. Los conglomerados de objetos resultados deberían mostrar un alto grado de homogeneidad interna (dentro del conglomerado) y un alto grado de heterogeneidad externa (entre conglomerados). Por tanto, si la clasificación es acertada, los objetos dentro de los conglomerados estarán muy próximos cuando se represente gráficamente, y los diferentes grupos estarán muy alejados [3].

Per category total:              
Cluster 1
Cluster 2
Cluster 3
Corpus total
Number of terms             
94.0
105.0
231.0
430.0
Number of unique terms       
5.0
7.0
14.0
18.0
Percent of unique terms      
5.3
6.7
6.1
4.2
Number of hapax legomena     
2.0
0.0
0.0
0.0
Percent of hapax legomena    
2.1

0.0
0.0
0.0
Number of words            
360.0
210.0
570.0
1140.0
Number of long words        
85.0
30.0
124.0
239.0
Percent of long words       
23.6
14.3
21.8
21.0
Number of very long words   
30.0
0.0
26.0
56.0
Percent of very long words   
8.3
0.0
4.6
4.9
Average word length          
5.7
4.4
5.5
5.3

Tabla 2. Frecuencias  por cada conglomerado y en el Corpus

Antes de comprobar si en nuestro caso la clasificación ha sido o no acertada, observamos en la Figura 2, la distribución de los tweets por cada conglomerado. En la Tabla 2 tenemos expuesto algún otro dato descriptivo. Como bien se puede ver nos hemos quedado con tres conglomerados, en el primer conglomerado han entrado aproximadamente 35% de los tweets, en el segundo conglomerado poco más de 10% y en el tercer conglomerado poco más de la mitad de los tweets.

Figura 2. Distribución de los tweets por conglomerados

Una vez visto esto, queremos ver la frecuencia de cada palabra en cada conglomerado. Para ello, podemos construir un diagrama de barras, como en la Figura 3, donde vemos que el primer conglomerado está compuesto por las palabras sierra (poco más de la mitad  de las palabras), nevada (aproximadamente 45%), y precios@, bonit@, amig@ (completa el conglomerado). El segundo conglomerado contiene las palabras: sierra, nevada, precios@, binit@, amig@, amo, lado (con más o menos la misma frecuencia)  y el tercer conglomerados constituido por: sierra y nevada (con mayor frecuencia), granada y nieve (poco menos del 10 %), disco, vista, noche, partimos, hoy, rio, turismo, vamos completa el conglomerado (con menos de 5% de frecuencia). Lo que está claro es que las palabras sierra y nevada están presentes con bastante frecuencia en cada uno de los conglomerados, con mayor frecuencia en el primer conglomerado que está formado casi en totalidad por estos dos términos. Entonces, podemos deducir que el segundo conglomerado reúne los siguientes atributos utilizados, en la misma frase, junto con sierra y nevada: precios@, bonita(s), amig@, amo y lado, más bien aspectos sentimentales (en este caso positivos). El tercer conglomerado reúne en la misma frase, junto con sierra y nevada: granada, nieve, disco, vista, noche, partimos, hoy, rio, turismo y vamos, más bien aspectos físicos y naturalesPara ver el gráfico correspondiente a la Figura 3 en una ventana emergente pulse aquí: Figura 3. La distribución de los términos por conglomerados

Figura 3. Distribución de los términos por conglomerados

Hasta ahora, a partir de los 122 tweets escritos en castellano, nos hemos quedado con 18 palabras (las que más veces han sido utilizadas en los tweets) y las hemos agrupado en tres conglomerados,  según la frecuencia de los mismos y según los sujetos que han escrito los tweets. Hemos visto cuál han sido las palabras que han formado los tres conglomerados y la frecuencia (absoluta y relativa) en cada uno de ellos. A continuación nos toca analizar el modelo.

Hierarchical clustering of 122 documents using 18 terms (Ward's method with Chi-squared distance).
Clusters summary:
                                                  C1    C2      C3
Number of documents          43.0   15.0   64.0
% of documents                    35.2   12.3   52.5
Within-cluster variance          7.1    2.4    23.5

Tabla 3. Modelo del análisis de conglomerados

Vemos que para realizar el análisis de conglomerados se ha utilizado el algoritmo del método jerárquico Ward y la distancia Chi-cuadrada. La varianza entra-conglomerado es 0 para el segundo conglomerado, 7.1 en el primer conglomerado y un poco grande en el tercer conglomerado, 23.5
En el método de Ward, la distancia entre dos conglomerados es la suma de los cuadrados entre dos conglomerados sumados para todas las variables. En cada paso del procedimiento de aglomeración, se minimiza la suma de los cuadrados dentro del conglomerado para todas las particiones obtenidas mediante la combinación de dos conglomerados en un paso previo [3].
Para la creación de un mapa perceptual tenemos que realizar otro tipo de análisis, y  en este caso se trata del análisis de correspondencias. El análisis de correspondencias difiere de otras técnicas de interdependencia en su capacidad para utilizar tanto datos no-métricos como no-lineales. La proximidad indica el nivel de asociación entre las categorías de filas o columnas, en nuestro caso el nivel de asociación entre los sujetos y los 18 términos más utilizados en los 122 tweets escritos en castellano. Los valores de similitud (denominados chi-cuadrado) ofrecen una medida estandardizada de asociación  y con estas medidas de asociación el análisis de correspondencias  crea una medida de distancia métrica y crea dimensiones ortogonales sobre las cuales se pueden colocar las categorías para tener más en cuenta la fortaleza de la asociación representada por las distancias de la chi-cuadrado.
En la Figura 3, se observa que el primer conglomerado está entre el segundo y el tercero, pero mucho más cerca del tercero. Se puede ver claramente que los términos precios@, bonit@, lado, amig@ y amo forman un conglomerado muy bien separado, y que los términos del tercer conglomerado están algo retirados del centroide. Remarcamos también el agrupamiento, por un lado de los términos sierra, nevada y noche (cercano al centroide del primer conglomerado) y por otro lado el agrupamiento de los otros términos vista, partimos, hoy, ski, granada, disco, turismo, nieve, vamos y rio. 
Para ver el gráfico correspondiente a la Figura 3 en una ventana emergente pulse aquí: Figura 4. Mapa perceptual términos y conglomerados

Figura 4. Mapa perceptual términos y conglomerados

Incluso se puede analizar en detalle cuál de los sujetos son los  que contribuyen a la construcción de cada conglomerado. En este caso, nos vamos resumir a una representación gráfica de un mapa perceptual como la que se puede ver en la Figura 5.
Para ver el gráfico correspondiente a la Figura 5 en una ventana emergente pulse aquí: Figura 5. Mapa perceptual sujetos

Figura 5. Mapa perceptual sujetos


Dentro de los tweets escritos en inglés lo más utilizados han sido: sierra y nevada, snow, granada, etc (véase Tabla 4). Para analizar  los tweets escritos en inglés hemos comparando cada término (de cada tweet) con una lista de términos considerados positivos y otra de términos considerados negativos. 



Término
Frecuencia absoluta
sierra
42
nevada
40
snow
18
granada
9
day
7
friend
7
love
7
go
6
good
6
nice
6
ski
6
family
5
today
5



Tabla 4. Términos y frecuencias en inglés

Tras la comparación, se ha calculado para cada tweet una puntuación, resultando de esta forma, tweets neutros y tweets positivos. Hay que remarcar que no ha resultado ningún tweet negativo. Se han considerado  tweets neutros los que han obtenido una puntuación igual a zero y tweets positivos los que han obtenido una puntuación igual o superior a uno (más grande la puntuación, más positivos se pueden considerar los tweets). Los resultados se pueden ver en la Figura 6. 



Figura 6. Puntuación de sentimientos  




En conclusión, podemos decir que, en la red social Twitter, a lo largo del mes de Diciembre 2013, los usuarios han hablado de Sierra Nevada, en general, de manera positiva, destacando los siguientes términos: granada, nieve (snow), precios@, bonita(s), amig@ (friend), amo (love), lado, disco, vista, noche(s),  ski, good, nice, family, today, etc. En el mismo tiempo, hemos visto que se pueden formar dos conglomerados claros, el segundo y el tercero. El segundo se refiere a aspectos sentimentales y el tercero a aspectos físicos y naturales.







[3] Joseph Hair F. Jr., Rolph E. Anderson, Ronald L. Tatham, William C. Black, Análisis Multivariante, Pearson, Madrid, 2007.

No hay comentarios:

Publicar un comentario