Los medios de comunicación sociales o simplemente medios sociales (social media en inglés), son plataformas de comunicación en línea donde el contenido es creado por los propios usuarios mediante el uso de las tecnologías de la Web 2.0, que facilitan la edición, la publicación y el intercambio de información [1].
Figura
1. Términos frecuentes
|
En esta ocasión vamos a analizar los tweets publicados durante el mes de diciembre en la red social Twitter, tweets que contenían las palabras sierra nevada. Se han recuperado un total de 162 tweets, de lo cual 122 en castellano y 40 en inglés. Se han analizado por separado utilizándose las técnicas de Minería de Textos (Text Mining) disponibles hasta la fecha con el software de licencia gratuita R, versión 3.0.2.
Minería de Textos (Text Mining) es una de las ramas de la lingüística computacional que trata de obtener información y conocimiento a partir de conjuntos de datos que en principio no tienen un orden o no están dispuestos en origen para transmitir esa información.
Es una técnica clave en un mundo como el actual en el que continuamente se recogen datos desde distintas perspectivas y de muchos aspectos diferentes de todas las actividades propias de los seres humanos [2].
Dentro de los tweets en castellano, las palabras más utilizadas han sido: sierra y nevada (como éstas son las palabras utilizadas como filtro era lógico que sean las más frecuentes), granada (el lugar donde está situada la estación turística), nieve (principalmente lo que se busca en Sierra Nevada), precios@ (un atributo positivo), bonita(s) (también un atributo positivo), amig@ (por supuesto que no se puede disfrutar en sierra nevada (granada) de la nieve, de cosas preciosas y bonitas sin amig@s). La lista continúa, como bien se puede ver en la Figura 1 con: amo, lado, disco, etc.(el tamaño del término está directamente relacionado con la frecuencia que tiene en los tweets, más frecuencia más grande el tamaño).
Término
|
Frecuencia
Absoluta
|
sierra
|
144
|
nevada
|
128
|
granada
|
20
|
nieve
|
18
|
precios@
|
18
|
bonita(s)
|
17
|
amig@
|
16
|
amo
|
15
|
lado
|
15
|
disco
|
7
|
vista
|
7
|
noche(s)
|
6
|
partimos
|
5
|
ski
|
5
|
hoy
|
4
|
rio
|
4
|
turismo
|
4
|
vamos
|
4
|
……………
|
…………………
|
Tabla
1. Términos y frecuencias
A continuación podemos realizar un análisis
de
conglomerados (cluster analysis) y/o
un
análisis de correspondencia, y para ello nos quedamos con las primeras
18 palabras más utilizadas, palabras expuestas en la Tabla 1.
El análisis de conglomerados es la
denominación de un grupo de técnicas multivariantes cuyo principal propósito es
agrupar objetos basándose en las características que poseen. El análisis de
conglomerados clasifica objetos (es decir, sujetos, productos, u otras entidades) de tal forma que cada
objeto es muy parecido a los que hay en el conglomerado con respecto a algún
criterio de selección predeterminado. Los conglomerados de objetos resultados
deberían mostrar un alto grado de homogeneidad interna (dentro del
conglomerado) y un alto grado de heterogeneidad externa (entre conglomerados).
Por tanto, si la clasificación es acertada, los objetos dentro de los
conglomerados estarán muy próximos cuando se represente gráficamente, y los
diferentes grupos estarán muy alejados [3].
Per
category total:
|
Cluster 1
|
Cluster 2
|
Cluster 3
|
Corpus
total
|
|
Number of terms
|
94.0
|
105.0
|
231.0
|
430.0
|
|
Number of unique terms
|
5.0
|
7.0
|
14.0
|
18.0
|
|
Percent of unique terms
|
5.3
|
6.7
|
6.1
|
4.2
|
|
Number of hapax legomena
|
2.0
|
0.0
|
0.0
|
0.0
|
|
Percent of hapax legomena
|
2.1
|
0.0
|
0.0
|
0.0
|
|
Number of words
|
360.0
|
210.0
|
570.0
|
1140.0
|
|
Number of long words
|
85.0
|
30.0
|
124.0
|
239.0
|
|
Percent of long words
|
23.6
|
14.3
|
21.8
|
21.0
|
|
Number of very long words
|
30.0
|
0.0
|
26.0
|
56.0
|
|
Percent of very long words
|
8.3
|
0.0
|
4.6
|
4.9
|
|
Average word length
|
5.7
|
4.4
|
5.5
|
5.3
|
Tabla 2. Frecuencias por cada conglomerado y en el Corpus
Antes de comprobar si en nuestro caso la
clasificación ha sido o no acertada, observamos en la Figura 2, la distribución de
los tweets por cada conglomerado. En
la Tabla 2 tenemos expuesto algún
otro dato descriptivo. Como bien se puede ver nos hemos quedado con tres
conglomerados, en el primer conglomerado han entrado aproximadamente 35% de los
tweets, en el segundo conglomerado
poco más de 10% y en el tercer conglomerado poco más de la mitad de los tweets.
Figura
2. Distribución de los tweets por conglomerados
|
Una vez visto esto, queremos ver la frecuencia de
cada palabra en cada conglomerado. Para ello, podemos construir un diagrama de
barras, como en la Figura 3, donde
vemos que el primer conglomerado está compuesto por las palabras sierra (poco más de la mitad de las palabras), nevada (aproximadamente 45%), y precios@,
bonit@, amig@ (completa el conglomerado). El segundo conglomerado contiene
las palabras: sierra, nevada, precios@,
binit@, amig@, amo, lado (con más o menos la misma frecuencia) y el tercer conglomerados constituido por: sierra y nevada (con mayor frecuencia), granada
y nieve (poco menos del 10 %), disco, vista, noche, partimos, hoy, rio,
turismo, vamos completa el conglomerado (con menos de 5% de frecuencia). Lo
que está claro es que las palabras sierra
y nevada están presentes con bastante
frecuencia en cada uno de los conglomerados, con mayor frecuencia en el primer
conglomerado que está formado casi en totalidad por estos dos términos. Entonces,
podemos deducir que el segundo conglomerado reúne los siguientes atributos utilizados, en la misma frase, junto con sierra
y nevada: precios@, bonita(s), amig@,
amo y lado, más bien aspectos sentimentales (en
este caso positivos). El tercer conglomerado reúne en la misma frase, junto con
sierra y nevada: granada, nieve,
disco, vista, noche, partimos, hoy, rio, turismo y vamos, más bien aspectos físicos y naturales. Para ver el gráfico correspondiente a la Figura
3 en una ventana emergente pulse aquí: Figura 3. La distribución de los términos por conglomerados
Figura
3. Distribución de los términos por conglomerados
|
Hasta ahora, a partir de los 122 tweets escritos en castellano, nos hemos quedado con 18 palabras (las que más veces han sido utilizadas en los tweets) y las hemos agrupado en tres conglomerados, según la
frecuencia de los mismos y según los sujetos que han escrito los tweets. Hemos visto cuál han sido las palabras que han formado los tres conglomerados y la frecuencia (absoluta y
relativa) en cada uno de ellos. A continuación nos toca analizar el modelo.
Hierarchical
clustering of 122 documents using 18 terms (Ward's method with Chi-squared
distance).
|
Clusters
summary:
|
C1 C2 C3
|
Number
of documents 43.0
15.0 64.0
|
% of
documents 35.2
12.3 52.5
|
Within-cluster variance 7.1 2.4 23.5
|
Tabla 3.
Modelo del análisis de conglomerados
Vemos que para realizar el análisis de conglomerados se ha utilizado el algoritmo del
método jerárquico Ward y la distancia Chi-cuadrada. La varianza
entra-conglomerado es 0 para el segundo conglomerado, 7.1 en el primer
conglomerado y un poco grande en el tercer conglomerado, 23.5
En el método de Ward, la distancia entre dos conglomerados es la suma de los cuadrados entre dos conglomerados sumados para todas las variables. En cada paso del procedimiento de aglomeración, se minimiza la suma de los cuadrados dentro del conglomerado para todas las particiones obtenidas mediante la combinación de dos conglomerados en un paso previo [3].
En el método de Ward, la distancia entre dos conglomerados es la suma de los cuadrados entre dos conglomerados sumados para todas las variables. En cada paso del procedimiento de aglomeración, se minimiza la suma de los cuadrados dentro del conglomerado para todas las particiones obtenidas mediante la combinación de dos conglomerados en un paso previo [3].
Para la creación de un mapa perceptual tenemos que
realizar otro tipo de análisis, y en
este caso se trata del análisis de correspondencias. El
análisis de correspondencias difiere de otras técnicas de interdependencia en
su capacidad para utilizar tanto datos no-métricos como no-lineales. La
proximidad indica el nivel de asociación entre las categorías de filas o
columnas, en nuestro caso el nivel de asociación entre los sujetos y los 18 términos más utilizados en los 122 tweets escritos en castellano. Los
valores de similitud (denominados chi-cuadrado) ofrecen una medida
estandardizada de asociación y con estas
medidas de asociación el análisis de correspondencias crea una medida de distancia métrica y crea
dimensiones ortogonales sobre las cuales se pueden colocar las categorías para
tener más en cuenta la fortaleza de la asociación representada por las
distancias de la chi-cuadrado.
En la Figura 3,
se observa que el primer conglomerado está entre el segundo y el tercero, pero
mucho más cerca del tercero. Se puede ver claramente que los términos precios@, bonit@, lado, amig@ y amo forman un conglomerado muy bien
separado, y que los términos del tercer conglomerado están algo retirados del
centroide. Remarcamos también el agrupamiento, por un lado de los términos sierra, nevada y noche (cercano al centroide del primer conglomerado) y por otro
lado el agrupamiento de los otros términos vista,
partimos, hoy, ski, granada, disco, turismo, nieve, vamos y rio.
Para ver el gráfico correspondiente a la Figura 3 en una ventana emergente pulse aquí: Figura 4. Mapa perceptual términos y conglomerados
Para ver el gráfico correspondiente a la Figura 3 en una ventana emergente pulse aquí: Figura 4. Mapa perceptual términos y conglomerados
Figura
4. Mapa perceptual términos y conglomerados
|
Incluso se puede analizar en detalle cuál de los
sujetos son los que contribuyen a la
construcción de cada conglomerado. En este caso, nos vamos resumir a una
representación gráfica de un mapa perceptual como la que se puede ver en la Figura 5.
Para ver el gráfico correspondiente a la Figura 5 en una ventana emergente pulse aquí: Figura 5. Mapa perceptual sujetos
Para ver el gráfico correspondiente a la Figura 5 en una ventana emergente pulse aquí: Figura 5. Mapa perceptual sujetos
Figura
5. Mapa perceptual sujetos
|
Dentro de
los tweets escritos en inglés lo más utilizados han sido: sierra y nevada, snow, granada, etc (véase Tabla 4). Para analizar los tweets
escritos en inglés hemos comparando cada término (de cada tweet) con una lista de términos considerados positivos y otra de
términos considerados negativos.
Término
|
Frecuencia
absoluta
|
sierra
|
42
|
nevada
|
40
|
snow
|
18
|
granada
|
9
|
day
|
7
|
friend
|
7
|
love
|
7
|
go
|
6
|
good
|
6
|
nice
|
6
|
ski
|
6
|
family
|
5
|
today
|
5
|
Tabla 4.
Términos y frecuencias en inglés
Tras la comparación, se ha calculado para cada tweet una puntuación, resultando de esta
forma, tweets neutros y tweets positivos. Hay que remarcar que no ha
resultado ningún tweet negativo. Se han
considerado tweets neutros los que han obtenido una puntuación igual a zero y tweets
positivos los que han obtenido una puntuación igual o superior a uno (más
grande la puntuación, más positivos se pueden considerar los tweets). Los resultados se pueden ver en
la Figura 6.
Figura
6. Puntuación de sentimientos
|
En conclusión, podemos decir que, en la red social Twitter, a lo largo del mes de Diciembre
2013, los usuarios han hablado de Sierra
Nevada, en general, de manera positiva, destacando los siguientes términos: granada, nieve (snow), precios@, bonita(s), amig@ (friend), amo (love), lado,
disco, vista, noche(s), ski, good, nice,
family, today, etc. En el mismo tiempo, hemos visto que se pueden formar
dos conglomerados claros, el segundo y el tercero. El segundo se refiere a
aspectos sentimentales y el tercero a aspectos físicos y naturales.
[3] Joseph Hair F. Jr., Rolph E. Anderson, Ronald L. Tatham, William C. Black, Análisis Multivariante, Pearson, Madrid, 2007.
No hay comentarios:
Publicar un comentario