Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el...
Transcript of Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el...
324
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA
MEDINA, Gricelda*†, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío
Recibido 17 de Julio, 2015; Aceptado17 de Septiembre, 2015
Resumen
En este trabajo se aplican métodos de aprendizaje no supervisado
de minería de datos, para analizar los resultados de una encuesta de
opinión sobre el acoso escolar, en la Universidad Tecnológica del
Norte de Aguascalientes (UTNA). El estudio fue aplicado a 131
estudiantes en la carrera de Tecnologías de la Información y la
Comunicación. En base a los resultados obtenidos, se descubrió la
formación de 2 grupos con diferentes percepciones sobre el acoso
escolar. Un grupo de alumnos consideran que el acoso escolar se
genera principalmente porque tienen problemas en la familia, y el
otro grupo, cree que la intimidación se origina en la calle, por
juntarse con amigos que tienen un comportamiento negativo.
El objetivo del estudio, es el uso, de métodos de
aprendizaje supervizado aplicados al análisis descriptivo de datos,
específicamente para este caso de estudio, los datos de una encuesta
sobre percepción del acoso escolar. La metodología empleada para
el desarrollo de este estudio, incluyó primeramente el diseño de la
encuesta, resultado de la consulta de diversas fuentes de dicadas al
tema del acoso escolar. Después, se ingresaron los datos de la
encuesta, en el paquete desarrollado por la plataforma del programa
R, llamado R-Comander, y una vez procesados los datos por esta
herramienta se procedió al análisis de los resultados.
Minería de datos, KDD, clusterización jerárquica (CJ), K-
medias, acoso escolar
Abstract
In this work we applied unsupervised learning methods, to analyze
the results of an opinion survey about bullying in La Universidad
Tecnológica del Norte de Aguascalientes (UTNA). This study was
applied to 131 students in the career of Communication
Technologies at the University. We found the formation of 2 groups
with different perceptions about bullying. In the first group of
students they believe that bullying is mainly generated because they
have family problems, and the other group, believes that bullying
originates in the street, as result of, they come together with people
who have a negative behavior.
The objective of this study, is the use of unsupervised
learning methods, applied to data analysis, specifically for this
study, data from a survey on bullying perception. The methodology
used to develop this study icluded, first the survey design on
bullying, consulting many sources dedicates specifically on the
bullying topic. After that, the data were introduced in the package
data mining platform developed by R program, called R-Comander,
and once the data was processed by the tool we proceeded to
analyze the results.
Data mining, KDD, hierarchical clustering, K-medias, bullying
Citación: MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío. Clusterización en minería de
datos: CJ y K-Medias aplicados a una encuesta de opinión sobre acoso escolar en la UTNA. Revista de Análisis
Cuantitativo y Estadístico 2015, 2-4: 324-337
* Correspondencia al Autor (Correo Electrónico: [email protected])
†Investigador contribuyendo como primer autor
© ECORFAN-Bolivia www.ecorfan.org/bolivia
325
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Introducción
En la actualidad existe una creciente necesidad
de generar nuevas teorías y herramientas
computacionales, que ayuden a extraer
información y conocimiento útil, de los grandes
volúmenes de datos existentes, debido al uso
constante de los avances tecnológicos en el
manejo y generación de información. Estas
teorías y herramientas son temas concernientes
al proceso de descubrimiento de conocimiento
en bases de datos (KDD, Knowledge Discovery
in Databases), término acuñado por primera vez
en el primer taller KDD en 1989 (Hand 01,
Jiawei 06) y que involucra desde el
entendimiento del dominio de aplicación,
pasando por la limpieza de datos y la extracción
del conocimiento, hasta el uso y aplicación de
ese conocimiento adquirido. La minería de
datos es una de las principales etapas de este
proceso (KDD) Fig1, en la cual se aplican a los
datos métodos matemáticos, estadísticos o
algorítmicos, con el objetivo de descubrir
patrones e información oculta en ellos. Esto le
ha valido a la minería de datos la atención de la
industria y la sociedad, por a la amplia gama de
métodos y técnicas que ofrece para este
propósito. La información y los conocimientos
o patrones adquiridos a través del proceso de
minería de datos, han sido utilizados en
múltiples aplicaciones que van desde el análisis
de mercado (segmentación de clientes,
previsión de ventas, análisis de riesgo),
detección de fraudes (tarjetas de crédito,
servicios telefónicos, pagos de impuestos etc.),
retención de clientes (estudio de hábitos de
consumo), hasta la exploración de la ciencia y
la medicina (Valenga 07, La Red 14, Jiawei 06)
donde en el área de genética, analizando
cambios en las secuencias de ADN, se ha
podido determinar el riesgo de desarrollar
enfermedades como el cáncer, lo cual ha
ayudado a mejorar el diagnóstico, prevención y
tratamiento de este tipo de enfermedades (Perez
08).
Este documento está dividido en 6
apartados que contienen lo iguiente: El primer
apartado, habla de los resultados encontrados en
la aplicación de la encuesta nacional, sobre
sobre exclusión, intolerancia y violencia en las
escuelas de educación media superior, en
México. El apartado 2, contiene una
descripción general del significado de la
minería de datos y su clasificación, en base al
tipo de tareas que maneja. El tercer apartado
describe la metodología que se utilizó para el
desarrollo de este estudio, detallando cada
técnica empleada. En el apartado 4 están los
resultados obtenidos de la aplicación de la
encuesta, y procesados por el programa R-
Comander. Los trabajos similares encontrados
en la bibliografía, se mencionan en el apartado
5, y finalmente en el apartado 6 se definen las
conclusiones finales del proyecto.
Figura 1 Proceso KDD (Fayyad 96)
Acoso escolar
El año pasado se aplicó la Tercera Encuesta
Nacional sobre Exclusión, Intolerancia y
Violencia en las Escuelas de Educación Media
Superior, por el Sistema Educativo de México.
Limpieza de datos
Bases de datos
Integración de datos
Selección
Bodega de datos
Objetivo del análisis
Minería de datos
Evaluación de
patrones
326
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
La encuesta se realizó con un muestreo
probabilístico en 150 escuelas de educación
superior, para obtener un tamaño de muestra de
1.500 estudiantes.
La encuesta abordó cuestiones
relacionadas con las relaciones interpersonales
en el espacio de la comunidad escolar, y
proporciona una breve descripción de las
relaciones sociales entre los compañeros de
clase, y de eventos particulares que muestran
signos de agresión o violencia en estas
relaciones sociales.
Los datos obtenidos permitieron
establecer la presencia de violencia psicológica
y situaciones de violencia física o verbal, a los
estudiantes en la escuela, en el 72% de los
hombres y el 65% de las mujeres encuestadas.
Aunque la mayoría de los casos notificados
fueron esporádicos y sólo parte de los
estudiantes, reportaron hechos de violencia que
se presentan en varias ocasiones. Hay indicios,
de que los estudiantes que tenían la violencia
recurrente registraron un aumento del
absentismo, superior al 30% en comparación
con los estudiantes que no han sufrido. Además
el 30,3% de los estudiantes encuestados no
consideran la escuela como un lugar seguro. Es
por ello que, consideramos el acoso escolar
como un tema de suma importancia en el
ámbito educativo y que requiere de
herramientas de análisis, que nos ayuden a
detectar indicios de violencia en las
instituciones, para implementar acciones que
nos ayuden a disminuír los actos y las
consecuencias de éstos en los estudiantes a
cualquier nivel educativo.
Minería de Datos
El propósito de aplicar a los datos técnicas de
minería, es para buscar generalmente dos tipos
de tareas u objetivos:
La descripción o la predicción y cada
una de estas tareas se describen a continuación:
(La Red 14, Shu 2012)
a. Tareas descriptivas o exploratorias
(Aprendizaje no supervisado).
El objetivo de este tipo de tareas es particionar
o segmentar un conjunto de datos o individuos
en grupos. Los grupos se forman basados en la
similaridad de los datos o individuos en ciertas
variables.
También se les conoce como
aprendizaje no supervisado, porque, buscan sin
orientación cosas en los datos, son exploratorias
y descriptivas, e implican buscar en los datos
patrones comunes de comportamiento
(características similares, preferencias,
conductas, hábitos, etc.). En este tipo de tareas
el método descubre de forma autónoma en los
datos de entrada, características, correlaciones y
categorías similares entre ellos. Son técnicas
que parten de una medida de proximidad entre
individuos y a partir de una población total,
buscan agrupar a los individuos más parecidos
entre sí, según una serie de variables
mesuradas. Las características a cubrir son que,
los grupos o conglomerados deben ser lo más
acoplados o parecidos al cluster (grupo), y los
clusters lo más separados o diferentes posible
entre sí. Se tienen varios métodos descriptivos
en minería de datos, enfocados a este tipo de
tareas, entre los más comunes se encuentran:
- Clusterización jerárquica (CJ).
- K-medias.
- Análisis de componentes principales (ACP).
- OLAP (On Line Analytical Processing).
- Métodos factoriales.
327
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
b. Tareas Predictivas (Aprendizaje
supervisado)
Este tipo de tareas, pretenden predecir valores
futuros, o desconocidos, de las variables
(volúmenes de ventas, posibles clientes
fraudulentos, clientes buenos pagadores o no,
Etc.). También se les denomina aprendizaje
supervisado y su objetivo es el de crear una
función capaz de predecir el valor
correspondiente a una variable, después de
haber analizado una serie de ejemplos (los datos
de entrenamiento). También se cuenta con
varios métodos de tipo predictivo en minería de
datos, entre los más comunes se tienen:
- Series de tiempo.
- Análisis discriminante.
- Regresión.
- Árboles de decisión.
- Suport Vectors Machine.
- Métodos bootstrapping.
Metodología
El presente trabajo se ha centrado
principalmente en el estudio de los métodos de
clusterización: Clusterización jerárquica (CJ) y
K-medias, empleándolos para analizar los
resultados obtenidos de una encuesta de opinión
sobre acoso escolar. La encuesta fue aplicada a
131 alumnos de la carrera de Tecnologías de la
Información y la Comunicación, de la
Universidad Tecnológica del Norte de
Aguascalientes, y mediante los métodos de
clusterización antes mencionados, se
encontraron los grupos afines en cuanto a su
percepción acerca del tema del acoso escolar.
El funcionamiento de ambos métodos
utilizados se describen a continuación:
a. Clusterización Jerárquica.
El objetivo de la Clusterización Jerárquica o
Clasificación automática, es que, a partir de una
tabla de datos, donde las columnas representan
las variables y los renglones los individuos, se
construye un dendograma, al cual se le hace un
corte para identificar los clusters o
conglomerados y así encontrar información a
partir de éstos. Fig 2 (Hand 01).
Este método de clusterización se basa en
la idea de calcular las distancias o índices de
disimilitud de todos contra todos (variables o
individuos) en una tabla.
El índice de disimilitud, es una función
matemática que toma a dos individuos y les
asigna un número entre 0 y más infinito (0,+∞),
que tiene que cumplir la propiedad, de ser
simétrica, es decir, que la distancia entre x y y,
es la misma que entre y y x.
Propiedad de simetría.
d: IxI → [0, +∞] (1)
Y
d(x, y) = d(y, x) para todo x, y ϵ I (2)
Para el cálculo de estos índices de
disimilitud, existen varias fórmulas, como la
fórmula de la distancia Euclídea, la distancia
Euclídea al cuadrado, o la fórmula de la
distancia de Manhattan, entre otras, pero la más
común, es el la fórmula de la distancia
Euclídea, la cual se utilizó para analizar los
resultados de la encuesta (Hand 01, Mirkin 05).
328
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Figura 2 Esquema del método Clusterización Jerárquica
(CJ).
Distancia Euclídea
d(Xi, Xs) = √∑ (Xij − Xsj)2p
j=1 (3)
Una vez calculados los índices de
disimilitud a través del cálculo de las distancias
de todos los individuos, se obtiene como
resultado una matriz simétrica de distancias, la
cual se utiliza para unir por parejas, aquellos
individuos cuyos índices de disimilitud sean
menores, luego se une la pareja con los menores
índices de disimilitud siguientes y así
sucesivamente para unir todos los individuos.
Una vez unidos los individuos, ahora, a
través de un índice de agregación se proceden a
unir grupos de individuos, para lo cual, existen
también varias fórmulas, como la del índice de
agregación de Ward, la fórmula de enlace
simple, la de enlace medio, o completo, o la de
McQuitty entre otras, pero la más común es la
fórmula del índice de agregación de Ward
(Jiawei 06, Chambers 09).
Agregación de Ward
δw(x, y) = |x|. |y|
|x|+ |y| ||gx − gy||2 (4)
Una vez unidos los grupos de individuos
se genera finalmente la estructura dendograma,
y a partir de ésta, se pueden encontrar los
clusters o conglomerados de la tabla de datos,
para finalmente analizarlos y encontrar la
información que proporcionan (Valenga 07,
Jiawei 06, Yakushev 14).
b. K-medias.
Es el método más usado para hacer clustering y
generalmente se utiliza, cuando se analizan
volúmenes considerables de información, esto
debido a que, el método de CJ tiene un
problema de crecimiento exponencial en los
cálculos, pues al realizar las operaciones de las
distancias de todos contra todos los individuos
en una tabla, se puede convertir en un proceso
muy pesado computacionalmente. Por ejemplo
al analizar una tabla cuando se cuentan con
miles de registros.
El objetivo del método K-medias, es el
mismo que el del método CJ, o el método ACP,
etc. Encontrar clusters lo más homogéneo
posible entre los individuos de cada cluster y
que los clusters entre ellos sean lo más diferente
posible uno de otro. El método K-medias, inicia
asignando al azar cada individuo a un cluster,
una vez asignados todos los individuos, el
siguiente paso es calcular el centro de gravedad
de cada cluster, para luego calcular las
distancias de todos los individuos a su centro de
gravedad (Jiawei 06). Si algunos individuos
están más cerca al centro de gravedad de otro
cluster que al centro de gravedad del cluster
asignado, se hace una reasignación (se cambian
de cluster) y se reacomodan los cluster
nuevamente.
329
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Y se vuelve a realizar el mismo
procedimiento, es decir, nuevamente se
calculan los centros de gravedad de cada cluster
y si otra vez hay individuos que están más cerca
al centro de gravedad de otro cluster que al
cluster asignado, se vuelven a reasignar (se
cambian de cluster) reacomodando los cluster.
Y así sucesivamente, se sigue iterando, hasta
que no haya cambios, o se supere un número
máximo de iteracciones indicadas al inicio del
proceso, porque, si se tiene por ejemplo, un
millón de registros los cambios no se logran
estabilizar, por lo que se asigna un número
máximo de iteracciones para que el algoritmo
pare en un momento determinado. Fig 3.
Figura 3 Esquema del método K-medias
El centro de gravedad de un cluster se
calcula, con el promedio vectorial de los
individuos que pertenecen al cluster, mediante
la siguiente fórmula.
Centro de gravedad de un cluster.
gk = 1
|Ck|
∑ Xi,i∈Ck (5)
Dónde: k = número de clusters. Y gk =
representa al centro de gravedad de cada clase.
Para el cálculo del centro de gravedad total, lo
que se hace es, promediar todos los vectores y
dividirlos entre n, donde n es la cantidad de
datos en la base de datos (Husson 10, Mirkin
05).
Cálculo del centro de gravedad total.
g =1
n∑ Xi
ni=1 (6)
Donde n = cantidad de datos en la tabla
de datos.
El término inercia total, es un valor que
se calcula promediando las distancias de los
vectores al centro de gravedad total, lo que
indica la desviación estándar de cada vector con
la media general de inercia.
Cálculo de la inercia total.
I =1
n ∑ ||Xi − g||2n
i=1 (7)
El término inercia inter clases, es el valor
que indica qué tan distantes o diferentes están
las clases una de otra, y su cálculo, se realiza
calculando la distancia del centro de gravedad
de cada clase al centro de gravedad total, para
luego realizar un promedio ponderado de esas
distancias y elevarlo al cuadrado.
B(P) = ∑|Ck
|
n
KK=1 ||gk − g||2 (8)
Dónde Ck= Número de elementos.
El término inercia de una clase o inercia
intra clase, es un valor que indica que tan bien
están acopladas las clases, o que tan parecidos y
semejantes son los individuos que integran la
clase (Graham 11, Chambers 09).
Su cálculo, implica la suma de las
distancias de los individuos que pertenecen a
una clase a su centro de gravedad, realizando el
mismo procedimiento para las n clases,
finalmente se suman los promedios y se dividen
entre el número de clases (Bullyinformate.org
15).
330
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
W(P) = ∑ I(Ck) =1
n
KK=1 ∑ ∑ ||Xi −i∈Ck
KK=1
gk||2 (9)
El objetivo principal de esto, es
maximizar la distancia inter clases B (P) y
minimizar la distancia intra clases W(P), para
dejar clusters lo más diferentes uno de otro
B(P) y que los individuos de un cluster sean lo
más homogéneos posible W(P).
Con el método de K-means se logra
resolver el problema combinatorio del método
de clasificación jerárquica (CJ), ya que en este
último, los cálculos crecen exponencialmente, y
el método de k-means reduce sus cálculos a un
tiempo polinomial lo cual lo hace factible de
calcular (Husson 10, Graham 11, Fayyad 96).
c. Programa R-Comander.
El análisis de ambos métodos fueron
procesados en el programa estadístico de R a
través de la interfaz gráfica del paquete R
Commander, diseñada por John Fox, de la
Universidad de Hamilton, Ontario, Canadá, que
cubre la mayor parte de los análisis estadísticos
más habituales de R, a través de menús
desplegables (Arriaza 08, Artime 13, Cena 15,
Le 08, Torsten 09).
Resultados obtenidos
La encuesta de opinión sobre acoso escolar
aplicada a los 131 alumnos incluyó 7 preguntas
manejando 26 variables a considerar. Esta
encuesta fue diseñada considerando los
enfoques y propuestas de algunos organismos
sociales y gubernamentales especialistas en el
tema del acoso escolar (Bullyinformate.org 15,
Montaño 14, Pang-Ning 06, Merino 08, OCSE
15). En cada pregunta, los alumnos solo podían
elegir una única respuesta. La Tabla 1, muestra
el contenido de la encuesta que se aplicó:
1. El acoso escolar es:
p1a) Un pasatiempo
p1b) Algo normal que pasa.
p1c) Es un abuso y causa dolor.
P1d) Mostrar fortaleza y liderazgo.
2. Selecciona la que consideres la principal
consecuencia del acoso escolar.
p2a) Sentir miedo.
p2b) Bajas calificaciones, abandonar la escuela.
p2c) No tiene consecuencias.
p2d) Puede provocar que alguien llegue a suicidarse.
3. ¿Qué tendría que suceder para arreglar este
problema? p3a) No se puede arreglar.
p3b) Que hagan algo los profesores/as y las familias.
p3c) Que hagan algo los compañeros.
P3d) Solo con sanciones legales.
4. ¿Por qué crees que algunos/as intimiden a otros/as?
p4a) Por gastar una broma o molestar.
p4b) Porque se meten con ellos/as.
P4c) Porque son más fuertes.
P4d) Problemas en su familia.
5. ¿Dónde crees que se origina principalmente el acoso? p5a) En la casa.
p5b) Afuera con los amigos.
p5c) Es la personalidad de cada quien.
p5d) Por ver películas, videojuegos, programas de TV.
6. ¿Qué piensas de los chicos o chicas que intimidan a
otros? p6a) Nada, paso el tema.
p6b) Me parece mal.
p6c) Es normal que pase entre compañeros.
p6d) Hacen bien, tendrán sus motivos.
7. ¿Conoces a alguien o sabes de algún caso de acoso
escolar en esta institución?
p7a) No.
p7b) Si.
Tabla 1 Cuestionario de opinión sobre acoso escolar
En la Figura 4 se muestra la matriz
binaria de datos, generada de procesar los
resultados de la aplicación de las encuestas.
Por cuestiones de simplicidad se utilizó
una clave de identificación para cada posible
respuesta en cada pregunta, y como la encuesta
fue anónima no se utilizaron nombres de
alumnos, solo una nomenclatura que identifica
al grupo al que pertenece cada alumno y un
número consecutivo para control de la cantidad
de alumnos que respondieron la encuesta por
grupo.
331
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Figura 4 Matriz binaria de datos
A continuación se detallan los
resultados obtenidos por cada método de
clusterización, que se utilizó para para analizar
la información de las encuestas.
a. Resultados obtenidos con el método de
Clusterización Jerárquica (CJ).
Mediante el método de Clusterización
Jerárquica se obtuvo lo siguiente: Se ingresó al
programa la matriz binaria de datos y se
calcularon los índices de disimilitud de todos
los individuos, utilizando la fórmula de la
distancia Euclídea generando como resultado la
matriz simétrica de distancias que se muestra en
la Fig. 5.
Figura 5 Matriz simétrica de distancias
Mediante el uso de la fórmula del índice
de agregación de Ward, para unir los grupos de
individuos, se obtuvo como resultado, los
siguientes dendogramas, en 3D y 2D Fig. 6 y
Fig. 7 respectivamente.
Figura 6 Dendograma 3D
Figura 7 Dendograma
Una vez creados los dendogramas en el
método CJ, se puede ver claramente que el
sistema, generó 2 clusters o grupos, el grupo
número 1 con 86 alumnos y el número 2 con
46.
Figura 8 Gráfico general
La Fig. 8 muestra el gráfico general
donde se observan las características que
definen a cada cluster, encontrando diferencias
muy marcadas en las preguntas 2, 3, 4 y 5.
332
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Analizando los resultados por separado
de cada una de estas preguntas se tiene que: En
la pregunta 2 (Selecciona la que consideres la
principal consecuencia del acoso escolar), el
cluster 1 opina que puede llegar hasta el
suicidio (52%) y el cluster 2 considera que
causa miedo principalmente (60%). Fig. 9.
Figura 9 Histograma de la pregunta 2
En la pregunta 3 (¿Qué tendría que
suceder para arreglar el problema del acoso
escolar?), el cluster 1 opina que deben hacer
algo los profesores y las familias (67%), incluso
los compañeros (18%), en cambio el cluster 2
opina que el problema se puede parar aplicando
sanciones legales (39%) y está más a favor de la
intervención de los compañeros (30% en
comparación con el 18% del cluster 1). Fig. 10.
Figura 10 Histograma de la pregunta 3
En cuanto a los resultados de analizar las
respuestas de la pregunta 4.
(¿Por qué crees que algunos/as intimiden
a otros/as?), casi el 100% del cluster 1, opina,
que unos intimidan a otros porque tienen
problemas en su casa (98%), en cambio el
cluster 2 opina que lo hacen principalmente por
molestar o gastar una broma (71%) Fig. 11.
Figura 11 Histograma de la pregunta 4
Analizando las respuestas de la pregunta
5 (¿Dónde crees que se origina el acoso
escolar?), el cluster 1 opina que es en la casa
(71%) y en ocasiones con los amigos (25%), en
cambio los del cluster 2 opinan lo contrario,
que es principalmente con los amigos (65%) y
solo algunos que es en el hogar (25%). Fig. 12.
Figura 12 Histograma de la pregunta 5
En cuanto a los resultados de las
preguntas 1 (¿El acoso escolar es?) y 7
(Conoces de algún caso de acoso escolar en esta
institución), en ambos clusters los resultados
son muy parecidos, como puede observarse en
la Fig 13.
333
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Por lo menos el 80% de de ambos
clusters opina que el acoso escolar es un abuso
y causa dolor. Y el 25% de todos los
encuestados en ambos clusters considera que ha
sufrido en algún momento acoso escolar en la
institución, lo cual representa 32 alumnos de los
encuestados.
Figura 13 Histograma de la pregunta 6
b. Resultados obtenidos con el método de K-
medias.
Se cargaron los datos de la matriz binaria, y se
le indicó al programa R-Comander que
mediante el método K-medias se debían generar
2 cluster’s, igual como los generó de manera
automática en el método de Clusterización
Jerárquica. En este método los clusters se
formaron de la siguiente manera: El cluster 1 se
creó con 44 alumnos y el cluster 2 con 87, un
resultado muy similar al obtenido con el
método CJ. Por cuestiones de la herramienta y
como la asignación de cada individuo al cluster
es al azar, el programa invirtió el número de
cluster, es decir, el cluster 1 del método de
clasificación jerárquica está representado por el
número 2 en este método, y viceversa, el cluster
2 del método CJ está representado por el
número 1 en el método de K-medias.
En este método el sistema generó el siguiente
biplot Fig. 14, donde indica, las tendencias de
las respuestas en cada pregunta para cada
cluster.
Figura 14 Biplot de K-medias
Las distancias de las flechas en el biplot,
indican la representación de las respuestas de
cada pregunta. Entre más cerca esté la flecha de
la periferia del cuadrado, significa que fue una
respuesta muy seleccionada en la encuesta, y en
el entorno de ésta, se encuentra el número de
cluster al cual pertenece dicha selección. Entre
menor sea la distancia de las fechas o estas
estén más cercanas al centro, significa que
dichas respuestas no fueron de las más
seleccionadas por los alumnos.
Pregunta Cluster1 con K-
medias
Cluster2 con CJ
2. Principal
consecuencia del
acoso escolar
P2a) Sentir miedo. P2a) Sentir miedo.
P2a) Bajas
calificaciones.
3. ¿Qué se debe
hacer para
arreglar este
problema?
P3c) Deben hacer
algo los
compañeros.
P3c) Deben hacer algo
los compañeros.
P3d) Con sanciones
legales.
4. ¿Por qué
Unos/as
intimiden a
otros/as?
P4a) Por gastar una
broma o molestar
P4a) Por gastar una
broma o molestar
5. ¿Dónde se
origina
principalmente
el acoso
P5b) y P5c) Con los
amigos y por la
personalidad de
cada quien.
P5b) Con los amigos y
por la personalidad de
cada quien.
Tabla 2 Comparación de características del cluster 1
334
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Como puede observarse, el cluster 1
eligió las respuestas p2a, p3c, p4a, p5b y p5c,
detalladas en la Tabla 2. En cambio en el
cluster 2 se puede ver, que las respuestas más
seleccionadas son: p2d, p3c, p4d y p5a,
respuestas similares al cluster 1 del método CJ.
En la Tabla 3 se detalla cada respuesta,
especificando el método de clusterización
aplicado.
Pregunta Cluster2 con K-
medias
Cluster2 con CJ
2. Principal
consecuencia del
acoso escolar
P2d) puede
provocar que
alguien llegue a
suicidarse.
P2d) Puede provocar
el suicidio.
P2c) Bajas calific.
3. Que se debe
hacer para arreglar
este problema
P3c) deben hacer
algo los profesores
y las familias.
P3c) deben hacer algo
los profesores y las
familias.
4. Porqué Unos/as
intimiden a
otros/as?
P4d) Porque tienen
problemas en su
familia.
P4d) Porque tienen
problemas en su
familia.
5. ¿Dónde se
origina
principalmente el
acoso.
P5a) Se origina
principalmente en
la casa.
P5a) Se origina
principalmente en la
casa.
Tabla 3 Comparación de características del cluster 2
Los resultados de las respuestas en las
preguntas 1 y 7 no son visibles en el biplot, lo
que indica que están muy cerca del centro, es
decir, que son muy similares en sus respuestas
y no destacan diferencias considerables entre
ellas. En cuanto a las inercias obtenidas, la
inercia total indicó un valor de 2.856. El valor
de la inercia inter clases B(P) fue de 0.473 y la
inercia intra clases W(P) de 2.383, sumando
ambas inercias se tiene un total de 2.856, que es
el valor de la inercia total. Comprobando con
ello el teorema de la dualidad de Fisher, que
indica que la sumas de las inercias inter clases e
intra clases es igual a la inercia total de la nube
de puntos.
Trabajos relacionados
Se tienen varios trabajos relacionados a la
aplicación de métodos de clusterización
utilizados para analizar grupos de individuos
con características similares. Entre los trabajos
analizados, se encuentran el uso de métodos
exploratorios de minería de datos para
identificar alumnos con riesgos de deserción o
fracaso escolar (La Red 14, Márquez 12). El
uso de clusterización para encontrar patrones de
conducta delictivos, o patrones de consumo de
drogas (Valenga 07), (La Red 14), (Yakushev
14). Trabajos de clusterización para la
Segmentación de clientes (Jo-Ting 13), para el
apoyo en la toma de decisiones de procesos de
negocios (Pérez 12, Pinzón 11, Sadat 15) y
patrones para análisis de percepción de la
corrupción (Paulus 15), o para analizar la
calidad de los productores de información
(Cena 15).
Conclusiones y trabajo a futuro
Como puede observarse, los resultados
obtenidos en cada pregunta, por ambos métodos
de clusterización son muy similares, lo que ha
permitido obtener patrones de percepción sobre
acoso escolar que definen específicamente a
cada cluster. Este tipo de información puede ser
de suma importancia para el área de Tutoría o
área de asesoría sicopedagógica dentro de la
institución. Con el objetivo de establecer
programas de pláticas y conferencias enfocadas
a cada grupo de alumnos con características
similares. Para el cluster 2, se pueden organizar
programas de concientización sobre las
consecuencias del acoso escolar y técnicas de
integración grupal, para aquellos alumnos que
consideran que el acoso escolar se genera solo
por hacer una broma o por molestar, y que
opina que este tipo de conductas, se genera
principalmente en la calle con los amigos.
335
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
Para los alumnos que integran el cluster
1, que piensa que el acoso se genera
principalmente en la casa y este se da por
problemas familiares principalmente, se puede
enfocar hacia ellos pláticas familiares, o de
orientación de ayuda especial cuando el caso así
lo requiera. Todo esto considerando que,
analizando los últimos porcentajes de deserción
escolar, en la institución, no se dan por bajos
rendimientos académicos, sino por problemas
personales que afectan a tal grado al alumno,
que deciden abandonar la escuela, debido a las
consecuencias que estos problemas implican
para ellos.
En relación al trabajo a futuro, la
aplicación de los métodos de aprendizaje
supervisado de minería de datos, tiene un
infinito campo de aplicación, ya que la
importancia de analizar datos e información
para identificar grupos con características afines
o simplemente para describir las características
de los mismos, es de suma importancia.
Específicamente para el tema del acoso escolar,
se planea analizar el tema, pero ahora desde el
uso de las redes sociales, donde mediante
métodos de aprendizaje supervisado, se
analizarán los comentarios realizados por los
alumnos, en sus publicaciones hacia otros
compañeros.
Referencias
(Arriaza 08) Arriaza Gómez A. J., Fernández
Palacín, F. López Sánchez M. A., Et al.,
Estadística Básica con R y R-Commander,
(2008) Publicaciones de la Universidad de
Cadiz. Recuperado: 10/06/2015, URL:
http://knuth.uca.es/moodle/mod/url/view.php?i
d=1126
(Artime 13) Artime Carleos C., Corral Blanco
N., Paquetes estadísticos con licencia libre,
(2013), Revista electrónica de metodología
aplicada, Vol. 18 No 2, pp. 12-33. Recuperado
9/06/2015. http:// www. Unioviedo .es
/reunido/index.php/Rema. Departamento de
Estadística e I. O. y D.M. Universidad de
Oviedo.
(Bullyinformate.org 15) Fundación en
Movimiento (Respetar para mejor convivir),
A.C. http://bullyinformate.org/tests/test-
escuela-segura.
(Cena 15) Cena A., Gagolewski M., Mesiar R.,
Problems and challenges of information
resources producers’ clustering. (2015).
Journal of Informetrics, recuperado:
16/04/2015. www.elsevier.com/locate/joi, 273–
284 ELSEVIER.
(Chambers 09) Chambers J. M., Software for
Data Analysis: Programming with R (Statistics
and computing), (2009). Stanford, ca. USD:
Springer-Verlag.
(Graham 11) Graham W., Data Mining with
Rattle and R: The Art of Excavating Data for
Knowledge Discovery (Use R!), (2011). New
York USD: Springer-Verlag.
(Hand 01) Hand D., Mannila H. & Smyth P.,
Principles of Data Mining, (2001). A Bradford
Book The MIT Press Cambridge,
Massachusetts London England. Massachusetts
Institute of Technology.
(Husson 10) Husson F., Le S., Pages J.,
Exploratory Multivariate Analysis by Example
Using R, (2010). Chapman & Hall/CRC
Computer Science & Data Analysis, Taylor &
Francis Group, an inform business, Boca Ration
London New York, CRC Press.
336
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
(Jiawei 06) Jiawei H., Kamber M., Data Mining
Concepts and Techniques, (2006). Second
Edition. Morgan Kauffman Publishers.
(Jo-Ting 13) Jo-Ting W., Ming-Chun L.,
Hsuan-Kai Ch., Hsin-Hung W., Customer
relationship management in the hairdressing
industry: An application of data mining
techniques. (2013). Expert Systems with
Applications, Elsevier. Recuperado: 22/02/2015
www.elsevier.com/locate/eswa
(La Red 14) La Red, D. L. & Podestá, C. E.,
Metodología de Estudio del Rendimiento
Académico Mediante la Minería de Datos,
(2014). Campus virtuales, 3(1), Revista
Científica de Tecnología Educativa, Argentina.
(Le 08) Le S., Josse J., Husson F.,
“FactoMineR: An R Package for Multivariate
Analysis”, (2008). Volume 25, Issue 1, Journal
of Statistical Software, American Satistical
Association.
(Márquez 12) Márquez Vera C., Romero
Morales C., Ventura Soto Sebastián. Predicción
del Fracaso Escolar mediante Técnicas de
Minería de Dato. (2012.). IEEE-RITA Vol. 7,
Núm. 3, Nov.
(Merino 08) Merino González J., Revista de
estudios de la violencia. Núm. 4, (Ene-Mar
2008). Instituto Catalán de Estudios de la
Violencia (ICEV).
(Mirkin 05) Mirkin B., Clustering for Data
Mining: A Data Recovery Approach, (2005)
Chapman & Hall/CRC Computer Science &
Data Analysis, Taylor & Francis Group, a
Chapman & Hall Book, Boca Ration London
New York: CRC Press.
(Montaño 14) Montaño J., Gervilla E., Et al.
Técnicas de clasificación de data mining: una
aplicación al consumo de tabaco en
adolescentes. (2014). Anales de Psicología, vol.
30, núm. 2 633-641, May-Ago. Murcia, España.
(OCSE 15) Observatorio Ciudadano de la
Seguridad Escolar.
http://www.iea.gob.mx/ocse/default.aspx.
(OCSE).
(Paulus 15) Paulus M., Kristoufek L.,
Worldwide clustering of the corruption
perception, (2015). Physica A,
www.elsevier.com/locate/physa 351–358,
Procedia Computer Science Volume 29, ICCS
14th International Conference on
Computational Science.
(Pang-Ning 06) Pang-Ning T., Steinbach M.,
Kumar V., Introduction to Data mining, (2006).
Pearson Addison Wesley.
(Perez 08) Pérez López C., Santín González D.,
Minería de datos Técnicas y Herramientas,
(2008). International Thomson Ediciones.
(Pérez 12) Pérez S., Puldón J. J., Espín Andrade
A., Modelo clustering para el análisis en la
ejecución de procesos de negocio, (2012).
Revista investigación operacional, Vol 33, No.
3. Instituto Superior Politécnico José Antonio
Echeverría.
(Pinzón 11) Pinzón L. L., Aplicándo minería de
datos al márquetin educativo, (2011). Notas D
Marketing, Escuela de márquetin y publicidad
USA.
(Shu 2012) Shu-Hsien L., Pei-Hui Ch., Pei-
Yuan H. Data mining techniques and
applications – A decade review from 2000 to
2011,(2012). Expert Systems with
Applications. Recuperado: 22/04/2015. URL:
www.elsevier.com/locate/eswa
337
Artículo Revista de Análisis Cuantitativo y Estadístico
Septiembre 2015 Vol.2 No.4 324-337
ISSN 2410-3438
ECORFAN®All rights reserved.
MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.
Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de
opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y
Estadístico 2015.
(Torsten 09) Torsten H., Brian S. E., A
Handbook of Statistical Analyses Using R,
Second Edition, (2009). Taylor & Francis
Group, a Chapman & Hall Book, Boca Ration
London New York: CRC Press.
(Fayyad 96) Fayyad U., Piatetsky-Shapiro G.,
and Smyth P. From Data Mining to Knowledge
Discovery in Databases, (1996). AI Magazine
Volume 17 Number 3.
(Valenga 07) F. Valenga, E. Fernández, Et al.
Aplicación de minería de datos para la
exploración y detección de patrones delictivos
en Argentina. (2007) Instituto Tecnológico de
Buenos Aires, Argentina.
(Yakushev 14) Yakushev A., & Mityagin S.,
Social networks mining for analysis and
modeling drugs usage, (2014). Procedia
Computer Science Volume 29, ICCS 14th
International Conference on Computational
Science. Elsevier.