Post on 14-Jul-2020
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON
DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA
PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN
WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO
EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE
TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES
MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION
DE LA INFORMACION GENERADA EN EL
SECTOR DE LA SALUD.”
PROYECTO DE TITULACIÓN
Previa a la obtención del Título de:
INGENIERO EN SISTEMAS COMPUTACIONALES
AUTOR:
DAVID ROBERTO MALDONADO PLUA
TUTOR:
Ing. Fabricio Medina MDPR
GUAYAQUIL – ECUADOR
2017
I
REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGÍA FICHA DE REGISTRO DE TESIS
TÍTULO Y SUBTÍTULO:
Sistema de autogestión de la salud para pacientes con diabetes y asma, desarrollado e implementado en una plataforma Android; con monitoreo de una aplicación web en PHP dirigida a los médicos tratantes, enfocado en el desarrollo web en php con la aplicación de técnicas de minería de datos en redes sociales mediante ETL para el análisis y extracción de la información generada en el sector de la salud.
AUTOR: MALDONADO PLUA DAVID ROBERTO
REVISOR/TUTOR: INGFABRICIO MEDINA, MDPR ING. FABRICIO SÁNCHEZ, M.Sc.
INSTITUCIÓN: UNIVERSIDAD DE GUAYAQUIL
FACULTAD: CIENCIAS MATEMÁTICAS Y FÍSICAS
ESPECIALIDAD: INGENIERÍA EN SISTEMAS COMPUTACIONALES
GRADO OBTENIDO: TERCER NIVEL
FECHA DE PUBLICACIÓN: 2017 No. DE PÁGINAS 122 PÁGINAS
ÁREAS TEMÁTICAS: DESARROLLO WEB
PALABRAS CLAVES / KEYWORDS: ASMA, PORTAL WEB, INDICADORES DE RED SOCIAL TWITTER
RESUMEN/ABSTRACT: El presente proyecto pretende explicar el impacto que actualmente tiene la red social Twitter en el ámbito de la salud, está enfocado en casos de pacientes con síntomas de asma y/o diabetes, se busca aprovechar la información que genera el usuarios en la red social Twitter, promoviendo mayor control y apoyo por parte de los profesionales de la salud sobre sus paciente. Las Redes Sociales pertenecen a una rama de aplicación de las TIC’s, se construye en base a lo que cada usuario aporta. Las empresas de distintos sectores están interesadas en el análisis de estos datos, por esta razón optan por aplicar técnicas de minería de datos, para averiguar que patrones de comportamiento les permitirán aprovechar los resultados obtenidos, focalizando sus esfuerzos en objetivos específicos.
ADJUNTO PDF: SI NO
CONTACTO CON AUTOR: Teléfono: 0996732412 E-mail: david.maldonadop@ug.edu.ec
CONTACTO CON LA INSTITUCIÓN:
Nombre: AB. JUAN CHÁVEZ ATOCHA
Teléfono: 2307729
E-mail: juan.chaveza@ug.edu.ec
II
CARTA APROBACION DEL TUTOR
En mi calidad de Tutor del trabajo de titulación, “SISTEMA DE
AUTOGESTIÓN DE LA SALUD PARA PACIENTES CON DIABETES Y
ASMA, DESARROLLADO E IMPLEMENTADO EN UNA PLATAFORMA
ANDROID; CON MONITOREO DE UNA APLICACIÓN WEB EN PHP
DIRIGIDA A LOS MÉDICOS TRATANTES, ENFOCADO EN EL
DESARROLLO WEB EN PHP CON LA APLICACIÓN DE TÉCNICAS DE
MINERÍA DE DATOS EN REDES SOCIALES MEDIANTE ETL PARA EL
ANÁLISIS Y EXTRACCIÓN DE LA INFORMACIÓN GENERADA EN EL
SECTOR DE LA SALUD” elaborado por el Sr. DAVID ROBERTO
MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería
en Sistemas Computacionales, Facultad de Ciencias Matemáticas y
Físicas de la Universidad de Guayaquil, previo a la obtención del Título
de Ingeniero en Sistemas, me permito declarar que luego de haber
orientado, estudiado y revisado, la Apruebo en todas sus partes.
Atentamente
__________________________________
Ing. Fabricio Medina Palacios MDPR
TUTOR
III
DEDICATORIA
Dios, por la salud y guiarme en cada
decisión que tomaba para poder seguir
adelante permitiéndome alcanzar mis
objetivos. Le agradezco a Dios por mi
hijo quien me motiva a seguir
esforzándome día a día, al saber que
seguirá mis ejemplos es motivo
suficiente para dar lo mejor de mí.
Mi madre Narciza, por su bondad, los
consejos su paciencia que han hecho
de mí una persona de bien pero sobre
todo por su amor, mi padre Alberto por
sus enseñanzas y perseverancia en los
momentos más difíciles lo cual me han
permitido aprender y ser una mejor
persona. Mi hermano Steven tal vez no
seamos los mejores hermanos del
mundo pero sé que cuento con su
apoyo. A Diana que ha sido un pilar
fundamental en la culminación de este
proyecto ya que he contado con su
apoyo, consejos y mucha paciencia.
David
IV
AGRADECIMIENTO
El presente trabajo me gustaría agradecer a
Dios por permitirme alcanzar esta meta en
mi vida, la Universidad de Guayaquil por
permitirme estudiar y ser un profesional.
Son muchas las personas que han formado
parte de mi vida profesional a las que les
encantaría agradecerles su amistad,
consejos, apoyo, ánimo y compañía en los
momentos más difíciles de mi vida. Algunas
están aquí conmigo y otras en mis
recuerdos y en mi corazón, sin importar en
donde estén quiero darles las gracias por
formar parte de mí, por todo lo que me han
brindado y por todas sus bendiciones.
David
V
TRIBUNAL PROYECTO DE TITULACIÓN
Ing. Eduardo Santos Baquerizo, M. Sc. DECANO DE LA FACULTAD CIENCIAS MATEMATICAS Y
FISICAS
Ing. Fabricio Medina Palacios, MDPR PROFESOR TUTOR DEL
PROYECTO DE TITULACIÓN
Ing. Abel Alarcón Salvatierra, M. Sc DIRECTOR DE LA CARRERA DE
INGENIERÍA EN SISTEMAS COMPUTACIONALES.
Ing. Jimmy Sornoza Moreira, M. Sc PROFESOR REVISOR DEL
PROYECTO DE TITULACIÓN
Ab. Juan Chávez Atocha, Esp. SECRETARIO
VI
DECLARACIÓN EXPRESA
“La responsabilidad del contenido de este Proyecto de Titulación, me
corresponden exclusivamente; y el patrimonio intelectual de la misma a la
UNIVERSIDAD DE GUAYAQUIL”
_______________________________ David Roberto Maldonado Plua
VII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON
DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA
PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN
WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO
EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE
TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES
MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION
DE LA INFORMACION GENERADA EN EL
SECTOR DE LA SALUD.”
Proyecto de Titulación que se presenta como requisito para optar por el
título de INGENIERO en SISTEMAS COMPUTACIONALES
Autor: David Roberto Maldonado Plua
C.I.: 0928000447
Tutor: Ing. Fabricio Medina MDPR
Guayaquil, de 2017
VIII
CERTIFICADO DE ACEPTACIÓN DEL TUTOR
En mi calidad de Tutor del proyecto de titulación, nombrado por el
Consejo Directivo de la Facultad de Ciencias Matemáticas y Físicas de la
Universidad de Guayaquil.
CERTIFICO:
Que he analizado el Proyecto de Titulación presentado por el estudiante
DAVID ROBERTO MALDONADO PLUA, como requisito previo para optar
por el título de Ingeniero en Sistemas Computacionales cuyo problema es:
SISTEMA DE AUTOGESTIÓN DE LA SALUD PARA PACIENTES CON
DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA
PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN
WEB EN PHP DIRIGIDA A LOS MÉDICOS TRATANTES. ENFOCADO
EN EL DESARROLLO WEB EN PHP CON LA APLICACIÓN DE
TÉCNICAS DE MINERÍA DE DATOS EN REDES SOCIALES MEDIANTE
ETL PARA EL ANÁLISIS Y EXTRACCIÓN DE LA INFORMACIÓN
GENERADA EN EL SECTOR DE LA SALUD. Considero aprobado el trabajo en su totalidad.
Presentado por:
Maldonado Plua David Roberto C.I.: 0928000447
Tutor: Ing. Fabricio Medina, MDPR
Guayaquil, del 2017
IX
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
Autorización para Publicación de Proyecto de Titulación en
Formato Digital
1. Identificación del Proyecto de Titulación
Nombre Alumno: David Roberto Maldonado Plua
Dirección: Durán Cdla. Héctor Cobos Mz. F Sl. 11
Teléfono: 2988402 E-mail: david.maldonadop@ug.edu.ec
Facultad: Ciencias Matemáticas y Físicas
Carrera: Ingeniería en Sistemas Computacionales
Proyecto de titulación al que opta: Ingeniero en Sistemas
Computacionales
Profesor tutor: Ing. Fabricio Medina Palacios MDPR
Título del Proyecto de titulación: SISTEMA DE AUTOGESTIÓN DE LA SALUD PARA PACIENTES CON DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN WEB EN PHP DIRIGIDA A LOS MÉDICOS TRATANTES. ENFOCADO EN EL DESARROLLO WEB EN PHP CON LA APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS EN REDES SOCIALES MEDIANTE ETL PARA EL ANÁLISIS Y EXTRACCIÓN DE LA INFORMACIÓN GENERADA EN EL SECTOR DE LA SALUD.
Tema del Proyecto de Titulación: Asma, Data Mining, Diabetes, Twitter, TIC´s
X
2. Autorización de Publicación de Versión Electrónica del
Proyecto de Titulación
A través de este medio autorizo a la Biblioteca de la Universidad de
Guayaquil y a la Facultad de Ciencias Matemáticas y Físicas a publicar la
versión electrónica de este Proyecto de titulación.
Publicación electrónica:
Inmediata X Después de 1 año X Firma Alumno:
David Roberto Maldonado Plua
C.I.: 092800044-7
3. Forma de envío:
El texto del proyecto de titulación debe ser enviado en formato Word, como
archivo .Doc. O .RTF y .Puf para PC. Las imágenes que la acompañen pueden
ser: .gif, .jpg o .TIFF.
DVDROM CDROM X
XI
ÍNDICE GENERAL
CARTA APROBACION DEL TUTOR ......................................................... II
DEDICATORIA ......................................................................................... III
AGRADECIMIENTO ................................................................................. IV
DECLARACIÓN EXPRESA ...................................................................... VI
CERTIFICADO DE ACEPTACIÓN DEL TUTOR .................................... VIII
ÍNDICE GENERAL .................................................................................... XI
ABREVIATURAS .................................................................................... XV
SIMBOLOGÍA ........................................................................................ XVI
ÍNDICE DE CUADROS Y TABLAS ....................................................... XVII
ÍNDICE DE GRÁFICOS ....................................................................... XVIII
RESUMEN ............................................................................................. XIX
ABSTRACT ............................................................................................. XX
INTRODUCCIÓN ....................................................................................... 1
CAPITULO I ............................................................................................... 4
EL PROBLEMA .......................................................................................... 4
PLANTEAMIENTO DEL PROBLEMA ........................................................ 4
UBICACIÓN DEL PROBLEMA EN UN CONTEXTO ................................. 6
SITUACIÓN CONFLICTO. NUDOS CRÍTICOS ......................................... 6
CAUSAS Y CONSECUENCIAS DEL PROBLEMA .................................... 7
DELIMITACIÓN DEL PROBLEMA ............................................................. 8
FORMULACIÓN DEL PROBLEMA ............................................................ 8
EVALUACIÓN DEL PROBLEMA ............................................................... 8
DELIMITADO ............................................................................................. 9
XII
CLARO ...................................................................................................... 9
EVIDENTE ................................................................................................. 9
CONCRETO .............................................................................................. 9
CONTEXTUAL ......................................................................................... 10
ORIGINAL ................................................................................................ 10
ALCANCE DEL PROBLEMA ................................................................... 10
OBJETIVOS DE LA INVESTIGACIÓN .................................................... 12
OBJETIVO GENERAL ............................................................................. 12
OBJETIVOS ESPECÍFICOS .................................................................... 12
JUSTIFICACIÓN E IMPORTANCIA DE LA INVESTIGACIÓN ................ 12
CAPITULO II ............................................................................................ 14
MARCO TEÓRICO .................................................................................. 14
ANTECEDENTES DEL ESTUDIO ........................................................... 14
FUNDAMENTACIÓN TEÓRICA .............................................................. 15
REDES SOCIALES .................................................................................. 15
TWITTER ................................................................................................. 15
MINERÍA DE DATOS DE LA WEB .......................................................... 16
COMPONENTES DE LA MINERÍA DE DATOS ...................................... 17
EXTRACCIÓN DE DATOS DE TWITTER ............................................... 17
DEPURACIÓN DE LOS DATOS .............................................................. 22
HERRAMIENTAS UTILIZADAS EN EL DESARROLLO DEL PROYECTO
................................................................................................................. 23
USUARIOS DE TWITTER ....................................................................... 23
DIABETES ............................................................................................... 23
TIPOS DE DIABETES ............................................................................. 24
SÍNTOMAS Y CONSECUENCIAS DE PADECER LA ENFERMEDAD DE
DIABETES ............................................................................................... 24
ASMA ....................................................................................................... 26
ATAQUE DE ASMA, ¿EN QUÉ CONSISTE? .......................................... 26
SÍNTOMAS .............................................................................................. 27
XIII
FUNDAMENTACIÓN SOCIAL ................................................................. 27
FUNDAMENTACIÓN LEGAL ................................................................... 29
IDEA A DEFENDER ................................................................................ 32
DEFINICIONES CONCEPTUALES ......................................................... 32
CAPITULO III ........................................................................................... 33
METODOLOGÍA ...................................................................................... 33
DISEÑO DE LA INVESTIGACIÓN ........................................................... 33
MODALIDAD DE LA INVESTIGACIÓN ................................................... 33
TIPO DE INVESTIGACIÓN...................................................................... 33
POBLACIÓN Y MUESTRA ...................................................................... 34
TÉCNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS ......... 35
RECOLECCIÓN DE LA INFORMACIÓN ................................................. 36
PROCESAMIENTO Y ANÁLISIS ............................................................. 36
VALIDACIÓN DE LA IDEA A DEFENDER .............................................. 38
CAPITULO IV ........................................................................................... 39
PROPUESTA TECNOLÓGICA ................................................................ 39
PASOS PARA DESARROLLAR EL PROYECTO .................................... 40
PRESENTACIÓN DE REPORTES UTILIZANDO WEKA ........................ 56
REPORTERÍA .......................................................................................... 56
DIABETES ............................................................................................... 57
ASMA ....................................................................................................... 77
ANÁLISIS DE FACTIBILIDAD ................................................................ 106
FACTIBILIDAD OPERACIONAL ............................................................ 106
FACTIBILIDAD TÉCNICA ...................................................................... 106
FACTIBILIDAD LEGAL .......................................................................... 106
FACTIBILIDAD ECONÓMICA................................................................ 107
ETAPAS DE METODOLOGÍA DEL PROYECTO ................................... 107
ENTREGABLES DEL PROYECTO ........................................................ 112
CRITERIOS DE ACEPTACIÓN DEL PRODUCTO ................................. 112
CONCLUSIONES .................................................................................. 114
XIV
RECOMENDACIONES .......................................................................... 115
BIBLIOGRAFÍA ...................................................................................... 116
ANEXOS ................................................................................................ 118
XV
ABREVIATURAS
API Interfaz de Programación de Aplicaciones
App Aplicación Móvil
CC.MM.FF Facultad de Ciencias Matemáticas y Físicas
HTTP Protocolo de Transferencia de Hipertexto
IDE Entorno de Desarrollo Integrado
INEC Instituto Nacional de Estadística y Censos
Ing. Ingeniero
JSON Notación de Objetos JavaScript
S.O. Sistema operativo
TIC Tecnologías de la Información y la Comunicación
UG Universidad de Guayaquil
XVI
SIMBOLOGÍA
s Desviación estándar
e Error
s Estimador de la desviación estándar
n Tamaño de la muestra
N Tamaño de la población
Z Nivel de confianza deseado
p Proporción de individuos que poseen características de estudios
la población
q Proporción de individuos que no poseen esas características
XVII
ÍNDICE DE CUADROS Y TABLAS
Cuadro 1. Causas y Consecuencias. ......................................................... 7
Cuadro 2. Tabla de Varianza ................................................................... 35
Cuadro 3. Detalle de las Muestras ........................................................... 35
Cuadro 4. Cuentas recomendadas para pacientes con Asma ................. 36
Cuadro 5. Cuentas recomendadas para profesionales sanitarios
implicados en patologías respiratorias ..................................................... 37
Cuadro 6. Cuadro comparativo – Herramientas de minería de datos. ..... 55
Cuadro 7. Roles SCRUM ....................................................................... 108
Cuadro 8. Requerimientos y Criterios de Aceptación. ........................... 112
XVIII
ÍNDICE DE GRÁFICOS
Gráfico 1. Impacto en redes Sociales ...................................................... 15
Gráfico 2. Logotipo de Twitter .................................................................. 16
Gráfico 3. Creación de una nueva Aplicación .......................................... 18
Gráfico 4. Obtener Claves o Tokens ........................................................ 19
Gráfico 5. Pantalla para guardar API KEY y API Secret .......................... 19
Gráfico 6. Botón para Crear TOKEN Access ........................................... 19
Gráfico 7. Tokens :"Access token" y "Access token secret" .................... 20
Gráfico 8. Gráfico del Json que devuelve la Api de Twitter ...................... 21
Gráfico 9. Encuesta realizada por la Encuesta Nacional de Salud y
Nutrición ................................................................................................... 25
Gráfico 10. Cuando se produce un ataque de Asma ............................... 26
Gráfico 11. Fórmula para obtener Tamaño De Muestra .......................... 34
Gráfico 12. Página para descargar las librería de Twitter. ....................... 43
Gráfico 13. Xamp ..................................................................................... 40
Gráfico 14. Librería de API de Twitter ...................................................... 41
Gráfico 15. Estructura de la tabla abreviaturas ........................................ 50
Gráfico 16. Consulta realizada sobre la tabla abreviaturas ...................... 50
Gráfico 17. Estructura de la tabla estado de ánimo ................................ 51
Gráfico 18. Consulta realizada sobre la tabla estado_animo ................... 52
Gráfico 19. Estructura de la tabla usuario_twitter ................................... 52
Gráfico 20. Consulta realizada sobre la tabla estado_animo ................... 53
Gráfico 21. Estructura de la tabla usuario_twitter ................................... 53
Gráfico 22. Consulta realizada sobre la tabla publicaciones. ................... 54
Gráfico 23. Análisis del proceso. ........................................................... 111
XIX
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON
DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA
PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN
WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO
EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE
TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES
MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION
DE LA INFORMACION GENERADA EN EL
SECTOR DE LA SALUD.”
RESUMEN
El presente proyecto pretende explicar el impacto que actualmente tiene la red social Twitter en el ámbito de la salud, está enfocado en casos de pacientes con síntomas de asma y/o diabetes, se busca aprovechar la información que genera el usuarios en la red social Twitter, promoviendo mayor control y apoyo por parte de los profesionales de la salud sobre sus paciente. Las Redes Sociales pertenecen a una rama de aplicación de las TIC’s, se construye en base a lo que cada usuario aporta. Las empresas de distintos sectores están interesadas en el análisis de estos datos, por esta razón optan por aplicar técnicas de minería de datos, para averiguar que patrones de comportamiento les permitirán aprovechar los resultados obtenidos, focalizando sus esfuerzos en objetivos específicos.
Palabras Claves: Minería de Datos, Tics, Twitter
Autor: David Maldonado Plua
Tutor: Ing. Fabricio Medina MDPR
XX
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON
DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA
PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN
WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO
EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE
TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES
MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION
DE LA INFORMACION GENERADA EN EL
SECTOR DE LA SALUD.”
ABSTRACT
This project aims to explain the impact that the social network Twitter currently has in the field of health, is focused on cases of patients with symptoms of asthma and / or diabetes, it seeks to take advantage of the information generated by users in the social network Twitter, promoting greater control and support by health professionals about their patients. Social Networks belong to a branch of application of ICT, is built on the basis of what each user provides. Companies from different sectors are interested in the analysis of these data, for this reason they choose to apply data mining techniques, to find out which patterns of behavior will allow them to take advantage of the results obtained, focusing their efforts on specific objectives.
Key Words: Data Mining, Tics, Twitter
Author: David Maldonado Plua Tutor: Ing. Fabricio Medina
Autor: David Maldonado Plua
Tutor: Ing. Fabricio Medina MDPR
1
INTRODUCCIÓN
Es imprescindible que las organizaciones persigan agresivamente la
captura y análisis de nuevas fuentes de datos con el propósito de
alcanzar conocimientos y oportunidades de mejora o expansión.
Actualmente la utilización de las redes sociales están en todo su apogeo,
y es ahí donde reside una fuente con datos valiosa.
Debido a su gran impacto las redes sociales están en todas partes y en
los cuidados de la salud no son la excepción, por esta razón siendo la
salud uno de los sectores de atención prioritaria es importante trabajar
con herramientas que nos permitan tomar decisiones en base a los datos
que se van obteniendo de la población, con el fin de satisfacer sus
necesidades sin discriminación ni exclusión social.
Las instituciones que brindan servicios de salud así como los
profesionales médicos ya cuentan con redes sociales para relacionarse, a
medida de que los pacientes, usuarios y médicos intercambian
conocimientos sobre la medicina, tratamientos, exponen dudas, casos, y
experiencias (positivas, negativas), que van influenciando en las
decisiones que toman, se va generando información que posteriormente
puede ser utilizada en beneficio de la población.
2
En el presente proyecto de titulación utilizaremos las redes sociales para
el análisis y apoyo de pacientes con asma y diabetes, por dicha razón se
incluirá un recopilador de información publicada en las redes sociales,
específicamente en Twitter, que contendrá un analizador de sentimientos
o minería de opiniones para mostrarles esa información a los usuarios y
los médicos.
La necesidad de implementar este proyecto surge debido a que en la
actualidad el uso de las redes sociales se ha incrementado
considerablemente, es ahí donde se encuentra una gran oportunidad de
ayudar a los médicos tratantes de enfermedades como asma y diabetes
en la implementación de métodos de apoyo para la toma de decisiones
presentado reportes, encontrando patrones de comportamiento, y con la
interpretación que se obtiene del análisis ayudar a mejorar la salud y
estilo de vida de los pacientes usuarios de las redes.
A continuación, se presenta breve resumen del contenido de cada
capítulo del proyecto.
En el Capítulo 1, se describe la situación actual en una introducción,
partiendo de esto plantearemos el problema, se determinará la ubicación
del argumento, se realizará la descripción de la situación del conflicto
además identificaremos los nudos críticos, cuáles fueron las causas y
consecuencias, delimitaremos el problema, lo formularemos, se realizara
la respectiva evaluación y determinaremos el alcance del proyecto, se
obtendrá el objetivo general y los objetivos específicos a alcanzar en el
desarrollo de la aplicación.
3
El Capítulo 2, se procederá con la investigación sobre el tema a
desarrollar para obtener antecedentes de la temática propuesta, es decir
este capítulo hace referencia al marco teórico sobre el cual estará basado
el proyecto, se da a conocer definiciones acerca de las herramientas
utilizadas en la aplicación de técnicas de minería de datos en redes
sociales para el análisis de la información generada.
En el Capítulo, 3 se mostrará la metodología utilizada para la
investigación, también se detallará varios aspectos de la investigación
tales como la modalidad y el tipo de la investigación, además se hablará
de la población, la muestra y el proceso para la recopilación de
información con la respectiva validación de la propuesta planteada para el
presente proyecto de investigación.
En el capítulo 4, se presenta la propuesta tecnológica, donde en base a
los resultados del levantamiento de información llevados a cabo, se
establece el plan de trabajo para elaborar y se detallará las herramientas
y todo lo necesario para la implementación del recopilador de información
publicada en la red social Twitter el cual también incluirá un analizador de
sentimientos o minería de opiniones para mostrarle esa información a los
usuarios y los médicos. Se explica el proceso llevado a cabo en la
adaptación de la solución, se detallaran las recomendaciones y
conclusiones que nos dejó la experiencia de la implementación de la
propuesta del recopilador de información publicada en la red social
Twitter, con el respectivo resultado obtenido del análisis.
4
CAPITULO I
EL PROBLEMA
PLANTEAMIENTO DEL PROBLEMA
La salud es un tema prioritario y delicado, en las redes sociales es
donde podemos encontrar todo tipo de información relacionada, que
muchas veces no sabemos cómo interpretarla, mucho menos utilizarla
para beneficio de la población.
Por este motivo surge la necesidad de obtener herramientas de uso
sencillo, que permita llevar un control e interacción entre los pacientes y
los médicos tratantes de enfermedades tales como Asma y Diabetes
mellitus tipo 1 y tipo 2, facilitando de cierta manera el trabajo que realizan
los profesionales de la salud diariamente con el propósito de compartir
información de calidad y consejos útiles para el público interesado en
estas enfermedades, debido a esta causa se plantea el proyecto:
“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON
DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA
PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN
WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO
EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE
TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES MEDIANTE
5
ETL PARA EL ANALISIS Y EXTRACCION DE LA INFORMACION
GENERADA EN EL SECTOR DE LA SALUD.”
Para este proyecto se plantea la utilización de herramientas de minería
de datos, ya que al ser aplicada en el sector salud trae un sinnúmero de
beneficios, debido a que con los resultados que se obtienen de estos
análisis se pueden crear planes que finalmente pueden beneficiar e
influenciar de manera positiva en los usuarios de redes sociales que
padezcan o tengan familiares con alguna de estas enfermedades.
En la minería de datos permanentemente se presentan nuevos retos
que se deben afrontar en los algoritmos de extracción de conocimiento
que se desarrollen, entre estos retos podemos mencionar:
• Clasificación multietiqueta.
• Clases no balanceadas
• Extracción de reglas descriptivas a través de inducción supervisada
(patrones emergentes o descubrimiento de subgrupos)
• Posibilidades de éxito en el proceso de extracción de conocimiento a
través de la mejora de la calidad de los datos a analizar
• Interpretación de los resultados
• Escalabilidad de los algoritmos
Si tomamos en cuenta toda la información que se puede obtener de las
redes sociales, se puede posteriormente presentar propuestas de nuevos
planes de manera efectiva.
6
UBICACIÓN DEL PROBLEMA EN UN CONTEXTO
En la actualidad en Ecuador no disponemos de registros claros que
cuenten con información sobre personas afectadas con enfermedades
como asma y diabetes; tampoco se cuenta con portales web médicos
oficiales que traten sobre estas enfermedades, por lo tanto los usuarios
de la web que necesitan alguna ayuda o recomendaciones de primera
mano deben seguir o suscribirse en portales extranjeros.
Enfermedades como el asma afectan actualmente al 7% de la
población ecuatoriana de los cuales el mayor grupo afectado son los
niños en edad escolar. En referencia a la diabetes tenemos un panorama
bastante preocupante ya que a nivel mundial se encuentra en sexto lugar
de causa de defunción, mientras en Ecuador se ubica en tercer lugar,
antes esta enfermedad era atribuible solo a los adultos mayores pero hoy
en día los jóvenes y niños también la padecen.
SITUACIÓN CONFLICTO. NUDOS CRÍTICOS
Actualmente no existe un aplicativo que permita realizar la extracción
de las publicaciones sobre las patologías de asma y diabetes en las redes
sociales específicamente twitter y para el análisis de esa información a
nivel nacional específicamente en la ciudad de Guayaquil.
Las redes sociales están en auge y son recursos que no son utilizados
y poseen fuente de información valiosa que con su respectivo tratamiento
podría ayudar a mejorar las tomas de decisiones ahorrar y mejorar la
utilización de los recursos.
7
CAUSAS Y CONSECUENCIAS DEL PROBLEMA
En la actualidad con los avances tecnológicos y la facilidad de conexión
que se ha obtenido por los dispositivos móviles ha provocado que se
incremente el uso de las redes sociales, de cada 5 persona a nivel
mundial existe por lo menos una que usa alguna red social, durante el día
las personas realizan una o varias publicaciones causando que existe una
exorbitante cantidad de datos no estructurado provocando que no pueda
ser analizado con los métodos tradicionales.
Cuadro 1. Causas y Consecuencias.
Causas Consecuencias
No existen registros actualizados
oficiales sobre enfermedades como
Asma y Diabetes
Se desconoce cifras oficiales de
personas que padezcan de estas
enfermedades
Poca información acerca de
tratamientos y recomendaciones a
seguir para pacientes
Basados en la poca información
que se tiene es difícil crear planes
para mejor el estilo de vida de los
pacientes.
No se utiliza apropiadamente la
información que generan las redes
sociales respecto a enfermedades
como asma y diabetes
Quienes toman las decisiones
acostumbran a dejar de lado
algunos criterios que deberían
saber e incluso aparentan estar
informados pero con información
errónea o No actualizada
Usuario no conoce, ni el objetivo
preciso del análisis, ni la naturaleza
exacta de los datos.
La falta de conocimiento es uno de
los principales indicadores de
procesos y proyectos fallidos,
siendo también la principal
causante de las decisiones
erróneas.
8
DELIMITACIÓN DEL PROBLEMA
Campo: Tecnología - Salud.
Área: Desarrollo web.
Aspecto: Desarrollo de una aplicación que permita la extracción de las
publicaciones sobre la patología de asma y diabetes de la red social
twitter para luego realizar su realizar análisis, interpretación, presentación
de reportes y encuentre patrones de comportamiento con la herramienta
weka.
Tema: Sistema de autogestion de la salud para pacientes con diabetes y
asma, desarrollado e implementado en una plataforma android, con
monitoreo de una aplicación Web en php dirigida a los médicos tratantes.
Enfocado en el desarrollo web en php con la aplicacion de técnicas de
minería de datos en redes sociales mediante etl para el análisis y
extraccion de la informacion generada en el sector de la salud.
FORMULACIÓN DEL PROBLEMA
¿Cómo el uso de minería de datos en la red social twitter de las
patologías de asma y diabetes contribuirá a mejorar la calidad de vida y
de servicio de la salud?
EVALUACIÓN DEL PROBLEMA
Esta herramienta de minería de datos de la red social de twitter sobre
las patologías de asma y diabetes ofrece un mejor análisis e
interpretación de la información lo que permitirá ayudar a la toma de
decisiones y contribuirá a la mejora de la calidad de vida de las personas
que padecen enfermedades como asma y la diabetes.
9
A continuación se mencionan los aspectos generales de evaluación del
problema que se analizaron en el presente proyecto:
DELIMITADO
La propuesta se delimita a recopilar información generada en las redes
sociales específicamente en Twitter, es decir extraer las publicaciones
referentes a la enfermedad de Asma y Diabetes, para posterior análisis e
interpretación.
CLARO
Los pacientes y familiares de pacientes que sufren de patologías como
asma y diabetes necesitan ayuda en la autogestión de la salud de su
enfermedad por lo cual la tecnología por medio de las redes sociales
(Twitter) ayudaría significativamente, y se mejoraría el monitoreo de los
mismos.
EVIDENTE
Se evidencia la necesidad de un control sobre pacientes que sufren de
patologías como Asma y Diabetes mellitus tipo 1 y tipo 2 y de una
comunidad de usuarios, con ayuda herramientas innovadoras se podrá
dar seguimiento los siete días de la semana buscando crear propuestas
para mejorar su situación.
CONCRETO
La propuesta actual de este trabajo de investigación desea dar una
solución para el tratamiento de la información publicada en redes sociales
referentes a enfermedades como asma y diabetes, aprovechando esta
información de manera eficaz en busca de patrones de comportamiento
de los datos extraídos, tratados y cargados en la base de datos.
10
CONTEXTUAL
La propuesta está dirigida para tratar de beneficiar a personas que
sufren de enfermedades como Asma y de la Diabetes mellitus tipo 1 y tipo
2 en general. Se deja sentadas las bases para que este proyecto sea
escalable hacia nuevas patologías.
ORIGINAL
La presente propuesta es presentada como un proyecto innovador ya
que actualmente en nuestro medio aún no se ha introducido el uso de
herramienta de minería de datos con fines médicos para analizar
publicaciones cargadas referentes a patologías como Asma y de la
Diabetes mellitus tipo 1 y tipo 2.
ALCANCE DEL PROBLEMA
La presente propuesta describe el desarrollo de una aplicación Web en
PHP que permite extraer las publicaciones realizadas por los usuarios
sobre patologías referentes a asma y diabetes desde la red social Twitter.
Para iniciar con el proyecto necesitaremos registrarnos como en la
página oficial para desarrolladores en Twitter para poder acceder al uso
de su API. Posteriormente solicitaremos al equipo de proceso que realice
un análisis y facilite la información de las cuentas principales que traten
sobre las patologías de asma y diabetes para poder extraer publicaciones
de estas cuentas y de sus seguidores, de las cuales solo realizaremos
análisis de las cuentas que sean de Ecuador.
Luego que se determina la población procedemos a transformar estos
datos, para ello procedemos a quitar los caracteres especiales,
reemplazar las abreviaturas por las palabras completas, reemplazar las
palabras con el tipo de escritura CamelCase y una vez depurada la
11
información utilizaremos el api de una inteligencia artificial llamada
MonkeyLearn la cual se podrá utilizar su versión gratuita una vez nos
hayamos registrados.
Cuando ingresamos con nuestras credenciales podremos ver que
existen módulos clasificadores ya creados del cual usaremos la versión
en español para el análisis de las opiniones, luego almacenaremos la
información en la base de datos mysql.
Una vez realizado el proceso de extracción, trasformación y carga de la
información utilizaremos una herramienta de uso gratuito llamada WEKA
el cual nos permitirá realizar el análisis de minería de datos, presentar
reportes tales como: Arboles de decisiones, Clúster tanto para patologías
de Asma como diabetes, adicionalmente permite obtener regresiones
lineales simple, todo esto permitirá luego sacar nuestras propias
conclusiones e interpretaciones de la información analizada.
Dentro de esta propuesta No se realizará:
• No se utilizara una fans page propia, si no que la recopilación de la
información se realizara desde las páginas de terceros en conjunto
con la de sus seguidores, y estas cuentas serán proporcionadas por el
equipo de proceso.
• La aplicación no contendrá una interfaz gráfica sino que realizara un
proceso por background realizado desde el servidor.
• La versión de MonkeyLearn utilizada para el análisis de sentimientos o
minería de opiniones es la gratuita, existe una versión mejorada que
es la de pago.
• Generación de archivo CSV con información de los datos recopilados
desde la red social Twitter sobre las patologías de asma y diabetes
desde la aplicación Web desarrollada en PHP. Debe ser realizada
manualmente con apoyo del equipo de Base de datos.
12
• La Carga de datos desde el archivo CSV a la herramienta de minería
de datos Weka se deberá realizar manualmente.
OBJETIVOS DE LA INVESTIGACIÓN
OBJETIVO GENERAL
Implementar un recopilador de información que extraiga datos de la red
social Twitter, el cual también incluirá un analizador de sentimientos o
minería de opiniones, se utilizará la herramienta weka, para
posteriormente mostrar los resultados obtenidos a los usuarios y los
médicos.
OBJETIVOS ESPECÍFICOS
Los objetivos específicos del proyecto son:
1. Utilizar una herramienta que permita recopilar tweets relacionados a
enfermedades como asma y diabetes, mediante el uso de API´s que
proporcionan Twitter.
2. Clasificar los tweets registrados con información sobre asma y
diabetes según el tipo de publicación.
3. Analizar los resultados obtenidos para aplicar minería de datos sobre
los registros almacenados en la base de datos MySql.
4. Presentar reportes con información de los resultados alcanzados, con
su respectiva gráfica e interpretación.
JUSTIFICACIÓN E IMPORTANCIA DE LA INVESTIGACIÓN
Partiendo de la importancia que tienen actualmente las redes sociales
en la vida de las personas, además de que a través de ellas podemos
conseguir una cantidad abundante de datos referentes al entorno de la
salud, ofreceremos a los profesionales de la salud herramientas que les
13
permita mejorar la calidad de la atención sanitaria que brindan,
impulsando procedimientos más eficaces, y por consiguiente la calidad de
vida de los pacientes.
Tomando en cuenta el problema, se plantea la necesidad e importancia
de recopilar toda la información referente al asma y diabetes que se
registran en las redes sociales.
El proyecto se propone desarrollar una interfaz que incluya recopilador
de la información publicada en redes sociales, más concretamente
Twitter, donde se apliquen técnicas de minerías de datos, adicionalmente
contará con un analizador de sentimientos o minería de opiniones, la
captura de estos datos y su análisis más allá de las conclusiones lógicas
a las que llegaremos partiendo de las experiencias permitirá mostrar esta
información a los usuarios y los médicos.
Con este sistema experto se busca una mejor calidad y rapidez en las
respuestas dando así lugar a una mejora en los servicios que se brindan.
Es posible contar con un sistema de salud más sostenible, si se integra
todo tipo de datos tales como: Población, pacientes, profesionales. Estos
datos posteriormente se miden y se analizan para planificar tareas, lo que
permitirá generar alertas que apoyen la toma de decisiones y la atención
sanitaria, etc.
14
CAPITULO II
MARCO TEÓRICO
ANTECEDENTES DEL ESTUDIO
La idea de adquirir información partiendo de un conjunto de datos no es
nueva, inicialmente para la exploración en datos se utilizaba el análisis
estadístico que incluía utilizar prácticas clásicas tales como correlación,
regresión, etc. Pero debido a los adelantos tecnológicos en relación a
automatización de procesos, almacenamiento, etc., las empresas cada
vez podían recopilar más cantidades de información con registros de años
anteriores, convirtiéndose en fuentes de información y de conocimientos
valiosos (Hernández, 2014)
Dado que el conocimiento es poder, y el poder nos da la destreza de
tener control o influenciar en los eventos, se necesitó realizar el proceso
de obtención, exploración e identificación de datos útiles de manera más
eficaz y eficiente, ampliando la manera como se ejecutaban se empezó a
utilizar técnicas aprendizaje automático como la Inteligencia Artificial,
lógica difusa, razonamiento heurísticos, redes neuronales, encaminadas
principalmente, a la visualización, análisis, y modelización de información
de bases de datos masivas (Campos & Leticia, 2015).
15
FUNDAMENTACIÓN TEÓRICA
REDES SOCIALES
Es de donde se va a realizar la extracción de la población. Una red
social no es otra cosa más que una aplicación web que permite y ayuda a
que el contacto entre individuos sea mucho más fácil y cómodo. Para esto
las personas pueden previamente conocerse o hacerlo recién a través de
la red. Muchas veces relacionarse a través de una red social puede llevar
a un conocimiento directo o, incluso, la formación de nuevas parejas.
El Internet y las nuevas tecnologías impulsan el desarrollo y ampliación
de las redes sociales haciendo que cada vez sea más fácil y esté al
alcance de todos estar conectados.
El uso de las redes sociales en la actualidad permite el análisis de
comportamiento, tendencias que pude llegar a tener la población, es una
fuente muy valiosa para obtener información, por lo tanto se ha convertido
en un método de estudio en ciencias como la antropología o la sociología.
Se utilizara su api para la extracción de la información. La red social
Twitter genera mucha interacción, visitas recurrentes a la red y consumo
Ilustración 1. Impacto en redes Sociales
16
intensivo de noticias, actualidad, comunicación y servicio al cliente.
Actualmente está entre las redes sociales más usadas a nivel mundial con
un aproximado de 317 millones de usuarios a nivel mundial, en Ecuador la
red social Twitter cuenta con un promedio de 2millones de usuarios con
cuentas activas de los cuales alrededor de 800mil acceden desde
dispositivos móviles (Ponce, 2017). La ilustración 2 presenta el logotipo
de Twitter.
MINERÍA DE DATOS DE LA WEB
Se utilizara para extraer la información de las redes sociales. Uno de
los motivos de que en los últimos años la minería de datos de la web haya
crecido aceleradamente, es que la Web es actualmente completamente
dinámica, debido a que sus páginas y la estructura de sus enlaces como
de su uso por parte de las personas, contienen y generan un número
infinitos de datos. Estos datos poseen una importancia transcendental en
el mejoramiento de la misma, tanto minería Web (Fernando & Sonia,
2013) (ITelligent Information Technologies, 2015):
• Minería de contenido: Obtiene Valor de: texto, imágenes, etiquetas
(tags), metadatos, etc.;
• Minería de estructura: Los enlaces y sus relaciones. En las redes
sociales un elemento estructural serían sus seguidores.
• Minería de uso: Interacción de los usuarios con la Web, utilizando
Logs recopilados por servidores para este tipo de minería (Log
mining).
Ilustración 2. Logotipo de Twitter
17
COMPONENTES DE LA MINERÍA DE DATOS
Concepto general para determinar los pasos a proceder para poder
extraer la información. Los componentes básicos de los métodos de la
minería de datos son (Bernardo, 2016):
• Lenguaje de representación del modelo: comprende las suposiciones y
restricciones utilizadas en la representación empleada.
• Evaluación del modelo: incluye el uso de técnicas de validación
cruzada para la productividad y aplicación de principios como el de
máxima verosimilitud o el de descripción mínima para evaluar la
calidad descriptiva del modelo.
• Método de búsqueda: puede dividirse en búsqueda de parámetros y
del modelo, determinan los criterios que se siguen para encontrar los
modelos.
A continuación se nombran algunas de las técnicas que
frecuentemente se utilizan en la minería de datos (Ponce, 2017):
• Árboles de decisión y reglas de clasificación.
• Métodos de clasificación y regresiones no-lineales.
• Métodos basados en ejemplos prototípicos.
• Modelos gráficos de dependencias probabilísticas.
• Modelos relacionales.
EXTRACCIÓN DE DATOS DE TWITTER
Para el presente proyecto de titulación se utilizara un API de Twitter
para la extracción de los datos. A continuación se detallan los pasos para
su utilización (Rodríguez, 2015):
• En primer lugar cabe mencionar que vamos a usar la versión 1.1 de la
API de Twitter debido a que la 1.0 esta deprecated, la versión 1.1
requiere que para poder usar la aplicación tengamos que usar
autentificación OAUTH.
18
Para ello debemos realizar los siguientes pasos:
1. Crear una cuenta de desarrollador y una nueva Aplicación.
2. Crear los Tokens de acceso.
3. Crear acceso desde php a la API de Twitter y obtener un JSON de
los tweets de un usuario.
4. Filtrar la información útil y crear un array multidimensional del
mismo.
1. Crear una cuenta de desarrollador y una nueva Aplicación
1. Para crear una cuenta de desarrollador tenemos que dirigirnos a la
siguiente dirección:
https://dev.twitter.com/
2. Y loguearnos con nuestra cuenta de usuario. Seguidamente pulsamos
el siguiente enlace:
https://apps.twitter.com/
3. Y creamos una nueva aplicación:
4. Completamos los campos con los datos de nuestra APP, tal como se
muestra en la figura 3
Ilustración 3. Creación de una nueva Aplicación
19
2. Crear el Token de acceso
Los Tokens de acceso son las claves que vamos a necesitar para
comunicarnos con la API de Twitter, vamos a necesitar cuatro Tokens o
claves:
• The api key
• The api secret
• The access token
• The access token secret
Para obtener estas claves o Tokens tenemos que dirigirnos a la
pestaña API Keys.
Nos guardamos la API key y la API Secret que nos aparece en
pantalla.
Seguidamente le damos a generar El Token Access:
Ilustración 4. Obtener Claves o Tokens
Ilustración 5. Pantalla para guardar API KEY y API Secret
Ilustración 6. Botón para Crear TOKEN Access
20
Vemos que se nos han generado dos Tokens "Access token" y el
"Access token secret" los cuales tenemos que guardar:
3. Crear acceso desde php a la API de Twitter y Obtener un Json con
los últimos tweets de un usuario
Una vez que tenemos todas las claves necesarias para hacer funcionar
la API de Twitter vamos a ir a lo bueno, en primer lugar vamos a ver como
poder autentificarnos mediante PHP en la API de Twitter.
Existen distintas librerías hechas en PHP para gestionar la API de
Twitter, se ha decidido utilizar La librería TwitterAPIExchange y la podéis
descargar desde el mismo GitHub del autor.
Para la realización del proyecto se crearon 3 archivos PHP llamado
• indexSeguidores.php,
• indexPublicacionAsma.php,
• indexPublicacionDiabete.php
Los cuales contendrán una clase llamada Twitter con las siguientes
funciones:
• getTweets() : Devuelve el JSON obtenido en la consulta.
• contenido ($tweet): Devuelve un array multidimensional con los datos
que vamos a depurar y almacenar.
Ilustración 7. Tokens :"Access token" y "Access token secret"
21
Por lo tanto lo único que tendremos que hacer será llamar a estas
funciones para que nos extraiga la información.
Así pues, la primera función getTweets() se creará con ayuda de la
librería TwitterAPIExchange. En primer lugar vamos a introducir todas
nuestra claves para identificarnos mediante OAuth en la API v1.1 de
Twitter.
require_once('TwitterAPIExchange.php');
$settings = array (
'oauth_access_token' => "YOUR_OAUTH_ACCESS_TOKEN",
'oauth_access_token_secret' => "YOUR_OAUTH_ACCESS_TOKEN_SECRET",
'consumer_key' => "YOUR_CONSUMER_KEY",
'consumer_secret' => "YOUR_CONSUMER_SECRET”);
Seguidamente podemos escoger hacer las peticiones mediante
método GET o POST, en este caso se ha elegido el método GET. Para
obtener un JSON con:
• Los seguidores de una cuenta
• Las publicaciones sobre asma
• Las publicaciones sobre diabetes
Gráfico del Json que devuelve la Api de Twitter
Ilustración 8. Gráfico del Json que devuelve la Api de Twitter
22
4. Filtrar la información útil y crear un array multidimensional del
mismo.
El siguiente paso que vamos a hacer es filtrar la información que nos
interesa y almacenarla en un array multidimensional para más tarde
mostrarlo en una tabla. Para esto vamos a crear una función
llamada contenido ($tweet) que aceptara una variable donde se
almacenará el JSON para poder sacar información útil de él. Esta función
va a devolver un array multidimensional con los datos que hemos filtrado.
a) De los seguidores extraeremos:
b) De las publicaciones de asma y diabetes
Crear una Tabla a partir de un array multidimensional.
La función que implementaremos será displayTable($rawdata), esta
función mostrará en pantalla la información filtrada en el paso anterior.
DEPURACIÓN DE LOS DATOS
1. Se creó una clase sanear_string.php en php en la carpeta
validaciones:
require "validaciones/sanear_string.php";
Esta clase contiene 2 funciones
• sanear_string la cual quita los caracteres especiales y tildes
NOMBRE, UBICACION, IDIOMA, CONT_PUBLICACION, CONT_FAVORITOS, CONT_AMIGOS, FECHA_INGRESO,
IDPUBLICACION, PUBLICACION, URL, IDUSUARIO, SCREEN_NAME, NAME_USER, APLICATIVO, COUNT_FAVORITE, COUNT_RETWEET, IDIOMA, LOCATION, FECHA_CREACION, FECHA_REGISTRO, FECHA_ACTUALIZACION, ESTADO,
23
• parseCamelCase Separa las palabras CamelCase y las convierte en
minúscula
2. Se utilizó un diccionario de abreviatura en la base de datos para
reemplazar las abreviaturas que usan los usuarios por las palabras
completas
HERRAMIENTAS UTILIZADAS EN EL DESARROLLO DEL PROYECTO
Dentro de la solución propuesta por el siguiente proyecto está la
creación de una aplicación que se encargara de la extracción de la
información para ello se utilizará las siguientes aplicaciones:
• Api twitter
• Xamp( que nos realiza la configuración de un servidor local, php y
mysql los cuales usaremos para el desarrollo del aplicativo que
extraerá y depurara la información de las publicaciones)
• Api de emociones de MonkeyLearn el cual nos permitirá determinar
el estado emocional de las publicaciones de seguidores
USUARIOS DE TWITTER
Publicaciones referente a enfermedades como Diabetes y Asma.
El presente proyecto de titulación pretende realizar su análisis basado en
casos de usuarios que realicen publicaciones acerca de enfermedades
tales como:
• Diabetes
• Asma
DIABETES
La diabetes es una enfermedad que se produce cuando los niveles de
glucosa (azúcar) en la sangre son muy altos. La glucosa generalmente
procede de los alimentos que se consumen. La insulina ayuda a que la
24
glucosa entre a las células para suministrarles energía (MedlinePlus,
2017).
TIPOS DE DIABETES
A continuación tenemos los tipos de diabetes:
• Diabetes tipo 1: cuando el cuerpo no produce insulina.
• Diabetes tipo 2: cuando el cuerpo no produce o no usa la insulina de
manera adecuada. Sin suficiente insulina, la glucosa permanece en la
sangre. Es el tipo más común de la enfermedad.
SÍNTOMAS Y CONSECUENCIAS DE PADECER LA ENFERMEDAD DE
DIABETES
A continuación se mencionan los síntomas que generalmente
relacionados con la diabetes según su tipo (American Diabetes
Association, 2015):
Diabetes de tipo 1
• Recurrente ganas de orinar
• Sed constante e inusual
• Pérdida inusual de peso
• Fatiga e irritabilidad, variación de estado de animo
• Hambre exagerada
Diabetes de tipo 2
• Cualquiera de los síntomas de la diabetes tipo 1
• Frecuentemente sufre de infecciones (Piel, encías, Vejiga)
• Las Heridas y los moretones demoran en sanar
• Entumecimiento en las manos y/o los pies
• La visión se torna borrosa
25
En algunos casos es posible que no se llegue a desarrollar los
síntomas, sin embargo puedes padecer de esta enfermedad, por tal
motivo es importante realizarse los respectivos exámenes a tiempo, para
evitar futuras complicaciones.
Como consecuencias de padecer diabetes y tener exceso de glucosa
en la sangre podemos mencionar (MedlinePlus, 2017):
• Puede dañar los ojos, los riñones y los nervios.
• Puede derivar en enfermedades cardíacas, derrames cerebrales
• Necesidad de amputar alguna parte del cuerpo.
• En mujeres embarazadas se puede desarrollar diabetes gestacional.
La Población ecuatoriana, tiene cada vez más personas que sufren de
diabetes, las tasas de personas afectadas cada vez son más elevadas.
Según encuestas realizadas por ENSANUT, el 1.7% de la población
entre 10 a 59 años sufren de esta enfermedad.
A partir de los 30 años de edad esta tendencia tiende a subir, a la edad
de 50 años se puede decir que uno de cada diez ecuatorianos posee
diabetes.
Entre las causas principales que acelera la adquisición de esta
enfermedad tenemos (OPS/OMS, s.f.):
• Alimentación poco saludable
• Inactividad física
• Abuso de alcohol y el consumo de cigarrillos.
Ilustración 9. Encuesta realizada por la Encuesta
Nacional de Salud y Nutrición
26
ASMA
El asma es una enfermedad crónica, que se caracteriza porque los
pacientes que la adquieren tienen ataques periódicos de falta de aire y
sibilancias, La gravedad de los casos que se presentan y la frecuencia
varía de una a otra persona. Normalmente afecta a los niños.
ATAQUE DE ASMA, ¿EN QUÉ CONSISTE?
Cuando una persona sufre un ataque de asma el revestimiento de sus
bronquios se inflama, provocando un estrechamiento de las vías
respiratorias y una disminución del flujo de aire que entra y sale de los
pulmones.
En la Figura 5 podemos apreciar cómo se encuentran las vías
respiratorias de una persona sin asma vs una con asma
Ilustración 10. Cuando se produce un ataque de Asma
27
SÍNTOMAS
Entre los síntomas más recurrentes en casos de ataques de asma
tenemos:
• Insomnio frecuentemente,
• Fatiga diurna
• Disminución de la actividad
• Absentismo escolar y laboral.
La tasa de mortalidad por causas del asma es relativamente baja
comparándolas con otras enfermedades crónicas. Según la OMS
aproximadamente 150 millones de personas padecen este trastorno y los
casos de mortalidad directa bordean los 2 millones cada año. Y en
el Ecuador, se estima que el asma afecta al 7% de la población.
FUNDAMENTACIÓN SOCIAL
En la actualidad muchos sectores tales como empresas, gobiernos,
salud, educación, entre otros han incorporado técnicas de data mining
para explotar sus bases de datos con el objetivo de aprovechar de mejor
manera la información que se genera. Aunque cada sector es un mundo
distinto, el proceso de Data mining atraviesa por cuatro etapas
principales, las cuales se mencionan a continuación (Bernardo, 2016):
1. Determinación de objetivos.
En esta etapa se fijan los objetivos que el cliente-usuario requiere, en
conjunto con especialistas en data mining.
2. Pre-procesamiento de los datos.
En esta etapa se procede con la selección, depuración y la transformación
de las bases de datos; por lo general consume aproximadamente el
setenta por ciento del tiempo total de un proyecto de data mining
28
3. Determinación del modelo.
Esta etapa comienza realizando unos análisis estadísticos de los datos, y
después genera la visualización gráfica de los mismos lo que permite
obtener una primera aproximación.
Se puede utilizar algoritmos desarrollados en diferentes áreas de la
Inteligencia Artificial, dependiendo de los objetivos planeados y las tareas
que corresponde realizar.
4. Análisis de los resultados.
En esta etapa se comprueban los resultados en la minería de datos, se
validan si estos son coherentes; para posteriormente compararlos con los
resultados que se obtuvieron durante el análisis estadístico y en la
visualización de gráficos.
El usuario-cliente determina si los resultados que se obtuvieron son
valiosos y si le aportan un nuevo conocimiento que le favorezca en
la toma de decisiones.
Entre los beneficios que una organización puede obtener tenemos (ITelligent Information Technologies, 2016)]:
• Revela Información que no se esperaba obtener, añadiendo valor
• Analiza enormes cantidades de datos.
• Los resultados obtenidos son fáciles de entender e interpretar.
• Partiendo de la Información obtenida la organización puede mejorar la
atención y la relación con sus clientes-Usuarios
• Permite ofrecer a tus clientes los productos y/o servicios que
necesitan.
• Permite obtener modelos confiables, debido a que estos son probados
y comprobados empleando técnicas estadísticas, para que las
predicciones que se obtengan sean válidas.
29
• Genera nuevas oportunidades y ahorra costes a la organización.
FUNDAMENTACIÓN LEGAL
El presente trabajo de titulación se lo ha propuesto adentro del entorno
legal equivalente, realizando audiencias bibliográficas de una guisa
correcta en la averiguación y así mismo efectuando las respectivas
narraciones bibliográficas de adonde se obtuvo la noticia, con el término
de no disimular a los derechos de ejecutante de los certificados de los
cuales se extrajo la comunicación.
La factibilidad legal en el presente trabajo permite definir los derechos
de guionista que se da en la credencial y otros entregables que se
realicen, esta se convierte en exclusiva para el personal involucrado, por
lo que queda definida la colocación y explotación de este patente,
comparables como la periódica impresa, su impresión, siquiera venias del
contenido divisado en otra enjundia.
Esta propuesta está constituida en las siguientes bases legales y
jurídicas que expide la Asamblea Nacional del Ecuador: (Pública, 2015).
• Art. 32.- La salud es un derecho que garantiza el Estado, cuya
realización se vincula al ejercicio de otros derechos, entre ellos el derecho
al agua, la alimentación, la educación, la cultura física, el trabajo, la
seguridad social, los ambientes sanos y otros que sustentan el buen vivir.
El Estado garantizará este derecho mediante políticas económicas,
sociales, culturales, educativas y ambientales; y el acceso permanente,
oportuno y sin exclusión a programas, acciones y servicios de promoción
y atención integral de salud, salud sexual y salud reproductiva. La
prestación de los servicios de salud se regirá por los principios de
30
equidad, universalidad, solidaridad, interculturalidad, calidad, eficiencia,
eficacia, precaución y bioética, con enfoque de género y generacional
Sección segunda
Salud
• Art. 358.- El sistema nacional de salud tendrá por finalidad el
desarrollo, protección y recuperación de las capacidades y
potencialidades para una vida saludable e integral, tanto individual como
colectiva, y reconocerá la diversidad social y cultural. El sistema se guiará
por los principios generales del sistema nacional de inclusión y equidad
social, y por los de bioética, suficiencia e interculturalidad, con enfoque de
género y generacional.
• Art. 359.- El sistema nacional de salud comprenderá las
instituciones, programas, políticas, recursos, acciones y actores en salud;
abarcará todas las dimensiones del derecho a la salud; garantizará la
promoción, prevención, recuperación y rehabilitación en todos los niveles;
y propiciará la participación ciudadana y el control social.
• Art. 363.- El Estado será responsable de:
3. Formular políticas públicas que garanticen la promoción, prevención,
curación, rehabilitación y atención integral en salud y fomentar
prácticas saludables en los ámbitos familiar, laboral y comunitario.
4. Universalizar la atención en salud, mejorar permanentemente la
calidad y ampliar la cobertura.
5. Fortalecer los servicios estatales de salud, incorporar el talento
humano y proporcionar la infraestructura física y el equipamiento a las
instituciones públicas de salud.
31
6. Garantizar las prácticas de salud ancestral y alternativa mediante el
reconocimiento, respeto y promoción del uso de sus conocimientos,
medicinas e instrumentos.
7. Brindar cuidado especializado a los grupos de atención prioritaria
establecidos en la Constitución.
8. Asegurar acciones y servicios de salud sexual y de salud reproductiva,
y garantizar la salud integral y la vida de las mujeres, en especial
durante el embarazo, parto y postparto.
9. Garantizar la disponibilidad y acceso a medicamentos de calidad,
seguros y eficaces, regular su comercialización y promover la
producción nacional y la utilización de medicamentos genéricos que
respondan a las necesidades epidemiológicas de la población. En el
acceso a medicamentos, los intereses de la salud pública
prevalecerán sobre los económicos y comerciales.
10. Promover el desarrollo integral del personal de salud.
• Art. 365.- Por ningún motivo los establecimientos públicos o
privados ni los profesionales de la salud negarán la atención de
emergencia. Dicha negativa se sancionará de acuerdo con la ley.
• Art. 366.- El financiamiento público en salud será oportuno, regular
y suficiente, y deberá provenir de fuentes permanentes del Presupuesto
General del Estado. Los recursos públicos serán distribuidos con base en
criterios de población y en las necesidades de salud. El Estado financiará
a las instituciones estatales de salud y podrá apoyar financieramente a las
autónomas y privadas siempre que no tengan fines de lucro, que
garanticen gratuidad en las prestaciones, cumplan las políticas públicas y
aseguren calidad, seguridad y respeto a los derechos. Estas instituciones
estarán sujetas a control y regulación del Estado.
32
IDEA A DEFENDER
La creación de la aplicación que permita realizar la extracción de las
publicaciones sobre las patologías de asma y diabetes, la transformación
en información y la carga en la base de datos de MySql permitirá realizar
el respectivo análisis utilizando la herramienta Weka para posteriormente
presentar reportes los cuales podrán ser analizados e interpretados y así
poder ayudar a la población mejorando la calidad del servicio y a los
especialistas de la salud con consejos útiles.
DEFINICIONES CONCEPTUALES
ETL (Extracción, Transformación y Carga): Se denomina ETL al
proceso que se realiza para obtener información de algún origen de datos
luego se procede con la transformación que consiste en quitar de los
datos aquello que no arroja un beneficio para continuar con el proceso de
carga que consiste en almacenar la información depurada en un
repositorio.
Minería de datos: Se denomina como una ciencia que nos permite
obtener grandes lotes de información para poder realizar análisis e
interpretación de la información.
33
CAPITULO III
METODOLOGÍA
DISEÑO DE LA INVESTIGACIÓN
MODALIDAD DE LA INVESTIGACIÓN
Para el presente proyecto de titulación se utilizó una metodología de
tipo Descriptiva puesto que pretendemos describir los hechos tal como
van sucediendo. También trabajaremos con una metodología tipo
Aplicativa debido a que se utilizará los datos obtenidos para el análisis.
TIPO DE INVESTIGACIÓN
Se utilizó una metodología de tipo Descriptiva debido a que este tipo de
investigación parte de la observación que se realiza sobre un sujeto
buscando obtener conclusiones a partir de las experiencias, para
posteriormente describir detalladamente su comportamiento, sin interferir
ni influir sobre él. Siendo así en este proyecto se procederá con el análisis
de las tendencias de las publicaciones de los usuarios en la red social
Twitter y clasificar según los de intereses en el estudio.
El uso de la metodología tipo Aplicativa se debe a que luego de la
extracción de los datos se utilizará herramientas que permitan utilizar
dicha información para mejorar la toma de decisiones, optimizar recursos
34
y brindar un mejor servicio a los usuarios. Debido a que este tipo de
análisis se indaga sobre el porqué de los hechos suscitados,
estableciendo relaciones de causa- efecto.
POBLACIÓN Y MUESTRA
Población (asma y diabetes)
Se conoce como población a un grupo de individuos que tienen
características comunes (Sánchez & Inzunza, 2015)], Para el presente
caso de estudio la población se centra en el número de seguidores que
tienen de las cuentas principales de asma y diabetes sobre las cuales se
va a realizar el análisis. Por lo tanto, la población definida es de 35900
usuarios que pueden padecer de asma o diabetes.
Muestra (asma y diabetes)
Es un subconjunto de la población, los cuales son representativos de la
misma para realizar el análisis que se desee realizar (Sánchez & Inzunza,
2015)]. La muestra debe contar con toda la información deseada de la
población por lo que es importante utilizar una técnica de muestreo
adecuada.
Cálculo de la muestra Para obtener el valor de la muestra de la población
de seguidores se realiza mediante el uso de la siguiente fórmula:
Elaboración: David Maldonado,
Fuente: Datos de investigación.
Ilustración 11. Fórmula para obtener Tamaño De Muestra
35
Dónde: El margen de error e es del 5%, el nivel de confianza Z es del
90%, se suele suponer que p=q=0.5, y q=1-p
Elaboración: David Maldonado,
Fuente: Datos de investigación.
Tamaño de la Muestra (Pacientes):
� = 1.645^2 ∗ 0.5 ∗ 0.5 ∗ 35900___ = 270.60
35900 ∗ 0.05 * 0.05 + 1.645^2 ∗ 0.5 ∗ 0.5
DESCRIPCIÓN POBLACIÓN (N) TAMAÑO DE LA MUESTRA (n)
Usuarios 35900 271
Elaboración: David Maldonado,
Fuente: Datos de investigación.
TÉCNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS
La técnica que se aplicara en el presente proyecto de investigación será
la Extracción de datos a través de la base MySql.
Cuadro 2. Tabla de Varianza
Cuadro 3. Detalle de las Muestras
36
RECOLECCIÓN DE LA INFORMACIÓN
El método aplicado para la recolección de datos será a través de la
minería de datos de la red social twitter utilizando su API.
PROCESAMIENTO Y ANÁLISIS
La recolección de la información se realizara a través del API de twitter
para ello se solicitó al equipo de proceso que nos faciliten el nombre de
las cuentas principales que traten sobre asma y diabetes:
Cuentas de Twitter a utilizar con sus seguidores (Muestra)
El departamento de procesos creado para el presente proyecto asignó
desde donde se extraería la información, en las tablas 1 y 2 se detalla la
información de las cuentas para el análisis.
Cuentas Seguidores Descripción
Separ
@SeparRespira
#DiccionarioRespira
>3500
seguidores
Esta cuenta pone a disposición de
los usuarios vídeos informativos
con recomendaciones acerca de
patologías respiratorias.
Fundacion Lovexair
@Lovexair
#HappyAir
>1800
seguidores
El contenido de esta cuenta está
dirigido a la difusión de eventos
relacionados a mejorar el control
de patologías respiratorias.
Neumomadrid
@Neumomadrid
>1300
seguidores
Esta cuenta se dedica a compartir
las últimas novedades, noticias y
consejos más destacados sobre
diversas patologías respiratorias.
Guía GEMA >1200 Esta cuenta es utilizada con el
Cuadro 4. Cuentas recomendadas para pacientes con Asma
37
@Gemasma seguidores objetivo de prevenir y concienciar a
la población sobre el Asma y
comparte con sus seguidores las
últimas noticias, campañas y datos
epidemiológicos más relevantes.
GVR
@RespirarGVR
>1200
seguidores
El twitter de este grupo está
dirigido a profesionales, pacientes
y familiares, proporcionando
información de calidad sobre la
enfermedad del Asma en la
infancia y adolescencia.
Elaboración: David Maldonado,
Fuente: Datos de investigación.
Cuentas Seguidores Descripción
American Thoracic
@atscommunity
>15.100
seguidores
Presentan publicaciones
relevantes sobre patologías
respiratorias.
SEAIC
@SEAIC_Alergia
>4300
seguidores
Publica información sobre las
próximas jornadas, simposios,
iniciativas y consensos sobre
alergias, dirigidas a
profesionales.
Alergia y Asma
@Alergólogos
>1500
seguidores
Esta cuenta da a conocer las
últimas publicaciones sobre
Asma, Alergias, y noticias del
Cuadro 5. Cuentas recomendadas para profesionales sanitarios implicados en patologías respiratorias
38
ámbito respiratorio.
Asthma Papers >500
seguidores
Destaca artículos científicos
relevantes sobre Asma.
ERS Publications
@ERSPublications
>5500
seguidores
Presenta estudios publicados en
revistas y novedades importantes
a nivel internacional.
Elaboración: David Maldonado,
Fuente: Datos de investigación.
Para la muestra de publicaciones de diabetes usaremos las cuentas de
los usuarios de asma y cuentas aleatorias que se encuentren, ya que no
se ha definido cuentas principales de donde se extraerá la información.
VALIDACIÓN DE LA IDEA A DEFENDER
Según los resultados alcanzados luego del análisis de la minería de
datos se pudieron determinar que la población que padecen de diabetes
en la ciudad de Guayaquil está con un estado de ánimo malo esto se
debe a varios factores como la atención por parte de los médicos, la
carencia de medicina o el tratamiento de la patología.
Los pacientes que padecen de asma en Guayaquil están con un estado
de ánimo bueno esto se debe a que el tratamiento es bueno o la
ubicación geográfica es buena para el tratamiento de la enfermedad.
39
CAPITULO IV
PROPUESTA TECNOLÓGICA
Partiendo de la importancia que tienen actualmente las redes sociales
en la vida de las personas, además de que a través de ellas podemos
conseguir una cantidad abundante de datos referentes al entorno de la
salud, ofreceremos a los profesionales de la salud herramientas que les
permita mejorar la calidad de la atención sanitaria que brindan,
impulsando procedimientos más eficaces, y por consiguiente la calidad de
vida de los pacientes.
Tomando en cuenta el problema, se plantea la necesidad e importancia
de recopilar toda la información referente al asma y diabetes que se
registran en las redes sociales.
El presente proyecto se propone desarrollar una interfaz que incluya
recopilador de la información publicada en redes sociales, más
concretamente Twitter, donde se apliquen técnicas de minerías de datos,
adicionalmente contará con un analizador de sentimientos o minería de
opiniones, la captura de estos datos y su análisis más allá de las
conclusiones lógicas a las que llegaremos partiendo de las experiencias
permitirá mostrar esta información a los usuarios y los médicos.
40
Con este sistema experto se busca una mejor calidad y rapidez en las
respuestas dando así lugar a una mejora en los servicios que se brindan.
Es posible contar con un sistema de salud más sostenible, si se integra
todo tipo de datos tales como: Población, pacientes, profesionales. Estos
datos posteriormente se miden y se analizan para planificar tareas, lo que
permitirá generar alertas que apoyen la toma de decisiones y la atención
sanitaria, etc.
PASOS PARA DESARROLLAR EL PROYECTO
1.-API TWITTER: REST API aplicado sobre las cuentas de estudio
Luego del registro como desarrolladores para hacer uso del api de
Twitter, se procede a realizar configuración para el uso del api de twitter y
el desarrollo del programa.
• Descargar la librería de twitter que se encuentra en githut
(https://github.com/abraham/twitteroauth).
• Como trabajamos de manera local se tuvo que instalar xamp como
servidor, luego procedimos a iniciarlo.
Ilustración 13. Xamp
41
• En la ruta donde se ejecuta el proyecto “C:\xampp\htdocs” creamos
una carpeta llamada twitter.
• En la carpeta twitter descomprimimos la librería del api de twitter, la
cual contiene los siguientes archivos presentados en la Gráfico 14
2.-PHP Uso de credenciales que extraen con el API
• Se elaboró el archivo
“indexSeguidores.php”
• En donde se incluye la ruta de donde se encuentra el Api de twitter:
require "twitteroauth-master/autoload.php";
• Luego el archivo de configuración de la conexión a la base de dato
require "conexion.php";
• Las credenciales de la base de datos son las siguientes:
$servername = "192.168.10.3"; $username = "php"; $password = "SERVERBD123."; $dbname = "oap";
Ilustración 14. Librería de API de Twitter
42
• Validación para la cadena de conexión: • Luego procedemos a asignar las credenciales de twitter a unas
variables
• Luego realizamos la conexión a twitter con la siguiente sintaxis
• Cargo en el siguiente arreglo las cuentas principales y las que deseo
extraer sus seguidores
$cuentas = array()
• Creo un ciclo que va a ir recorriendo las cuentas principales de donde
extraeré los seguidores, a medida que pasa el ciclo va cambiando el
nombre del seguidor en esta variable $cuentas[$i] , a continuación se
muestra la sintaxis de extracción de información:
• Luego se recorre el json para ir descomponiéndolo en arreglos que me
traerá el perfil de cada usuario:
$consumer_key = "0u7mPaPgHhUa4VEgEyQDWGXoF"; $consumer_secret = "oueJuUNhDE5uA14mOICQ2Y5Vg6unobkUKVDHcSn8RuBTUfnKlo"; $token = "874437109834186752-8GnvXBpB9hcoAwjMgkasbBqp6raOumP"; $token_secret = "DCbrwJoqrZMSqeL5dKUuUKJRO5hDk5i6TF4c2bLq0KnsT";
$connection = new TwitterOAuth($consumer_key, $consumer_secret, $token, $token_secret);
$ids = $connection->get('followers/ids', ["screen_name" => $cuentas[$i], "count" => 100]);
43
• Luego en cada arreglo lo recorro para poder extraer la información que
necesito
• Y estas variables las paso por parámetro para almacenarla en la base
de datos 1. Para la extracción de publicaciones del asma Se elaboró el archivo “indexPublicacionAsma.php”
Aquí se incluye la ruta donde se encuentra el api de Twitter:
require "twitteroauth-master/autoload.php";
Luego el archivo de configuración de la conexión a la base de dato
// Chunk the ids in to arrays of 100. $ids_arrays = array_chunk($ids->ids, 100); // Loop through each array of 100 ids. foreach($ids_arrays as $implode) { // Perform a lookup for each chunk of 100 ids. $results = $connection->get('users/lookup', array('user_id' => implode(',', $implode)));
// Loop through each profile result. foreach($results as $profile) { // Use screen_name as key for $profiles array. $profiles[$profile->id] = $profile; $profiles[$profile->screen_name] = $profile; $profiles[$profile->location] = $profile;
$profiles[$profile->lang] = $profile; $profiles[$profile->followers_count] = $profile; $profiles[$profile->friends_count] = $profile; $profiles[$profile->created_at] = $profile;
$PN_ID_USUARIO = $profile->id ; $PV_NOMBRE = sanear_string($profile->screen_name); $PV_UBICACION = sanear_string($profile->location); $PV_IDIOMA = $profile->lang ; $PN_CONT_PUBLICACION = $profile->followers_count ; $PN_CONT_FAVORITOS = $profile->listed_count ; $PN_CONT_AMIGOS = $profile->friends_count ; $CREATED_AT = $profile->created_at ; $SOURCE = $CREATED_AT;//'2012-07-31'; $FECHA = new DateTime($SOURCE); $AUX =""; $ESTADO ="A";
44
require "conexion.php";
Las credenciales de la base de datos son las siguientes: Y esta es la validación para la cadena de conexión Procedemos a asignar las credenciales de Twitter a unas variables:
Luego realizamos la conexión a twitter con la siguiente sintaxis:
Se carga en el siguiente arreglo las cuentas que almacene de los
seguidores de las cuentas principales
Para verificar si la cuenta seguidores registrado tendremos la siguiente
condición, $ consulta
Si tenemos datos entonces realiza un ciclo con el siguiente código:
// Crear Conexion $conn = new mysqli($servername, $username, $password, $dbname); //Validar la conexion if ($conn->connect_error) { die("Connection failed: " . $conn->connect_error); } else{ echo "Conexion exitosa"; }
$consumer_key = "0u7mPaPgHhUa4VEgEyQDWGXoF"; $consumer_secret = "oueJuUNhDE5uA14mOICQ2Y5Vg6unobkUKVDHcSn8RuBTUfnKlo"; $token = "874437109834186752-8GnvXBpB9hcoAwjMgkasbBqp6raOumP"; $token_secret = "DCbrwJoqrZMSqeL5dKUuUKJRO5hDk5i6TF4c2bLq0KnsT";
$connection = new TwitterOAuth($consumer_key, $consumer_secret, $token, $token_secret);
$servername = "192.168.10.3"; $username = "php"; $password = "SERVERBD123."; $dbname = "oap";
if ($resultado = $conn->query($consulta)) {
while ($row=$resultado->fetch_Assoc()) {
45
Luego utilizamos el siguiente código para extraer información de las
publicaciones de los usuarios:
A continuación se crea un ciclo que va a ir recorriendo las cuentas de los
seguidores de donde extraeremos las publicaciones:
Puede darse el caso que el usuario tenga bloqueada la cuenta o no nos
de permisos necesarios para consultar, en ese caso el código a utilizar
será la siguiente validación para salir del ciclo de ese usuario ya que no
nos arrojará información
En el caso de tener los permisos necesarios se recorre el json para ir
descomponiéndolo en arreglos que me traerá las publicaciones de cada
seguidor
$i ++; $id=$tweet->id; $id_str=$tweet->id_str; $favorite_count=$tweet->favorite_count; $retweet_count=$tweet->retweet_count; $created_at=$tweet->created_at; $name=$tweet->user->name; $screen_name=$tweet->user->screen_name; $lang=$tweet->lang; $geo=$tweet->geo; $source = $created_at ; $date1 = new DateTime($source); $fecha_inicial= new DateTime($source); $url=" "; $tweeter='asma'; $lann=is_null($tweet->lang)?" ":$tweet->lang; $geoo=is_null($tweet->geo)?" ":$tweet->geo; $text=$tweet->text;
$contenido = $conexion->get("statuses/user_timeline", ["screen_name" => $row["nombre"], "count" => 100]);
foreach($contenido as $tweet) {
if (!isset($tweet->id)) { //echo "no existe"."-".$i."<br>"; break; }
46
De estas variables luego se procederá a realizar la depuración análisis de
sentimiento y correcciones ortográficas
2. Para la extracción de publicaciones del diabetes Se elaboró el archivo “indexPublicacionDiabete.php”
En donde se incluye la ruta de donde se encuentra el api de twitter:
require "twitteroauth-master/autoload.php";
Luego el archivo de configuración de la conexión a la base de dato
require "conexion.php";
Las credenciales de la base de datos son las siguientes:
Y esta es la validación para la cadena de conexión Luego procedemos a asignar las credenciales de twitter a unas variables
Luego realizamos la conexión a twitter con la siguiente sintaxis
$consumer_key = "0u7mPaPgHhUa4VEgEyQDWGXoF"; $consumer_secret = "oueJuUNhDE5uA14mOICQ2Y5Vg6unobkUKVDHcSn8RuBTUfnKlo"; $token = "874437109834186752-8GnvXBpB9hcoAwjMgkasbBqp6raOumP"; $token_secret = "DCbrwJoqrZMSqeL5dKUuUKJRO5hDk5i6TF4c2bLq0KnsT";
$connection = new TwitterOAuth($consumer_key, $consumer_secret, $token, $token_secret);
$servername = "192.168.10.3"; $username = "php"; $password = "SERVERBD123."; $dbname = "oap";
47
Cargo en el siguiente arreglo las cuentas que almacene de los seguidores
de las cuentas principales $ consulta
Para verificar si tenemos seguidores registrado tendremos la siguiente
condición if ($resultado = $conn->query($consulta)){
Si tenemos datos entonces realiza un ciclo con el siguiente código
while ($row=$resultado->fetch_Assoc()) {
Luego utilizamos el siguiente código para extraer información de las
publicaciones de los usuarios
Creo un ciclo que va a ir recorriendo las cuentas de los seguidores de
donde extraeremos las publicaciones:
Puede darse el caso que el usuario tenga bloqueada la cuenta o no nos
de permisos necesarios para consultar, entonces ponemos la siguiente
validación para salir del ciclo de ese usuario ya que no nos arrojara
información
En el caso de tener los permisos necesarios se recorre el json para ir
descomponiéndolo en arreglos que traerá las publicaciones de cada
seguidor
$contenido = $conexion->get ("statuses/user_timeline", ["screen_name" => $row["nombre"], "count" => 100]);
foreach($contenido as $tweet) {
f if (!isset($tweet->id)) { //echo "no existe"."-".$i."<br>"; break; }
48
De estas variables luego procederé a realizar la depuración análisis de
sentimiento y correcciones ortográficas.
3. Depurar información: Herramientas a usar y el Código
Para la depuración de las publicaciones que extraemos se procedió a
crear una clase “sanear_string.php”
Esta clase tiene 2 métodos “sanear_string($string)” el cual se encarga
de reemplazar caracteres especiales, tildes, ñ por caracteres normales, la
otra función es “parseCamelCase” el cual separa las palabras unidas
como los hasttag y los convierte en minúscula
Se valida que este bien escrito.
Se valida que si tiene abreviaturas las reemplazamos por la palabra
completa para ello usamos un diccionario de abreviaturas que tenemos en
la base.
4. Kit para análisis de emociones: Herramientas a usar y el
Código y credenciales
Nos registramos en la página oficial
(https://app.monkeylearn.com/accounts/register/)
Obtenemos las credenciales
$i ++; $id=$tweet->id; $id_str=$tweet->id_str; $favorite_count=$tweet->favorite_count; $retweet_count=$tweet->retweet_count; $created_at=$tweet->created_at; $name=$tweet->user->name; $screen_name=$tweet->user->screen_name; $lang=$tweet->lang; $geo=$tweet->geo; $source = $created_at ; $date1 = new DateTime($source); $fecha_inicial= new DateTime($source); $url=" "; $tweeter=diabete; $lann=is_null($tweet->lang)?" ":$tweet->lang; $geoo=is_null($tweet->geo)?" ":$tweet->geo; $text=$tweet->text;
49
Bajamos el código de githut
Debemos incluirlo en nuestro proyecto la carpeta que bajamos
En el php para extraer las publicaciones de los seguidores añadimos la
ruta del archivo:
require 'autoload.php';
• Añadimos las credenciales
En donde $text_list = [“estoy triste”] seria la publicación la cual
analizaríamos y determinaríamos el estado emocional de la publicación
Luego procedemos a verificar si existe o no la publicación; de existir la
actualizamos, si no existe la insertamos
5. Almacenamiento de la Información en la base de datos
La Base de datos que se va a utilizar en el presente proyecto es: Mysql; el
nombre de la base es ¨OAP¨. Trabajaremos con las siguientes tablas:
1. Abreviaturas:
2. Estado_animo
3. Usuario_twitter
4. Publicaciones.
A continuación se detalla la estructura de cada tabla a utilizar:
Abreviaturas
Almacena un diccionario con palabras claves predefinidas con modismos
utilizados comúnmente por las personas en sus publicaciones con su
respectiva traducción al lenguaje universal. El gráfico 15 presenta la
estructura de la tabla abreviaturas
$ml = new MonkeyLearn\Client('4127aa9b904552b9bb59e63a24ced5daf60a208f'); $text_list = ["estoy triste"]; $module_id = 'cl_u9PRHNzf'; $res = $ml->classifiers->classify($module_id, $text_list, true);
50
El Gráfico 16 muestra una consulta realizada sobre la tabla abreviaturas,
en donde podemos apreciar algunos de los modismos más utilizados
registrados en la tabla con su respectiva traducción al lenguaje universal:
Ilustración 16. Consulta realizada sobre la tabla abreviaturas
Ilustración 15. Estructura de la tabla abreviaturas
51
estado_animo En esta tabla se almacenan las categorías a utilizar al momento de
analizar en las publicaciones de las personas, el estado de ánimo de cada
una.
El Gráfico 17 presenta la estructura de la tabla estado_animo:
Al momento esta clasificación constará de 5 categorías:
1. Horrible
2. Mal
3. Normal
4. Bien
5. Increíble
Ilustración 17. Estructura de la tabla estado de ánimo
52
El Gráfico 18 muestra una consulta realizada sobre la tabla estado_animo
en donde podemos apreciar las categorías anteriormente mencionadas
usuario_twitter En esta tabla se almacenaran los datos de los usuarios de Twitter sobre
los cuales se realizará el posterior análisis de sus publicaciones. En el
Gráfico 19 podemos observar la estructura de la tabla Usuario_twitter
Ilustración 18. Consulta realizada sobre la tabla estado_animo
Ilustración 19. Estructura de la tabla usuario_twitter
53
En la Gráfico 20 presentamos la consulta realizada sobre la tabla Usuario_twitter Publicaciones
En esta tabla se guardará todas las publicaciones referente a Asma y a
Diabetes tomadas de los usuarios que se almacenaron en la tabla
Usuario_twitter.
En el Gráfico 21 podemos revisar la estructura de la tabla publicaciones.
Ilustración 20. Consulta realizada sobre la tabla estado_animo
Ilustración 21. Estructura de la tabla usuario_twitter
54
En la Figura 22 presentamos la consulta realizada sobre la tabla publicaciones: 6. Minería de datos con weka
Para el presente proyecto de titulación se utilizara una aplicación llamada
Weka, es de uso libre, esta herramienta es usada en la minería de datos y
visualización de resultados (Rohit & Arora, 2012)].
Características de Weka Entre las características principales de Weka tenemos que puede soportar
tareas estándares de la minería de datos tales como (Rohit & Arora,
2012)]:
• Procesamiento de datos
• Regresión
• Clasificación
• Clusterin
• Selección de los datos
Ilustración 22. Consulta realizada sobre la tabla publicaciones.
55
Cada registro de datos en WEKA esta descrito por un número fijo de
atributos que pueden ser nominales o numéricos (Rohit & Arora, 2012)].
Cuadro Comparativo
En la actualidad existen en el mercado una gran variedad de aplicaciones
para la minería de datos, los cuales unos son mejores a otros en ciertos
aspectos, pero todos tienen el mismo fin. A continuación se realiza un
cuadro comparativo entre Weka y otras aplicaciones que tienen acogida
en el mercado, de los cuales podemos ver que Weka se adapta mejor a
nuestras necesidades (Rohit & Arora, 2012)].
Característica Clementine SAS Enterprise Miner Tariykdd Weka
Licencia libre NO NO SI SI
Requiere conocimientos
avanzados
NO NO NO NO
Acceso a SQL SI NO SI SI
Multiplataforma NO SI SI SI
Requiere bases de datos
especializadas
NO --- NO NO
Métodos de máquinas de
soporte vectorial
SI SI NO SI
Métodos bayesianos SI --- NO SI
Puede combinar modelos SI SI NO SI (NO resulta
muy eficiente)
Modelos de clasificación SI SI SI SI
Implementa arboles de
decisión
SI SI SI SI
Modelos de regresión SI SI NO SI
Clusterin y agrupamiento SI SI NO SI
Interfaz amigable SI SI SI SI
Permite visualización de datos SI SI SI SI
Elaboración: Luis Córdoba Fallas,
Fuente: Blog Minería de Datos – Weka
Cuadro 6. Cuadro comparativo – Herramientas de minería de datos.
56
PRESENTACIÓN DE REPORTES UTILIZANDO WEKA
Para el presente proyecto utilizaremos una herramienta llamada WEKA. Esta es
una plataforma de software para el aprendizaje automático y la minería de datos,
que contiene una colección de herramientas de visualización y algoritmos para
análisis de datos y modelado predictivo, unidos a una interfaz gráfica de usuario
para acceder fácilmente a sus funcionalidades.
Se extraerá de la Base de Datos la información que se registraran los usuarios,
para este caso utilizaremos los siguientes campos:
Estructura de la Base de Datos
CAMPO DESCRIPCIÓN NAME_USER Nombre del Usuario COUNT_FAVORITE Número de Likes tuvo su publicación COUNT_RETWEET Número de Retweets que tuvo la
publicación ESTADO_ANIMO Calificación de la Publicación
(Increíble, Buena, Normal, Mal, Terrible)
FECHA_CREACION Fecha de creación de la Publicación FECHA_INGRESO_USUARIO Fecha de registro del usuario UBICACION_USUARIO Ubicación del Usuario CONT_PUBLICACION_USUARIO Número de Publicaciones del Usuario CONT_FAVORITOS_USUARIO CONT_AMIGOS_USUARIO Número de seguidores del Usuario
En base a la información extraída desde la base de datos se procede a armar un
documento con extensión *.CSV el cual será procesado por WEKA.
REPORTERÍA
A continuación presentamos los gráficos que podemos obtener utilizando esta
herramienta de minería de datos:
57
DIABETES
Gráficos Estadísticos
Gráficos Generales categorizando según el estado de ánimo
Increíble Normal Mal
Elaborado por: David Maldonado
58
Árboles de Decisión
Análisis del Estado de Animo de los usuarios en sus publicaciones referente a la DIABETES
Elaborado por: David Maldonado
59
Análisis de las publicaciones realizadas relacionadas a la DIABETES por Ciudad.
60
Análisis retweet que obtuvieron las Publicaciones referentes a DIABETES según Estado de Animo del usuario y según su ubicación
De las Publicaciones que realizaron los usuarios las que obtuvieron menos a 3 retweets se encuentran en Guayaquil,
Quito y Cuenca.
De Quito la mayoría de las publicaciones realizadas por los usuarios tenía un estado de ánimo Increíble un total dos de
tres publicaciones. Por otro lado las publicaciones de Cuenca la mayoría tenía un estado de ánimo Malo.
En Guayaquil las publicaciones obtuvieron favoritos, las que obtuvieron menos de 4 favoritos tenían un estado de ánimo
negativo, mientras que las que tuvieron más de 4 favoritos tenían un estado de ánimo increíble.
61
Publicaciones referentes a Diabetes donde se analizó la cantidad de Amigos que tiene el usuario que realizó la
publicación, el número de publicaciones realizadas, los favoritos, seguidores, estado de ánimo y ubicación.
62
Análisis de publicaciones referentes a Diabetes, clasificadas por ciudad, numero de amigos del usuario que realizó la
publicación, número total de publicaciones realizadas por el usuario, numero de retweets y estado de ánimo.
63
Análisis de publicaciones realizadas referentes a Diabetes. Clasificados por el número de favoritos obtenidos en una
publicación por ciudad.
64
Análisis de publicaciones realizadas referentes a Diabetes. Clasificados por el idioma, numero de retweets, favoritos
obtenidos en una publicación, por estado de ánimos.
65
Análisis de publicaciones realizadas referentes a Diabetes. Clasificados por Ubicación, numero de favoritos, estado de
ánimo de usuarios obtenidos en una publicación, por estado de ánimos.
66
Análisis de publicaciones realizadas referentes a Diabetes de los principales usuarios. Clasificados por Ubicación,
estado de ánimo e idioma de usuarios obtenidos en una publicación.
67
Clúster
Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de Retweets obtenidos en una
Publicación referente a Diabetes
Elaborado por: David Maldonado
68
Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de Retweets obtenidos en una Publicación referente a Diabetes, identificando la cuidad desde donde se realizó la publicación
Elaborado por: David Maldonado
69
Análisis de agrupamiento por múltiples Atributos: Ubicación y Cantidad de Retweets obtenidos en una Publicación
referente a Diabetes, identificando el estado de Animo de los Usuarios
Elaborado por: David Maldonado
70
Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de Favoritos obtenidos en una
Publicación referente a Diabetes, identificando la cuidad desde donde se realizó la publicación.
Elaborado por: David Maldonado
71
Análisis de agrupamiento por múltiples Atributos: Ubicación y Cantidad de Favoritos obtenidos en una Publicación
referente a Diabetes, identificando el estado de ánimo que tuvo el usuario al realizar la publicación
Elaborado por: David Maldonado
72
Análisis de agrupamiento por múltiples Atributos: Número de seguidores que tiene un usuario vs el estado de ánimo con
el que realizó una Publicación referente a Diabetes, identificando también la ubicación desde donde se realizó la
publicación
Elaborado por: David Maldonado
73
Análisis de agrupamiento por múltiples Atributos: Número de seguidores que tiene un usuario vs la ubicación,
identificando también es estado de ánimo con el que realizó la publicación referente a Diabetes.
Elaborado por: David Maldonado
74
Regresiones En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweet obtenidos en función al
número de seguidores que obtuvo una publicación de un usuario.
Instances: 106 Attributes: 2 count_retweet SEGUIDORES Linear Regression Model
count_retweet = 0.0001 * SEGUIDORES + 0.7535 === Summary === Correlation coefficient 0.2319 Mean absolute error 1.4647 Root mean squared error 4.3742 Relative absolute error 98.3354 % Root relative squared error 97.2741 % Total Number of Instances 106
Elaborado por: David Maldonado
75
En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweet obtenidos en
función al número de favoritos que obtuvo una publicación de un usuario.
Instances: 106 Attributes: 2 count_favorite count_retweet Test mode: evaluate on training data Linear Regression Model
count_retweet = 0.548 * count_favorite + 0.1966 === Summary === Correlation coefficient 0.991 Mean absolute error 0.4258 Root mean squared error 0.602 Relative absolute error 28.585 % Root relative squared error 13.3871 % Total Number of Instances 106
Elaborado por: David Maldonado
76
Asociación:
Instances: 106 Attributes: 9 count_favorite count_retweet estado_animo UBICACION IDIOMA CONT_PUBLICACION CONT_FAVORITOS CONT_AMIGOS SEGUIDORES Minimum support: 0.4 (42 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 12 Generated sets of large itemsets: Size of set of large itemsets L(1): 5 Size of set of large itemsets L(2): 8 Size of set of large itemsets L(3): 5 Size of set of large itemsets L(4): 1
Elaborado por: David Maldonado
Best rules found: 1. estado_animo=Increible 56 ==> IDIOMA=es 56 <conf:(1)> lift:(1.02) lev:(0.01) [1] conv:(1.06) 2. estado_animo=Increible UBICACION=Guayaquil 44 ==> IDIOMA=es 44 <conf:(1)> lift:(1.02) lev:(0.01) [0] conv:(0.83) 3. UBICACION=Guayaquil 82 ==> IDIOMA=es 80 <conf:(0.98)> lift:(0.99) lev:(-0) [0] conv:(0.52) 4. count_retweet='(-inf-0.5]' 72 ==> IDIOMA=es 70 <conf:(0.97)> lift:(0.99) lev:(-0.01) [0] conv:(0.45) 5. count_favorite='(-inf-0.5]' 64 ==> IDIOMA=es 62 <conf:(0.97)> lift:(0.99) lev:(-0.01) [0] conv:(0.4) 6. count_favorite='(-inf-0.5]' count_retweet='(-inf-0.5]' 58 ==> IDIOMA=es 56 <conf:(0.97)> lift:(0.98) lev:(-0.01) [0] conv:(0.36) 7. count_retweet='(-inf-0.5]' UBICACION=Guayaquil 58 ==> IDIOMA=es 56 <conf:(0.97)> lift:(0.98) lev:(-0.01) [0] conv:(0.36) 8. count_favorite='(-inf-0.5]' UBICACION=Guayaquil 52 ==> IDIOMA=es 50 <conf:(0.96)> lift:(0.98) lev:(-0.01) [-1] conv:(0.33) 9. count_favorite='(-inf-0.5]' count_retweet='(-inf-0.5]' UBICACION=Guayaquil 46 ==> IDIOMA=es 44 <conf:(0.96)> lift:(0.97) lev:(-0.01) [-1] conv:(0.29) 10. count_favorite='(-inf-0.5]' 64 ==> count_retweet='(-inf-0.5]' 58 <conf:(0.91)>
77
ASMA
Gráficos Estadísticos
Gráficos Generales categorizando según el estado de Animo
Elaborado por: David Maldonado
78
Gráfica estadística sobre estado de ánimo
12+361012
Elaborado por: David Maldonado
79
Elaborado por: David Maldonado
80
Árboles de Decisión
Análisis de las publicaciones realizadas por usuarios sobre ASMA tomando en cuenta la ciudad de origen del Usuario,
cantidad de Favoritos obtenidos en la publicación, cantidad de favoritos obtenidos en total de todas sus publicaciones y
el estado de ánimo al momento de realizar la publicación referente a ASMA.
81
Análisis de las publicaciones realizadas por usuarios sobre ASMA tomando en cuenta la ciudad de origen del Usuario,
cantidad de Favoritos obtenidos en la publicación, cantidad de favoritos obtenidos en total de todas sus publicaciones y
el estado de ánimo al momento de realizar la publicación referente a ASMA.
82
Publicaciones realizadas referentes a ASMA donde se analiza el estado de ánimo de los Usuarios obtenidos por ubicación
De las Personas que publicaron sobre Asma, el estado de ánimo de estas personas que era normal y que estaban en
Guayaquil eran 4 de los 9 casos. Las personas que tenían un Mal estado de ánimo la mayoría se encontraban en Quito,
es decir 7 de los 13 registros. Con respecto a las personas con estado de Animo increíble la mayoría se encontraba en
Quito, un total de 2 de los 4 registros.
83
Publicaciones realizadas referentes a ASMA donde se analiza la Ubicación de los Usuarios, el Número de seguidores,
los favoritos obtenidos por la publicación y en total y el estado de ánimo del usuario. El número de Seguidores
compuestos en un rango igual o menor a 907, se ubican en Guayaquil, Quito y Cuenca. En Guayaquil hay más favoritos
de los cuales Tienen estado de ánimo Normal y Mal.
De los que tienen un número de seguidores mayor a 907 que se ubican en Guayaquil, quito y cuenca tienen como
estado de ánimo en su mayoría Increíble en Guayaquil y quito, y Mal en cuenca.
84
Análisis de los retweets realizados sobre publicaciones realizadas referentes a ASMA por Ubicación
En el presente gráfico se puede apreciar que en la ciudad de Guayaquil 26 de las 55 publicaciones obtuvieron uno o
menos retweets, en Cuenca tres de las seis publicaciones obtuvieron dos retweets mientras que en Quito uno de las tres
publicaciones obtuvo más de dos retweets.
85
Análisis por Ubicación de los retweets y favoritos obtenidos sobre publicaciones referentes a ASMA en donde también
se considera el estado de ánimo del usuario al realizar la publicación
Es una Técnica que permite analizar decisiones secuenciales basada en el uso de resultados y probabilidades
asociadas.
Los árboles de decisión se usan en los sistemas expertos porque son más precisos que el hombre para poder
desarrollar un diagnostico con respecto a algo, ya que el hombre puede dejar pasar sin querer un detalle, en
cambio la maquina mediante un sistema experto con un árbol de decisión puede dar un resultado exacto.
86
A continuación se presenta un ejemplo de un sistema experto y de cómo puede llegar a conocer la tendencia que tienen
las personas en cuanto a estado de ánimo cuando realizan publicaciones sobre el Asma y que tan influyentes resulta
para que los seguidores los retwiteen.
87
Análisis por clasificación de Idiomas en publicaciones realizadas referentes a ASMA, distribuidos por los atributos:
número de Seguidores, Favoritos, Amigos, estado de ánimo, numero de publicaciones, retweets obtenidos y ubicación
del usuario que realizo la publicación.
88
Análisis por Ubicación de las publicaciones realizadas referentes a ASMA, clasificados por los siguientes atributos: número de retweets obtenidos en la publicación, estado de ánimo, número de amigos, Seguidores, contador de Favoritos.
89
Análisis por Estado de Ánimo de los usuarios sobre publicaciones realizadas referentes a ASMA, clasificados por los siguientes atributos: número de retweets obtenidos en la publicación, Idioma en el que se realizó la publicación, ubicación y favoritos alcanzados.
90
Clúster
Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de RETWEETS obtenidos en una
Publicación referente a ASMA, identificando la cuidad desde donde se realizó la publicación
Elaborado por: David Maldonado
91
Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de FAVORITOS obtenidos en una
Publicación referente a ASMA, identificando la Ubicación desde donde se realizó la publicación
Elaborado por: David Maldonado
92
Análisis de agrupamiento por múltiples Atributos: TOTAL DE PUBLICACIONES (cont_publicaciones) vs la Cantidad de FAVORITOS obtenidos en una Publicación referente a ASMA, identificando el estado de ánimo del usuario.
Elaborado por: David Maldonado
93
Análisis de agrupamiento por múltiples Atributos: Ubicación Vs estado de Ánimo del usuario al realizar una publicación
sobre ASMA, donde se establece el número de retweet que obtuvo dicha publicación.
Elaborado por: David Maldonado
94
Análisis de agrupamiento por múltiples Atributos: estado de Ánimo vs Favoritos obtenidos por el usuario al realizar una
publicación sobre ASMA.
Para el siguiente cuadro estadístico presentamos 2 variables:
1. Estado de Animo en el Eje X 2. Favoritos en el Eje Y,
Lo que pretende mostrar este gráfico es cuantas veces los seguidores de una persona que realiza una publicación le dan likes a sus publicaciones, clasificándolas según el estado de ánimo
Elaborado por: David Maldonado
95
El siguiente grafico presenta la relación entre las Variables Favoritos Vs Retweets, clasificándolas también por el estado
de Animo de las publicaciones.
Elaborado por: David Maldonado
96
Para el Siguiente grafico trabajamos con las Variables: Usuario y Favoritos.
Lo que pretendemos mostrar es según las publicaciones que realiza un usuario cuantos likes obtuvo en su publicación,
adicionalmente podemos identificar el estado de ánimo de cada publicación.
Elaborado por: David Maldonado
97
Para el Siguiente grafico trabajamos con las Variables: Idioma y Favoritos.
Lo que pretendemos mostrar es según las publicaciones que realiza un usuario cuantos likes obtuvo en su publicación,
adicionalmente podemos identificar el estado de ánimo de cada publicación.
Elaborado por: David Maldonado
98
Con este grafico se pretende demostrar que tan influyente es un usuario, según el número de retweets que obtuvo de
las publicaciones que realiza, adicionalmente clasificando estas publicaciones según el tipo de estado de ánimo.
Elaborado por: David Maldonado
99
Para el Siguiente grafico trabajamos con las Variables: Ubicación y Retweets.
Lo que pretendemos mostrar es según la ubicación de las publicaciones que realiza un usuario cuantos retweets
obtuvieron por su publicación, adicionalmente podemos identificar el estado de ánimo de cada publicación.
Elaborado por: David Maldonado
100
Regresiones
El análisis de la regresión es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas
técnicas para el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una variable
dependiente y una o más variables independientes (o predictores).
En este caso quiero ver la aplicar la función de regresión lineal para determinar retweets obtenidos en función al número
de amigos que tiene un usuario A continuación tenemos la fórmula para calcular regresiones.
Elaborado por: David Maldonado
101
También obtenemos el coeficiente de correlación. En este caso indica que no hay mucha correlación entre los retweet y
la cantidad de seguidores. Y puede haber un error de 97%, es decir una regresión no es exacta puede haber un margen
de error.
Elaborado por: David Maldonado
102
En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de favoritos obtenidos en
función al número de seguidores que tiene un usuario.
=== Run information === Scheme: weka.classifiers.functions.SimpleLinearRegression Relation: asma30-weka.filters.unsupervised.attribute. Instances: 128 Attributes: 2 count_favorite SEGUIDORES Linear regression on count_favorite
95.22 * count_favorite + 608.69 === Summary === Correlation coefficient 0.3102 Mean absolute error 804.5163 Root mean squared error 1259.9404 Relative absolute error 87.8518 % Root relative squared error 93.941 % Total Number of Instances 128
Elaborado por: David Maldonado
103
En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweet obtenidos en
función al número de favoritos que obtuvo una publicación de un usuario.
=== Run information === Scheme: weka.classifiers.functions.SimpleLinearRegression Relation: asma20-weka.filters.unsupervised. Instances: 128 Attributes: 2 count_favorite count_retweet Linear regression on count_retweet
0.65 * count_retweet + 2.23 === Summary === Correlation coefficient 0.1038 Mean absolute error 3.1302 Root mean squared error 5.2335 Relative absolute error 99.1747 % Root relative squared error 99.4602 % Total Number of Instances 128
Elaborado por: David Maldonado
104
En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweets obtenidos en
función al número de seguidores que tiene un usuario.
=== Run information === Scheme: weka.classifiers.functions.SimpleLinearRegression Relation: asma20-weka.filters.unsupervised.attribute. Instances: 128 Attributes: 2 count_retweet SEGUIDORES Linear regression on SEGUIDORES
0 * SEGUIDORES + 0.16 === Summary === Correlation coefficient 0.4842 Mean absolute error 0.5187 Root mean squared error 0.7386 Relative absolute error 80.3003 % Root relative squared error 87.4933 % Total Number of Instances 128
Elaborado por: David Maldonado
105
Asociación:
Instances: 128 Attributes: 10 name_user count_favorite count_retweet estado_animo UBICACION IDIOMA CONT_PUBLICACION CONT_FAVORITOS CONT_AMIGOS SEGUIDORES Minimum support: 0.3 (38 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 14 Generated sets of large itemsets: Size of set of large itemsets L(1): 5 Size of set of large itemsets L(2): 7 Size of set of large itemsets L(3): 3
Elaborado por: David Maldonado
Best rules found: 1. UBICACION=Guayaquil 46 ==> IDIOMA=es 46 <conf:(1)> lift:(1.07) lev:(0.02) [2] conv:(2.88) 2. count_retweet='(-inf-0.5]' UBICACION=Guayaquil 42 ==> IDIOMA=es 42 <conf:(1)> lift:(1.07) lev:(0.02) [2] conv:(2.63) 3. count_retweet='(-inf-0.5]' estado_animo=Mal 54 ==> IDIOMA=es 52 <conf:(0.96)> lift:(1.03) lev:(0.01) [1] conv:(1.13) 4. count_favorite='(-inf-0.5]' count_retweet='(-inf-0.5]' 48 ==> IDIOMA=es 46 <conf:(0.96)> lift:(1.02) lev:(0.01) [1] conv:(1) 5. estado_animo=Mal 72 ==> IDIOMA=es 68 <conf:(0.94)> lift:(1.01) lev:(0) [0] conv:(0.9) 6. count_retweet='(-inf-0.5]' 98 ==> IDIOMA=es 92 <conf:(0.94)> lift:(1) lev:(0) [0] conv:(0.88) 7. count_favorite='(-inf-0.5]' 60 ==> IDIOMA=es 56 <conf:(0.93)> lift:(1) lev:(-0) [0] conv:(0.75) 8. UBICACION=Guayaquil 46 ==> count_retweet='(-inf-0.5]' 42 <conf:(0.91)> lift:(1.19) lev:(0.05) [6] conv:(2.16) 9. UBICACION=Guayaquil IDIOMA=es 46 ==> count_retweet='(-inf-0.5]' 42 <conf:(0.91)> lift:(1.19) lev:(0.05) [6] conv:(2.16) 10. UBICACION=Guayaquil 46 ==> count_retweet='(-inf-0.5]' IDIOMA=es 42 <conf:(0.91)> lift:(1.27) lev:(0.07) [8] conv:(2.59)
106
ANÁLISIS DE FACTIBILIDAD
FACTIBILIDAD OPERACIONAL
La propuesta tecnológica planteada en este proyecto de titulación es
factible debido a que se desarrollará una aplicación Web en PHP junto
con el API de Twiter, su uso será sencillo pero útil y permitirá la extracción
de las publicaciones referentes a enfermedades como diabetes y asma.
Para el posterior tratamiento, carga y análisis de la información se utilizará
herramientas ya existentes en el mercado tales como MonkeyLearn y
Weka, ambas se utilizaran en su versión gratuita. Weka además provee
de una interfaz amigable que hace que su uso y aprendizaje no tome
mucho tiempo
FACTIBILIDAD TÉCNICA
Para el desarrollo de la propuesta tecnológica se utilizaron las
siguientes herramientas:
Hardware
• Laptop core i5 disco duro 500 gb, 4 de RAM.
Software:
• Xamp server 3.2.2
• El API de Twitter 1.1
• MonkeyLearn la versión gratuita
• Weka 3.8.1
FACTIBILIDAD LEGAL
Este proyecto es factible legalmente ya que no infringe ninguna de las
leyes que se expresan en la Ley de la Constitución de la Republica, así
mismo se respeta la propiedad intelectual, dado que la información
107
obtenida se ha basado en fuentes científicas legítimas, que se encuentran
debidamente citadas mediante la descripción de sus autores, editoriales,
direcciones URL, etc.
Adicionalmente No se incurre en infracciones de licencias de usabilidad
sobre algún hardware o software utilizado en todo el proyecto.
FACTIBILIDAD ECONÓMICA
El proyecto fue autosustentable debido a que para el desarrollo del
mismo la versión de software que se utilizó fue de licencia libre y con
referencia al hardware se utilizó el servidor proporcionado por el equipo
de infraestructura.
ETAPAS DE METODOLOGÍA DEL PROYECTO
Para el desarrollo del presente proyecto se aplicó la metodología ágiles
en los marcos de desarrollo de SCRUM en la ingeniería de software que
describe un conjunto de prácticas y roles, adoptando una estrategia de
desarrollo incremental para así definir el proceso de desarrollo que se
ejecutará durante el proyecto.
Roles SCRUM
• Product Owner: Conoce el negocio a detalle, es la persona
responsable del Proyecto.
• SCRUM Master: Lidera el proyecto, guía al equipo en el cumplimiento
de los procesos y reglas de la metodología
• SCRUM Team: Personas encargadas de desarrollar el proyecto
(equipo de desarrollo, certificadores, etc)
108
Product Owner SCRUM Master SCRUM Team
Aníbal Arévalo Aníbal Arévalo Luis cadena
David Maldonado
Elaboración: David Maldonado,
Fuente: Datos de investigación.
Ciclos de la Metodología Scrum
Sprint
El proyecto se dividió en 7 ciclos, llamados Sprint. A continuación el
detalle de cada uno:
Sprint 1
Objetivo: Análisis de las funcionalidades del Api de Twitter.
Actividades:
• Investigación de las Apis, se encontró que tienen 3:
o Streaming API's
o Search API's
o REST APIs
• Implementación de REST API's que se ajusta con las necesidades del
proyecto.
• Registro en Twitter para hacer uso de la Api
• Generación de código de usuario y autenticación.
Cuadro 7. Roles SCRUM
109
Sprint 2
Objetivo: Análisis del Manual del API de Twitter para trabajarlo con PHP.
Actividades:
• Se revisó la documentación del api REST API's para la
programación.
Sprint 3
Objetivo: Revisión de la estructura de la información que trae el Api de
Twitter.
Actividades:
• Validación de la data a nivel de campos, que retorna el api de twitter
• Revisión del json con la información que trae el api de Twitter
Sprint 4
Objetivo: Validación de la información se guarde correctamente en la
base de datos.
Actividades:
• Macheo(unión) de la información que devuelve el Api de twitter contra
las estructuras creadas por BD, utilizando los procedimientos
almacenados que facilitó BD: Guardar y actualizar data
• Cambio del código de php para realizar el insert utilizando los store
procedure facilitados por base de datos
• Validación para poder guardar las modificaciones
• Optimización del código que realiza la minería de datos del api de
twitter. Realice testing de la funcionalidad del proceso de minería
Sprint 5
Objetivo: Definición de la estructura de Data Mining a red social twitter.
Actividades:
110
• Nos facilitaron un enlace de las 10 mejores cuentas en Twitter que
hablan sobre el asma. Cada de una de estas cuentas tienen arriba de
1000 seguidores que hablan del ASMA
• http://www.asmanet.es/blog/22/los-10-mejores-twitter-asma.
• Capturar al menos 400 twits, Opiniones positivas, negativas y
neutrales.
• Se analizó con Anibal el nuevo enfoque con el que se va a manejar la
parte de twitter el cual se implementara en su respectivo sprint
• Se realizó una reunión para poder resolver los requerimientos sobre la
polaridad de sentimientos.
o Extracción de caracteres especiales.
o Este módulo se cubrirá a nivel de programación al momento
que se realiza la extracción de la data se validaran los
caracteres especiales y se los eliminara.
o Normalización hashtag.
• Este módulo se cubrirá a nivel de programación una vez realizada la
extracción de los caracteres especiales se realizara la normalización
del hashtag, se validara el camelcase y se separara cada palabra
como se lo requiere.
• Las abreviaturas.
• Este módulo se cubrirá con una función que se basa a un catálogo
que se crearan a nivel de Base de datos y nos ayudara a validar este
módulo, teniendo en cuenta que la función recibe como parámetro la
abreviatura y devuelve la palabra o frase correcta como se lo
requiere.
• Corrección de errores de ortografía.
• Este módulo se cubrirá mediante una herramienta que consume un
diccionario de datos (Hunspell) y que se utiliza o llama con un código
PHP con el que se están realizando pruebas de funcionamiento, este
tema si requiere un tiempo de 12 a 16 debido a que es nuevo.
111
Sprint 6
Objetivo: Desarrollo de la estructura de Data Mining para depurar la
información extraída de Twitter.
Actividades:
• Macheo(unión) de la información que devuelve el Api de Twitter
contra las estructuras creadas por BD, utilizando los
procedimientos almacenados que facilitó BD: Guardar y actualizar
data
Sprint 7
Objetivo: Diseño de los gráficos de Datamining.
Actividades:
• Utilización de la herramienta weka para el desarrollo de las
graficas
Ilustración 23. Análisis del proceso.
112
ENTREGABLES DEL PROYECTO
A continuación se detalla el entregable del proyecto:
• Programa fuente que contiene la programación para la
extracción de las publicaciones de Twitter.
CRITERIOS DE ACEPTACIÓN DEL PRODUCTO
Para el presente proyecto se ha hecho uso de una serie de
herramientas y tecnologías las cuales con su correcto funcionamiento nos
permite obtener los resultados esperados para su respectivo análisis, para
probar que se cumple con la estructura necesaria para el correcto
funcionamiento de la aplicación se detalla el siguiente cuadro. (Rafael
Filio PMP, s.f.)]
REQUERIMIENTOS CRITERIOS DE ACEPTACIÓN
Extracción de las publicaciones
sobre asma y diabetes en Twitter,
de los seguidores de las cuentas
principales Facilitada por el área
de procesos
El servidor donde se encuentre
instalada la aplicación debe tener
acceso a internet las 24 horas del
día
Uso de la herramienta Weka que
contiene una colección de
herramientas de visualización y
algoritmos para análisis de datos y
modelado predictivo, unidos a una
interfaz gráfica de usuario para
acceder fácilmente a sus
funcionalidades
Se presentaran gráficos de:
árboles de decisiones
Clúster
Regresiones
Sobre asma y diabetes
Cuadro 8. Requerimientos y Criterios de Aceptación.
113
Extracción de los datos(ETL)
Uso del API de Twitter Registro como desarrollador para
utilizar el API de Twitter
Eliminación de caracteres
especiales
Uso de funciones para presentar
el texto sin caracteres extraños
Palabras CamelCase Presentación de los hashtag de
manera separada
Abreviaturas
Corrección de modismos y
presentación de palabras
completas
Ortografía Presentación de palabras sin
faltas ortográficas
Base de dato Almacenamiento de datos limpios
para su posterior análisis
Monitoreo de usuarios y
publicaciones
Se ejecuta dos Jobs diariamente:
Uno se encarga de censar las
publicaciones y el otro de censar
los usuarios
Presentación de Gráficos
Uso de Weka
El usuario con conocimientos
técnicos podrá realizar
presentación e interpretación de
los resultados obtenidos
Podrá analizar la información de
las personas que padecen de
asma y/o diabetes mediante los
gráficos
De árbol de decisiones,
regresiones y clúster
114
CONCLUSIONES
Después de haber realizado el análisis, el diseño y la implementación de
la propuesta obtenemos las siguientes conclusiones:
• Después de realizar una búsqueda y análisis de herramientas que
permitan realizar la recopilación de Tweets se eligió Rest API, debido
a la importancia de obtener conocimiento en “tiempo real” que
permitan predecir patrones en las publicaciones realizadas en Twitter
relacionadas al asma y a la diabetes, se consideró que este API de
Twitter es la herramienta más adecuada.
• El uso de la herramienta MonkeyLearn permitió analizar los tweets
registrados con información real de pacientes con patologías como el
asma y la diabetes; mediante el análisis de estados de ánimos
ejecutados sobre sus publicaciones; estas se clasificaron como
Increíble, Normal y Mal.
• El uso de la herramienta Weka permitió realizar el análisis de la
información almacenada en la base de datos MySql luego de haber
realizado la Extracción, transformación y carga (ETL) que previamente
fue depurada y pasada a un archivo CSV.
• Los resultados de los análisis de minería de datos se presentaron en
reportes, con la interpretación de gráficos para a futuro contribuir con
la elaboración de planes de acción, correctivas y de mejoras de la
calidad de los servicios ofrecidos por los profesionales de la salud con
la ayuda de la herramienta Healt –Monitor UG.
115
RECOMENDACIONES
Luego de haber implementado el proyecto, a continuación se detallan las
recomendaciones:
• Mantener actualizada las herramientas tecnológicas que permiten
realizar la extracción y análisis de datos a las versiones posteriores
siguiendo las sugerencias recomendadas de los administradores de
twitter sobre su API.
• Utilizar la versión de paga MonkeyLearn ya que posee un ilimitado
número de consulta y generaría resultados mensuales más exactos en
su análisis, y permitirá agregar más cuentas fan page de Twitter para
abarcar un mayor número de usuarios a analizar a nivel nacional.
• Implementar en una nueva fase del proyecto una funcionalidad que
genere y descargue automáticamente en un repositorio el archivo .csv
que se genera luego de la extracción de los datos, y sobre el cual
posteriormente se realizara el análisis de la información obtenida de la
minería de datos.
• Investigar nuevas alternativas de reportaría de minería de datos que
den nuevas opciones para toma de decisiones, proporcionando así
nuevas opciones de análisis.
116
BIBLIOGRAFÍA
Agencia Pública de Noticias del Ecuador y Sudamérica. (07 de Mayo de
2013). andes. Recuperado el 21 de 07 de 2017, de
http://www.andes.info.ec/es/sociedad/este-martes-conmemora-dia-
mundial-asma.html
American Diabetes Association. (2015). Sintomas de la Diabetes.
Obtenido de http://www.diabetes.org/es/informacion-basica-de-la-
diabetes/sintomas-de-la-diabetes/
Arturo, G. O., & Alfonso, P. (2016). Revisión de los principales modelos
para aplicar técnicas de Minería de Procesos (Review of models for
applying process mining techniques).
Bernardo, M. (2016). Identificación de técnicas de minería de datos para
apoyar la toma de decisiones en la solución de problemas empresariales.
Revista Ontare, 33-51.
Campos, C., & Leticia, R. (2015). El estudio de los hábitos de conexión en
redes sociales virtuales, por medio de la minería de datos. Innovación
educativa (México, DF), 99-114.
Fernando, S., & Sonia, S. (2013). Evolución y tendencias actuales de los
web crawlers. Ingeniería, 19-35.
Hernández, H. J. (2014). Aplicación de minería de datos a información de
pacientes prediabéticos. Congreso Virtual sobre Cuerpos Académicos y
Grupos de Investigación en Iberoamérica.
Instituto Nacional de Estadísticas y Censos. (08 de Noviembre de 2016).
Instituto Nacional de Estadísticas y Censos. Recuperado el 21 de 07 de
2017, de http://www.ecuadorencifras.gob.ec/el-numero-de-medicos-en-
ecuador-crece-1351-en-10-anos/
ITelligent Information Technologies. (5 de diciembre de 2015). Minería
web: de contenidos, de estructuras y de usos. Obtenido de ITelligent
Information Technologies: http://www.itelligent.es/es/mineria-web-de-
contenidos-estructuras-usos/
117
ITelligent Information Technologies. (8 de abril de 2016). 10 ventajas de la
minería de datos. Obtenido de ITelligent Information Technologies:
http://www.itelligent.es/es/10-ventajas-la-mineria-web/
MedlinePlus. (2017). Diabetes. Obtenido de
https://medlineplus.gov/spanish/diabetes.html
OPS/OMS. (s.f.). La diabetes, un problema prioritario de salud pública en
el Ecuador y la región de las Américas. Obtenido de
http://www.paho.org/ecu/index.php?option=com_content&view=article&id=
1400:la-diabetes-un-problema-prioritario-de-salud-publica-en-el-ecuador-
y-la-region-de-las-americas&Itemid=360
Orallo, H. R. (2014). Introducción a la Minería de Datos. . Pearson
Prentice Hall.
Organización Mundial de la Salud. (2014). OPS/OMS. Recuperado el 21
de 07 de 2017, de
http://www.paho.org/ecu/index.php?option=com_content&view=article&id=
1400:la-diabetes-un-problema-prioritario-de-salud-publica-en-el-ecuador-
y-la-region-de-las-americas&Itemid=360
Ponce, J. P. (22 de Febrero de 2017). Ranking Redes Sociales, Sitios
Web y Aplicaciones Móviles Ecuador 2017. Obtenido de Formación
Gerencial: http://blog.formaciongerencial.com/ranking-redes-sociales-
sitios-web-aplicaciones-moviles-ecuador-2017/
Rafael Filio PMP, C. S. (s.f.). ¿Cómo redactar los Criterios de Aceptación?
Obtenido de https://es.linkedin.com/pulse/c%C3%B3mo-redactar-los-
criterios-de-aceptaci%C3%B3n-pmp-cbap-smc-ssgb
Rodríguez, A. E. (2015). Cómo usar la API de Twitter en PHP. Obtenido
de https://geekytheory.com/como-usar-la-api-de-twitter-en-php
Rohit, & Arora. (2012). Comparative analysis of classification algorithms
on different datasets using WEKA. International Journal of Computer
Applications.
Sánchez, E. A., & Inzunza, S. (2015). Probabilidad y Estadística 1. Grupo
Editorial Patria.
118
ANEXOS
119
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
ANEXO 1
Infraestructura en la nube
AUTOR:
David Roberto Maldonado Plua
TUTOR:
Ing. Fabricio Medina, MDPR
GUAYAQUIL – ECUADOR
2017
120
121
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES
ANEXO 2
Modelo E-R de la Base de Datos
AUTOR:
David Roberto Maldonado Plua
TUTOR:
Ing. Fabricio Medina MDPR
GUAYAQUIL – ECUADOR
2017
122