Reporte Proyecto Final.pdf

19
Benemérita Universidad Autónoma de Puebla Facultad de Ciencias de la Computación Minería de datos aplicada a los índices de seguridad en México con Weka. Alumnos: Jean Alexander Ramírez Murillo. David Sánchez Rodríguez. Katia Cecilia Flores Toledo. Gabriela Guzmán Hernández. Materia: Minería de Datos. Profesora: Dra. María Josefa Somodevilla García. Primavera 2015

Transcript of Reporte Proyecto Final.pdf

Page 1: Reporte Proyecto Final.pdf

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

Minería de datos aplicada a los índices de seguridad en

México con Weka.

Alumnos:

Jean Alexander Ramírez Murillo.

David Sánchez Rodríguez.

Katia Cecilia Flores Toledo.

Gabriela Guzmán Hernández.

Materia:

Minería de Datos.

Profesora:

Dra. María Josefa Somodevilla García. Primavera 2015

Page 2: Reporte Proyecto Final.pdf

Índice

1

1.1 Introducción .............................................................................................................................................. 3

1.2 Preparación de los datos .......................................................................................................................... 4

1.2.1 Muestra de datos ............................................................................................................................... 4

1.2.2 Objetivos de análisis ........................................................................................................................ 4

1.3 Pre procesado de los datos ...................................................................................................................... 5

1.3.2 Trabajo con filtros ............................................................................................................................. 7

1.4 Visualización ........................................................................................................................................... 13

1.4.1 Representación 2D de los datos .................................................................................................... 13

1.4.2 Filtrado “grafico” de los datos ...................................................................................................... 15

1.5 Asociación ................................................................................................................................................ 16

1.6 Clúster ....................................................................................................................................................... 17

1.7 Conclusiones ........................................................................................................................................... 19

Page 3: Reporte Proyecto Final.pdf

Minería de datos aplicada a los índices de seguridad en

México con Weka

1.1 Introducción

En este material mostraremos el uso de weka, que como ya sabemos es una

herramienta de minería de datos la cual es utilizada para experimentación de

análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes

de análisis de datos, principalmente las provenientes del aprendizaje automático,

sobre cualquier conjunto de datos.

Aplicaremos esta herramienta para el tratamiento de datos sobre el tema de los

Índices de Seguridad en México.

Hemos elegido este tema ya que en la actualidad todos nos enfrentamos con

problemas de seguridad de cualquier tipo, actualmente conocemos a por lo menos

alguna persona que ha sufrido algún robo, asalto, agresión etc. es por ello que

decidimos trabajar con estos datos para poder predecir conductas o descubrir

patrones y así poder aportar conocimiento a dicha rama y de ser posible poder tomar

medidas para disminuir estos índices.

Los datos que trabajaremos fueron tomados de fuentes confiables como la página

del INEGI, que nos provee de material recolectado a lo largo de varias décadas los

cuales pone a nuestra disposición para poder descargarlos y trabajar con ellos.

Este escrito lo ponemos en forma de un manual práctico adaptado a los datos que

estamos trabajando, poniendo algunos ejemplos de los resultados arrojados por la

herramienta.

Page 4: Reporte Proyecto Final.pdf

1.2 Preparación de los datos

Para nuestro proyecto utilizamos una base de datos en MySQL, posteriormente

se aplicaran métodos de filtrado y agrupamiento de weka. Para los datos de los

siguientes temas.

Delitos.

Economía.

Educación.

Población.

Recursos naturales.

Salud publica.

Sistema penitenciario.

Vivienda.

1.2.1 Muestra de datos

El fichero de datos objeto de análisis en este trabajo contiene muestras

correspondientes a los indicadores mencionados anteriormente de una década, de

2002 al 2012.

Los datos que describen cada indicador contienen la siguiente información:

id_indicador, descripción, año, estado, municipio y valor.

Los datos fueron obtenidos de la página oficial de INEGI.

1.2.2 Objetivos de análisis

En nuestro caso, uno de los objetivos perseguidos es poder responder mediante la

minería de estos datos las preguntas que nos hemos planteado como objetivo de

análisis; algunas de ellas son las siguientes:

¿Qué estados de la republica son más seguros para vivir?

¿Cuáles son las características de los estados con mayor índice delictivo?

¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las

mujeres?

Page 5: Reporte Proyecto Final.pdf

1.3 Pre procesado de los datos

1.3.1 Consultas para el pre procesamiento en Weka

¿Qué estados de la republica son más seguros para vivir?

Índices necesarios:

Para determinar que estados son más seguros para habitar tomaremos en cuenta los delitos

más graves y de mayor ocurrencia de la BD Minería, los cuales son:

Delitos por homicidio 1006000051

Delitos Sexuales 1006000050

Robo 1006000053

Cifra negra delitos 6200005821

Densidad poblacional 3105001001

Consulta

Page 6: Reporte Proyecto Final.pdf

¿Cuáles son las características de los estados con mayor índice delictivo?

Para resolver esta incógnita, se ocupan las siguientes características por estado.

Consulta a la base de datos:

select b.descripcion, b.2002,b.2003,b.2004,b.2005,b.2006,b.2007, b.2008,b.2009, b.2010,

b.2011, b.2012, estados.nombres from (select * from (select * from casos where descripcion like

'porcentaje%analfabetas total' or descripcion like '%internos%' or descripcion like '%ingresos

netos%') as a join tiempo where a.id_indi= tiempo.caso) as b join estados where estados.id_estado

= b.edo;

¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las

mujeres?

Índices necesarios:

Para determinar que estados son más seguros para habitar tomaremos en cuenta los delitos más

graves y de mayor ocurrencia de la BD Minería, los cuales son:

Población económicamente activa

Población analfabeta

Delitos por robo

Consulta sql:

Select * from estados right join tiempo on tiempo.edo=estados.id_estado where

caso=1007000019 OR caso=3103002003 OR caso=3108001003;

Page 7: Reporte Proyecto Final.pdf

1.3.2 Trabajo con filtros

¿Qué estados de la republica son más seguros para vivir?

Dichas variables tienen una cierta relación logia sin embargo para determinar con mejor precisión

su impacto en nuestros datos utilizaremos el tema 1.6 del manual Asociación para buscar reglas que

relacionen dichos campos.

Esto nos devuelve una larga lista de años, sin embargo para tomar con mejor claridad la densidad

poblacional tomaremos los años 2005,2010 y 2012 para los reportes delictivos más nuevos

disponibles.

Page 8: Reporte Proyecto Final.pdf

Los datos resultantes son de tipo numérico así que aplicaremos el filtro discretize con 4 bins y

equalFrequency.

Page 9: Reporte Proyecto Final.pdf

¿Cuáles son las características de los estados con mayor índice delictivo?

Al discretizar los valores de la suma de los atributos, de analfabetismo e ingresos netos.

Se obtienen 3 bins.

Page 10: Reporte Proyecto Final.pdf

¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las

mujeres?

Tomando en cuenta los censos globales que son los que reflejan mejores datos tenemos:

Page 11: Reporte Proyecto Final.pdf

AddExpression

Queremos evaluar los años 2010 y 2005 para tener como comprar dichos datos y poder sacar

algun patron o informacion relevante. Para ello restamos los valores del año 2010 los del 2005

Page 12: Reporte Proyecto Final.pdf

Tomando en cuenta el indicador de educación, que es el número de mujeres analfabetas tenemos:

Page 13: Reporte Proyecto Final.pdf

1.4 Visualización

1.4.1 Representación 2D de los datos

Los eventos son excluyentes entre si obviamente, aquí podemos apreciar los casos de delito

que buscamos.

Page 14: Reporte Proyecto Final.pdf

1.4.2 Filtrado “grafico” de los datos

En esta parte podemos observar los delitos en el periodo 2005.

Delitos en el 2010

Page 15: Reporte Proyecto Final.pdf

Delitos en el 2012 los datos más recientes adquiridos.

Page 16: Reporte Proyecto Final.pdf

1.5 Asociación

Aplicamos algoritmo “A priori” para descubrir las reglas de asociación más importantes.

Page 17: Reporte Proyecto Final.pdf

1.6 Clúster

Al aplicar Kmeans, con 5 clúster observamos que el resultado es Oaxaca, Yucatán y Tlaxcala.

Page 18: Reporte Proyecto Final.pdf
Page 19: Reporte Proyecto Final.pdf

1.7 Conclusiones ¿Qué estados de la republica son más seguros para vivir?

Observando la distribución de los datos, según los reportes del 2012, en conclusión los

estados más tranquilos o seguros en general serian baja California sur, Campeche, Durango,

Nayarit, Querétaro, Quintana Roo.

Y los más peligrosos o con mayor violencia son Oaxaca, Veracruz, Michoacán y Zacatecas.

Algo más que se puede observar es que en el periodo 2005 a 2010 hubo un incremento en los

crímenes más fuertes que son el homicidio y el abuso sexual, ¿tendrá que ver con un periodo

presidencial y los planes de gobierno de esos años?

¿Cuáles son las características de los estados con mayor índice delictivo?

Oaxaca es el estado con más alto índice delictivo y una tasa baja de ingresos netos al

municipio.

Los estados con mayor índice son: Oaxaca, Yucatán y Tlaxcala.

¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las

mujeres?

Los factores educativos influyen medianamente en la comisión de robos.