Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... ·...

13
Rafael González- Iglesias Universidad de Valladolid 1 Asignatura MODELOS ESTADÍSTICOS MULTIVARIANTES Profesor Valentín González de Garibay Rafael González- Iglesias

Transcript of Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... ·...

Page 1: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

1

Asignatura MODELOS ESTADÍSTICOS MULTIVARIANTES Profesor Valentín González de Garibay

Rafael González- Iglesias

Page 2: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

2

CONTENIDO

Contenido ........................................................................................................................................ 2

1. DESCRIPCIÓN ............................................................................................................................... 3

2. ANÁLISIS DE CORRESPONDENCIAS .............................................................................................. 5

2.1 ANÁLISIS DE LOS VALORES PROPIOS ................................................................................... 5

2.2 ANÁLISIS DE LOS EJES FACTORIALES ................................................................................... 6

2.3 CLASIFICACIÓN .................................................................................................................... 9

2.4 DESCRIPCIÓN DE LAS PARTICIONES .................................................................................. 10

Clase1: ....................................................................................................................................... 10

Clase2: ....................................................................................................................................... 11

Clase 3 y 4 .................................................................................................................................. 11

Clase 5 ....................................................................................................................................... 12

3. Conclusión ................................................................................................................................. 13

Page 3: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

3

ARRESTOS 2011

1. DESCRIPCIÓN Se quiere hacer un análisis de correspondencias sobre los arrestos ocurridos en Estados Unidos en 2011 por cada estado. El tratamiento de datos se hace a partir de los arrestos totales ocurridos durante el año, catalogados por la razón del arresto. Los datos se obtuvieron de la página web del FBI. Los datos hacen referencia a los 48 estados resultantes de eliminar del modelo Florida y el distrito de Columbia, por ausencias en varias de las causas del arresto :

Alabama (AL)

Alaska (AK)

Wyoming (WY) De los 28 tipos de causa de arresto se eliminó “Suspicion”, “Embezzlement” y “Drunkenness” por tener una aplicación muy variable dependiendo del estado. Las posibles causas varían desde el asesinato, a la violación de las leyes del juego, pasando por vandalismo, conducir bajo la influencia del alcohol, etc. Además existen varias causas que el gobierno estadounidense considera agrupables. Gracias al análisis de correspondencias puede analizarse si esta agrupación responde sólo a un criterio moral o judicial, o si por otro lado las frecuencias de estas causas son idénticas y pueden considerarse agrupables sin perder información interesante sobre el comportamiento general de los arrestos en los estados. Las causas agrupadas y sus agrupaciones son:

Crimen Violento (VCE): Asesinato con y sin alevosía (MNM), violación forzada (FRE), robo con intimidación (ROY) y asalto con agravantes (AAT).

Delito contra la Propiedad (PCE): Allanamiento (BUY), apropiación indebida (LTT), robo de vehículo a motor (MVT) y incendio provocado (ARN).

* Todas las traducciones de los delitos son propias.

El comportamiento de los perfiles de los estados y de las distintas causas o delitos es el siguiente:

Page 4: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

4

0

0.1

0.2

0.3

0.4

0.5

0.6Perfiles de los estados AL

AK

AZ

AR

CA

CO

CT

DE

GA

ID

IL

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

AL AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI

Perfiles de los delitos MNM

FRE

ROY

AAT

BUY

LTT

MVT

ARN

OAS

Page 5: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

5

En rojo punteado está marcado el comportamiento medio. En los estados se aprecia variabilidad entre el comportamiento medio y los comportamientos de cada estado, ajustándose todos a un patrón general mientras que en los perfiles de los delitos se ven muchos picos que despuntan en ciertos estados, como por ejemplo en Ilinios (IL) donde el juego (GAM) tiene una proporción mucho mayor que el resto de los delitos.

2. ANÁLISIS DE CORRESPONDENCIAS

2.1 ANÁLISIS DE LOS VALORES PROPIOS

Al plantearse realizar un análisis de correspondencias el primer paso es evaluar el contraste de homogeneidad de perfiles. Si el contraste no rechaza la igualdad de perfiles no tendría sentido el análisis. El valor obtenido para la suma de los valores propios λ, es decir la inercia total de la nube es: 0.1590. El contraste evalúa:

→ (n 1)( 1)

Siendo k el tamaño total de la población (9100511), n el número de estados (48) y p el número de causas (25). El orden del estadístico observado es más de mil veces mayor a los grados de libertad de la distribución de contraste. El resultado del test es 0. Los valores propios obtenidos por el programa SPAD son:

Page 6: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

6

A partir del tercer eje los valores propios representan menos de un 10% de la variabilidad, pero el porcentaje acumulado de los 3 primeros ejes no supera el 63% por lo que se considera el análisis de por lo menos los 6 primeros ejes, que tienen un porcentaje acumulado de 81,88%.

2.2 ANÁLISIS DE LOS EJES FACTORIALES

Primero se analiza que causas son las principales responsables en la aparición de los primeros ejes factoriales:

En el primer eje factorial las mayores contribuciones vienen de las leyes del licor 32.4% (LLW) y de alteración del orden público 27.2% (DCT). El resto de delitos tienen todos contribuciones menores al 10%.

En el segundo eje factorial las mayores contribuciones vienen de “todas las demás ofensas” 39,0% (AOO), y en menor medida de abuso del consumo de drogas 13,5% (DRV). El resto de los delitos tienen contribuciones menores al 10%.

En el tercer eje factorial las mayores contribuciones vienen de asalto con agravantes 10,9% (AAT), el juego 13,31% (GAM), las leyes del licor 23.3% (LLW) y alteración del orden público 17.62% (DCT).

En general el delito con la mayor distancia al origen es el juego (GAM). Por otro lado se tiene la contribución relativa a la aparición de los ejes factoriales de los puntos estado:

En el primer eje el estado con mayor contribución es California 32.17% (CA) mientras que los siguientes son Pennsylvania y Winsconsin con menos de un 15%.

En el segundo eje factorial está de nuevo California y Pennsylvania con un aporte conjunto del 33% e Ilinois (IL) con un 15,96%.

En el tercer eje vuelven a ser California e Ilinois (18,68% y 29,19% respectivamente).

En cuanto a los puntos estado se aprecia la influencia de los estados de Ilinois y California en los que ya se apreciaba una fuerte variabilidad en la gráfica de los perfiles de los delitos. Los estados con las mayores distancias al origen son Detroit, Ilinois y en menor medida Dakota del Sur y del Norte, y Montana. En la siguiente gráfica se representan los puntos estado y delito para los primeros ejes factoriales obtenidos:

Page 7: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

7

En el gráfico se ven varios detalles que pueden ser remarcados. Se observan varios estados muy cercanos en el plano factorial y que tienen una buena calidad de representación. Por un lado se tiene a Idaho (ID) y Colorado (CO). Por otro se tiene a Iowa (IA) y Arizona (AZ). Sería razonable pensar que estos estados tienen perfiles similares entre sí, aunque dada la calidad de representación del primer plano factorial (51.57%) las semejanzas entre miembros de una clase será sólo parcial. En cuanto a los estados más extremos se tiene por un lado a Montana (MT) con Dakota del sur (SD) de los que se puede esperar que tengan una mayor proporción de detenidos por violación de las leyes del alcohol (LLW) y de desorden público (DCT) que la media, y una menor proporción de prostitución (PRO) y asalto con agravante (AAT). En contraposición está el estado de California, del que se puede esperar que tenga una proporción de detenidos por prostitución y asalto con agravante muy superior a la media, e inferior en cuanto a los delitos de desorden público y violación de las leyes del alcohol. En rojo están marcados los delitos que el gobierno estadounidense agrupa en crímenes violentos. Tres de ellos están relativamente cercanos en el 2º cuadrante, mientras que el único que no lo está, está muy mal representado, por lo que a pesar de no ser todos cercanos es posible que tengan perfiles similares.

Page 8: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

8

En verde están marcados los delitos que se agrupan en delitos contra la propiedad. En este caso la distancia que tienen los delitos entre sí es mayor. Por último es remarcable el hecho de que en el segundo cuadrante parecen agruparse la mayoría de los delitos (12 y entre ellos 3 de los 4 considerados violentos) mientras que sólo 4 estados están representados, siendo California el mejor representado 83,1%. La variable que está más alta en el plano factorial es el juego (GAM) que es muy influyente y tiene siempre posiciones extremas en todos los gráficos. También hay algunas clases muy próximas entre sí, como por ejemplo posesión de armas (WEA) y allanamiento (BUY), esto significa que ambas tienen perfiles muy similares, el comportamiento de los estados en cada una de ellas es muy parecido:

En menor medida se observa también una cercanía llamativa entre las variables robo

con intimidación (ROY) y robo de vehículo a motor.

0

0.05

0.1

0.15

0.2

0.25

AL AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI

BUY

WEA

0

0.05

0.1

0.15

0.2

0.25

AL AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI

ROY

MVT

Page 9: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

9

2.3 CLASIFICACIÓN

A partir del dendograma es posible hacerse una idea de cómo y cuantos grupos podría ser conveniente utilizar para clasificar los estados.

En el dendograma se puede apreciar que hay varias posibilidades razonables de clasificación de los estados. Por un lado se aprecia que el estado de California forma una clase en sí misma desde el corte en 3 grupos. También se ve que Ilinois en menor medida provoca un suceso similar en el corte en 5 grupos. Estos dos estados son muy atípicos en el modelo.

C la s s if ic a t io n h ié r a r c h iq u e d ir e c t e

A L W A M O O K M E N H K S I N M I N C A K N M W Y I D C O N V A R T N V A W V T X M D K Y M S N J N Y D E R I C T M A L A V T O H S C G A I L C A P A W I U T A Z I A O R M T M N N E N D S D

Page 10: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

10

2.4 DESCRIPCIÓN DE LAS PARTICIONES

Tras aplicar un método automático de búsqueda de las 2 mejores particiones se llega a 2 distintos resultados, partición en 5 clases y en 7 clases. La distribución esquemática de cada una puede verse en los dos siguientes gráficos:

En ambos se ve que Florida y el Distrito de Columbia no están pintados. También se aprecia que California (negro) e Ilinois (Azul) conforman clases en sí mismas.

En la partición del corte en 5 clases cada clase se distingue por: Clase1: proporciones muy superiores a la media en delitos contra la familia y niños (OFC), todas las demás ofensas (AOO), fraude (FRE) y en menor medida asaltos leves (OAS). Por otro lado tienen una proporción de detenciones muy inferior a la media en desorden público (DCT), asalto con agravantes (AAT), vandalismo (VAN), abuso de drogas (DCT) y en menor medida de todos los demás delitos.

Page 11: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

11

Clase2: Proporciones muy altas de asaltos leves (OAS) y desorden público (DCT) y especialmente bajas de todas las demás ofensas (categoría, AOO), y en delitos por violación de las leyes de la lotería (CLV). En general es una clase media en cuanto a que tiene prácticamente la mitad de los delitos en los que es superior a la media y la otra mitad inferior proporcionalemnte.

Clase 3 y 4 son estados independientes formando una clase en sí mismos, es decir, tienen un comportamiento tan atípico que sus perfiles no son fácilmente agrupables en otras clases. California se caracateriza por tener proporciones muy superiores a la media en el abuso del consumo de drogas (DRV) y juego (GAM), y por proporciones muy inferiores de todas las demás ofensas (AOO) y conducir bajo la influencia del alcohol (DRV). Ilinois en cambio tiene proporciones muy superiores a la media en asalto con agravantes (AAT), allanamiento (BUY), conducir bajo la influencia del alcohol (DRV), posesión de armas (WEA) y especialmente bajas en desorden público (DCT), violación de las leyes del alcohol (LLW), delitos contra la familia y los niños (OFC), apropiación indebida (LTT) y otros asaltos.

0

0.1

0.2

0.3

0.4

0.5

0.6M

NM

FRE

RO

Y

AA

T

BU

Y

LTT

MV

T

AR

N

OA

S

FCF

FRD

DR

P

VA

N

WEA

PR

O

OFX

DR

V

GA

M

OFC DIA

LLW

DC

T

VA

G

AO

O

CLV

Clase1 AK

AR

CO

ID

IN

KS

KY

ME

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

MN

M

FRE

RO

Y

AA

T

BU

Y

LTT

MV

T

AR

N

OA

S

FCF

FRD

DR

P

VA

N

WEA

PR

O

OFX

DR

V

GA

M

OFC DIA

LLW

DC

T

VA

G

AO

O

CLV

Clase 2 AL

CT

DE

GA

LA

MA

NY

OH

RI

SC

Page 12: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

12

Clase 5: Proporciones muy elevadas de violación de las leyes del alcohol (LLW), desorden público (DCT) y en delitos por violación de las leyes de la lotería (CLV), y especialmente bajas en todas las demás ofensas (AOO).

La partición en 7 clases sólo aporta ligeros cambios, por un lado separa el estado de Pennsylvania de la clase 5 y en la clase 1 se separan 3 estados. En la siguiente gráfica puede verse el comportamiento medio de los estados de la clase 1 sin los 3 estados separados en la segunda partición (azul claro) y los perfiles de los tres estados:

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35Clases 3 y 4

CA

IL

TC

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Clase 5 AZ

IA

MN

MT

NE

ND

OR

PA

0

0.1

0.2

0.3

0.4

0.5

TC1KSMSNJ

Page 13: Rafael González- Iglesias Universidad de Valladolidvalentin/mem/2015/trabajos_alumnos_14-15/... · 2015-01-12 · De los 28 tipos de causa de arresto se eliminó “Suspicion”,

Rafael González- Iglesias Universidad de Valladolid

13

3. Conclusión Se ha observado un conjunto de datos muy rico en información, de grupos heterogéneos y con casos atípicos, con suficiente material como para extender y revaluar el trabajo. Por un lado se ha encontrado el problema de la disparidad en las fuentes de información que ha obligado a eliminar dos estados del modelo. Por otro las características propias de los datos hacen que la decisión de tener en cuenta una variable se convierta en otro trabajo añadido al problema, ya que la idiosincrasia de la sociedad estadounidense provoca diferencias muy grandes en la aplicación de ciertas leyes. Por ejemplo, antes de comenzar a analizar el modelo se excluyó de él tres variables por no aplicarse de forma muy similar entre los estados, y posteriormente se observó que la variable juego también podría tener el mismo problema. El análisis de correspondencias produjo una separación en 5 clases en la que es importante destacar que California e Ilinois son estados con comportamientos en sus arrestos muy diferentes al resto de estados. Un posterior análisis podría consistir en estudiar qué cambios produce eliminar del modelo estos dos estados y la variable juego (GAM) que también contribuye en gran medida en la complejidad del análisis.