TALLER FINAL METODOS...

17
15/06/2012 TALLER FINAL METODOS CUANTITATIVOS Manejo del software estadístico R CRISTIAN CAMILO DURAN RAMIREZ

Transcript of TALLER FINAL METODOS...

Page 1: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

15/06/2012

TALLER FINAL METODOS CUANTITATIVOS Manejo del software estadístico R

CRISTIAN CAMILO DURAN RAMIREZ

Page 2: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

1

TALLER FINAL METODOS CUANTITATIVOS

Manejo del software estadístico R

OBJETIVO Utilizar los recursos informáticos, R, Stata, Excel, Spss, Gretl u otros, para afianzar las capacidades de utilizar los recursos presentados en

la asignatura.

CONTENIDO Conformar un grupo de dos estudiantes y contestar:

Cada pregunta ustedes deben incluir: Hipótesis de análisis, procedimiento estadístico, resultados y conclusiones. Por cada

punto deben escribir sólo una hoja.

Crear un archivo plano de los datos que pueda ser importado a un paquete estadístico. Anexo 1.

Realizar análisis exploratorio de dato y determinar cumplimiento de supuestos de normalidad, linealidad, homocedasticidad,

multicolinealidad utilizando gráficos y estadísticos. Anexo 1.

Crear una matriz Z~ (0,1) para los datos originales y realizar gráfica de caja y bigotes para identificar valores atípicos.

Anexo 1.

Medir la distancia en cada grupo de datos por casos (filas) según matriz de datos original y la matriz Z. Anexo 2.

Crear una clasificación cluster, con la matriz de datos original y la matriz Z. Anexo 2.

Explicar las diferencias obtenidas en la matriz de datos original y la matriz Z. Anexo 3.

Page 3: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

2

Crear una tabla de contingencia y demostrar la hipótesis de independencia fila columna con la prueba chi. Anexo 3.

Realizar una regresión lineal cualitativa. Anexo 3.

Realizar una regresión logística. Anexo 4.

SOLUCION

Realizar análisis exploratorio de dato y determinar cumplimiento de supuestos de normalidad, linealidad, homocedasticidad,

multicolinealidad utilizando gráficos y estadísticos. Anexo 1.

TES DE NORMALIDAD

Para las variables Horas Internet, Años de estudios, Películas vistas y Horas trabajadas aplicamos el test de normalidad en R de

Shapiro Wilk

Para la variable Horas de Internet aplicamos la siguiente prueba de hipótesis para determinar la normalidad

Ho = p valor = 0.5

Ha= p valor > 0.5

W = 0.978, p-valor = 0.05967

Como observamos el p valor se encuentra en la zona de aceptación por lo tanto inferimos que esta variable se comporta de

manera normal.

Page 4: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

3

Para la variable Años de estudio aplicamos la prueba de normalidad en R para determinar su normalidad

Ho = p valor = 0.5

Ha= p valor > 0.5

W = 0.9699, p-valor = 0.01185

Se observa que el p valor es inferior a 0.5 por lo tanto no se encuentra en la zona de aceptación y no describe una distribución

normal

Para la variable Películas Vistas aplicamos la prueba de normalidad en R para determinar su normalidad

Ho = p valor = 0.5

Ha= p valor > 0.5

W = 0.9083, p-valor = 1.019e-06

Encontramos que el p valor es mayor por lo que esta variable se comporta normalmente

Para la variable Horas Trabajadas aplicamos el test de normalidad para determinar su comportamiento

Ho = p valor = 0.5

Ha= p valor > 0.5

W = 0.9439, p-valor = 0.0001309

Según los resultados obtenidos esta variable no se encuentran en la zona de aceptación por lo tanto no posee distribución normal

DESCRIPCION DE LAS VARIABLES

Page 5: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

4

Estadísticos descriptivos

N Mínim

o

Máxim

o

Media Desv.

típ.

Varian

za

Asimetría Curtosis

Estadí

stico

Estadí

stico

Estadí

stico

Estadíst

ico

Estadíst

ico

Estadí

stico

Estadís

tico

Error

típico

Esta

dístic

o

Error

típico

Horas

Internet

(HINT)

113 0 19 9,73 4,167 17,36

2

-,181 ,227 -,020 ,451

Años de

estudios

(ESTU)

113 6 18 11,07 1,994 3,977 ,169 ,227 ,846 ,451

Películas

vistas (NP)

113 1 7 3,76 2,050 4,201 ,177 ,227 -

1,201

,451

Horas

trabajadas

(HTRA)

113 36060

229

45877

01361

3,25E9 1,008E

9

1,016

E18

-1,637 ,227 3,031 ,451

N válido

(según lista)

113

En el cuadro anterior encontramos un análisis exploratorio de datos en donde encontramos los estadísticos descriptivos de las

variables las cuales dan una idea del comportamiento de los datos.

Page 6: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

5

Page 7: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

6

Para determinar la homocedasticidad aplicamos una prueba de hipótesis

Ho= las varianzas de ambos grupos no son diferentes

Ha= las varianzas de ambos grupos son diferentes

Para desarrollar este contraste de hipótesis aplicamos el estadístico de Levene

Prueba de homogeneidad de varianzas

Horas trabajadas (HTRA)

Estadístico de

Levene

gl1 gl2 Sig.

2,442 8 101 ,019

Por medio del estadístico de Levene determinamos que las varianzas de ambos grupos no son diferentes 0.019 < 0.5 que es el

nivel de significancia.

PRUEBA CHI CUADRADO

La siguiente es una tabla de contingencia que se aplicó a las variables experiencia laboral y salario arrojando el resultado que se

expone en la siguiente tabla.

Page 8: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

7

Pruebas de chi-cuadrado

Valor gl Sig.

asintótic

a

(bilateral

)

Sig. de Monte Carlo (bilateral) Sig. de Monte Carlo (unilateral)

Sig. Intervalo de confianza

al 95%

Sig. Intervalo de confianza

al 95%

Límite

inferior

Límite

superior

Límite

inferior

Límite

superior

Chi-cuadrado de

Pearson

14154,

728a

1409

8

,366 ,500

b

,490 ,509

Razón de

verosimilitudes

2677,0

02

1409

8

1,000 ,261

b

,252 ,269

Estadístico

exacto de Fisher

35062,

496

,261

b

,252 ,270

Asociación lineal

por lineal

15,766c 1 ,000 ,000

b

,000 ,000 ,000

b

,000 ,000

N de casos

válidos

428

a. 14508 casillas (100,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es ,00.

b. Basada en 10000 tablas muestreadas con la semilla de inicio 624387341.

c. El estadístico tipificado es 3,971.

REGRESION DEL ANEXO 3

Se aplicó una regresión a las variables años de estudio y salario siendo la variable años de estudio la variable independiente y el

salario la variable dependiente.

Page 9: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

8

Resumen del modelob

Mo

del

o

R R

cuadra

do

R

cuadrad

o

corregid

a

Error típ.

de la

estimaci

ón

Estadísticos de cambio Durbin-

Watson Cambio

en R

cuadrad

o

Cambio

en F

gl1 gl2 Sig.

Cambio

en F

1 ,385

a

,148 ,146 817447,

362

,148 74,066 1 426 ,000 2,049

a. Variables predictores: (Constante), Años de estudio

b. Variable dependiente: Salario

Coeficientesa

Modelo Coeficientes no estandarizados Coeficiente

s

tipificados

t Sig. Correlaciones Estadísticos de

colinealidad

B Error típ. Beta Orden

cero

Parcial Semiparc

ial

Toleranci

a

FIV

1 (Const

ante)

-891579,024 222654,80

2

-4,004 ,000

Años

de

estudio

148969,159 17309,649 ,385 8,606 ,000 ,385 ,385 ,385 1,000 1,000

a. Variable dependiente: Salario

Page 10: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

9

Estadísticos sobre los residuosa

Mínimo Máximo Media Desviación

típica

N

Valor pronosticado -146733,23 1640896,63 994203,46 340450,494 428

Residual -2960689,250 2322849,000 ,000 816489,602 428

Valor pronosticado tip. -3,351 1,900 ,000 1,000 428

Residuo típ. -3,622 2,842 ,000 ,999 428

a. Variable dependiente: Salario

Page 11: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

10

Page 12: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

11

REGRESION LOGISTICA

Para llevar acabo la regresión logística se tomaron en cuenta las variables genero, edad, horas de tv, educación y horas de

lecturas siendo la variable dependiente las horas de lectura y las demás variables parámetros para determinar la regresión.

Información del ajuste del modelo

Modelo Criterio de

ajuste del

modelo

Contrastes de la razón de

verosimilitud

-2 log

verosi

militud

Chi-

cuadrado

gl Sig.

Sólo la intersección 257,5

86

Final 160,1

92

97,394 52 ,000

Pseudo R-cuadrado

Cox y Snell ,390

Nagelkerke ,527

McFadden ,367

Page 13: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

12

Contrastes de la razón de verosimilitud

Efecto Criterio

de

ajuste

del

modelo

Contrastes de la razón de

verosimilitud

-2 log

verosimi

litud del

modelo

reducid

o

Chi-

cuadrad

o

gl Sig.

Intersección 160,192

a

,000 0 .

GéneroG 160,330 ,139 1 ,710

EducaciónE 170,554 10,363 2 ,006

EdadX1 218,226 58,034 44 ,076

NúmeroTV.etc.X

2

185,379 25,187 5 ,000

El estadístico de chi-cuadrado es la diferencia en las -2 log

verosimilitudes entre el modelo final y el modelo reducido. El modelo

reducido se forma omitiendo un efecto del modelo final. La hipótesis

nula es que todos los parámetros de ese efecto son 0.

Page 14: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

13

a. Este modelo reducido es equivalente al modelo final ya que la

omisión del efecto no incrementa los grados de libertad.

Estimaciones de los parámetros

Horas de lecturas semanala B Error típ. Wald gl Sig. Exp(B) Intervalo de confianza al 95%

para Exp(B)

Límite inferior Límite

superior

0 Intersección 17,158 4223,482 ,000 1 ,997

[GéneroG=1] ,157 ,421 ,138 1 ,710 1,170 ,512 2,671

[GéneroG=2] 0b . . 0 . . . .

[EducaciónE=1] -1,074 ,539 3,966 1 ,046 ,342 ,119 ,983

[EducaciónE=2] -1,673 ,552 9,193 1 ,002 ,188 ,064 ,554

[EducaciónE=3] 0b . . 0 . . . .

[EdadX1=19] -17,394 4223,482 ,000 1 ,997 2,790E-8 ,000 .c

[EdadX1=20] 1,264 ,000 . 1 . 3,540 3,540 3,540

[EdadX1=21] -,067 ,000 . 1 . ,935 ,935 ,935

[EdadX1=22] 1,970 ,000 . 1 . 7,167 7,167 7,167

[EdadX1=23] 2,103 ,000 . 1 . 8,187 8,187 8,187

[EdadX1=24] 1,952 ,000 . 1 . 7,045 7,045 7,045

[EdadX1=25] -17,182 4223,482 ,000 1 ,997 3,450E-8 ,000 .c

[EdadX1=27] -38,382 ,000 . 1 . 2,143E-

17

2,143E-17 2,143E-17

Page 15: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

14

[EdadX1=28] 1,952 ,000 . 1 . 7,045 7,045 7,045

[EdadX1=29] -18,379 4223,482 ,000 1 ,997 1,042E-8 ,000 .c

[EdadX1=30] -16,946 4223,482 ,000 1 ,997 4,372E-8 ,000 .c

[EdadX1=31] -36,213 9318,576 ,000 1 ,997 1,875E-

16

,000 .c

[EdadX1=32] -15,890 4223,482 ,000 1 ,997 1,257E-7 ,000 .c

[EdadX1=33] 2,796 10132,052 ,000 1 1,000 16,372 ,000 .c

[EdadX1=34] -19,995 4223,482 ,000 1 ,996 2,072E-9 ,000 .c

[EdadX1=35] 2,338 ,000 . 1 . 10,363 10,363 10,363

[EdadX1=36] -37,062 10804,841 ,000 1 ,997 8,023E-

17

,000 .c

[EdadX1=37] -17,596 4223,482 ,000 1 ,997 2,280E-8 ,000 .c

[EdadX1=38] -17,765 4223,482 ,000 1 ,997 1,927E-8 ,000 .c

[EdadX1=39] -14,986 4223,482 ,000 1 ,997 3,103E-7 ,000 .c

[EdadX1=40] -16,781 4223,482 ,000 1 ,997 5,152E-8 ,000 .c

[EdadX1=41] -18,583 4223,482 ,000 1 ,996 8,498E-9 ,000 .c

[EdadX1=42] -17,032 4223,482 ,000 1 ,997 4,011E-8 ,000 .c

[EdadX1=43] -16,970 4223,482 ,000 1 ,997 4,268E-8 ,000 .c

[EdadX1=44] -16,753 4223,482 ,000 1 ,997 5,302E-8 ,000 .c

[EdadX1=45] -17,467 4223,482 ,000 1 ,997 2,596E-8 ,000 .c

[EdadX1=46] -18,337 4223,482 ,000 1 ,997 1,087E-8 ,000 .c

[EdadX1=47] -14,936 4223,482 ,000 1 ,997 3,261E-7 ,000 .c

[EdadX1=48] 1,762 8645,041 ,000 1 1,000 5,825 ,000 .c

[EdadX1=49] -16,070 4223,482 ,000 1 ,997 1,049E-7 ,000 .c

[EdadX1=50] -17,166 4223,482 ,000 1 ,997 3,507E-8 ,000 .c

[EdadX1=51] -18,174 4223,482 ,000 1 ,997 1,280E-8 ,000 .c

Page 16: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

15

[EdadX1=52] -18,003 4223,482 ,000 1 ,997 1,518E-8 ,000 .c

[EdadX1=53] -17,061 4223,482 ,000 1 ,997 3,895E-8 ,000 .c

[EdadX1=54] -18,867 4223,482 ,000 1 ,996 6,399E-9 ,000 .c

[EdadX1=55] -16,509 4223,482 ,000 1 ,997 6,766E-8 ,000 .c

[EdadX1=56] -15,913 4223,482 ,000 1 ,997 1,227E-7 ,000 .c

[EdadX1=57] -17,620 4223,482 ,000 1 ,997 2,227E-8 ,000 .c

[EdadX1=58] -18,200 4223,482 ,000 1 ,997 1,246E-8 ,000 .c

[EdadX1=59] 3,020 ,000 . 1 . 20,489 20,489 20,489

[EdadX1=60] -16,487 4223,482 ,000 1 ,997 6,915E-8 ,000 .c

[EdadX1=62] 1,264 ,000 . 1 . 3,540 3,540 3,540

[EdadX1=64] 1,371 ,000 . 1 . 3,939 3,939 3,939

[EdadX1=66] ,000 ,000 . 1 . 1,000 1,000 1,000

[EdadX1=69] 0b . . 0 . . . .

[NúmeroTV.etc.X2=1

]

1,946 ,900 4,672 1 ,031 6,999 1,199 40,859

[NúmeroTV.etc.X2=2

]

3,087 ,888 12,097 1 ,001 21,909 3,847 124,764

[NúmeroTV.etc.X2=3

]

1,806 ,802 5,070 1 ,024 6,084 1,264 29,293

[NúmeroTV.etc.X2=4

]

,682 ,785 ,754 1 ,385 1,977 ,425 9,206

[NúmeroTV.etc.X2=5

]

,150 ,745 ,041 1 ,840 1,162 ,270 5,009

[NúmeroTV.etc.X2=6

]

0b . . 0 . . . .

a. La categoría de referencia es: 1.

Page 17: TALLER FINAL METODOS CUANTITATIVOScriscadura2009178831.wikispaces.com/file/view/Taller+Final+Metodos… · CRISTIAN CAMILO DURAN RAMIREZ 1 TALLER FINAL METODOS CUANTITATIVOS Manejo

CRISTIAN CAMILO DURAN RAMIREZ

16

b. Este parámetro se ha establecido a cero porque es redundante.

c. Se ha producido un desbordamiento de punto flotante al calcular este estadístico. Por lo tanto, el valor asignado ha sido el valor perdido del

sistema.