PC2

11
PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ FACULTAD DE CIENCIAS SOCIALES – ESPECIALIDAD DE SOCIOLOGÍA CURSO: ESTADÍSTICA PARA EL ANÁLISIS SOCIOLÓGICO 2SEMESTRE 2011-2 PROFESOR : DAVID SULMONT SEGUNDA PRÁCTICA CALIFICADA Para esta práctica trabajaremos con la base de datos “elec_prov2011” que contiene los resultados de la primera vuelta de las elecciones presidenciales 2011 a nivel provincial. Las variables de dicha base de datos son: 1. Hipótesis y operacionalización de variables (5 puntos) El objetivo de esta práctica es tratar de identificar y evaluar algunos posibles factores explicativos de los resultados electorales de la primera vuelta presidencial 2011 a nivel provincial. La variables dependientes pueden ser: a) Los niveles de votación que obtuvieron los candidatos que se presentaron en primera vuelta b) Los niveles de votos nulos y/o blancos En primer lugar deberá escoger por lo menos 2 variables dependientes a ser explicadas. Identifique claramente cuáles de las variables presentes en la base de datos serán consideradas sus variables dependientes o fenómeno a ser explicado.

description

5

Transcript of PC2

Page 1: PC2

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚFACULTAD DE CIENCIAS SOCIALES – ESPECIALIDAD DE SOCIOLOGÍA

CURSO: ESTADÍSTICA PARA EL ANÁLISIS SOCIOLÓGICO 2 SEMESTRE 2011-2

PROFESOR : DAVID SULMONT

SEGUNDA PRÁCTICA CALIFICADA

Para esta práctica trabajaremos con la base de datos “elec_prov2011” que contiene los resultados de la primera vuelta de las elecciones presidenciales 2011 a nivel provincial. Las variables de dicha base de datos son:

1. Hipótesis y operacionalización de variables (5 puntos)

El objetivo de esta práctica es tratar de identificar y evaluar algunos posibles factores explicativos de los resultados electorales de la primera vuelta presidencial 2011 a nivel provincial. La variables dependientes pueden ser:

a) Los niveles de votación que obtuvieron los candidatos que se presentaron en primera vueltab) Los niveles de votos nulos y/o blancos

En primer lugar deberá escoger por lo menos 2 variables dependientes a ser explicadas. Identifique claramente cuáles de las variables presentes en la base de datos serán consideradas sus variables dependientes o fenómeno a ser explicado.

Seguidamente, para cada una de las variables dependientes escogidas, identifique por lo menos tres variables explicativas o independientes (pueden ser las mismos para ambas variables dependientes), que puedan operacionalizarse de manera tal que pueda conseguirse indicadores empíricos de las mismas a nivel provincial.

Formule claramente las hipótesis explicativas de los resultados electorales que piensa analizar. En sus hipótesis especifique el tipo de efecto o de relación que usted supone tienen sus variables independientes sobre sus variables dependientes. Por ejemplo: “Se espera que si X cambia en tal

Page 2: PC2

sentido, Y cambiará en tal otro”. Justifique claramente por qué espera usted que la relación o los efectos de X en Y van en el sentido especificado en sus hipótesis.

PPK (porcentaje de votos válidos en primera vuelta) : Logro educativo, Ingresos, FUJIMORI: Logro educativo, ingresos, Z

Hipótesis:a) b) c) d) e) f)

2. Preparación de la base de datos (4 puntos)

Busque los indicadores empíricos de las variables independientes en fuentes de datos (estadísticas oficiales) que tengan información a nivel provincial. Se sugiere usar algunas de las siguientes fuentes:

Censo Nacional de Población 2007:http://iinei.inei.gob.pe/iinei/RedatamCpv2007.asp?ori=C

Censo Nacional Económico 2008:http://desa.inei.gob.pe/cenec2008/redatam/#

Informe de Desarrollo Humano para el Perú del 2009:http://www.pnud.org.pe/frmPubDetail.aspx?id=156

Especifique claramente el indicador que utilizará para operacionalizar las variables independientes que haya incorporado en sus hipótesis y digite la información respectiva en la base de datos. Posteriormente convierta la base de datos al formato .rda para que pueda usarla en el R (el procedimiento se verá en una de las prácticas dirigidas del curso).

3. Modelos estadísticos (5 puntos)

Ponga a prueba sus hipótesis calculando los modelos de regresión lineal. Empiece con modelos simples y luego con modelos múltiples. Reporte sus resultados usando el siguiente formato (ejemplo con tres variables independientes)1:

> m1ppk <- lm(Datos$PPK~Datos$Logro)> m2ppk <- lm(Datos$PPK~Datos$Ifpc)> m3ppk <- lm(Datos$PPK~Datos$IDE)

> summary(m1ppk)

Call:lm(formula = Datos$PPK ~ Datos$Logro)

1 Si se considera pertinente, puede usar más de tres variables independientes.

Page 3: PC2

Residuals: Min 1Q Median 3Q Max -9.300 -3.018 -1.008 2.096 25.280

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -47.95457 5.02611 -9.541 <2e-16 ***Datos$Logro 0.64255 0.05841 11.001 <2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.741 on 192 degrees of freedomMultiple R-squared: 0.3866, Adjusted R-squared: 0.3834 F-statistic: 121 on 1 and 192 DF, p-value: < 2.2e-16

> summary(m2ppk)

Call:lm(formula = Datos$PPK ~ Datos$Ifpc)

Residuals: Min 1Q Median 3Q Max -9.6801 -1.8685 -0.3367 1.6029 26.3997

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.284371 0.796464 -5.379 2.16e-07 ***Datos$Ifpc 0.047493 0.003066 15.492 < 2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.036 on 192 degrees of freedomMultiple R-squared: 0.5556, Adjusted R-squared: 0.5532 F-statistic: 240 on 1 and 192 DF, p-value: < 2.2e-16

> summary(m3ppk)

Call:lm(formula = Datos$PPK ~ Datos$IDE)

Residuals: Min 1Q Median 3Q Max -12.5613 -2.0620 -0.3749 2.1562 24.0939

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -13.417 1.381 -9.718 <2e-16 ***Datos$IDE 36.685 2.400 15.286 <2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.066 on 192 degrees of freedomMultiple R-squared: 0.5489, Adjusted R-squared: 0.5466 F-statistic: 233.7 on 1 and 192 DF, p-value: < 2.2e-16

> mppk4 <- lm(Datos$PPK~Datos$Ifpc+Datos$IDE+Datos$Logro)

> summary(mppk4)

Call:lm(formula = Datos$PPK ~ Datos$Ifpc + Datos$IDE + Datos$Logro)

Residuals: Min 1Q Median 3Q Max

Page 4: PC2

-10.2483 -1.9018 -0.2075 1.5332 25.0205

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.669127 5.567329 -2.096 0.0374 * Datos$Ifpc 0.026141 0.005672 4.609 7.42e-06 ***Datos$IDE 19.286999 4.111010 4.692 5.17e-06 ***Datos$Logro 0.019899 0.076979 0.259 0.7963 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.818 on 190 degrees of freedomMultiple R-squared: 0.6064, Adjusted R-squared: 0.6001 F-statistic: 97.56 on 3 and 190 DF, p-value: < 2.2e-16

Variable dependiente: YVariables Modelo 1 Modelo 2 Modelo 3 Modelo 4Constante -47.95457 (***)

5.02611 Coef. (sig)(error std.)

Coef. (sig)(error std.)

Coef. (sig)(error std.)

X1 0.64255 0.05841

Coef. (sig)(error std.)

X2 Coef. (sig)(error std.)

Coef. (sig)(error std.)

X3 Coef. (sig)(error std.)

Coef. (sig)(error std.)

R2R2 ajustadoError Std. Modelo

Notas: Los coeficientes deben reportarse usando el siguiente formato: #.### (entero y tres

decimales). Al costado del coeficiente debe indicarse el nivel de significancia usando asteriscos como

clave: * = 0.05; ** = 0.01; *** = 0.001; sin asterisco > 0.05. Debajo del coeficiente debe reportarse el error estándar del mismo, entre paréntesis y

usando cursiva.

> m1keiko <- lm(Datos$FUJIMORI~Datos$Logro)

> m2keiko <- lm(Datos$FUJIMORI~Datos$Ifpc)

> m3keiko <- lm(Datos$FUJIMORI~Datos$IDE)

> summary(m1keiko)

Call:lm(formula = Datos$FUJIMORI ~ Datos$Logro)

Residuals: Min 1Q Median 3Q Max -21.394 -9.776 -0.455 8.036 35.380

Coefficients:

Page 5: PC2

Estimate Std. Error t value Pr(>|t|)(Intercept) 8.9609 13.0556 0.686 0.493Datos$Logro 0.1906 0.1517 1.256 0.211

Residual standard error: 12.32 on 192 degrees of freedomMultiple R-squared: 0.008151, Adjusted R-squared: 0.002985 F-statistic: 1.578 on 1 and 192 DF, p-value: 0.2106

> summary(m2keiko)

Call:lm(formula = Datos$FUJIMORI ~ Datos$Ifpc)

Residuals: Min 1Q Median 3Q Max -20.527 -9.847 -0.454 8.619 34.381

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.208537 2.419536 8.766 9.83e-16 ***Datos$Ifpc 0.016999 0.009313 1.825 0.0695 . ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 12.26 on 192 degrees of freedomMultiple R-squared: 0.01706, Adjusted R-squared: 0.01194 F-statistic: 3.332 on 1 and 192 DF, p-value: 0.0695

> summary(m3keiko)

Call:lm(formula = Datos$FUJIMORI ~ Datos$IDE)

Residuals: Min 1Q Median 3Q Max -22.912 -9.353 -0.470 7.458 36.868

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 28.203 4.194 6.725 1.95e-10 ***Datos$IDE -5.124 7.290 -0.703 0.483 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 12.35 on 192 degrees of freedomMultiple R-squared: 0.002566, Adjusted R-squared: -0.002629 F-statistic: 0.494 on 1 and 192 DF, p-value: 0.483

> mkeiko4 <- lm(Datos$FUJIMORI~Datos$Ifpc+Datos$IDE+Datos$Logro)

> summary(mkeiko4)

Call:lm(formula = Datos$FUJIMORI ~ Datos$Ifpc + Datos$IDE + Datos$Logro)

Residuals: Min 1Q Median 3Q Max -26.153 -9.488 -0.905 8.565 31.716

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.73430 17.21743 1.262 0.208373 Datos$Ifpc 0.06241 0.01754 3.558 0.000472 ***Datos$IDE -52.31364 12.71365 -4.115 5.77e-05 ***

Page 6: PC2

Datos$Logro 0.20847 0.23806 0.876 0.382303 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.81 on 190 degrees of freedomMultiple R-squared: 0.09774, Adjusted R-squared: 0.0835 F-statistic: 6.861 on 3 and 190 DF, p-value: 0.0002061

Variable dependiente: YVariables Modelo 1 Modelo 2 Modelo 3 Modelo 4Constante Coef. (sig)

(error std.)Coef. (sig)(error std.)

Coef. (sig)(error std.)

Coef. (sig)(error std.)

X1 Coef. (sig)(error std.)

Coef. (sig)(error std.)

X2 Coef. (sig)(error std.)

Coef. (sig)(error std.)

X3 Coef. (sig)(error std.)

Coef. (sig)(error std.)

R2R2 ajustadoError Std. Modelo

Notas: Los coeficientes deben reportarse usando el siguiente formato: #.### (entero y tres

decimales). Al costado del coeficiente debe indicarse el nivel de significancia usando asteriscos como

clave: * = 0.05; ** = 0.01; *** = 0.001; sin asterisco > 0.05. Debajo del coeficiente debe reportarse el error estándar del mismo, entre paréntesis y

usando cursiva.

Interpretación (6 puntos)

Interprete los resultados de sus modelos estadísticos, discutiendo lo formulado inicialmente en sus hipótesis. Compare los modelos entre sí; evalúe la significancia estadística de sus coeficientes; analice el nivel de ajuste de los modelos.

Responda a la pregunta: ¿Los modelos calculados le permiten comprobar las hipótesis que usted ha formulado?, ¿cuáles son sus límites?, ¿qué elementos o variables podría considerar para una mejor explicación de sus variables dependientes?

Page 7: PC2

Instrucciones generales

Sea claro y preciso a la hora de formular sus hipótesis, justifíquelas adecuadamente (¿por qué X tendría efecto en Y?).

Cuide la presentación de su trabajo. Consulte con publicaciones académicas que se proponen en la bibliografía para tener una idea de cómo presentar sus resultados. Se evaluará favorablemente aquellos que tengan una presentación profesional.

Si bien se plantea como mínimo trabajar con 2 variables dependientes y 3 variables independientes, se considerará favorablemente trabajos que vayan más allá de esos mínimos. No se aconseja tampoco iniciar un proyecto demasiado ambicioso.

El trabajo puede ser elaborado en parejas. El documento impreso debe ser entregado en la práctica dirigida del 9 de junio.

Adicionalmente, el mismo día, se deberá colgar un archivo zip (comprimido) en la intranet del curso que contenga el documento en Word y la base de datos en formato Excel. No se aceptará entregas fuera de fecha.

FLORO

1. Logro Educativo

Es el componente IDH al que le corresponde aportar la perspectiva educativa a este índice. Se calcula combinando el índice de alfabetismo con la tasa combinada de matricula básica, media y superior.

Tasa Combinada de MatrículaLa tasa combinada de matrícula es un aporte de la UNESCO y refleja el porcentajes de jóvenes en edad escolar (6 - 23 años) que están dentro del sistema escolar. Su principal fuente de cálculo son las estadísticas producidas anualmente por el Ministerio de Educación y las proyecciones de población para los grupos de edades correspondientes, proporcionadas por el Instituto Nacional de Estadística (INE). Se calcula a partir de la tasa bruta de matrícula y se toma como valor máximo de matrícula el 100% de la población ubicada en esas edades y como mínimo el 0% de la población perteneciente a ese rango de edad. Para el cálculo de la tasa bruta de matriculación, de manera que incluya la educación primaria, básica, media (persificada y profesional) y universitaria, se suman todas las matrículas registradas a comienzo del período y se piden entre la población estimada de 6 a 23 años.

Tasa de AlfabetismoEs la relación que existe entre las personas de 15 años y más que pueden leer y escribir un párrafo sencillo en un idioma cualquiera (alfabetismo) y la población total de ese grupo de edad. La fuente principal de datos para construir esta tasa es el censo de población El componente Logro Educativo se calcula como un promedio ponderado a partir de la tasa de alfabetismo y la tasa de matrícula combinada.

2. Ingreso

El ingreso es visto, no como un fin, sino como un medio para tener acceso a las condiciones que garantizan un nivel de vida adecuado. La estimación de estos medios o recursos constituye un reto difícil, pues implica la medición de un conjunto de bienes, tales como acceso a la tierra, créditos, ingresos y otros recursos. Por todo ello, su construcción se hace un poco más compleja que para los componentes anteriores. Parte de esta dificultad se debe a la carencia de información sistemática y confiable disponible, más aún cuando se trabaja en el contexto estadal.

Page 8: PC2

Por otro lado, la existencia de bienes y servicios no intercambiables y las distorsiones en las tasas de cambio, aranceles e impuestos, hacen que los datos sobre ingreso per-cápita, medidos según precios nominales, no sean muy útiles para efectos de comparaciones en el tiempo y en el espacio. “Los datos pueden mejorarse utilizando cifras reales del PIB per-cápita ajustadas al poder adquisitivo, que proporcionan mejores aproximaciones del poder relativo de comprar artículos y de lograr control sobre los recursos para alcanzar un nivel de vida decente.” (PNUD 1990, p. 37). Esta consideración lleva a convertir los ingresos en una medida a escala comparable internacional y temporal, utilizando para ello como factor de conversión, Paridades de Poder Adquisitivo (PPA) expresadas en dólares PPA, en lugar de tipos de cambio.

Fuente: FICHA TÉCNICA DE ÍNDICE DE DESARROLLO HUMANO (IDH)http://www.ine.gov.ve/fichastecnicas/idh/idh.htm

Densidad del EstadoComo se ha explicado, la densidad del Estado

en el Perú se estima con base en una canasta deservicios básicos e ineludibles que aquél debe

garantizar a todos sus ciudadanos y ciudadanas,como plataforma mínima para que puedan

aspirar al desarrollo humano. Esta estimaciónal año 2007 arroja dos constataciones centrales:(1) una preocupante desigualdad territorial de

la presencia de ese Estado mínimo, tanto a niveldepartamental como provincial; y (2) comocorrelato, la existencia en el país de lugares

donde persisten brechas intolerables, aún en esosservicios básicos e ineludibles que componen el

IDE, las cuales es imprescindible superar.