Inf Gilson

9
Asignatura : Estadística CIVIL Profesores : Mario Cartes : Víctor González Ruiz TRABAJO 1°2012 Usted dispone de una base de datos con una muestra de trabajadores con las siguientes variables: Salarios (en pesos) Años de escolaridad (en años) Edad (en años) Antigüedad en la empresa (en años) Habilidad (medido en base a un test de habilidad que va de 1 a 100, donde 1 representa el menor nivel de habilidad y 100 el mayor nivel de habilidad) Estatura (medida en centímetros) Se pide: 1. Estime por mínimos cuadrados la relación que existe entre el logaritmo (natural) del salario y los años de escolaridad, la edad, la edad al cuadrado, la antigüedad en la empresa, y la habilidad. Interprete cada uno de los coeficientes estimados. Discuta los resultados, ¿son razonables / esperables? Ajustaremos el siguiente modelo, con coeficientes lineales: Ln(Y i ) = f(s, e, e 2 , a, h) + u i document.doc Confidencial Página 1 16/07/2022

description

Trabajo de Estadística

Transcript of Inf Gilson

TRABAJO 12012Usted dispone de una base de datos con una muestra de trabajadores con las siguientes variables:

Salarios (en pesos)

Aos de escolaridad (en aos)

Edad (en aos)

Antigedad en la empresa (en aos)

Habilidad (medido en base a un test de habilidad que va de 1 a 100, donde 1 representa el menor nivel de habilidad y 100 el mayor nivel de habilidad)

Estatura (medida en centmetros)

Se pide:

1. Estime por mnimos cuadrados la relacin que existe entre el logaritmo (natural) del salario y los aos de escolaridad, la edad, la edad al cuadrado, la antigedad en la empresa, y la habilidad. Interprete cada uno de los coeficientes estimados. Discuta los resultados, son razonables / esperables?Ajustaremos el siguiente modelo, con coeficientes lineales:

Ln(Yi) = f(s, e, e2, a, h) + uiMediante la pestaa de ANALISIS DE DATOS EXCEL, obtenemos una salida que origina la siguiente ecuacin;

MODELO ESTIMADO

Ln(Y) = 12,76 + 0,027*s + 0,016*e - 0,0003*e2 + 0,0056*a + 0,013*h

Cada uno de sus valores se interpreta como, ante el aumento de una unidad en los predictores correspondientes, dejando los otros constantes, provocaran en la variable Ln(Y) un aumento. Esto con excepcin de la variable e2; la cual ante un aumento, se espera que Ln(Y), disminuya:

De acuerdo a las variables de explicacin, se espera que ellas; se relacionen positivamente con la variable respuesta y tambin con su Ln. En cada una de ellas el salario debiera aumentar ante el aumento de ellas individualmente.

Todos los coeficientes estimados consiguen demostrar lo anterior, con excepcin del coeficiente de la variable introducida como el cuadrado de la edad

2. Son estadsticamente significativos los coeficientes estimados?Mediante pruebas T- Student (n-2), ellas aplicadas en la base de datos nos indican que sus valores p, son todos muy cercanos a cero, lo que demuestra su significancia. CoeficientesError tpicoEstadstico TValor p

Intercepcin12,76329440,07429153171,8001380

S0,027333740,0008650831,59681134,371E-116

E0,016431050,003648394,503644918,5309E-06

E2-0,000301484,5709E-05-6,595600421,1961E-10

A0,005556940,001182134,70077823,455E-06

H0,013100920,000165779,06197972,845E-265

3. Es el modelo globalmente significativo?Atendiendo a la significancia global, el ANOVA de la salida EXCEL, nos seala un valor calculado de F y su correspondiente valor p; ellos son (F = 1585:44 y Valor p = 3.2*10-282). Lo grande del ESTADISTICO F o lo pequeo del VALOR p, nos conducen a concluir que el modelo globalmente es significativo.

4. Interprete el R cuadrado y el R cuadrado ajustado.Estos coeficientes descriptivos nos hablan sobre el ajuste del modelo. En l salida correspondiente se observa que (R2 = 0.9465 y R2-Ajust = 0.9459). El primero de ellos nos indica que la variabilidad total, est explicado en cerca de un 95% por las variables independientes y el segundo es una correccin asociada a los grados de libertad del modelo, pero interpreta lo mismo que el anterior. La poca diferencia entre ellos, obedece a lo grande del tamao de la muestra.5. Estime por mnimos cuadrados ordinarios la relacin que existe entre el logaritmo (natural) del salario y los aos de escolaridad, la edad, la edad al cuadrado, la antigedad en la empresa, la habilidad y la estatura de la persona. Interprete cada uno de los coeficientes estimados. Discuta los resultados, son razonables / esperables?Ahora Ajustamos un modelo incorporando la estatura. Procediendo igual tenemos la siguiente ecuacin lineal:

Ln(Yi) = f(s, e, e2, a, h, t) + uiSu correspondiente modelo estimado es:MODELO ESTIMADO

Ln(Y) = 12,76 + 0,027*s + 0,016*e - 0,0003*e2 + 0,0056*a + 0,013*h + 0.00034*t

Se espera la misma relacin de signos que antes, aunque, en este caso la variable estatura (t) poco aporta a la explicacin, de ella se espera un valor cero. Es decir no debiera producir un efecto en el Ln/Y), al aumentar o disminuir en una unidad la estatura. 6. Son estadsticamente significativos los coeficientes estimados?CoeficientesError tpicoEstadstico tValor p

Intercepcin12,70395710,10430383121,7976030

s0,027299530,0008664431,50777491,331E-115

e0,016541240,003652314,528973067,6134E-06

e2-0,000302734,5753E-05-6,616721071,0527E-10

a0,005516750,001183624,660904914,1614E-06

h0,013096890,0001658478,97205861,111E-264

t0,000339990,000419320,810801160,41791134

Observando el correspondiente coeficiente, su Est T y el valor p, nos encontramos que son significativos todos (valor p 0.10).

En sntesis todos los valores p son significativos, excepto la estatura (Valor p = 0.418) 7. Es el modelo globalmente significativo?En el anova de excel, se da un valor de F y un valor p; ellos son (F = 1457,514 y Valor p = 2,637E-294). Entre mas grande el valor F o mas pequeo p, se concluye que el modelo globalmente es significativo.8. Interprete el R cuadrado y el R cuadrado ajustado.Estos coeficientes nos hablan sobre el ajuste del modelo. En Excel correspondiente se tiene que (R2 = 0,9503 y R2-Ajust = 0,9496).

El R2es un criterio de valoracin de la capacidad deexplicacinde los modelos de regresin, y representa el porcentaje de la varianza justificado por la variable independiente.o tambin como el cuadrado del coeficiente de correlacin entre los valores reales de una variable y sus estimaciones. Si todas las observaciones estn en la lnea de regresin, el valor de R2es 1, y si no hay relacin lineal entre las variables dependiente e independiente, el valor de R2es 0. El coeficiente R2es una medida de la relacin lineal entre dos variables. A medida que su valor es mayor, el ajuste de la recta a los datos es mejor, puesto que la variacin explicada es mayor; as, el desajuste provocado por la sustitucin de los valores observados por los predichos es menor. El R2ajustado tiene en cuenta el tamao del conjunto de datos, y su valor es ligeramente inferior al de su correspondiente R29. Dado que la variable estatura no es un factor relevante para explicar los salarios de los individuos, qu consecuencias tiene el hecho de incluirla en la regresin? (Ayuda: investigue en qu consiste el problema de inclusin de variable irrelevante) Consideramos ahora el caso de que siendo el modelo verdadero estimamos en su lugar el modelo esto es, no tenemos en cuenta la restriccin .

Pues bien los estimadores obtenidos vienen dados por:

donde:

y sustituyendo por su expresin verdadera:

Por consiguiente,

esto es, los estimadores de los parmetros j son insesgados pero su varianza es superior a la que hubieramos obtenido al estimar en el modelo verdadero. Representado por a este nuevo estimador, tendramos:

implicando una elevacin de los errores estandar de los y, consiguientemente, una reduccin de los t ratios incluso para las variables relevantes.

Observemos que, si las variables incluidas en X1 y X2 estan incorrelacionadas, se verifica: . Si, por el contrario, la correlacin entre X1 y X2 es perfecta, la varianza de los estimadores .

10. Dado que la variable habilidad es muy importante para explicar los salarios, qu consecuencias tendra el hecho de eliminarla de la regresin? (Ayuda: investigue en qu consiste el problema de sesgo por omisin de variable relevante).Supongamos que siendo el modelo verdadero

en su lugar estimamos.

Observemos que el error consiste en omitir las variables relevantes de la matriz X o, equivalentemente, introducir la restriccin incorrecta de que . Dado el modelo que estimamos obtendremos como estimadores de y sustituyendo Y por su expresin verdadera

po consiguiente

es decir, los estimadores son ahora sesgados, siendo el sesgo .

Observemos ahora que el sesgo ser nulo cuando =0; es decir cuando las variables incluidas y omitidas -X1 y X2, respectivamente sean ortogonales y por tanto estn incorrelacionadas. Cuando este no sea el caso, nos encontraremos con un sesgo creciente con el nmero de observaciones de tal forma que los estimadores sean inconsistentes.

Incluso en el caso en que las variables incluidas y omitidas estn incorrelacionadas, se obtiene una varianza residual y consiguientemente, unas varianzas estimadas de los parmetros superiores a las del modelo verdadero.

11. Un problema bastante comn en el anlisis economtrico es la presencia de Multicolinealidad en los datos. En qu consiste el problema? Cree que este problema est presente en sus datos?Desde EXCEL, la matriz de correlaciones entre las variables obtenindose que :

see2aht

s1

e-0,028211

e2-0,024160,9952731

a-0,073750,0004360,0038211

h0,0534840,0235670,0269670,0757371

t0,0465880,0583040,061882-0,06602-0,032691

Se ve que las correlaciones son bajas asi que no hay multicolinealidad. TRABAJO RL 12012ConfidencialPgina 610/07/2013

_1403545727.unknown

_1403545731.unknown

_1403545733.unknown

_1403545735.unknown

_1403545736.unknown

_1403545737.unknown

_1403545734.unknown

_1403545732.unknown

_1403545729.unknown

_1403545730.unknown

_1403545728.unknown

_1402924973.unknown

_1403545544.unknown

_1403545546.unknown

_1403545548.unknown

_1403545550.unknown

_1403545726.unknown

_1403545549.unknown

_1403545547.unknown

_1403545545.unknown

_1402925009.unknown

_1403545543.unknown

_1402924986.unknown

_1402924944.unknown

_1402924959.unknown

_1402924924.unknown