4. estadística descriptiva

22
Estadística Descriptiva: Correlación y Regresión LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261

Transcript of 4. estadística descriptiva

  • 1. Estadstica Descriptiva:Correlacin y RegresinLEONARDO LPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADAPARALELO: 261

2. CORRELACIONla correlacin indica la fuerza y la direccin de unarelacin lineal entre dos variables aleatorias. Se consideraque dos variables cuantitativas estn correlacionadascuando los valores de una de ellas varansistemticamente con respecto a los valores homnimosde la otra: si tenemos dos variables (A y B) existecorrelacin si al aumentar los valores de A lo hacentambin los de B y viceversa. La correlacin entre dosvariables no implica, por s misma, ninguna relacin decausalidadExisten diversos coeficientes que miden el grado decorrelacin, adaptados a la naturaleza de los datos. Elms conocido es el coeficiente de correlacin dePearson (introducido en realidad por Francis Galton), que 3. CORRELACIONEn el caso de que se est estudiando dos variablesaleatorias x e y sobre una poblacin estadstica; elcoeficiente de correlacin de Pearson se simboliza con laletra x,y, siendo la expresin que nos permite calcularlo:Donde:XY es la covarianza de (X,Y)X es la desviacin tpica de lavariable XY es la desviacin tpica de lavariable Y 4. Matriz de CorrelacinUna matriz de correlacin es una tabla de dobleentrada para A B y C, que muestra una lista multivariablehorizontalmente y la misma lista verticalmente y con elcorrespondiente coeficiente de correlacin llamado r.El anlisis factorial se puede utilizar para estudiar seriesnumricas o de valores cuantitativos para un determinadonmero de variables cuantitativas y mayor de dos. Porejemplo, tres caractersticas o ms para series numricascon igual nmero de datos. 5. Matriz de CorrelacinEstas variables independientes o explicativas estndispuestas ya en una matriz de correlacin, que esuna tabla de doble entrada para A B y C, que muestra unalista multivariable horizontalmente y la misma listaverticalmente y con el correspondiente coeficiente decorrelacin llamado r o la relacin entre cada pareja encada celda, expresada con un nmero que va desde 0 a 1.El modelo mide y muestra la interdependencia enrelaciones asociadas o entre cada pareja de variables ytodas al mismo tiempo. 6. COVARIANZAEs una medida de dispersin conjunta de dos variablesestadsticas.Lacovarianza SXY (aveces tambindenotadaCov(X,Y) )dedos variablesaleatorias X e Y es:dondees el operador esperanza. Paradistribuciones discretas la frmula anterior seconcreta enCuando las variables aleatorias X e Y son n-dimensionales, es decir, e, su matriz de covarianzas XY es: 7. COVARIANZA Si Sxy > 0 hay dependencia directa (positiva), es decir, agrandes valores de x corresponden grandes valores de y. Si Sxy = 0 Una covarianza 0 se interpreta como la noexistencia de una relacin lineal entre las dos variablesestudiadas. Si Sxy < 0 hay dependencia inversa o negativa, es decir, agrandes W, y V son xvariables aleatorias y a, b,valores deSi X, Y, valores de corresponden pequeos c, d sony.constantes ("constante" en este contexto significa no ,aleatorio), se cumple que: la varianza de X frmula que suele emplearse en la prctica para calcular la covarianza. 8. Coeficiente de Correlacin LinealEl coeficiente de correlacin lineal es elcociente entre la covarianza y el producto delas desviaciones tpicas de ambas variables.El coeficiente de correlacin lineal se expresamediante la letra r. 9. Coeficiente de Correlacin LinealPropiedades1. El coeficiente de correlacin no vara al hacerlo la escalade medicin.Es decir, si expresamos la altura en metros o encentmetros el coeficiente de correlacin no vara.2. El signo del coeficiente de correlacin es el mismo que elde la covarianza. Si la covarianza es positiva, la correlacin es directa. Si la covarianza es negativa, la correlacin es inversa. Si la covarianza es nula, no existe correlacin.3. El coeficiente de correlacin lineal es un nmero realcomprendido entre 1 y 1.1 r 1 10. Coeficiente de Correlacin Lineal4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil.7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional. 11. Coeficiente de Correlacin Lineal Ejemplo Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes: Hallar el coeficiente de correlacin de la distribucin e interpretarlo.1 Hallamos las medias aritmticas.NOTAAl ser el coeficiente decorrelacinpositivo, lacorrelacin es directa.2 Calculamos la covarianza.Comocoeficientedecorrelacin est muyprximo a 1 la correlacin3 Calculamos las desviaciones tpicas.muy fuerte.es4 Aplicamos la frmula del coeficiente decorrelacin lineal. 12. REGRESINEn estadstica la regresin lineal o ajuste lineal esun mtodo matemtico que modeliza la relacin entreunavariabledependienteY,las variablesindependientes Xi y un trmino aleatorio . Este modelopuede ser expresado como:donde 0 es la interseccin o trmino "constante", las son los parmetros respectivos a cadavariable independiente, y p es el nmero de parmetrosindependientes a tener en cuenta en la regresin. Laregresin lineal puede ser contrastada con la regresin nolineal. 13. Regresin LinealPara poder crear un modelo de regresin lineal, esnecesario que se cumpla con los siguientes supuestos: La relacin entre las variables es lineal. Los errores en la medicin de las variables explicativasson independientes entre s. Loserrorestienenvarianzaconstante.(Homocedasticidad) Los errores tienen una esperanza matemtica igual a cero(los errores de una misma magnitud y distinto signo sonequiprobables). El error total es la suma de todos los errores. 14. Regresin LinealEl modelo linealrelaciona lavariabledependiente Y con K variables explicativas Xk (k = 1,...K), ocualquier transformacin de stas,quegeneranun hiperplano de parmetros k desconocidos:dondees la perturbacin aleatoria que recoge todosaquellos factores de la realidad no controlables uobservables y que por tanto se asocian con el azar, y es laque confiere al modelo su carcter estocstico. En el casoms sencillo, con una sola variable explicativa, elhiperplano es una recta:Y = 1 + 2X2 + 15. Regresin LinealEl problema de la regresin consiste en elegirunos valores determinados para los parmetrosdesconocidos k, de modo que la ecuacin quedecompletamente especificada. Para ello se necesita unconjunto de observaciones. En una observacincualquiera i-sima (i= 1,... I) se registra el comportamientosimultneo de la variable dependiente y las variablesexplicativas (las perturbaciones aleatorias se suponen noobservables). 16. Regresin LinealLos valores escogidos como estimadores de losparmetros, , son los coeficientes de regresin, sin que sepueda garantizar que coinciden con parmetros reales delproceso generador. Por tanto, enLos valores son por su parte estimaciones de laperturbacin aleatoria o errores. 17. Regresin Lineal SimpleSlo se maneja una variable independiente, por lo queslo cuenta con dos parmetros. Son de la forma:Yi = 0 + 1Xi + idonde i es el error asociado a la medicin del valor Xi ysiguen los supuestos de modo que iN(0,2) (mediacero, varianza constante e igual a un ycon). 18. Regresin Lineal SimpleDado el modelo de regresin simple, si secalculala esperanza (valor esperado) del valor Y, se obtiene:Derivando respecto a y e igualando a cero, se obtiene:Obteniendo dos ecuaciones denominadas ecuacionesnormales que generan la siguiente solucin para ambosparmetros:La interpretacin del parmetro 1 es que un incremento en Xide una unidad, Yi incrementar en 1 19. Correlacin por RangosEste coeficiente es una medida de asociacin lineal queutiliza los rangos, nmeros de orden, de cada grupo desujetos y compara dichos rangos. Existen dos mtodospara calcular el coeficiente de correlacin de los rangosuno sealado por Spearman y otro por Kendall. El r deSpearman llamado tambin rho de Spearman es ms fcilde calcular que el de Kendall. 20. Correlacin por RangosCoeficiente de Correlacin de Spearman (ro) es una medida de la correlacin (la asociacin ointerdependencia) entredos variablesaleatorias continuas. Para calcular , los datos sonordenados y reemplazados por su respectivo orden.El estadstico viene dado por la expresin:donde D es la diferencia entre los correspondientesestadsticos de orden de x - y. N es el nmero de parejas. 21. Correlacin por RangosSe tiene que considerar la existencia de datos idnticos ala hora de ordenarlos, aunque si stos son pocos, sepuede ignorar tal circunstanciaPara muestras mayores de 20 observaciones, podemosutilizar la siguiente aproximacin a la distribucin t deStudent.La interpretacin de coeficiente de Spearman es igual quela del coeficiente de correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o positivasrespectivamente, 0 cero, significa no correlacin pero noindependencia. La tau de Kendall es un coeficiente decorrelacin por rangos, inversiones entre dosordenaciones de una distribucin normal bivariante. 22. Correlacin por RangosLos datosLa columna "d" que muestra las diferencias entrebrutos usadoslas dos columnas de orden. Finalmente, se creaeneste otra columna "d2". Esta ltima es slo la columnaejemplo se "d" al cuadradoven debajo.Ntese como el nmero de orden de los valores que son idnticos es la media de los nmeros de orden que les corresponderan si no lo fueran. Los valores de la columna d2 pueden ser sumados para averiguar. De lo que resulta El valor de n es 10. As que esos valores = pueden ser sustituidos en la frmula. 0.187878787879