Tema 9

download Tema 9

If you can't read please download the document

Transcript of Tema 9

1. Tema 9 Correlacin y regresin 2. 1. Introduccin En situaciones de estudio, de una poblacin, de dos caractersticas, decimos que estamos analizando una variable estadstica bidimensional. Una de las cuestiones que ofrece mayor inters en el estudio de las variables bidimensionales es la de conocer el grado de relacin que existe entre ambas variables unidimensionales. En el estudio de esta relacin se plantean dos problemas diferentes, aunque relacionados entre s: Estudiar el grado de causas comunes entre ambas, problema denominado correlacin. Analizar una de las variables, condicionndola a los comportamientos de la otra. Este problema recibe el nombre de regresin. 3. 2. Variables estadsticas bidimensionales Variable estadstica bidimensional es el conjunto de pares de valores de dos caracteres o variables estadsticas unidimensionales X e Y sobre una misma poblacin. La variable estadstica bidimensional se representa por el smbolo (X, Y) y cada uno de los individuos de la poblacin viene caracterizado por la pareja (xi , yj ), en el cual xi representa los datos, valores o marcas de clase de la variable X ; e yj representa los datos, valores o marcas de clase de la variable Y. Se denominan distribuciones bidimensionales a las tablas estadsticas bidimensionales formadas por todas las frecuencias absolutas de todos los posibles valores de la variable estadstica bidimensional (X, Y ). Las tablas pueden ser: Tablas bidimensionales simples Tablas dimensionales de doble entrada Definicin 4. 2.1.Tablas bidimensionales Denotamos por fij la frecuencia absoluta correspondiente al valor (xi , yj ) y por N el nmero total de individuos. La ltima fila y la ltima columna presentan las llamadas distribuciones marginales. Tablas simple Tabla de doble entrada 5. 3. Diagramas de dispersin o nube de puntos Podemos representar grficamente la distribucin bidimensional en un diagrama cartesiano. En el eje de abscisas representamos la variable estadstica X y en el eje de ordenadas la variable estadstica Y. Diagrama de dispersin es la grfica que se obtiene al representar en unos ejes coordenados una distribucin bidimensional. Se le llama tambin nube de puntos. Definicin 6. 4. Dependencia o correlacin Definicin Segn la disposicin de la nube de puntos se puede apreciar, de forma cualitativa, el tipo y grado de relacin o dependencia entre ambas variables. A esa dependencia la llamamos correlacin. Esta dependencia o correlacin puede ser: Dependencia funcional, si la nube de puntos se sita en la grfica de una funcin, excepto que esta sea constante. Dependencia lineal, si la nube de puntos se sita sobre una recta. Correlacin o dependencia aleatoria, si la nube de puntos se sita prxima a la grfica de una funcin. Independencia o ausencia de correlacin. 7. 4.2.Dependencia o correlacin Definicin El grado de correlacin, a su vez, puede ser: Correlacin fuerte, si la nube de puntos se aproxima mucho a una recta o una curva. Correlacin dbil, si la nube de puntos se aproxima poco a una recta o a una curva. Correlacin positiva, si, a medida que crece una variable, crece la otra. Correlacin negativa, si, a medida que crece una variable, la otra decrece. 8. 5.Correlacin lineal. Coeficiente dePearson La correlacin de tipo lineal se mide mediante un coeficiente universalmente aceptado, llamado coeficiente de correlacin lineal de Pearson, cuyo valor puede calcularse mediante la expresin: Los elementos que aparecen en la expresin anterior pueden calcularse mediante las frmulas siguientes: = xy x y xy = xiyjf ij N xy y= yif i N y 2 x = xif i N x 2 9. 5.2 Coeficiente de Pearson El coeficiente de correlacin lineal de Pearson, r, siempre toma valores comprendidos entre 1 y 1. El coeficiente de correlacin lineal de Pearson permite analizar el grado de aproximacin de la nube de puntos a una lnea recta. Tenemos que: Si 1 < r < 0, existe correlacin lineal negativa, y ser ms fuerte cuanto ms se aproxime r a 1. Si 0 < r < 1, existe correlacin lineal positiva, y ser ms fuerte cuanto ms se aproxime r a 1. Si r = 1 r = 1, la correlacin es una dependencia lineal. Si r = 0, no existe correlacin lineal o las variables no estn correlacionadas linealmente. Esto no excluye que las variables estadsticas puedan estar relacionadas por una correlacin curvilnea. 10. 6. Regresin. Rectas de regresin En numerosas situaciones el diagrama de dispersin sugiere la lnea curva o recta que mejor se aproxima a los valores de dicha variable. Esta curva recibe el nombre de lnea de regresin. Si las lineas son rectas, resulta interesante el clculo de la ecuacin de dichas rectas, llamadas rectas de regresin. Las ecuaciones de las rectas de regresin Recta de Y sobre X: Recta de X sobre Y: y= y+ xy x 2 (xx) x=x+ xy y 2 ( y y) 11. 6.1. Regresin. Rectas de regresin En la bsqueda de las ecuaciones de las rectas de regresin debe tenerse en cuenta que: Ambas rectas pasan por el punto , llamado centro de gravedad de la distribucin. Los valores de las pendientes de las rectas son: Se cumple Los parmetros m y m' reciben el nombre de coeficientes de regresin. No deben confundirse con el coeficiente de correlacin, ya que lo nico que poseen en comn es el signo. m= xy x 2 y m'= xy y 2 mm'= 2 (x , y) 12. 6.2. Estimacin de las rectas de regresin Las rectas de regresin nos permiten, conocidos los valores de una de las variables, hacer previsiones o estimar de manera aproximada los valores esperados de la otra variable. Debe tenerse en cuenta que: Las estimaciones realizadas a travs de las rectas de regresin sern fiables siempre que el valor del coeficiente de correlacin lineal, , tome valores prximos a 1 1. En los casos en los que dicho coeficiente est prximo a cero, las estimaciones carecern de sentido. Adems, las estimaciones tienen sentido para los valores de las variables prximos a los datos.