Regresion y Correlacion Tipos de Regresion y Correlacion

download Regresion y Correlacion Tipos de Regresion y Correlacion

of 35

Transcript of Regresion y Correlacion Tipos de Regresion y Correlacion

  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    1/35

    PDF generado usando el kit de herramientas de fuente abierta mwlib. Ver http://code.pediapress.com/ para mayor informacin.

    PDF generated at: Wed, 06 Nov 2013 16:01:35 UTC

    REGRESIN YCORRELACINTipos de Regresin y Correlacin

  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    2/35

    Contenidos

    Artculos

    Anlisis de la regresin 1

    Regresin no lineal 2

    Regresin segmentada 7

    Contraste de hiptesis 10

    Correlacin 16

    Coeficiente de correlacin de Spearman 18

    Anlisis de la correlacin cannica 21

    Iconografa de las correlaciones 21

    Referencias

    Fuentes y contribuyentes del artculo 31

    Fuentes de imagen, Licencias y contribuyentes 32

    Licencias de artculos

    Licencia 33

  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    3/35

    Anlisis de la regresin 1

    Anlisis de la regresin

    La regresin estadstica o regresin a la media es la tendencia de una medicin extrema a presentarse ms cercana

    a la media en una segunda medicin. La regresin se utiliza para predecir una medida basndonos en el

    conocimiento de otra.

    Origen del concepto

    El trmino regresin fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmada por

    su amigo Karl Pearson. Su trabajo se centr en la descripcin de los rasgos fsicos de los descendientes (variable A)

    a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de ms de mil registros de

    grupos familiares, se lleg a la conclusin de que los padres muy altos tenan una tendencia a tener hijos que

    heredaban parte de esta altura, pero que revelaban tambin una tendencia a regresar a la media. Galton generaliz

    esta tendencia bajo la "ley de la regresin universal": Cada peculiaridad en un hombre es compartida por sus

    descendientes, pero en media, en un grado menor.

    Modelos de regresin

    Regresin lineal

    Regresin lineal simple

    Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una funcin simple (lineal) de

    X que nos permita aproximar Y mediante: = a + bX

    a (ordenada en el origen, constante)

    b (pendiente de la recta)

    A la cantidad e=Y- se le denomina residuo o error residual.As, en el ejemplo de Pearson: = 85 cm + 0,5X

    Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del

    padre.

    Regresin lineal mltiple

    Regresin no lineal

    Regresin segmentada

    Enlaces externos Francis Galton. "Regression Towards Mediocrity in Hereditary Stature,"Journal of the Anthropological Institute,

    15:246-263 (1886). [1]

    A non-mathematical explanation of regression toward the mean. [2]

    A simulation of regression toward the mean. [3]

    Amanda Wachsmuth, Leland Wilkinson, Gerard E. Dallal. Galton's Bend: An Undiscovered Nonlinearity in

    Galton's Family Stature Regression Data and a Likely Explanation Based on Pearson and Lee's Stature Data [4]

    http://www.spss.com/research/wilkinson/Publications/galton.pdfhttp://onlinestatbook.com/stat_sim/reg_to_mean/index.htmlhttp://davidmlane.com/hyperstat/B153351.htmlhttp://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdfhttp://es.wikipedia.org/w/index.php?title=Error_residualhttp://es.wikipedia.org/w/index.php?title=Karl_Pearsonhttp://es.wikipedia.org/w/index.php?title=Francis_Galton
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    4/35

    Anlisis de la regresin 2

    Referencias

    [1] http://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf

    [2] http://davidmlane.com/hyperstat/B153351. html

    [3] http://onlinestatbook.com/stat_sim/reg_to_mean/index.html

    [4] http://www.spss.com/research/wilkinson/Publications/galton.pdf

    Regresin no lineal

    Ejemplo de regresin no lineal

    En estadstica, la regresin no lineal es un problema de inferencia

    para un modelo tipo:

    basado en datos multidimensionales , , donde es alguna

    funcin no lineal respecto a algunos parmetros desconocidos . Como

    mnimo, se pretende obtener los valores de los parmetros asociados

    con la mejor curva de ajuste (habitualmente, con el mtodo de losmnimos cuadrados). Con el fin de determinar si el modelo es

    adecuado, puede ser necesario utilizar conceptos de inferencia

    estadstica tales como intervalos de confianza para los parmetros as

    como pruebas de bondad de ajuste.

    El objetivo de la regresin no lineal se puede clarificar al considerar el

    caso de la regresin polinomial, la cual es mejor no tratar como un

    caso de regresin no lineal. Cuando la funcin toma la forma:

    la funcin es no lineal en funcin de pero lineal en funcin de los parmetros desconocidos , , y . Estees el sentido del trmino "lineal" en el contexto de la regresin estadstica. Los procedimientos computacionales para

    la regresin polinomial son procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras

    y . Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para ajustar polinomios. Las

    consecuencias prcticas de esta mala interpretacin conducen a que un procedimiento de optimizacin no lineal sea

    usado cuando en realidad hay una solucin disponible en trminos de regresin lineal. Paquetes (software)

    estadsticos consideran, por lo general, ms alternativas de regresin lineal que de regresin no lineal en sus

    procedimientos.

    General

    Linealizacin

    Algunos problemas de regresin no lineal pueden linealizarse mediante una transformacin en la formulacin del

    modelo. Por ejemplo, consideremos el problema de regresin no lineal (ignorando el trmino de error):

    Aplicando logaritmos a ambos lados de la ecuacin, se obtiene:

    lo cual sugiere una estimacin de los parmetros desconocidos a travs de un modelo de regresin lineal de ln(y) con

    respecto ax, un calculo que no requiere procedimientos de optimizacin iterativa. De todas formas, la linealizacin

    debe usarse con cuidado ya que la influencia de los datos en el modelo cambia, as como la estructura del error del

    modelo y la interpretacin e inferencia de los resultados. Estos pueden ser resultados no muy convenientes.

    http://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_polinomialhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Ajuste_de_curvashttp://es.wikipedia.org/w/index.php?title=No_linealidadhttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ANon_linear_regression_10_x2.pnghttp://www.spss.com/research/wilkinson/Publications/galton.pdfhttp://onlinestatbook.com/stat_sim/reg_to_mean/index.htmlhttp://davidmlane.com/hyperstat/B153351.htmlhttp://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    5/35

    Regresin no lineal 3

    Hay que distinguir entre la "linealizacin" usada en los prrafos anteriores y la "linealizacin local" que se adopta

    para algoritmos clsicos como el de Gauss-Newton. De igual forma, la metodologa de modelos lineales

    generalizados no use linealizacin para la estimacin de parmetros.

    Mnimos cuadrados ordinarios y ponderados

    La mejor curva de ajuste se considera como aquella que minimiza la suma de las desviaciones (residuales) alcuadrado (SRC). Este es la aproximacin por el mtodo de mnimos cuadrados (MMC). Sin embargo, en aquellos

    casos donde se tienen diferentes varianzas de error para diferentes errores, es necesario minimizar la suma de los

    residuales al cuadrado ponderados (SRCP) (mtodo de mnimos cuadrados ponderados). En la prctica, la varianza

    puede depender del valor promedio ajustado. As que los pesos son recalculados para cada iteracin en un algoritmo

    de mnimos cuadrados ponderados iterativo.

    En general, no hay una expresin de forma cerrada para los parmetros de mejor ajuste, como sucede en el caso de la

    regresin lineal. Mtodos numricos de optimizacin son aplicados con el fin de determinar los parmetros de mejor

    ajuste. Otra vez, en contraste con la regresin lineal, podra haber varios mximos locales de la funcin a ser

    optimizada. En la prctica, se suponen algunos valores iniciales los cuales junto con el algoritmo de optimizacin

    conducen a encontrar el mximo global.

    Estimacin de los parmetros usando Mtodos de Montecarlo

    Si el error de cada observacin es conocido, entonces la precisin y confiabilidad de los parmetros puede ser

    estimada mediante simulacin de Montecarlo. Cada observacin es aleatorizada de acuerdo a su media y su

    desviacin estndar. Con el nuevo conjunto de datos, una nueva curva es ajustada y las estimaciones de los

    parmetros registradas. Las observaciones son entonces aleatorizadas y nuevos valores de los parmetros son

    obtenidos. Al final, varios conjuntos de parmetros son generados y su media y desviacin estndar pueden ser

    calculados.[1][2]

    Software

    Diversos lenguajes de programacin y software estadstico y matemtico contienen funciones de optimizacin. Entre

    ellos, Gauss, GNU Octave, Matlab, Mathematica, R, Splus; C++ y Fortran maple.

    Mtodos Numricos para Regresiones No Lineales

    Regresin Exponencial

    En determinados experimentos, en su mayora biolgicos, la dependencia entre las variables X e Y es de forma

    exponencial, en cuyo caso interesa ajustar a la nube de puntos una funcin del tipo:

    Mediante una transformacin lineal, tomando logaritmos neperianos, se convierte el problema en una cuestin de

    regresin lineal. Es decir, tomando logaritmos neperianos:

    Ejemplo

    http://es.wikipedia.org/w/index.php?title=Fortranhttp://es.wikipedia.org/w/index.php?title=C%2B%2Bhttp://es.wikipedia.org/w/index.php?title=Splushttp://es.wikipedia.org/w/index.php?title=R-projecthttp://es.wikipedia.org/w/index.php?title=Mathematicahttp://es.wikipedia.org/w/index.php?title=Matlabhttp://es.wikipedia.org/w/index.php?title=GNU_Octavehttp://es.wikipedia.org/w/index.php?title=Gausshttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Softwarehttp://es.wikipedia.org/w/index.php?title=Lenguajes_de_programaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=M%C3%A9todo_de_Montecarlohttp://es.wikipedia.org/w/index.php?title=Valores_inicialeshttp://es.wikipedia.org/w/index.php?title=M%C3%A1ximo_localhttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadrados_ponderadoshttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Modelos_lineales_generalizadoshttp://es.wikipedia.org/w/index.php?title=Modelos_lineales_generalizadoshttp://es.wikipedia.org/w/index.php?title=Algoritmo_de_Gauss-Newton
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    6/35

    Regresin no lineal 4

    x y ln(y)x

    2 x ln(y)(ln y)

    2

    1 3 1,0986 1 1,0986 1,2069

    1,2 3,4 1,2237 1,44 1,4684 1,4974

    1,5 5 1,6094 2,25 2,4141 2,5901

    2 2 0,6931 4 1,3862 0,4803

    3 4,1 1,4109 9 4,2327 1,9906

    3,7 5 1,6094 13,69 5,9547 2,5901

    4 7 1,9459 16 7,7836 3,7865

    4,5 6,5 1,8718 20,25 8,4231 3,5056

    20,9 36 11,4628 67,63 32,7614 17,6455

    Numero de datos = n = 8

    x promedio = = = 2,6125

    y promedio = = = 1,43285

    Usando la forma lineal de la Regresin Exponencial:

    b = =

    La ecuacion final que modela el sistema es

    Regresin Logartmica

    La curva logartmica es tambin una recta, pero en lugar de estar referida a las variables originales

    e , est referida a y a

    Ejemplo

    x y ln xln

    2x

    ln x * yy

    2

    1 3 0 0 0 9

    1.2 3.4 0.1823 0.0332 0.6198 11.56

    1.5 5 0.4054 0.1643 2.027 25

    2 2 0.6931 0.4803 1.3862 4

    3 4.1 1.0986 1.2069 4.5042 16.81

    3.7 5 1.3083 1.7116 6.5415 25

    4 7 1.3862 1.9215 9.7034 49

    4.5 6.5 1.5040 2.2620 9.776 42.25

    20.9 36 6.5779 7.7798 34.5581 182.62

    a = = = 2.090513

  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    7/35

    Regresin no lineal 5

    b = = 4.5 - (2.090513)(0.960) = 2.4931

    La ecuacion final que modela el sistema es

    Regresin Polinomial

    Algunas veces cuando la relacin entre las variables dependientes e independientes es no lineal, es til incluirtrminos polinomiales para ayudar a explicar la variacin de nuestra variable dependiente.

    Las regresiones polinomiales se pueden ajustar la variable independiente con varios trminos

    Que, derivando respecto a cada uno de los coeficientes nos da el planteamiento un sistema de ecuaciones de la

    siguiente forma:

    Ejemplo

    x y xyx

    2y

    2x

    2y x

    3x

    4

    1 3 3 1 9 3 1 1

    1.2 3.4 4.08 1.44 11.56 4.896 1.728 2.0736

    1.5 5 7.5 2.25 25 11.25 3.375 5.0625

    2 2 4 4 4 8 8 16

    3 4.1 12.3 9 16.81 36.9 27 81

    3.7 5 18.5 13.69 25 68.45 50.653 187.4161

    4 7 28 16 49 112 64 256

    4.5 6.5 29.25 20.25 42.25 131.625 91.125 410.0625

    20.9 36 106.63 67.63 182.62 376.121 246.881 958.6147

    Usando una Matriz para calcular valores de los coeficientes

    Usando el mtodo de Eliminacin de Gauss-Jordan

    http://es.wikipedia.org/w/index.php?title=Eliminaci%C3%B3n_de_Gauss-Jordan
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    8/35

    Regresin no lineal 6

    La ecuacin final que modela el sistema es

    Referencias

    [1] Motulsky, HJ & Ransnas, LA (1987)Fitting curves to data using nonlinear regression. FASEB J 1:365-374

    [2] McIntosh, JEA & McIntosh, RP (1980)Mathematical modelling and computers in endocrinology. p71 Springer-Verlag, Berlin, Germany.

    Bibliografa

    G.A.F Seber and C.J. Wild.Nonlinear Regression. New York: John Wiley and Sons, 1989.

    R.M. Bethea, B.S. Duran and T.L. Boullion. Statistical Methods for Engineers and Scientists. New York: Marcel

    Dekker, Inc 1985 ISBN 0-8247-7227-X

    Enlaces externos

    levmar (http://www.ics.forth.gr/~lourakis/levmar/), implementacin Levenberg-Marquardt algoritmo enC/C++, con las interfaces de MATLAB, Perl y Python. Licencia: GPL

    Arquimedex: Software para Regresin No Lineal (http://soft. arquimedex.com/regresion_lineal.php),

    Regresin Lineal y No Lineal Online

    ISAT (http://www.che.utexas.edu/~john/research/isat. htm), Nonlinear regression with explicit error control

    Zunzun.com (http://zunzun.com), Online curve and surface fitting

    NLREG (http://www.nlreg.com), a proprietary program

    Matlab statistic (http://www.mathtools.net/MATLAB/Statistics/)

    SysLinea 0.1.2 Regresin lineal y non lineal con cdigo fuente en pascal (Open Source GNU/GPL) (https://sites.

    google.com/site/mgbfreeware/)

    https://sites.google.com/site/mgbfreeware/https://sites.google.com/site/mgbfreeware/http://www.mathtools.net/MATLAB/Statistics/http://www.nlreg.com/http://zunzun.com/http://www.che.utexas.edu/~john/research/isat.htmhttp://soft.arquimedex.com/regresion_lineal.phphttp://es.wikipedia.org/w/index.php?title=GNU_General_Public_Licensehttp://es.wikipedia.org/w/index.php?title=Pythonhttp://es.wikipedia.org/w/index.php?title=Perlhttp://es.wikipedia.org/w/index.php?title=MATLABhttp://es.wikipedia.org/w/index.php?title=C%2B%2Bhttp://es.wikipedia.org/w/index.php?title=C_%28lenguaje_de_programaci%C3%B3n%29http://www.ics.forth.gr/~lourakis/levmar/
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    9/35

    Regresin segmentada 7

    Regresin segmentada

    Regresin segmentada o regresin por pedazos es un mtodo en el anlisis de regresin en que el variable

    independiente es particionada en intervalos ajustando en cada intervalo una linea o curva a los datos. La regresin

    segmentada se puede aplicar tambin a la regresin con mltiples variables independientes particionando todas estas.

    La regresin segmentada es util cuando el variable dependiente muestra una reaccin abruptamente diferente a la

    variable independiente en los varios segmentos. En este caso el lmite entre los segmentos se llama punto de quiebra.

    Regresin segmentada lineal es la regresin segmentada en que la relacin entre el variable dependiente e

    independiente dentro de los segmentos se obtiene por regresin lineal.

    Regresin segmentada lineal, 2 segmentos

    1er miembro horizontal

    1er miembro inclinado hacia arriba

    Regresin segmentada lineal en dos segmentos separados por un

    punto de quiebra puede ser til para cuantificar un cambio abrupto

    en la funcin de reaccin de un factor de inters a la variacin de

    otro factor influencial. El punto de quiebra se interpreta como un

    valor seguro, crtico o umbral cuando efectos (no) deseados

    suceden a uno de los dos lados.

    El punto de quiebra puede ser un factor importante para la toma de

    decisiones de manejo.[1]

    El anlisis de la regresin segmentada se basa en la presencia de

    un juego de datos ( y , x ) , donde y es el variable dependiente y x

    el variable independiente, es decir que el valor de x influye el

    valor de y.

    El mtodo de los mnimos cuadrados aplicado separadamente acada segmento, por lo cual las dos lineas de regresin se ajustan a

    los datos tan cerca como posible minimizando la suma de los

    cuadrados de las diferencias (SCD) entre el valor observado (y) y

    valor calculado por regresin (Yr) de la variable dependiente,

    resulta en las ecuaciones siguientes:

    Yr =A1

    . x +K1 para x< PQ (punto de quiebra)

    Yr =A2

    . x +K2 para x> PQ (punto de quiebra)

    donde:

    Yr es el valor esperado (pronosticado) de y para un ciertovalor de x

    A1

    yA2

    son los coeficientes de regresin indicando la inclinacin de las lneas en los segmentos respectivos

    K1

    andK2

    son los constantes de regresin en los segmentos respectivos indicando los valores de Yr cuando x =

    0

    Los datos pueden mostrar diferentes tipos de tendencia,[2] vase las figuras.

    El metodo tambin rinde dos coeficientes de correlacin:

    (R1)2 = 1 suma { (y Yr)2 } / suma { (y Ya1)2} para x< PQ (punto de quiebra)

    http://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Variable_independientehttp://es.wikipedia.org/w/index.php?title=Variable_dependientehttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg1.gifhttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg3.gifhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=Variable_dependientehttp://es.wikipedia.org/w/index.php?title=Variable_independientehttp://es.wikipedia.org/w/index.php?title=Variable_independiente
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    10/35

    Regresin segmentada 8

    1er miembro inclinado hacia abajo

    (R2)2 = 1 suma { (y Yr)2 } / suma { (y Ya2)2} para x>

    PQ (punto de quiebra)

    donde

    suma { (y Yr)2 } es la suma de cuadrados de las diferencias (SCD) minimizado por segmento

    Ya1 e Ya2 son los valores promedios de y en los segmentos respectivos

    Cuando no se detecta un punto de quiebra, hay que volver a una regresin sin punto de quiebra.

    Ejemplo

    Para la figura azul arriba, que da la relacin entre la cosecha de mostaza (colza) en t/ha y la salinidad del suelo (x =

    Ss) expresada en conductividad elctrica (EC en dS/m) de la solucin del suelo,[3] se desprende que:

    PQ = 4.93 ,A1

    = 0 ,K1

    = 1.74 ,A2

    =0.129 ,K2

    = 2.38 , (R1)2 = 0.0035 (no significante) , (R

    2)2 = 0.395

    (significante) y:

    Yr= 1.74 t/ha para Ss< 4.93 (punto de quiebra)

    Yr =0.129 Ss+ 2.38 t/ha para Ss> 4.93 (punto de quiebra)

    indicando que una salinidad del suelo < 4.93 dS/m es segura y una salinidad del suelo > 4.93 reduce la cosecha @

    0.129 tonelada/ha por unidad de aumento de salinidad de suelo.

    La figura tambin muestra intervalos de confianza e inseguridad.

    Procedimiento de pruebas

    Ejemplo de una serie temporal de descargas de un ro, tipo 5

    Las siguientes pruebas estadsticas se emplean para

    determinar el tipo de tendencia:

    1. Significatividad estadstica del punto de quiebra

    (PQ) expresando PQ como una funcin de los

    coeficientes de regresinA1

    yA2, los promedios Y

    1e

    Y2

    de los datos y, y los promediosX1

    yX2

    de los

    datos x (al lado izquierdo y derecho de PQ

    respectivamente), utilizando la leyes de propagacin

    de errores en adiciones y multiplicaciones para la

    computacin del error estndar (ES) de PQ, seguido

    por la prueba t de Student

    2. Significatividad estadstica deA1

    yA2

    aplicando la

    prueba t de Student y el error estndar ES de A1

    yA2

    3. Significatividad estadstica de la diferencia deA1

    yA2

    aplicando la prueba t de Student y el error estndar ES de

    la diferencia

    http://es.wikipedia.org/w/index.php?title=Prueba_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Desviaci%C3%B3n_est%C3%A1ndarhttp://es.wikipedia.org/w/index.php?title=Propagaci%C3%B3n_de_erroreshttp://es.wikipedia.org/w/index.php?title=Propagaci%C3%B3n_de_erroreshttp://es.wikipedia.org/w/index.php?title=Significatividad_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ACHAO.gifhttp://es.wikipedia.org/w/index.php?title=Serie_temporalhttp://es.wikipedia.org/w/index.php?title=Intervalo_de_confianzahttp://es.wikipedia.org/w/index.php?title=Siemens_%28unidad%29http://es.wikipedia.org/w/index.php?title=Brassica_napushttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg2.gif
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    11/35

    Regresin segmentada 9

    4. Significatividad estadstica de de la diferencia de Y1

    e Y2

    aplicando la prueba t de Student y el error estndar ES

    de la diferencia

    Adicionalmente se emplea de coeficiente de correlacin de todos los datos (Ra), el coeficiente de determinacin (o

    coeficiente de explicacin), intervalos de confianza de las funciones (lneas) de regresin, y un anlisis de la varianza

    (ANOVA).[4]

    El coeficiente de determinacin de todos los datos (Cd), lo cual se debe maximizar bajo las condicionesespecificados arriba enpruebas estadsticas, se defina como:

    Cd = 1 suma { (y Yr)2 } / suma { (y Ya)2 }

    donde Yr es el valor esperado (pronosticado) de y de acuerdo a las ecuaciones de regresin previas, y Ya es el

    promedio de todo los valores y. El coeficiente Cd puede variar entre 0 (ninguna explicacin de la regresin

    segmentada) y 1 (perfecta explicacin).

    En una regresin lineal pura, sin segmentacin, los valores de Cd yRa2 son iguales. En la regresin segmentada, Cd

    debe ser significativamente mayor queRa2 para justificar la segmentacin.

    La optimizacin del punto de quiebra PQ se alcanza probando una serie de puntos tentativos y seleccionando el

    punto que tiene el coeficiente Cd mximo.

    Referencias

    [1] Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994),Drainage Principles and Applications, Publ. 16, pp. 175-224,

    International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 . Bajar de : (http://

    www.waterlog.info/articles.htm) , bajo no. 13, o directamente como PDF : (http://www.waterlog.info/pdf/regtxt.pdf)

    [2] Drainage research in farmers' fields: analysis of data. Part of project Liquid Gold of the International Institute for Land Reclamation and

    Improvement (ILRI), Wageningen, The Netherlands. Bajar como PDF : (http://www.waterlog.info/pdf/analysis.pdf)

    [3] R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by

    segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions,

    February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383

    [4] Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Bajar de: (http://www.

    waterlog.info/faqs.htm) , bajo. no. 13, o directamente como PDF : (http://www.waterlog.info/pdf/anova.pdf)

    Enlaces externos

    SegReg (http://www.waterlog.info/segreg.htm), programa libre para regresin segmentada lineal con 2

    variables independientes.

    http://es.wikipedia.org/w/index.php?title=Software_librehttp://es.wikipedia.org/w/index.php?title=Programa_de_computadorahttp://www.waterlog.info/segreg.htmhttp://www.waterlog.info/pdf/anova.pdfhttp://www.waterlog.info/faqs.htmhttp://www.waterlog.info/faqs.htmhttp://www.waterlog.info/pdf/analysis.pdfhttp://www.waterlog.info/pdf/regtxt.pdfhttp://www.waterlog.info/articles.htmhttp://www.waterlog.info/articles.htmhttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3n_%28matem%C3%A1tica%29http://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_la_varianzahttp://es.wikipedia.org/w/index.php?title=Intervalo_de_confianzahttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    12/35

    Contraste de hiptesis 10

    Contraste de hiptesis

    Dentro de la inferencia estadstica, un contraste de hiptesis (tambin denominado test de hiptesis o prueba de

    significacin) es un procedimiento para juzgar si una propiedad que se supone en una poblacin estadstica es

    compatible con lo observado en una muestra de dicha poblacin. Fue iniciada por Ronald Fisher y fundamentada

    posteriormente por Jerzy Neyman y Karl Pearson.

    Mediante esta teora, se aborda el problema estadstico considerando una hiptesis determinada y una hiptesis

    alternativa , y se intenta dirimir cul de las dos es la hiptesis verdadera, tras aplicar el problema estadstico a un

    cierto nmero de experimentos.

    Est fuertemente asociada a los considerados errores de tipo I y II en estadstica, que definen respectivamente, la

    posibilidad de tomar un suceso falso como verdadero, o uno verdadero como falso.

    Existen diversos mtodos para desarrollar dicho test, minimizando los errores de tipo I y II, y hallando por tanto con

    una determinada potencia, la hiptesis con mayor probabilidad de ser correcta. Los tipos ms importantes son los test

    centrados, de hiptesis y alternativa simple, aleatorizados, etc. Dentro de los tests no paramtricos, el ms extendido

    es probablemente el test de la U de Mann-Whitney.

    Introduccin

    Si sospechamos que una moneda ha sido trucada para que se produzcan ms caras que cruces al lanzarla al aire,

    podramos realizar 30 lanzamientos, tomando nota del nmero de caras obtenidas. Si obtenemos un valor demasiado

    alto, por ejemplo 25 o ms, consideraramos que el resultado es poco compatible con la hiptesis de que la moneda

    no est trucada, y concluiramos que las observaciones contradicen dicha hiptesis.

    La aplicacin de clculos probabilsticos permite determinar a partir de qu valor debemos rechazar la hiptesis

    garantizando que la probabilidad de cometer un error es un valor conocido a priori. Las hiptesis pueden clasificarse

    en dos grupos, segn:1.1. Especifiquen un valor concreto o un intervalo para los parmetros del modelo.

    2. Determinen el tipo de distribucin de probabilidad que ha generado los datos.

    Un ejemplo del primer grupo es la hiptesis de que la media de una variable es 10, y del segundo que la distribucin

    de probabilidad es la distribucin normal.

    Aunque la metodologa para realizar el contraste de hiptesis es anloga en ambos casos, distinguir ambos tipos de

    hiptesis es importante puesto que muchos problemas de contraste de hiptesis respecto a un parmetro son, en

    realidad, problemas de estimacin, que tienen una respuesta complementaria dando un intervalo de confianza (o

    conjunto de intervalos de confianza) para dicho parmetro. Sin embargo, las hiptesis respecto a la forma de la

    distribucin se suelen utilizar para validar un modelo estadstico para un fenmeno aleatorio que se est estudiando.

    Planteamiento clsico del contraste de hiptesis

    Se denomina hiptesis nula a la hiptesis que se desea contrastar. El nombre de "nula" significa sin valor,

    efecto o consecuencia, lo cual sugiere que debe identificarse con la hiptesis de no cambio (a partir de la

    opinin actual); no diferencia, no mejora, etc. representa la hiptesis que mantendremos a no ser que los datos

    indiquen su falsedad, y puede entenderse, por tanto, en el sentido de neutra. La hiptesis nunca se considera

    probada, aunque puede ser rechazada por los datos. Por ejemplo, la hiptesis de que dos poblaciones tienen la misma

    media puede ser rechazada fcilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes

    de ambas poblaciones, pero no puede ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad

    de que las medias difieran en una cantidad lo suficientemente pequea para que no pueda ser detectada, aunque la

    muestra sea muy grande.

    http://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_normalhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Prueba_U_de_Mann-Whitneyhttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Potencia_de_una_pruebahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Errores_de_tipo_I_y_IIhttp://es.wikipedia.org/w/index.php?title=Experimentohttp://es.wikipedia.org/w/index.php?title=Karl_Pearsonhttp://es.wikipedia.org/w/index.php?title=Jerzy_Neymanhttp://es.wikipedia.org/w/index.php?title=Ronald_Fisherhttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Poblaci%C3%B3n_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADstica
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    13/35

    Contraste de hiptesis 11

    A partir de una muestra de la poblacin en estudio, se extrae un estadstico (esto es, una valor que es funcin de la

    muestra) cuya distribucin de probabilidad est relacionada con la hiptesis en estudio y sea conocida. Se toma

    entonces como regin de rechazo al conjunto de valores que es ms improbable bajo la hiptesis, esto es, el conjunto

    de valores para el que rechazaremos la hiptesis nula si el valor del estadstico observado entra dentro de l.

    La probabilidad de que se obtenga un valor del estadstico que entre en la regin de rechazo an siendo cierta la

    hiptesis puede calcularse. De esta manera, se puede escoger dicha regin de tal forma que la probabilidad decometer este error sea suficientemente pequea.

    Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la poblacin es el conjunto de los treinta

    lanzamientos a realizar, el estadstico escogido es el nmero total de caras obtenidas, y la regin de rechazo est

    constituida por los nmeros totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir

    que la moneda est trucada a pesar de que no lo est es igual a la probabilidad binomial de tener 25 "xitos" o ms en

    una serie de 30 ensayos de Bernoulli con probabilidad de "xito" 0,5 en cada uno, entonces: 0,0002, pues existe la

    posibilidad, aunque poco probable, que la muestra nos d ms de 25 caras sin haber sido la moneda trucada.

    Procedimientos de prueba

    Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si se rechaza .

    Ejemplo

    Una prueba de : p = .10 contra : p < .10, podra estar basada en el examen de una muestra aleatoria de

    n = 200 objetos. Representamos con X el nmero de objetos defectuosos de la muestra, una variable aleatoria

    binomial; x representa el valor observado de X. si es verdadera, E(X) = np = 200(.10) = 20, mientras,

    podemos esperar menos de 20 objetos defectuosos si es verdadera. Un valor de x ligeramente debajo de

    20 no contradice de manera contundente a as que es razonable rechazar solo si x es

    considerablemente menor que 20. Un procedimiento de prueba es rechazar si x15 y no rechazar de

    otra forma. En este caso, la regin de rechazo est formada por x = 0, 1, 2, , y 15. no ser rechazada si

    x= 16, 17,, 199 o 200.Un procedimiento de prueba se especifica por lo siguiente:

    1. Un estadstico de prueba: una funcin de los datos muestrales en los cuales se basa la decisin de rechazar

    o no rechazar .2. Una regin de rechazo, el conjunto de todos los valores del estadstico de prueba para los cuales ser

    rechazada.

    Entonces, la hiptesis nula ser rechazada si y solo si el valor observado o calculado del estadstico de prueba se

    ubica en la regin de rechazo

    En el mejor de los casos podran desarrollarse procedimientos de prueba para los cuales ningn tipo de error es

    posible. Pero esto puede alcanzarse solo si una decisin se basa en un examen de toda la poblacin, lo que casi nuncaes prctico. La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad en el

    muestreo puede resultar una muestra no representativa.

    Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de error es pequea. La

    eleccin de un valor particular de corte de la regin de rechazo fija las probabilidades de errores tipo I y II. Estas

    probabilidades de error son representadas por y , respectivamente.

    http://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=Ensayo_de_Bernoullihttp://es.wikipedia.org/w/index.php?title=Probabilidad_binomialhttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticohttp://es.wikipedia.org/w/index.php?title=Conjuntohttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_matem%C3%A1ticahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADstico
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    14/35

    Contraste de hiptesis 12

    Enfoque actual de los contrastes de hiptesis

    El enfoque actual considera siempre una hiptesis alternativa a la hiptesis nula. De manera explcita o implcita, la

    hiptesis nula, a la que se denota habitualmente por , se enfrenta a otra hiptesis que denominaremos hiptesis

    alternativa y que se denota . En los casos en los que no se especifica de manera explcita, podemos

    considerar que ha quedado definida implcitamente como es falsa.

    Si por ejemplo deseamos comprobar la hiptesis de que dos distribuciones tienen la misma media, estamosimplcitamente considerando como hiptesis alternativa ambas poblaciones tienen distinta media. Podemos, sin

    embargo considerar casos en los que no es la simple negacin de . Supongamos por ejemplo que

    sospechamos que en un juego de azar con un dado, este est trucado para obtener 6. Nuestra hiptesis nula podra ser

    el dado no est trucado que intentaremos contrastar, a partir de una muestra de lanzamientos realizados, contra la

    hiptesis alternativa el dado ha sido trucado a favor del 6. Cabra realizar otras hiptesis, pero, a los efectos del

    estudio que se pretende realizar, no se consideran relevantes.

    Un test de hiptesis se entiende, en el enfoque moderno, como una funcin de la muestra, corrientemente basada en

    un estadstico. Supongamos que se tiene una muestra de una poblacin en estudio y que

    se han formulado hiptesis sobre un parmetro relacionado con la distribucin estadstica de la poblacin.Supongamos que se dispone de un estadstico cuya distribucin con respecto a , se conoce.

    Supongamos, tambin, que las hiptesis nula y alternativa tienen la formulacin siguiente:

    Un contraste, prueba o test para dichas hiptesis sera una funcin de la muestra de la siguiente forma:

    Donde significa que debemos rechazar la hiptesis nula, (aceptar ) y , que

    debemos aceptar (o que no hay evidencia estadstica contra ). A se la denomina regin de rechazo. Enesencia, para construir el test deseado, basta con escoger el estadstico del contraste y la regin de rechazo

    .Se escoge de tal manera que la probabilidad de que T(X) caiga en su interior sea baja cuando se da .

    Errores en el contraste

    Una vez realizado el contraste de hiptesis, se habr optado por una de las dos hiptesis, o , y la decisin

    escogida coincidir o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el

    siguiente cuadro:

    es cierta es cierta

    Se escogi No hay error Error de tipo II

    Se escogi Error de tipo I No hay error

    Si la probabilidad de cometer un error de tipo I est unvocamente determinada, su valor se suele denotar por la letra

    griega , y en las mismas condiciones, se denota por la probabilidad de cometer el error de tipo II, esto es:

    En este caso, se denomina Potencia del contraste al valor 1-, esto es, a la probabilidad de escoger cuando sta

    es cierta

    .

    http://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticohttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADstico
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    15/35

    Contraste de hiptesis 13

    Cuando es necesario disear un contraste de hiptesis, sera deseable hacerlo de tal manera que las probabilidades de

    ambos tipos de error fueran tan pequeas como fuera posible. Sin embargo, con una muestra de tamao prefijado,

    disminuir la probabilidad del error de tipo I, , conduce a incrementar la probabilidad del error de tipo II, .

    Usualmente, se disean los contrastes de tal manera que la probabilidad sea el 5% (0,05), aunque a veces se usan el

    10% (0,1) o 1% (0,01) para adoptar condiciones ms relajadas o ms estrictas. El recurso para aumentar la potencia

    del contraste, esto es, disminuir , probabilidad de error de tipo II, es aumentar el tamao muestral, lo que en laprctica conlleva un incremento de los costes del estudio que se quiere realizar.

    Contraste ms potente

    El concepto de potencia nos permite valorar cual entre dos contrastes con la misma probabilidad de error de tipo I, ,

    es preferible. Si se trata de contrastar dos hiptesis sencillas sobre un parmetro desconocido, , del tipo:

    Se trata de escoger entre todos los contrastes posibles con prefijado aquel que tiene mayor potencia, esto es, menor

    probabilidad de incurrir en el error de tipo II.

    En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de mxima potencia y determina

    cmo construirlo.

    Contraste uniformemente ms potente

    En el caso de que las hiptesis sean compuestas, esto es, que no se limiten a especificar un nico posible valor del

    parmetro, sino que sean del tipo:

    donde y son conjuntos de varios posibles valores, las probabilidades y ya no estn unvocamente

    determinadas, sino que tomarn diferentes valores segn los distintos valores posibles de . En este caso se dice que

    un contraste tiene tamao si

    esto es, si la mxima probabilidad de cometer un error de tipo I cuando la hiptesis nula es cierta es . En estas

    circunstancias, se puede considerar como una funcin de , puesto que para cada posible valor de en la hiptesis

    alternativa se tendra una probabilidad distinta de cometer un error de tipo II. Se define entonces

    y, la funcin de potencia del contraste es entonces

    esto es, la probabilidad de discriminar que la hiptesis alternativa es cierta para cada valor posible de dentro de los

    valores posibles de esta misma hiptesis.

    Se dice que un contraste es uniformemente ms potente de tamao cuando, para todo valor es

    mayor o igual que el de cualquier otro contraste del mismo tamao. En resumen, se trata de un contraste que

    garantiza la mxima potencia para todos los valores de en la hiptesis alternativa.

    Es claro que el caso del contraste uniformemente ms potente para hiptesis compuestas exige el cumplimiento de

    condiciones ms exigentes que en el caso del contraste ms potente para hiptesis simples. Por ello, no existe un

    equivalente al Lema de Neyman-Pearson para el caso general.

    Sin embargo, s existen muchas condiciones en las que, cumplindose determinadas propiedades de lasdistribuciones de probabilidad implicadas y para ciertos tipos de hiptesis, se puede extender el Lema para obtener el

    http://es.wikipedia.org/w/index.php?title=Lema_de_Neyman-Pearsonhttp://es.wikipedia.org/w/index.php?title=Lema_de_Neyman-Pearsonhttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADstica
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    16/35

    Contraste de hiptesis 14

    contraste uniformemente ms potente del tamao que se desee.

    Aplicaciones de los contrastes de hiptesis

    Los contrastes de hiptesis, como la inferencia estadstica en general, son herramientas de amplio uso en la ciencia

    en general. En particular, la moderna Filosofa de la ciencia desarrolla el concepto de falsabilidad de las teoras

    cientficas basndose en los conceptos de la inferencia estadstica en general y de los contrastes de hiptesis. En estecontexto, cuando se desea optar entre dos posibles teoras cientficas para un mismo fenmeno (dos hiptesis) se

    debe realizar un contraste estadstico a partir de los datos disponibles sobre el fenmeno que permitan optar por una

    u otra.

    Las tcnicas de contraste de hiptesis son tambin de amplia aplicacin en muchos otros casos, como ensayos

    clnicos de nuevos medicamentos, control de calidad, encuestas, etctera.

    Test estadsticos

    Nombre Frmula Notas

    Test-z para una muestra (Poblacin distribuida normal on> 30) y conocida.

    (z es la distancia desde la media en relacin con la desviacin estndar

    de la media). Para distribuciones no normales es posible calcular una

    proporcin mnima de una poblacin que cae dentro de k desviaciones

    estandar para cualquier k.

    Test-z para dos muestras Poblacin normal y observaciones independientes con 1

    y 2

    conocidas

    Una muestra t-test (Poblacin normal on> 30) y desconocida

    t-test parejado (Poblacin normal de diferencias on> 30) y desconocida o pequea

    muestra de tamao n< 30

    Dos muestras

    combinadas t-test,

    varianzas iguales

    [1]

    (Poblaciones normales on1+ n

    2> 40) y observaciones independientes

    y 1

    = 2

    desconocido

    Dos muestras no

    combinadas t-test,

    varianzas desiguales

    (Poblaciones normales on1+ n

    2> 40) y observaciones independientes

    y 1

    2ambas desconocidas

    Una proporcin z-testn

    .p

    0> 10 andn(1 p

    0) > 10 y es una muestra aleatoria simple, vase

    distribucin binomial.

    Dos proporciones z-test,

    combinadas por n

    1p

    1> 5 yn

    1(1 p

    1) > 5 yn

    2p

    2> 5 yn

    2(1 p

    2) > 5 y observaciones

    independientes, vase la aproximacin normal de la distribucin

    binomial.

    Dos proporciones z-test,

    descombinadas por

    n1p

    1> 5 yn

    1(1 p

    1) > 5 yn

    2p

    2> 5 yn

    2(1 p

    2) > 5 y observaciones

    independientes, vase la aproximacin normal de la distribucinbinomial.

    http://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=T-testhttp://es.wikipedia.org/w/index.php?title=T-testhttp://es.wikipedia.org/w/index.php?title=Encuestahttp://es.wikipedia.org/w/index.php?title=Control_de_calidadhttp://es.wikipedia.org/w/index.php?title=Ensayo_cl%C3%ADnicohttp://es.wikipedia.org/w/index.php?title=Ensayo_cl%C3%ADnicohttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Falsabilidadhttp://es.wikipedia.org/w/index.php?title=Filosof%C3%ADa_de_la_cienciahttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADstica
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    17/35

    Contraste de hiptesis 15

    Test de la chi cuadrado

    para la varianza

    Poblacin normal

    Test de la chi cuadrado

    para la bondad de ajuste

    df = k - 1 - # parmetros estimados, y uno de ellos debe tenerse.

    Test de la F de Snedecor

    para dos muestras para la

    igualdad de varianzas

    Poblaciones normales

    Cumpla que y rechace H0 para[2]

    Test de la regresin t-test

    de*Restar 1 por variable dependiente; k es el nmero de variables

    independientes.

    Reject H0

    for[3]

    En general, el subndice 0 indica un valor dado de la hiptesis nula, H0, la cual debe ser usada tanto como sea posible en la construccin del test

    estadstico. ... Definiciones de otros smbolos:

    , la probabilidad del erro tipo I (rechazando

    una hiptesis nula cuando es en realidad cierta)

    = Varianza de la muestra =x/n = proporcin muestra/proporcin, a

    menos que se especifique otra manera

    = tamao de la muestra = Desviacin estndar de la

    muestra 1

    = proporcin de la poblacin hipottica

    = tamao de la muestra 1 = Desviacin estndar de la

    muestra 2

    = proporcin 1

    = tamao de la muestra 2 = T de student = proporcin 2

    = media de la muestra = Grados de libertad = Diferencia hipottica en la proporcin

    = media de la poblacin hipottica = Diferencias de las medias

    de las muestras

    = Mnimo de n1

    y n2

    = media de la poblacin 1 = Diferencia de las medias

    poblacionales hipotticas

    = media de la poblacin 2 = Diferencias de las

    desviaciones estndares

    = desviacin de la poblacin = Estadstico chi-cuadrado = Estadstico F

    = varianza poblacional

    = Desviacin estndar de la muestra

    = Suma (de nmeros k)

    Enlaces externos

    Inferencia estadstica, apuntes del Departamento de Matemticas de la Universidad de La Corua [4]

    HESTADIS - Clculo del contraste de hiptesis para la media con varianza poblacional conocida (gratuito) [5]

    Carlos Reynoso - Atolladeros del pensamiento aleatorio: Batallas en torno de la prueba estadstica. [6]

    Referencias

    [1] NIST handbook: Two-Sample t-Test for Equal Means (http://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm)

    [2] NIST handbook: F-Test for Equality of Two Standard Deviations (http://www.itl.nist.gov/div898/handbook/eda/section3/eda359.htm)

    (Testing standard deviations the same as testing variances)

    [3] Steel, R.G.D, and Torrie, J. H.,Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill,

    1960, page 288.)

    [4] http://www.udc.es/dep/mate/estadistica2/sec1_3.html

    [5] http://www.vaxasoftware.com/soft_edu/hestadis.html

    [6] http://carlosreynoso.com. ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica

    http://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadisticahttp://www.vaxasoftware.com/soft_edu/hestadis.htmlhttp://www.udc.es/dep/mate/estadistica2/sec1_3.htmlhttp://es.wikipedia.org/w/index.php?title=McGraw_Hillhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda359.htmhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htmhttp://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadisticahttp://www.vaxasoftware.com/soft_edu/hestadis.htmlhttp://www.udc.es/dep/mate/estadistica2/sec1_3.htmlhttp://es.wikipedia.org/w/index.php?title=Mediahttp://es.wikipedia.org/w/index.php?title=T_de_studenthttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=F_de_Snedecor
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    18/35

    Correlacin 16

    Correlacin

    En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad

    entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores

    de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A

    y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entredos variables no implica, por s misma, ninguna relacin de causalidad (Vase cum hoc ergo propter hoc).

    Fuerza, sentido y forma de la correlacin

    La relacin entre dos variables cuantitativas queda representada mediante la lnea de mejor ajuste, trazada a partir de

    la nube de puntos. Los principales componentes elementales de una lnea de ajuste y, por lo tanto, de una

    correlacin, son la fuerza, el sentido y la forma:

    La fuerza extrema segn el caso, mide el grado en que la lnea representa a la nube de puntos: si la nube es

    estrecha y alargada, se representa por una lnea recta, lo que indica que la relacin esfuerte; si la nube de puntos

    tiene una tendencia elptica o circular, la relacin es dbil. El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B,

    la relacin espositiva; si al crecer los valores de A disminuyen los de B, la relacin es negativa.

    La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta, la curva monotnica o la curva no

    monotnica

    Coeficientes de correlacin

    Existen diversos coeficientes que miden el grado de correlacin, adaptados a la naturaleza de los datos. El ms

    conocido es el coeficiente de correlacin de Pearson (introducido en realidad por Francis Galton), que se obtiene

    dividiendo la covarianza de dos variables entre el producto de sus desviaciones estndar. Otros coeficientes son:

    Coeficiente de correlacin de Spearman

    Correlacin cannica

    Coeficiente de Correlacin Intraclase

    Interpretacin geomtrica

    Dados los valores muestrales de dos variables aleatorias e , que pueden ser

    consideradas como vectores en un espacio a n dimensiones, pueden construirse los "vectores centrados" como:

    e .

    El coseno del ngulo alfa entre estos vectores es dada por la frmula siguiente:

    Pues es el coeficiente de correlacin muestral de Pearson. El coeficiente de correlacin es el coseno entre

    ambos vectores centrados:

    Si r = 1, el ngulo , ambos vectores son colineales (paralelos).

    Si r = 0, el ngulo , ambos vectores son ortogonales. Si r =-1, el ngulo , ambos vectores son colineales de direccin opuesto.

    http://es.wikipedia.org/w/index.php?title=Cosenohttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_Correlaci%C3%B3n_Intraclasehttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_can%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Covarianzahttp://es.wikipedia.org/w/index.php?title=Francis_Galtonhttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n_de_Pearsonhttp://es.wikipedia.org/w/index.php?title=Curva_no_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Curva_no_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Curva_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=L%C3%ADnea_rectahttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Cum_hoc_ergo_propter_hochttp://es.wikipedia.org/w/index.php?title=Variable_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Proporcionalidadhttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_matem%C3%A1ticahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Probabilidad
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    19/35

    Correlacin 17

    Ms generalmente: .

    Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el coeficiente de correlacin tiene

    siempre un sentido, cualquiera si que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado

    de dependencia entre las variables, que sobre su distancia angular en la hiperesfera a n dimensiones.

    La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que reposa en esta idea. La

    correlacin lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.La frmula de correlacin para dos series distintas con cierto desfase "k", est dada por la frmula:

    Distribucin del coeficiente de correlacin

    El coeficiente de correlacin muestral de una muestra es de hecho una varible aleatoria, eso significa que si

    repetimos un experimento o consideramos diferentes muestras se obtendrn valores diferentes y por tanto el

    coeficiente de correlacin muestral calculado a partir de ellas tendr valores ligeramente diferentes. Para muestras

    grandes la variacin en dicho coeficiente ser menor que para muestras pequeas. R. A. Fisher fue el primero en

    determinar la distribucin de probabilidad para el coeficiente de correlacin.

    Si las dos variables aleatorias que trata de relacionarse proceden de una distribucin gaussiana bivariante entonces el

    coeficiente de correlacin r sigue una distribucin de probabilidad dada por:[1][2]

    donde:

    es la distribucin gamma

    es la funcin gaussiana hipergeomtrica.

    Ntese que , por tanto r es estimador sesgado de .

    Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuacin:

    for

    Aunque, la solucn:

    es subptima. Se puede obtener un estimador sesgado con mnima varianza para grandes valores de n, con sesgo de

    orden buscando el mximo de la expresin:

    , i.e.

    En el caso especial de que , la distribucin original puede ser reescrita como:

    http://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_hipergeom%C3%A9tricahttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_gammahttp://es.wikipedia.org/w/index.php?title=Hiperesfera
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    20/35

    Correlacin 18

    donde es la funcin beta.

    Referencias

    [1] Kenney, J. F. and Keeping, E. S.,Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.

    [2] Correlation Coefficient - Bivariate Normal Distribution (http://mathworld.wolfram.com/

    CorrelationCoefficientBivariateNormalDistribution.html)

    Enlaces externos

    Diccionario Estadstico - Divestadstica (http://www.divestadistica.es/es/diccionario_estadistico.html#C) (en

    castellano)

    (http:/ /cajael.com/mestadisticos/T1EDescriptiva/node20.php) Simulacin de la correlacin entre dos

    variables discretas con R (lenguaje de programacin)

    Coeficiente de correlacin de Spearman

    El coeficiente de correlacin de Spearman es

    menos sensible que el de Pearson para los valores

    muy lejos de lo esperado. En este ejemplo:

    Pearson = 0.30706 Spearman = 0.76270

    En estadstica, el coeficiente de correlacin de Spearman, (ro) es

    una medida de la correlacin (la asociacin o interdependencia) entre

    dos variables aleatorias continuas. Para calcular , los datos son

    ordenados y reemplazados por su respectivo orden.

    El estadstico viene dado por la expresin:

    donde D es la diferencia entre los correspondientes estadsticos de

    orden dex -y.N es el nmero de parejas.

    Se tiene que considerar la existencia de datos idnticos a la hora de

    ordenarlos, aunque si stos son pocos, se puede ignorar tal

    circunstancia

    Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de

    Student

    La interpretacin de coeficiente de Spearman es igual que la del coeficiente de correlacin de Pearson. Oscila entre

    -1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero noindependencia. La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos ordenaciones de

    una distribucin normal bivariante.

    Ejemplo

    Los datos brutos usados en este ejemplo se ven debajo.

    http://es.wikipedia.org/w/index.php?title=Tau_de_Kendallhttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n_de_Pearsonhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Variables_aleatoriashttp://es.wikipedia.org/w/index.php?title=Rhohttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ASpearman_500x325.pnghttp://es.wikipedia.org/w/index.php?title=R_%28lenguaje_de_programaci%C3%B3n%29http://cajael.com/mestadisticos/T1EDescriptiva/node20.phphttp://www.divestadistica.es/es/diccionario_estadistico.html#Chttp://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.htmlhttp://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.htmlhttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_beta
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    21/35

  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    22/35

    Coeficiente de correlacin de Spearman 20

    Determinando la significacin estadstica

    La aproximacin moderna al problema de averiguar si un valor observado de es significativamente diferente de

    cero (siempre tendremos -1 1) es calcular la probabilidad de que sea mayor o igual que el esperado, dada la

    hiptesis nula, utilizando un test de permutacin. Esta aproximacin es casi siempre superior a los mtodos

    tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informtica no sea suficiente para

    generar permutaciones (poco probable con la informtica moderna), o a no ser que sea difcil crear un algoritmo paracrear permutaciones que sean lgicas bajo la hiptesis nula en el caso particular de que se trate (aunque normalmente

    estos algoritmos no ofrecen dificultad).

    Aunque el test de permutacin es a menudo trivial para cualquiera con recursos informticos y experiencia en

    programacin, todava se usan ampliamente los mtodos tradicionales para obtener significacin. La aproximacin

    ms bsica es comparar el observado con tablas publicadas para varios niveles de significacin. Es una solucin

    simple si la significacin slo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras

    haya tablas disponibles que especifiquen los rangos adecuados. Ms abajo hay una referencia a una tabla semejante.

    Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los aos se han usado

    complicados trucos matemticos para generar tablas para tamaos de muestra cada vez mayores, de modo que no es

    prctico para la mayora extender las tablas existentes.

    Una aproximacin alternativa para tamaos de muestra suficientemente grandes es una aproximacin a la

    distribucin t de Student. Para tamaos de muestra ms grandes que unos 20 individuos, la variable

    tiene una distribucin t de Student en el caso nulo (correlacin cero). En el caso no nulo (ej: para averiguar si un

    observado es significativamente diferente a un valor terico o si dos s observados difieren significativamente, los

    tests son mucho menos potentes, pero puede utilizarse de nuevo la distribucin t.

    Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms condiciones, varios

    individuos son observados en cada una de ellas, y predecimos que las observaciones tendrn un orden en particular.

    Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que

    su habilidad mejorar de intento en intento. Un test de la significacin de la tendencia entre las condiciones en esta

    situacin fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas

    ordenadas.

    Enlaces externos

    Tabla de los valores crticos del coeficiente de correlacin de Spearman para muestras pequeas [1] (ingls)

    Calculadora en internet [2] (ingls)

    Fuente

    Wikipedia. Traduccin del ingls.

    Referencias

    [1] http://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm

    [2] http://www.wessa.net/rankcorr.wasp

    http://www.wessa.net/rankcorr.wasphttp://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htmhttp://www.wessa.net/rankcorr.wasphttp://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htmhttp://es.wikipedia.org/w/index.php?title=Page%27s_trend_testhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Conjunto_de_datoshttp://es.wikipedia.org/w/index.php?title=Remuestreo%23Test_de_Permutaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nula
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    23/35

    Anlisis de la correlacin cannica 21

    Anlisis de la correlacin cannica

    El anlisis de correlacin cannica es un mtodo de anlisis multivariante desarrollado por Harold Hotelling. Su

    objetivo es buscar las relaciones que pueda haber entre dos grupos de variables y la validez de las mismas. Se

    diferencia del anlisis de correlacin mltiple en que ste slo predice una variable dependiente a partir de mltiples

    independientes, mientras que la correlacin cannica predice mltiples variables dependientes a partir de mltiplesindependientes. La correlacin hipercannica es una correlacin lineal y, por tanto, slo busca relaciones lineales

    entre las variables.

    Al disear el experimento hay que considerar el tamao de la muestra ya que son necesarias un mnimo de

    observaciones por variable, para que el anlisis pueda representar las correlaciones adecuadamente.

    Finalmente, hay que interpretar las cargas cannicas para determinar la importancia de cada variable en la funcin

    cannica. Las cargas cannicas reflejan la varianza que la variable observada comparte con el valor terico cannico.

    Iconografa de las correlacionesLa iconografa de las correlaciones, uno de los mtodos de anlisis de datos, consiste en reemplazar una matriz de

    correlacin por un esquema o grafo donde las correlaciones notables son representadas por un trazo continuo

    (correlacin positiva), o un trazo punteado (correlacin negativa).

    A partir de un cuadro de datos (por ejemplo, una hoja de clculo) que contiene columnas (variables) y lneas

    (observaciones de estas variables), la iconografa de las correlaciones elimina las falsas buenas correlaciones

    entre estas variables, esto es, las que se deben a una tercera variable, y detecta las correlaciones enmascaradas. El

    esquema final, que presenta solo los vnculos directos entre las variables cualitativas y\o cuantitativas, es un medio

    de percibir de una ojeada lo esencial, sobre una figura nica, quitando las redundancias.

    Correlaciones "notables" entre los perfiles alimenticios en

    Europa.

    Qu es una correlacin notable?

    Una correlacin no tiene sentido aisladamente.

    Recprocamente una correlacin escasa no implica la ausencia

    de vnculo.

    Ejemplo 1 : las variables A y C se correlacionan

    fuertemente porque sus variaciones son vinculadas las

    dos a una variable X. En realidad no hay vnculo AC,

    sino un vnculo XA y un vnculo XC. En otros

    trminos, la correlacin entra A y C es redundante, ydesaparece, cuando X es mantenido constante

    (hablamos de correlacin parcial escasa con relacin a

    X). Lo deducimos el esquema de las solas correlaciones

    notables :

    Ejemplo 2 : la variable Y depende de varias variables C, D, E, F y G independientes. Tambin la correlacin

    de Y con cada una de ellas, consideradas por separado, es escasa (no "significativa" con sentido probabilista

    del trmino). En realidad, existen unos vnculos rigurosos CY, DY, EY, FY y GY. Lo deducimos el esquema

    de las correlaciones notables :

    http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation1.pnghttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo%3ACorrelationIconographyEsp.pnghttp://es.wikipedia.org/w/index.php?title=Hoja_de_c%C3%A1lculohttp://es.wikipedia.org/w/index.php?title=Grafohttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_datoshttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_correlaci%C3%B3n_m%C3%BAltiplehttp://es.wikipedia.org/w/index.php?title=Harold_Hotellinghttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_multivariante
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    24/35

    Iconografa de las correlaciones 22

    Seleccin de los vnculos notables

    Ilustrmosla sobre un pequeo ejemplo: en el momento de un control matemtico de un nivel de clase de tercer ao

    de bachillerato, ocho alumnos del primer ao al ltimo curso, cuyo peso, la edad y la asiduidad conocemos,

    obtuvieron las notas siguientes:

    Datos originales

    Alumno Peso Edad Asiduidad Nota

    e1 52 12 12 5

    e2 59 12,5 9 5

    e3 55 13 15 9

    e4 58 14,5 5 5

    e5 66 15,5 11 13,5

    e6 62 16 15 18

    e7 63 17 12 18

    e8 69 18 9 18

    Matriz de correlacin

    Peso Edad Assiduidad Nota

    Peso 1

    Edad 0,885 1

    Asiduidad -0,160 -0,059 1

    Nota 0,774 0,893 0,383 1

    Coloquemos nuestras cuatro variables al azar sobre el papel, y tracemos uno trazo entre dos de ellas cada vez que su

    correlacin es superior al umbral 0,3 en valor absoluto.

    A la vista de este esquema, la correlacin (peso, nota) = 0.774, relativamente fuerte, da a pensar que el peso tiene

    ms influencia sobre la nota que la asiduidad! Pero, por otra parte, tenemos las correlaciones (peso, edad) = 0,885, y(edad, nota) = 0,893.

    http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation3esp.pnghttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation2.png
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    25/35

    Iconografa de las correlaciones 23

    A partir de estos 3 coeficientes de correlacin total, la frmula de la correlacin parcial da: correlacin (peso, nota)

    a edad constante : = -0,08

    La correlacin entre nota y peso, a edad constante fuertemente baj (es hasta ligeramente negativa)! De otro trmino

    el peso no tiene influencia sobre la nota. Borremos el vnculo entre peso y nota:

    En definitiva, un vnculo no es trazado,

    sea porque su correlacin total es inferior al umbral, en valor absoluto,

    sea porque existe por lo menos una correlacin parcial inferior al umbral, en valor absoluto, o de signo contrario a

    la correlacin total.

    No es necesario, aqu, de borrar otros vnculos, como se lo verifica a partir de los valores de otras correlaciones

    parciales:Correlacin (peso, nota) a asiduidad constante = 0,92

    Correlacin (edad, peso) a nota constante = 0,68

    Correlacin (edad, peso) a asiduidad constante = 0,89

    Correlacin (edad, nota) a peso constante= 0,71

    Correlacin (asiduidad, peso) a nota constante = -0,78

    Correlacin (asiduidad, peso) a edad constante = -0,23

    Correlacin (asiduidad, nota) a peso constante = 0,81

    Correlacin (asiduidad, nota) a edad constante = 0,97Correlacin (asiduidad, edad) a peso constante = 0,18

    Correlacin (asiduidad, edad) a nota constante = -0,97

    Instantes notables del anlisis

    Los datos disponibles permiten llevar ms lejos el anlisis.

    Podemos considerar en efecto cada lnea como un instante del anlisis, caracterizado por una variable indicadora

    igual a 1 en el instante de la lnea considerada, y a 0, en otro caso:

    Alumno Peso Edad Asiduidad Nota e1 e2 e3 e4 e5 e6 e7 e8

    e1 52 12 12 5 1 0 0 0 0 0 0 0

    e2 59 12,5 9 5 0 1 0 0 0 0 0 0

    e3 55 13 15 9 0 0 1 0 0 0 0 0

    e4 58 14,5 5 5 0 0 0 1 0 0 0 0

    e5 66 15,5 11 13,5 0 0 0 0 1 0 0 0

    e6 62 16 15 18 0 0 0 0 0 1 0 0

    e7 63 17 12 18 0 0 0 0 0 0 1 0

    e8 69 18 9 18 0 0 0 0 0 0 0 1

    http://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation4esp.pnghttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcial
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    26/35

    Iconografa de las correlaciones 24

    Aunque los instantes llevan los mismos nombres que los alumnos, hay que recordar que las alumnas son unas

    lneas (observaciones), mientras que los instantes son unas columnas, que forman parte de las variables, con el

    mismo ttulo que las 4 primeras columnas.

    Podemos pues adoptar el mismo criterio de trazado de los vnculos para los "instantes" y las variables originales. No

    obstante, para no agravar el esquema, dibujemos solamente los instantes vinculados a una variable por lo menos

    (instantes notables).

    Los instantes son representados por un tringulo, para que se puedan distinguir de las variables originales, que son

    representadas por un cuadrado.

    Con relacin al esquema precedente, el vnculo entre nota y asiduidad desapareci, reemplaz por los vnculos

    (Nota, e6) y (Asiduidad, e6) . Era pues redundante: el alumno e6, muy asiduo y bien anotado, le explica a solas el

    vnculo (Nota, Asiduidad) .

    El alumno e3 tiene asiduidad notablemente fuerte, y el alumno e4 asiduidad notablemente escasa (trazo

    punteado).

    Un vnculo es dicho notable cuando otros vnculos presentes sobre la figura no bastan con explicarlo.

    El alumno e6 tiene en efecto una nota notable: 18/20.

    Los alumnos e7 y e8 que tienen, tambin, 18/20, no son notables: no aparecen sobre el esquema, porque, ms de

    edad, sus nota es ya explicada por el vnculo (edad, anota).

    Del mismo modo, podemos verificar sobre los datos, que e5 tiene un peso notablemente fuerte para su edad (con

    relacin a los 8 alumnos de la poblacin estudiada); mientras que el alumno e1 tiene un peso notablemente escaso

    para su edad.

    Los vnculos entre cuadrados (variables - variables) subrayan las leyes generales; los vnculos cuadrado-tringulo

    (variable - instante) subrayan los acontecimientos raros.

    Algoritmo de la iconografa de las correlaciones

    El principio de la iconografa de las correlaciones es bastante simple para permitir un trazado manual, si el cuadro de

    datos es pequeo. Si no, hay que recurrir a un programa que contiene, en entrada, la matriz de correlacin y el

    umbral escogido (por ejemplo 0,3). He aqu el algoritmo:

    Para evitar las redundancias, el vnculo AB es trazado si y solamente si la correlacin total r(A,B) es superior

    al umbral en valor absoluto, y si las correlaciones parciales r(A,B), con relacin a una variable Z, son

    superiores al umbral, en valor absoluto, y con lo mismo signo que la correlacin total, para todo Z entre las

    variables disponibles, incluido los instantes.

    Este criterio de trazado es estricto, y garantiza la seleccin de los vnculos notables.

    Las variables pueden ser cuantitativas y\o cualitativas (siempre y cuando estas ltimas utilicen una codificacin

    disyuntiva completa).

    http://es.wikipedia.org/w/index.php?title=Codificaci%C3%B3n_disyuntiva_completahttp://es.wikipedia.org/w/index.php?title=Codificaci%C3%B3n_disyuntiva_completahttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation5esp.png
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    27/35

    Iconografa de las correlaciones 25

    Posicin de los puntos sobre el papel

    El ejemplo anterior mostr dos tipos de puntos: las variables (cuadrados), y los instantes (tringulos). Una vez

    encontrados los vnculos entre estos elementos, positivos (trazos continuos) o negativos (trazos punteados), solo

    queda dibujarlos sobre el papel.

    Toda libertad de posicionamiento es dejada al analista, ya que la interpretacin depende de vnculos y no de

    posiciones.

    En lo posible, hay que evitar los cruces intiles entre vnculos, molestando para la lectura. El esquema siguiente, por

    ejemplo, es menos legible que el precedente, aunque la interpretacin sea la misma (vnculos idnticos):

    Varias tcnicas pueden ser utilizadas para colocar los puntos de modo automtico.

    Un primer enfoque consiste en proyectar la nube de puntos de las variables sobre los dos primeros ejes de un anlisis

    de los componentes principales. Pero las proyecciones no son adaptadas siempre a una buena legibilidad cuando hay

    muchos componentes principales estadsticamente significativos, y particularmente en caso de mezcla de variables

    cualitativas y cuantitativas.

    Otro enfoque consiste en sacar partido de la interpretacin geomtrica del coeficiente de correlacin (coseno), y en

    dibujar el esquema a la superficie de una esfera a 3 dimensiones.

    Al siendo el arco-coseno de la correlacin una distancia angular, dos puntos sern tanto ms prximos sobre laesfera cuanto sern correlacionados ms (positivamente). A la inversa la distancia angular entre dos puntos

    que se correlacionan negativamente es un ngulo obtuso; si la correlacin vale -1, los puntos son opuestos

    sobre la esfera (ngulo 180).

    Se trata, desde luego, de un mal menor, porque la esfera efectiva no est a 3 dimensiones, sino a n

    dimensiones. Si pues dos puntos que se correlacionan mucho forzosamente son prximos sobre el dibujo, lo

    inverso no est segura: dos puntos muy prximos sobre el dibujo no se correlacionan forzosamente. No

    obstante, la ausencia de vnculo trazado levanta la ambigedad.

    Podramos contemplar muchos otros modos de eleccin de las posiciones: el ms utilizado consiste en escoger como

    distancia angular el arco-coseno del valor absoluto de la correlacin. As, los puntos que se correlacionan

    negativamente no son opuestos sobre la esfera, y el vnculo punteado es ms corto y atesta menos el esquema

    En prctica, en un enfoque software, una primera variable A es dibujada dondequiera sobre la esfera. Luego la

    variable B que se correlacionan menos a esta primera es puesta sobre la esfera a la distancia

    arco-coseno(r(A,B)) de la primera. Colocamos entonces, por triangulacin, la variable C la menos

    correlacionada con ambas primeras. Otros puntos son puestos poco a poco. Si la cuarta variable tiene una

    correlacin nula con las tres primeras, no es materialmente posible asignarle una posicin exacta. Las

    distancias son vueltas a calcular de modo proporcional a los valores efectivos. Al cabo de un cierto tiempo, la

    posicin de los primeros puntos es vuelta a calcular segn los siguientes. Etc. As, la figura progresivamente es

    reajustada.

    http://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_los_componentes_principaleshttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_los_componentes_principaleshttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation6esp.png
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    28/35

    Iconografa de las correlaciones 26

    Eleccin del umbral

    El umbral puede variar entre 0 y 1. Un vnculo es trazado si, no solamente la correlacin total pero adems todas las

    correlaciones parciales correspondientes son superiores al umbral en valor absoluto y del mismo signo. Esta

    condicin es severa, y los vnculos que subsisten son ricos, en general, en informacin.

    Aumentar el valor del umbral disminuye el nmero de vnculos, y clarifica la figura, pero disminuye tambin la

    informacin, sobre todo cuando la variable de inters depende de varias variables independientes.

    Es a menudo preferible tomar un umbral bastante bajo. Luego, si la figura completa es demasiado prolija, se puede

    dibujar slo los vnculos a la variable de inters.

    Por ejemplo, cuando se aborda nuevos datos, y cuando no se sabe cual umbral escoger, podremos comenzar por:

    un umbral = 0.3 para un anlisis de datos;

    un umbral = 0.1 para el anlisis de los resultados de un diseo de experimentos. En este caso en efecto, todos

    los factores son controlados, y podemos permitirnos no dibujar los "instantes" (a priori notables por

    construccin del plano), lo que alivia la figura;

    un umbral = 0.01, o menos, podr hasta ser escogido cuando la tabla de datos comprende varias centenas de

    observaciones.En nuestro ejemplo, hasta el umbral nulo, el vnculo (peso, nota) no es trazado, porque la correlacin parcial con

    relacin a la edad est con signo contrario a la correlacin total. Pero el vnculo (asiduidad, nota) aparece, y hay ms

    instantes notables.

    Organizacin de los vnculos

    La Iconografa de las Correlaciones pretende poner en evidencia la organizacin de los vnculos, que puede ser

    cerrada tanto como jerrquica o continuamente repartida.

    La ausencia de eje, cualquiera que sea la dimensin del problema permite reemplazar una multitud de proyecciones

    bidimensionales por una imagen nica, o lo esencial aparece de una ojeada.

    Retirada de una influencia evidente

    Es comn, en anlisis de datos, disponer de una variable Z cuya influencia, preponderante, y ya bien conocida,

    enmascara fenmenos ms finos que procuramos descubrir.

    La solucin consiste en trazar el esquema, no de la matriz de correlacin total, pero de la matriz de las correlaciones

    parciales con relacin a Z, con el fin de retirar toda influencia lineal de Z si existe all (creciente o decreciente) sobre

    otras variables. El esquema revela entonces otra organizacin, abstraccin hecha las variaciones de Z.

    Por ejemplo, retiremos el componente de la edad, cuya influencia, preponderante, es bien conocida. El esquema

    revela entonces la influencia directa de la asiduidad sobre la nota. La edad desapareci de la figura, as como su

    componente en todas las variables. Y el peso se encuentra aislado.

    http://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation7esp.png
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    29/35

    Iconografa de las correlaciones 27

    En una tabla de datos que contiene ms variables puede ser interesante retirar varias influencias (el resultado no

    depende del orden en el cual son retirados).

    Interacciones lgicas notables

    Lo mismo que los instantes son aadidos, ms arriba, a la tabla inicial, como de nuevas columnas, lo mismo,podemos aadir otras columnas, por ejemplo funciones de las variables iniciales, en particular las interacciones

    lgicas, que son unos acoplamientos de variables.

    El nmero de columnas suplementarias importa poco, con tal que se aada sobre el esquema slo a las que sern

    vinculadas a uno por lo menos variables iniciales, con el fin de no agravar intilmente la figura.

    Por ejemplo, en respuesta al aadido de nuevas columnas que corresponde a "y" lgica entre dos variables

    cualquiera, slo la interaccin Edad&Asiduidad directamente parece vinculada a la nota :

    La interaccin lgica aporta algo adems a la interpretacin (habida cuenta, por supuesto, del pequeo nmero de

    variables explicativas disponibles en este ejemplo): para obtener una buena nota no basta con tener mayor edad, hay

    que tambin ser asiduo a la clase.

    http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation8esp.pnghttp://es.wikipedia.org/w/index.php?title=Interacci%C3%B3n_l%C3%B3gicahttp://es.wikipedia.org/w/index.php?title=Interacci%C3%B3n_l%C3%B3gicahttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation9espbis.png
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    30/35

    Iconografa de las correlaciones 28

    Base de conocimiento asociada con esquema

    Los vnculos del esquema pueden ser descritos de la manera siguiente: a cada vnculo trazado, asociemos una regla

    del tipo SI ENTONCES, seguida por el valor del coeficiente de correlacin total, precedido por uno * si el

    vnculo es trazado, y de ? si el vnculo no es trazado, porque dudoso (el valor de la correlacin es superior al

    umbral a causa de una sola observacin).

    SI Peso ENTONCES Edad *.885

    SI Edad ENTONCES Peso *.885

    SI Edad ENTONCES Nota *.893

    SI Nota ENTONCES Edad *.893

    SI Asiduidad ENTONCES Edad*Asiduidad ?.493

    SI Nota ENTONCES Edad*Asiduidad *.960

    SI Edad*Asiduidad ENTONCES Nota *.960

    SI .e1 ENTONCES Peso *.610

    SI .e3 ENTONCES Asiduidad *.484SI .e4 ENTONCES Asiduidad *.726

    SI .e5 ENTONCES Peso *.395

    SI .e6 ENTONCES Edad*Asiduidad *.597

    Los vnculos entre variables son indicados aqu en ambas direcciones, porque la causalidad no es directamente

    deducible de la correlacin.

    Los vnculos instantes notables - variables pueden ser indicadas en una sola direccin, porque la variable

    emana de su realizacin en el instante considerado.

    Una base de conocimiento puede servir de entrada a un sistema experto; y el utilizador puede enriquecerlo o

    precisarlo.Por ejemplo, es contrario al sentido comn decir que la edad depende de una buena nota. No obstante lo

    inverso puede ser posible. Lo mismo, los nios engordan aumentando, pero no es el peso que hace el nmero

    de los aos. El utilizador puede pues suprimir las reglas SI Nota ENTONCES Edad .893, SI Nota

    ENTONCES Edad *Asiduidad .960 y SI Peso ENTONCES Edad .885.

    La base de conocimiento as modificado da un esquema donde ciertos vnculos son orientados en lo sucesivo.

    Podemos aplicarle la Teora de grafos y sacarlo flujos de informaciones.

    http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_de_grafoshttp://es.wikipedia.org/w/index.php?title=Sistema_experto
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    31/35

    Iconografa de las correlaciones 29

    Campos de aplicacin

    El mtodo se aplica en campos mltiples.

    Un medio de no olvidar nada de esencial en un cuadro de datos

    Vase un ejemplo de aplicacin a un gran cuadro de datos astronmicos difcil de aprehender de una ojeada.

    Iconografa de correlaciones planetarias.Trazos continuos: correlaciones positivas.

    Trazos punteados: correlaciones negativas

    Mediante iconografa de las

    correlaciones se puede representar, en

    una figura nica, las relaciones ms

    notables de la tabla anterior de los

    Planetas principales. Podemos ver las

    correlaciones ms notables (vnculos),

    ya sean positivas (trazos continuos) o

    negativas (trazos punteados) entre las

    distintas variables.

    La figura muestra los vnculos ms omenos evidentes (como la de la

    gravedad con la velocidad de escape);

    y tambin los vnculos propios de cada

    planeta. Es un medio de no olvidar

    nada de esencial en el cuadro de datos.

    Se indican a continuacin algunas de

    las correlaciones:

    Los planetas con fuerte velocidad

    orbital (como Mercurio) tienen

    tambin una densidad fuerte y una

    temperatura de superficie fuerte (en particular Vnus).

    La Tierra tiene una inclinacin escasa (trazo punteado), mucho O2

    en su atmsfera, y fuerte discriminante

    planetario (trazos continuos).

    Un gran perodo de rotacin corresponde a una inclinacin axial escasa y a una excentricidad fuerte.

    El anlisis de los tableros de mandos

    El tablero de mandos de gestin es un medio de pilotaje y de diagnstico. Constituido por varios indicadores de

    realizacin, permite conocer la carga de trabajo, percibir la hipertrofia o atrofias de ejecucin de las diferentes tareas,

    situar las anomalas de funcionamiento, enderezar ciertas situaciones. Sin embargo, habida cuenta de los lmites denuestra memoria, un tablero de mandos debe contener pocas cifras para ser de empleo fcil.

    La iconografa de las correlaciones es un medio de analizar un tablero de mandos que tiene muchas cifras, y de

    explotar verdaderamente todas las informaciones de la empresa. Pudiendo librarse de influencias exteriores (tales

    como tendencias econmicas o decisiones de marketing), permite poner en evidencia la influencia mutua de las

    tareas, analizar las causas de desviacin entre previsin y realizacin, y, gracias al esquema sinttico, traducir

    rpidamente la informacin en forma de preconizaciones operacionales claras y bien apoyadas.

    http://es.wikipedia.org/w/index.php?title=Archivo%3ADataPlanetas.pnghttp://es.wikipedia.org/w/index.php?title=Anexo:Datos_de_los_planetas_del_Sistema_Solar
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    32/35

    Iconografa de las correlaciones 30

    Referencias

    Lesty M. (1999) Une nouvelle approche dans le choix des rgresseurs de la rgression multiple en prsence

    dinteractions et de colinarits. La revue de Modulad, n22, janvier 1999, pp. 41-77 [1]. (en francs)

    Referencias

    [1] http://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdf

    http://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdfhttp://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdf
  • 7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

    33/35

    Fuentes y contribuyentes del artculo 31

    Fuentes y contribuyentes del artculoAnlisis de la regresinFuente: http://es.wikipedia.org/w/index.php?oldid=66382028 Contribuyentes: Acratta, Amads, ConPermiso, Cpey, Ezarate, GermanX, Ihtizon, Juan Mayordomo, LP,Lauranrg, MarcoAurelio, Matdrodes, SrDonPatrn, Wikilptico, 37 ediciones annimas

    Regresin no linealFuente: http://es.wikipedia.org/w/index.php?oldid=68947694 Contribuyentes: Antn Francho, Chocoteco, ConPermiso, Deachp, Donatiu, Gaortizg, GermanX, Ggenellina,HanPritcher, Jarfil, Juan Mayordomo, Lucien leGrey, Matdrodes, Nizampop, Pacomegia, Rhernan, Tano4595, Technopat, Tirithel, Trujilloleonardo, 46 ediciones annimas

    Regresin segmentadaFuente: http://es.wikipedia.org/w/index.php?oldid=64617025 Contribuyentes: ConPermiso, Juan Mayordomo, Mr. Moonlight

    Contraste de hiptesisFuente: http://es.wikipedia.org/w/index.php?oldid=69349525 Contribuyentes: Acratta, Alakasam, Califasuseso, Cgb, Davius, Elpolaco08, Fenicio, Folkvanger, Hu12,Ialad, Isha, Jagarsoft, Jcaraballo, Jmvkrecords, Jorge c2010, Joseaperez, Juan Mayordomo, LauraFarina, Lloux, LuchoX, Matdrodes, Mxcatania, NACLE, Niqueco, Pabloallo, Plux, RaimundoPastor, Sageo, Varyatanil, 64 ediciones annimas

    CorrelacinFuente: http://es.wikipedia.org/w/index.php?oldid=70497511 Contribuyentes: Acratta, Alhen, Bucho, Camilo, Davius, Diegusjaimes, Egozcue, El Quinche, Grillitus, Humberto,Jkbw, Juan Mayordomo, Lauranrg