Regresion y Correlacion Tipos de Regresion y Correlacion

7/23/2019 Regresion y Correlacion Tipos de Regresion y Correlacion

1/35

PDF generado usando el kit de herramientas de fuente abierta mwlib. Ver http://code.pediapress.com/ para mayor informacin.

PDF generated at: Wed, 06 Nov 2013 16:01:35 UTC

REGRESIN YCORRELACINTipos de Regresin y Correlacin


2/35

Contenidos

Artculos

Anlisis de la regresin 1

Regresin no lineal 2

Regresin segmentada 7

Contraste de hiptesis 10

Correlacin 16

Coeficiente de correlacin de Spearman 18

Anlisis de la correlacin cannica 21

Iconografa de las correlaciones 21

Referencias

Fuentes y contribuyentes del artculo 31

Fuentes de imagen, Licencias y contribuyentes 32

Licencias de artculos

Licencia 33


3/35


Anlisis de la regresin

La regresin estadstica o regresin a la media es la tendencia de una medicin extrema a presentarse ms cercana

a la media en una segunda medicin. La regresin se utiliza para predecir una medida basndonos en el

conocimiento de otra.

Origen del concepto

El trmino regresin fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmada por

su amigo Karl Pearson. Su trabajo se centr en la descripcin de los rasgos fsicos de los descendientes (variable A)

a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de ms de mil registros de

grupos familiares, se lleg a la conclusin de que los padres muy altos tenan una tendencia a tener hijos que

heredaban parte de esta altura, pero que revelaban tambin una tendencia a regresar a la media. Galton generaliz

esta tendencia bajo la "ley de la regresin universal": Cada peculiaridad en un hombre es compartida por sus

descendientes, pero en media, en un grado menor.

Modelos de regresin

Regresin lineal

Regresin lineal simple

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una funcin simple (lineal) de

X que nos permita aproximar Y mediante: = a + bX

a (ordenada en el origen, constante)

b (pendiente de la recta)

A la cantidad e=Y- se le denomina residuo o error residual.As, en el ejemplo de Pearson: = 85 cm + 0,5X

Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del

padre.

Regresin lineal mltiple

Regresin no lineal

Regresin segmentada

Enlaces externos Francis Galton. "Regression Towards Mediocrity in Hereditary Stature,"Journal of the Anthropological Institute,

15:246-263 (1886). [1]

A non-mathematical explanation of regression toward the mean. [2]

A simulation of regression toward the mean. [3]

Amanda Wachsmuth, Leland Wilkinson, Gerard E. Dallal. Galton's Bend: An Undiscovered Nonlinearity in

Galton's Family Stature Regression Data and a Likely Explanation Based on Pearson and Lee's Stature Data [4]
http://www.spss.com/research/wilkinson/Publications/galton.pdfhttp://onlinestatbook.com/stat_sim/reg_to_mean/index.htmlhttp://davidmlane.com/hyperstat/B153351.htmlhttp://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdfhttp://es.wikipedia.org/w/index.php?title=Error_residualhttp://es.wikipedia.org/w/index.php?title=Karl_Pearsonhttp://es.wikipedia.org/w/index.php?title=Francis_Galton


4/35


Referencias

[1] http://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf

[2] http://davidmlane.com/hyperstat/B153351. html

[3] http://onlinestatbook.com/stat_sim/reg_to_mean/index.html

[4] http://www.spss.com/research/wilkinson/Publications/galton.pdf

Regresin no lineal

Ejemplo de regresin no lineal

En estadstica, la regresin no lineal es un problema de inferencia

para un modelo tipo:

basado en datos multidimensionales , , donde es alguna

funcin no lineal respecto a algunos parmetros desconocidos . Como

mnimo, se pretende obtener los valores de los parmetros asociados

con la mejor curva de ajuste (habitualmente, con el mtodo de losmnimos cuadrados). Con el fin de determinar si el modelo es

adecuado, puede ser necesario utilizar conceptos de inferencia

estadstica tales como intervalos de confianza para los parmetros as

como pruebas de bondad de ajuste.

El objetivo de la regresin no lineal se puede clarificar al considerar el

caso de la regresin polinomial, la cual es mejor no tratar como un

caso de regresin no lineal. Cuando la funcin toma la forma:

la funcin es no lineal en funcin de pero lineal en funcin de los parmetros desconocidos , , y . Estees el sentido del trmino "lineal" en el contexto de la regresin estadstica. Los procedimientos computacionales para

la regresin polinomial son procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras

y . Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para ajustar polinomios. Las

consecuencias prcticas de esta mala interpretacin conducen a que un procedimiento de optimizacin no lineal sea

usado cuando en realidad hay una solucin disponible en trminos de regresin lineal. Paquetes (software)

estadsticos consideran, por lo general, ms alternativas de regresin lineal que de regresin no lineal en sus

procedimientos.

General

Linealizacin

Algunos problemas de regresin no lineal pueden linealizarse mediante una transformacin en la formulacin del

modelo. Por ejemplo, consideremos el problema de regresin no lineal (ignorando el trmino de error):

Aplicando logaritmos a ambos lados de la ecuacin, se obtiene:

lo cual sugiere una estimacin de los parmetros desconocidos a travs de un modelo de regresin lineal de ln(y) con

respecto ax, un calculo que no requiere procedimientos de optimizacin iterativa. De todas formas, la linealizacin

debe usarse con cuidado ya que la influencia de los datos en el modelo cambia, as como la estructura del error del

modelo y la interpretacin e inferencia de los resultados. Estos pueden ser resultados no muy convenientes.
http://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_polinomialhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Ajuste_de_curvashttp://es.wikipedia.org/w/index.php?title=No_linealidadhttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ANon_linear_regression_10_x2.pnghttp://www.spss.com/research/wilkinson/Publications/galton.pdfhttp://onlinestatbook.com/stat_sim/reg_to_mean/index.htmlhttp://davidmlane.com/hyperstat/B153351.htmlhttp://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf


5/35


Hay que distinguir entre la "linealizacin" usada en los prrafos anteriores y la "linealizacin local" que se adopta

para algoritmos clsicos como el de Gauss-Newton. De igual forma, la metodologa de modelos lineales

generalizados no use linealizacin para la estimacin de parmetros.

Mnimos cuadrados ordinarios y ponderados

La mejor curva de ajuste se considera como aquella que minimiza la suma de las desviaciones (residuales) alcuadrado (SRC). Este es la aproximacin por el mtodo de mnimos cuadrados (MMC). Sin embargo, en aquellos

casos donde se tienen diferentes varianzas de error para diferentes errores, es necesario minimizar la suma de los

residuales al cuadrado ponderados (SRCP) (mtodo de mnimos cuadrados ponderados). En la prctica, la varianza

puede depender del valor promedio ajustado. As que los pesos son recalculados para cada iteracin en un algoritmo

de mnimos cuadrados ponderados iterativo.

En general, no hay una expresin de forma cerrada para los parmetros de mejor ajuste, como sucede en el caso de la

regresin lineal. Mtodos numricos de optimizacin son aplicados con el fin de determinar los parmetros de mejor

ajuste. Otra vez, en contraste con la regresin lineal, podra haber varios mximos locales de la funcin a ser

optimizada. En la prctica, se suponen algunos valores iniciales los cuales junto con el algoritmo de optimizacin

conducen a encontrar el mximo global.

Estimacin de los parmetros usando Mtodos de Montecarlo

Si el error de cada observacin es conocido, entonces la precisin y confiabilidad de los parmetros puede ser

estimada mediante simulacin de Montecarlo. Cada observacin es aleatorizada de acuerdo a su media y su

desviacin estndar. Con el nuevo conjunto de datos, una nueva curva es ajustada y las estimaciones de los

parmetros registradas. Las observaciones son entonces aleatorizadas y nuevos valores de los parmetros son

obtenidos. Al final, varios conjuntos de parmetros son generados y su media y desviacin estndar pueden ser

calculados.[1][2]

Software

Diversos lenguajes de programacin y software estadstico y matemtico contienen funciones de optimizacin. Entre

ellos, Gauss, GNU Octave, Matlab, Mathematica, R, Splus; C++ y Fortran maple.

Mtodos Numricos para Regresiones No Lineales

Regresin Exponencial

En determinados experimentos, en su mayora biolgicos, la dependencia entre las variables X e Y es de forma

exponencial, en cuyo caso interesa ajustar a la nube de puntos una funcin del tipo:

Mediante una transformacin lineal, tomando logaritmos neperianos, se convierte el problema en una cuestin de

regresin lineal. Es decir, tomando logaritmos neperianos:

Ejemplo
http://es.wikipedia.org/w/index.php?title=Fortranhttp://es.wikipedia.org/w/index.php?title=C%2B%2Bhttp://es.wikipedia.org/w/index.php?title=Splushttp://es.wikipedia.org/w/index.php?title=R-projecthttp://es.wikipedia.org/w/index.php?title=Mathematicahttp://es.wikipedia.org/w/index.php?title=Matlabhttp://es.wikipedia.org/w/index.php?title=GNU_Octavehttp://es.wikipedia.org/w/index.php?title=Gausshttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Softwarehttp://es.wikipedia.org/w/index.php?title=Lenguajes_de_programaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=M%C3%A9todo_de_Montecarlohttp://es.wikipedia.org/w/index.php?title=Valores_inicialeshttp://es.wikipedia.org/w/index.php?title=M%C3%A1ximo_localhttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadrados_ponderadoshttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Modelos_lineales_generalizadoshttp://es.wikipedia.org/w/index.php?title=Modelos_lineales_generalizadoshttp://es.wikipedia.org/w/index.php?title=Algoritmo_de_Gauss-Newton


6/35


x y ln(y)x

2 x ln(y)(ln y)

2

1 3 1,0986 1 1,0986 1,2069

1,2 3,4 1,2237 1,44 1,4684 1,4974

1,5 5 1,6094 2,25 2,4141 2,5901

2 2 0,6931 4 1,3862 0,4803

3 4,1 1,4109 9 4,2327 1,9906

3,7 5 1,6094 13,69 5,9547 2,5901

4 7 1,9459 16 7,7836 3,7865

4,5 6,5 1,8718 20,25 8,4231 3,5056

20,9 36 11,4628 67,63 32,7614 17,6455

Numero de datos = n = 8

x promedio = = = 2,6125

y promedio = = = 1,43285

Usando la forma lineal de la Regresin Exponencial:

b = =

La ecuacion final que modela el sistema es

Regresin Logartmica

La curva logartmica es tambin una recta, pero en lugar de estar referida a las variables originales

e , est referida a y a

Ejemplo

x y ln xln

2x

ln x * yy

2

1 3 0 0 0 9

1.2 3.4 0.1823 0.0332 0.6198 11.56

1.5 5 0.4054 0.1643 2.027 25

2 2 0.6931 0.4803 1.3862 4

3 4.1 1.0986 1.2069 4.5042 16.81

3.7 5 1.3083 1.7116 6.5415 25

4 7 1.3862 1.9215 9.7034 49

4.5 6.5 1.5040 2.2620 9.776 42.25

20.9 36 6.5779 7.7798 34.5581 182.62

a = = = 2.090513


7/35


b = = 4.5 - (2.090513)(0.960) = 2.4931

La ecuacion final que modela el sistema es

Regresin Polinomial

Algunas veces cuando la relacin entre las variables dependientes e independientes es no lineal, es til incluirtrminos polinomiales para ayudar a explicar la variacin de nuestra variable dependiente.

Las regresiones polinomiales se pueden ajustar la variable independiente con varios trminos

Que, derivando respecto a cada uno de los coeficientes nos da el planteamiento un sistema de ecuaciones de la

siguiente forma:

Ejemplo

x y xyx

2y

2x

2y x

3x

4

1 3 3 1 9 3 1 1

1.2 3.4 4.08 1.44 11.56 4.896 1.728 2.0736

1.5 5 7.5 2.25 25 11.25 3.375 5.0625

2 2 4 4 4 8 8 16

3 4.1 12.3 9 16.81 36.9 27 81

3.7 5 18.5 13.69 25 68.45 50.653 187.4161

4 7 28 16 49 112 64 256

4.5 6.5 29.25 20.25 42.25 131.625 91.125 410.0625

20.9 36 106.63 67.63 182.62 376.121 246.881 958.6147

Usando una Matriz para calcular valores de los coeficientes

Usando el mtodo de Eliminacin de Gauss-Jordan
http://es.wikipedia.org/w/index.php?title=Eliminaci%C3%B3n_de_Gauss-Jordan


8/35


La ecuacin final que modela el sistema es

Referencias

[1] Motulsky, HJ & Ransnas, LA (1987)Fitting curves to data using nonlinear regression. FASEB J 1:365-374

[2] McIntosh, JEA & McIntosh, RP (1980)Mathematical modelling and computers in endocrinology. p71 Springer-Verlag, Berlin, Germany.

Bibliografa

G.A.F Seber and C.J. Wild.Nonlinear Regression. New York: John Wiley and Sons, 1989.

R.M. Bethea, B.S. Duran and T.L. Boullion. Statistical Methods for Engineers and Scientists. New York: Marcel

Dekker, Inc 1985 ISBN 0-8247-7227-X

Enlaces externos

levmar (http://www.ics.forth.gr/~lourakis/levmar/), implementacin Levenberg-Marquardt algoritmo enC/C++, con las interfaces de MATLAB, Perl y Python. Licencia: GPL

Arquimedex: Software para Regresin No Lineal (http://soft. arquimedex.com/regresion_lineal.php),

Regresin Lineal y No Lineal Online

ISAT (http://www.che.utexas.edu/~john/research/isat. htm), Nonlinear regression with explicit error control

Zunzun.com (http://zunzun.com), Online curve and surface fitting

NLREG (http://www.nlreg.com), a proprietary program

Matlab statistic (http://www.mathtools.net/MATLAB/Statistics/)

SysLinea 0.1.2 Regresin lineal y non lineal con cdigo fuente en pascal (Open Source GNU/GPL) (https://sites.

google.com/site/mgbfreeware/)
https://sites.google.com/site/mgbfreeware/https://sites.google.com/site/mgbfreeware/http://www.mathtools.net/MATLAB/Statistics/http://www.nlreg.com/http://zunzun.com/http://www.che.utexas.edu/~john/research/isat.htmhttp://soft.arquimedex.com/regresion_lineal.phphttp://es.wikipedia.org/w/index.php?title=GNU_General_Public_Licensehttp://es.wikipedia.org/w/index.php?title=Pythonhttp://es.wikipedia.org/w/index.php?title=Perlhttp://es.wikipedia.org/w/index.php?title=MATLABhttp://es.wikipedia.org/w/index.php?title=C%2B%2Bhttp://es.wikipedia.org/w/index.php?title=C_%28lenguaje_de_programaci%C3%B3n%29http://www.ics.forth.gr/~lourakis/levmar/


9/35


Regresin segmentada

Regresin segmentada o regresin por pedazos es un mtodo en el anlisis de regresin en que el variable

independiente es particionada en intervalos ajustando en cada intervalo una linea o curva a los datos. La regresin

segmentada se puede aplicar tambin a la regresin con mltiples variables independientes particionando todas estas.

La regresin segmentada es util cuando el variable dependiente muestra una reaccin abruptamente diferente a la

variable independiente en los varios segmentos. En este caso el lmite entre los segmentos se llama punto de quiebra.

Regresin segmentada lineal es la regresin segmentada en que la relacin entre el variable dependiente e

independiente dentro de los segmentos se obtiene por regresin lineal.

Regresin segmentada lineal, 2 segmentos

1er miembro horizontal

1er miembro inclinado hacia arriba

Regresin segmentada lineal en dos segmentos separados por un

punto de quiebra puede ser til para cuantificar un cambio abrupto

en la funcin de reaccin de un factor de inters a la variacin de

otro factor influencial. El punto de quiebra se interpreta como un

valor seguro, crtico o umbral cuando efectos (no) deseados

suceden a uno de los dos lados.

El punto de quiebra puede ser un factor importante para la toma de

decisiones de manejo.[1]

El anlisis de la regresin segmentada se basa en la presencia de

un juego de datos ( y , x ) , donde y es el variable dependiente y x

el variable independiente, es decir que el valor de x influye el

valor de y.

El mtodo de los mnimos cuadrados aplicado separadamente acada segmento, por lo cual las dos lineas de regresin se ajustan a

los datos tan cerca como posible minimizando la suma de los

cuadrados de las diferencias (SCD) entre el valor observado (y) y

valor calculado por regresin (Yr) de la variable dependiente,

resulta en las ecuaciones siguientes:

Yr =A1

. x +K1 para x< PQ (punto de quiebra)

Yr =A2

. x +K2 para x> PQ (punto de quiebra)

donde:

Yr es el valor esperado (pronosticado) de y para un ciertovalor de x

A1

yA2

son los coeficientes de regresin indicando la inclinacin de las lneas en los segmentos respectivos

K1

andK2

son los constantes de regresin en los segmentos respectivos indicando los valores de Yr cuando x =

0

Los datos pueden mostrar diferentes tipos de tendencia,[2] vase las figuras.

El metodo tambin rinde dos coeficientes de correlacin:

(R1)2 = 1 suma { (y Yr)2 } / suma { (y Ya1)2} para x< PQ (punto de quiebra)
http://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Variable_independientehttp://es.wikipedia.org/w/index.php?title=Variable_dependientehttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg1.gifhttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg3.gifhttp://es.wikipedia.org/w/index.php?title=Regresi%C3%B3n_linealhttp://es.wikipedia.org/w/index.php?title=Variable_dependientehttp://es.wikipedia.org/w/index.php?title=Variable_independientehttp://es.wikipedia.org/w/index.php?title=Variable_independiente


10/35


1er miembro inclinado hacia abajo

(R2)2 = 1 suma { (y Yr)2 } / suma { (y Ya2)2} para x>

PQ (punto de quiebra)

donde

suma { (y Yr)2 } es la suma de cuadrados de las diferencias (SCD) minimizado por segmento

Ya1 e Ya2 son los valores promedios de y en los segmentos respectivos

Cuando no se detecta un punto de quiebra, hay que volver a una regresin sin punto de quiebra.

Ejemplo

Para la figura azul arriba, que da la relacin entre la cosecha de mostaza (colza) en t/ha y la salinidad del suelo (x =

Ss) expresada en conductividad elctrica (EC en dS/m) de la solucin del suelo,[3] se desprende que:

PQ = 4.93 ,A1

= 0 ,K1

= 1.74 ,A2

=0.129 ,K2

= 2.38 , (R1)2 = 0.0035 (no significante) , (R

2)2 = 0.395

(significante) y:

Yr= 1.74 t/ha para Ss< 4.93 (punto de quiebra)

Yr =0.129 Ss+ 2.38 t/ha para Ss> 4.93 (punto de quiebra)

indicando que una salinidad del suelo < 4.93 dS/m es segura y una salinidad del suelo > 4.93 reduce la cosecha @

0.129 tonelada/ha por unidad de aumento de salinidad de suelo.

La figura tambin muestra intervalos de confianza e inseguridad.

Procedimiento de pruebas

Ejemplo de una serie temporal de descargas de un ro, tipo 5

Las siguientes pruebas estadsticas se emplean para

determinar el tipo de tendencia:

1. Significatividad estadstica del punto de quiebra

(PQ) expresando PQ como una funcin de los

coeficientes de regresinA1

yA2, los promedios Y

1e

Y2

de los datos y, y los promediosX1

yX2

de los

datos x (al lado izquierdo y derecho de PQ

respectivamente), utilizando la leyes de propagacin

de errores en adiciones y multiplicaciones para la

computacin del error estndar (ES) de PQ, seguido

por la prueba t de Student

2. Significatividad estadstica deA1

yA2

aplicando la

prueba t de Student y el error estndar ES de A1

yA2

3. Significatividad estadstica de la diferencia deA1

yA2

aplicando la prueba t de Student y el error estndar ES de

la diferencia
http://es.wikipedia.org/w/index.php?title=Prueba_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Desviaci%C3%B3n_est%C3%A1ndarhttp://es.wikipedia.org/w/index.php?title=Propagaci%C3%B3n_de_erroreshttp://es.wikipedia.org/w/index.php?title=Propagaci%C3%B3n_de_erroreshttp://es.wikipedia.org/w/index.php?title=Significatividad_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ACHAO.gifhttp://es.wikipedia.org/w/index.php?title=Serie_temporalhttp://es.wikipedia.org/w/index.php?title=Intervalo_de_confianzahttp://es.wikipedia.org/w/index.php?title=Siemens_%28unidad%29http://es.wikipedia.org/w/index.php?title=Brassica_napushttp://es.wikipedia.org/w/index.php?title=Archivo%3ASegReg2.gif


11/35


4. Significatividad estadstica de de la diferencia de Y1

e Y2

aplicando la prueba t de Student y el error estndar ES

de la diferencia

Adicionalmente se emplea de coeficiente de correlacin de todos los datos (Ra), el coeficiente de determinacin (o

coeficiente de explicacin), intervalos de confianza de las funciones (lneas) de regresin, y un anlisis de la varianza

(ANOVA).[4]

El coeficiente de determinacin de todos los datos (Cd), lo cual se debe maximizar bajo las condicionesespecificados arriba enpruebas estadsticas, se defina como:

Cd = 1 suma { (y Yr)2 } / suma { (y Ya)2 }

donde Yr es el valor esperado (pronosticado) de y de acuerdo a las ecuaciones de regresin previas, y Ya es el

promedio de todo los valores y. El coeficiente Cd puede variar entre 0 (ninguna explicacin de la regresin

segmentada) y 1 (perfecta explicacin).

En una regresin lineal pura, sin segmentacin, los valores de Cd yRa2 son iguales. En la regresin segmentada, Cd

debe ser significativamente mayor queRa2 para justificar la segmentacin.

La optimizacin del punto de quiebra PQ se alcanza probando una serie de puntos tentativos y seleccionando el

punto que tiene el coeficiente Cd mximo.

Referencias

[1] Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994),Drainage Principles and Applications, Publ. 16, pp. 175-224,

International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 . Bajar de : (http://

www.waterlog.info/articles.htm) , bajo no. 13, o directamente como PDF : (http://www.waterlog.info/pdf/regtxt.pdf)

[2] Drainage research in farmers' fields: analysis of data. Part of project Liquid Gold of the International Institute for Land Reclamation and

Improvement (ILRI), Wageningen, The Netherlands. Bajar como PDF : (http://www.waterlog.info/pdf/analysis.pdf)

[3] R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by

segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions,

February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383

[4] Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Bajar de: (http://www.

waterlog.info/faqs.htm) , bajo. no. 13, o directamente como PDF : (http://www.waterlog.info/pdf/anova.pdf)

Enlaces externos

SegReg (http://www.waterlog.info/segreg.htm), programa libre para regresin segmentada lineal con 2

variables independientes.
http://es.wikipedia.org/w/index.php?title=Software_librehttp://es.wikipedia.org/w/index.php?title=Programa_de_computadorahttp://www.waterlog.info/segreg.htmhttp://www.waterlog.info/pdf/anova.pdfhttp://www.waterlog.info/faqs.htmhttp://www.waterlog.info/faqs.htmhttp://www.waterlog.info/pdf/analysis.pdfhttp://www.waterlog.info/pdf/regtxt.pdfhttp://www.waterlog.info/articles.htmhttp://www.waterlog.info/articles.htmhttp://es.wikipedia.org/w/index.php?title=Optimizaci%C3%B3n_%28matem%C3%A1tica%29http://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_la_varianzahttp://es.wikipedia.org/w/index.php?title=Intervalo_de_confianzahttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n


12/35


Contraste de hiptesis

Dentro de la inferencia estadstica, un contraste de hiptesis (tambin denominado test de hiptesis o prueba de

significacin) es un procedimiento para juzgar si una propiedad que se supone en una poblacin estadstica es

compatible con lo observado en una muestra de dicha poblacin. Fue iniciada por Ronald Fisher y fundamentada

posteriormente por Jerzy Neyman y Karl Pearson.

Mediante esta teora, se aborda el problema estadstico considerando una hiptesis determinada y una hiptesis

alternativa , y se intenta dirimir cul de las dos es la hiptesis verdadera, tras aplicar el problema estadstico a un

cierto nmero de experimentos.

Est fuertemente asociada a los considerados errores de tipo I y II en estadstica, que definen respectivamente, la

posibilidad de tomar un suceso falso como verdadero, o uno verdadero como falso.

Existen diversos mtodos para desarrollar dicho test, minimizando los errores de tipo I y II, y hallando por tanto con

una determinada potencia, la hiptesis con mayor probabilidad de ser correcta. Los tipos ms importantes son los test

centrados, de hiptesis y alternativa simple, aleatorizados, etc. Dentro de los tests no paramtricos, el ms extendido

es probablemente el test de la U de Mann-Whitney.

Introduccin

Si sospechamos que una moneda ha sido trucada para que se produzcan ms caras que cruces al lanzarla al aire,

podramos realizar 30 lanzamientos, tomando nota del nmero de caras obtenidas. Si obtenemos un valor demasiado

alto, por ejemplo 25 o ms, consideraramos que el resultado es poco compatible con la hiptesis de que la moneda

no est trucada, y concluiramos que las observaciones contradicen dicha hiptesis.

La aplicacin de clculos probabilsticos permite determinar a partir de qu valor debemos rechazar la hiptesis

garantizando que la probabilidad de cometer un error es un valor conocido a priori. Las hiptesis pueden clasificarse

en dos grupos, segn:1.1. Especifiquen un valor concreto o un intervalo para los parmetros del modelo.

2. Determinen el tipo de distribucin de probabilidad que ha generado los datos.

Un ejemplo del primer grupo es la hiptesis de que la media de una variable es 10, y del segundo que la distribucin

de probabilidad es la distribucin normal.

Aunque la metodologa para realizar el contraste de hiptesis es anloga en ambos casos, distinguir ambos tipos de

hiptesis es importante puesto que muchos problemas de contraste de hiptesis respecto a un parmetro son, en

realidad, problemas de estimacin, que tienen una respuesta complementaria dando un intervalo de confianza (o

conjunto de intervalos de confianza) para dicho parmetro. Sin embargo, las hiptesis respecto a la forma de la

distribucin se suelen utilizar para validar un modelo estadstico para un fenmeno aleatorio que se est estudiando.

Planteamiento clsico del contraste de hiptesis

Se denomina hiptesis nula a la hiptesis que se desea contrastar. El nombre de "nula" significa sin valor,

efecto o consecuencia, lo cual sugiere que debe identificarse con la hiptesis de no cambio (a partir de la

opinin actual); no diferencia, no mejora, etc. representa la hiptesis que mantendremos a no ser que los datos

indiquen su falsedad, y puede entenderse, por tanto, en el sentido de neutra. La hiptesis nunca se considera

probada, aunque puede ser rechazada por los datos. Por ejemplo, la hiptesis de que dos poblaciones tienen la misma

media puede ser rechazada fcilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes

de ambas poblaciones, pero no puede ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad

de que las medias difieran en una cantidad lo suficientemente pequea para que no pueda ser detectada, aunque la

muestra sea muy grande.
http://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_normalhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_de_probabilidadhttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Prueba_U_de_Mann-Whitneyhttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Potencia_de_una_pruebahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Errores_de_tipo_I_y_IIhttp://es.wikipedia.org/w/index.php?title=Experimentohttp://es.wikipedia.org/w/index.php?title=Karl_Pearsonhttp://es.wikipedia.org/w/index.php?title=Jerzy_Neymanhttp://es.wikipedia.org/w/index.php?title=Ronald_Fisherhttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Poblaci%C3%B3n_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADstica


13/35


A partir de una muestra de la poblacin en estudio, se extrae un estadstico (esto es, una valor que es funcin de la

muestra) cuya distribucin de probabilidad est relacionada con la hiptesis en estudio y sea conocida. Se toma

entonces como regin de rechazo al conjunto de valores que es ms improbable bajo la hiptesis, esto es, el conjunto

de valores para el que rechazaremos la hiptesis nula si el valor del estadstico observado entra dentro de l.

La probabilidad de que se obtenga un valor del estadstico que entre en la regin de rechazo an siendo cierta la

hiptesis puede calcularse. De esta manera, se puede escoger dicha regin de tal forma que la probabilidad decometer este error sea suficientemente pequea.

Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la poblacin es el conjunto de los treinta

lanzamientos a realizar, el estadstico escogido es el nmero total de caras obtenidas, y la regin de rechazo est

constituida por los nmeros totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir

que la moneda est trucada a pesar de que no lo est es igual a la probabilidad binomial de tener 25 "xitos" o ms en

una serie de 30 ensayos de Bernoulli con probabilidad de "xito" 0,5 en cada uno, entonces: 0,0002, pues existe la

posibilidad, aunque poco probable, que la muestra nos d ms de 25 caras sin haber sido la moneda trucada.

Procedimientos de prueba

Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si se rechaza .

Ejemplo

Una prueba de : p = .10 contra : p < .10, podra estar basada en el examen de una muestra aleatoria de

n = 200 objetos. Representamos con X el nmero de objetos defectuosos de la muestra, una variable aleatoria

binomial; x representa el valor observado de X. si es verdadera, E(X) = np = 200(.10) = 20, mientras,

podemos esperar menos de 20 objetos defectuosos si es verdadera. Un valor de x ligeramente debajo de

20 no contradice de manera contundente a as que es razonable rechazar solo si x es

considerablemente menor que 20. Un procedimiento de prueba es rechazar si x15 y no rechazar de

otra forma. En este caso, la regin de rechazo est formada por x = 0, 1, 2, , y 15. no ser rechazada si

x= 16, 17,, 199 o 200.Un procedimiento de prueba se especifica por lo siguiente:

1. Un estadstico de prueba: una funcin de los datos muestrales en los cuales se basa la decisin de rechazar

o no rechazar .2. Una regin de rechazo, el conjunto de todos los valores del estadstico de prueba para los cuales ser

rechazada.

Entonces, la hiptesis nula ser rechazada si y solo si el valor observado o calculado del estadstico de prueba se

ubica en la regin de rechazo

En el mejor de los casos podran desarrollarse procedimientos de prueba para los cuales ningn tipo de error es

posible. Pero esto puede alcanzarse solo si una decisin se basa en un examen de toda la poblacin, lo que casi nuncaes prctico. La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad en el

muestreo puede resultar una muestra no representativa.

Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de error es pequea. La

eleccin de un valor particular de corte de la regin de rechazo fija las probabilidades de errores tipo I y II. Estas

probabilidades de error son representadas por y , respectivamente.
http://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=Ensayo_de_Bernoullihttp://es.wikipedia.org/w/index.php?title=Probabilidad_binomialhttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticohttp://es.wikipedia.org/w/index.php?title=Conjuntohttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_matem%C3%A1ticahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADstico


14/35


Enfoque actual de los contrastes de hiptesis

El enfoque actual considera siempre una hiptesis alternativa a la hiptesis nula. De manera explcita o implcita, la

hiptesis nula, a la que se denota habitualmente por , se enfrenta a otra hiptesis que denominaremos hiptesis

alternativa y que se denota . En los casos en los que no se especifica de manera explcita, podemos

considerar que ha quedado definida implcitamente como es falsa.

Si por ejemplo deseamos comprobar la hiptesis de que dos distribuciones tienen la misma media, estamosimplcitamente considerando como hiptesis alternativa ambas poblaciones tienen distinta media. Podemos, sin

embargo considerar casos en los que no es la simple negacin de . Supongamos por ejemplo que

sospechamos que en un juego de azar con un dado, este est trucado para obtener 6. Nuestra hiptesis nula podra ser

el dado no est trucado que intentaremos contrastar, a partir de una muestra de lanzamientos realizados, contra la

hiptesis alternativa el dado ha sido trucado a favor del 6. Cabra realizar otras hiptesis, pero, a los efectos del

estudio que se pretende realizar, no se consideran relevantes.

Un test de hiptesis se entiende, en el enfoque moderno, como una funcin de la muestra, corrientemente basada en

un estadstico. Supongamos que se tiene una muestra de una poblacin en estudio y que

se han formulado hiptesis sobre un parmetro relacionado con la distribucin estadstica de la poblacin.Supongamos que se dispone de un estadstico cuya distribucin con respecto a , se conoce.

Supongamos, tambin, que las hiptesis nula y alternativa tienen la formulacin siguiente:

Un contraste, prueba o test para dichas hiptesis sera una funcin de la muestra de la siguiente forma:

Donde significa que debemos rechazar la hiptesis nula, (aceptar ) y , que

debemos aceptar (o que no hay evidencia estadstica contra ). A se la denomina regin de rechazo. Enesencia, para construir el test deseado, basta con escoger el estadstico del contraste y la regin de rechazo

.Se escoge de tal manera que la probabilidad de que T(X) caiga en su interior sea baja cuando se da .

Errores en el contraste

Una vez realizado el contraste de hiptesis, se habr optado por una de las dos hiptesis, o , y la decisin

escogida coincidir o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el

siguiente cuadro:

es cierta es cierta

Se escogi No hay error Error de tipo II

Se escogi Error de tipo I No hay error

Si la probabilidad de cometer un error de tipo I est unvocamente determinada, su valor se suele denotar por la letra

griega , y en las mismas condiciones, se denota por la probabilidad de cometer el error de tipo II, esto es:

En este caso, se denomina Potencia del contraste al valor 1-, esto es, a la probabilidad de escoger cuando sta

es cierta

.
http://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticohttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADstico


15/35


Cuando es necesario disear un contraste de hiptesis, sera deseable hacerlo de tal manera que las probabilidades de

ambos tipos de error fueran tan pequeas como fuera posible. Sin embargo, con una muestra de tamao prefijado,

disminuir la probabilidad del error de tipo I, , conduce a incrementar la probabilidad del error de tipo II, .

Usualmente, se disean los contrastes de tal manera que la probabilidad sea el 5% (0,05), aunque a veces se usan el

10% (0,1) o 1% (0,01) para adoptar condiciones ms relajadas o ms estrictas. El recurso para aumentar la potencia

del contraste, esto es, disminuir , probabilidad de error de tipo II, es aumentar el tamao muestral, lo que en laprctica conlleva un incremento de los costes del estudio que se quiere realizar.

Contraste ms potente

El concepto de potencia nos permite valorar cual entre dos contrastes con la misma probabilidad de error de tipo I, ,

es preferible. Si se trata de contrastar dos hiptesis sencillas sobre un parmetro desconocido, , del tipo:

Se trata de escoger entre todos los contrastes posibles con prefijado aquel que tiene mayor potencia, esto es, menor

probabilidad de incurrir en el error de tipo II.

En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de mxima potencia y determina

cmo construirlo.

Contraste uniformemente ms potente

En el caso de que las hiptesis sean compuestas, esto es, que no se limiten a especificar un nico posible valor del

parmetro, sino que sean del tipo:

donde y son conjuntos de varios posibles valores, las probabilidades y ya no estn unvocamente

determinadas, sino que tomarn diferentes valores segn los distintos valores posibles de . En este caso se dice que

un contraste tiene tamao si

esto es, si la mxima probabilidad de cometer un error de tipo I cuando la hiptesis nula es cierta es . En estas

circunstancias, se puede considerar como una funcin de , puesto que para cada posible valor de en la hiptesis

alternativa se tendra una probabilidad distinta de cometer un error de tipo II. Se define entonces

y, la funcin de potencia del contraste es entonces

esto es, la probabilidad de discriminar que la hiptesis alternativa es cierta para cada valor posible de dentro de los

valores posibles de esta misma hiptesis.

Se dice que un contraste es uniformemente ms potente de tamao cuando, para todo valor es

mayor o igual que el de cualquier otro contraste del mismo tamao. En resumen, se trata de un contraste que

garantiza la mxima potencia para todos los valores de en la hiptesis alternativa.

Es claro que el caso del contraste uniformemente ms potente para hiptesis compuestas exige el cumplimiento de

condiciones ms exigentes que en el caso del contraste ms potente para hiptesis simples. Por ello, no existe un

equivalente al Lema de Neyman-Pearson para el caso general.

Sin embargo, s existen muchas condiciones en las que, cumplindose determinadas propiedades de lasdistribuciones de probabilidad implicadas y para ciertos tipos de hiptesis, se puede extender el Lema para obtener el
http://es.wikipedia.org/w/index.php?title=Lema_de_Neyman-Pearsonhttp://es.wikipedia.org/w/index.php?title=Lema_de_Neyman-Pearsonhttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Muestra_estad%C3%ADstica


16/35


contraste uniformemente ms potente del tamao que se desee.

Aplicaciones de los contrastes de hiptesis

Los contrastes de hiptesis, como la inferencia estadstica en general, son herramientas de amplio uso en la ciencia

en general. En particular, la moderna Filosofa de la ciencia desarrolla el concepto de falsabilidad de las teoras

cientficas basndose en los conceptos de la inferencia estadstica en general y de los contrastes de hiptesis. En estecontexto, cuando se desea optar entre dos posibles teoras cientficas para un mismo fenmeno (dos hiptesis) se

debe realizar un contraste estadstico a partir de los datos disponibles sobre el fenmeno que permitan optar por una

u otra.

Las tcnicas de contraste de hiptesis son tambin de amplia aplicacin en muchos otros casos, como ensayos

clnicos de nuevos medicamentos, control de calidad, encuestas, etctera.

Test estadsticos

Nombre Frmula Notas

Test-z para una muestra (Poblacin distribuida normal on> 30) y conocida.

(z es la distancia desde la media en relacin con la desviacin estndar

de la media). Para distribuciones no normales es posible calcular una

proporcin mnima de una poblacin que cae dentro de k desviaciones

estandar para cualquier k.

Test-z para dos muestras Poblacin normal y observaciones independientes con 1

y 2

conocidas

Una muestra t-test (Poblacin normal on> 30) y desconocida

t-test parejado (Poblacin normal de diferencias on> 30) y desconocida o pequea

muestra de tamao n< 30

Dos muestras

combinadas t-test,

varianzas iguales

[1]

(Poblaciones normales on1+ n

2> 40) y observaciones independientes

y 1

= 2

desconocido

Dos muestras no

combinadas t-test,

varianzas desiguales

(Poblaciones normales on1+ n

2> 40) y observaciones independientes

y 1

2ambas desconocidas

Una proporcin z-testn

.p

0> 10 andn(1 p

0) > 10 y es una muestra aleatoria simple, vase

distribucin binomial.

Dos proporciones z-test,

combinadas por n

1p

1> 5 yn

1(1 p

1) > 5 yn

2p

2> 5 yn

2(1 p

2) > 5 y observaciones

independientes, vase la aproximacin normal de la distribucin

binomial.

Dos proporciones z-test,

descombinadas por

n1p

1> 5 yn

1(1 p

1) > 5 yn

2p

2> 5 yn

2(1 p

2) > 5 y observaciones

independientes, vase la aproximacin normal de la distribucinbinomial.
http://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomialhttp://es.wikipedia.org/w/index.php?title=T-testhttp://es.wikipedia.org/w/index.php?title=T-testhttp://es.wikipedia.org/w/index.php?title=Encuestahttp://es.wikipedia.org/w/index.php?title=Control_de_calidadhttp://es.wikipedia.org/w/index.php?title=Ensayo_cl%C3%ADnicohttp://es.wikipedia.org/w/index.php?title=Ensayo_cl%C3%ADnicohttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Falsabilidadhttp://es.wikipedia.org/w/index.php?title=Filosof%C3%ADa_de_la_cienciahttp://es.wikipedia.org/w/index.php?title=Inferencia_estad%C3%ADstica


17/35


Test de la chi cuadrado

para la varianza

Poblacin normal

Test de la chi cuadrado

para la bondad de ajuste

df = k - 1 - # parmetros estimados, y uno de ellos debe tenerse.

Test de la F de Snedecor

para dos muestras para la

igualdad de varianzas

Poblaciones normales

Cumpla que y rechace H0 para[2]

Test de la regresin t-test

de*Restar 1 por variable dependiente; k es el nmero de variables

independientes.

Reject H0

for[3]

En general, el subndice 0 indica un valor dado de la hiptesis nula, H0, la cual debe ser usada tanto como sea posible en la construccin del test

estadstico. ... Definiciones de otros smbolos:

, la probabilidad del erro tipo I (rechazando

una hiptesis nula cuando es en realidad cierta)

= Varianza de la muestra =x/n = proporcin muestra/proporcin, a

menos que se especifique otra manera

= tamao de la muestra = Desviacin estndar de la

muestra 1

= proporcin de la poblacin hipottica

= tamao de la muestra 1 = Desviacin estndar de la

muestra 2

= proporcin 1

= tamao de la muestra 2 = T de student = proporcin 2

= media de la muestra = Grados de libertad = Diferencia hipottica en la proporcin

= media de la poblacin hipottica = Diferencias de las medias

de las muestras

= Mnimo de n1

y n2

= media de la poblacin 1 = Diferencia de las medias

poblacionales hipotticas

= media de la poblacin 2 = Diferencias de las

desviaciones estndares

= desviacin de la poblacin = Estadstico chi-cuadrado = Estadstico F

= varianza poblacional

= Desviacin estndar de la muestra

= Suma (de nmeros k)

Enlaces externos

Inferencia estadstica, apuntes del Departamento de Matemticas de la Universidad de La Corua [4]

HESTADIS - Clculo del contraste de hiptesis para la media con varianza poblacional conocida (gratuito) [5]

Carlos Reynoso - Atolladeros del pensamiento aleatorio: Batallas en torno de la prueba estadstica. [6]

Referencias

[1] NIST handbook: Two-Sample t-Test for Equal Means (http://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm)

[2] NIST handbook: F-Test for Equality of Two Standard Deviations (http://www.itl.nist.gov/div898/handbook/eda/section3/eda359.htm)

(Testing standard deviations the same as testing variances)

[3] Steel, R.G.D, and Torrie, J. H.,Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill,

1960, page 288.)

[4] http://www.udc.es/dep/mate/estadistica2/sec1_3.html

[5] http://www.vaxasoftware.com/soft_edu/hestadis.html

[6] http://carlosreynoso.com. ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica
http://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadisticahttp://www.vaxasoftware.com/soft_edu/hestadis.htmlhttp://www.udc.es/dep/mate/estadistica2/sec1_3.htmlhttp://es.wikipedia.org/w/index.php?title=McGraw_Hillhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda359.htmhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htmhttp://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadisticahttp://www.vaxasoftware.com/soft_edu/hestadis.htmlhttp://www.udc.es/dep/mate/estadistica2/sec1_3.htmlhttp://es.wikipedia.org/w/index.php?title=Mediahttp://es.wikipedia.org/w/index.php?title=T_de_studenthttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=Probabilidadhttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nulahttp://es.wikipedia.org/w/index.php?title=F_de_Snedecor


18/35

Correlacin 16

Correlacin

En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad

entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores

de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A

y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entredos variables no implica, por s misma, ninguna relacin de causalidad (Vase cum hoc ergo propter hoc).

Fuerza, sentido y forma de la correlacin

La relacin entre dos variables cuantitativas queda representada mediante la lnea de mejor ajuste, trazada a partir de

la nube de puntos. Los principales componentes elementales de una lnea de ajuste y, por lo tanto, de una

correlacin, son la fuerza, el sentido y la forma:

La fuerza extrema segn el caso, mide el grado en que la lnea representa a la nube de puntos: si la nube es

estrecha y alargada, se representa por una lnea recta, lo que indica que la relacin esfuerte; si la nube de puntos

tiene una tendencia elptica o circular, la relacin es dbil. El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B,

la relacin espositiva; si al crecer los valores de A disminuyen los de B, la relacin es negativa.

La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta, la curva monotnica o la curva no

monotnica

Coeficientes de correlacin

Existen diversos coeficientes que miden el grado de correlacin, adaptados a la naturaleza de los datos. El ms

conocido es el coeficiente de correlacin de Pearson (introducido en realidad por Francis Galton), que se obtiene

dividiendo la covarianza de dos variables entre el producto de sus desviaciones estndar. Otros coeficientes son:

Coeficiente de correlacin de Spearman

Correlacin cannica

Coeficiente de Correlacin Intraclase

Interpretacin geomtrica

Dados los valores muestrales de dos variables aleatorias e , que pueden ser

consideradas como vectores en un espacio a n dimensiones, pueden construirse los "vectores centrados" como:

e .

El coseno del ngulo alfa entre estos vectores es dada por la frmula siguiente:

Pues es el coeficiente de correlacin muestral de Pearson. El coeficiente de correlacin es el coseno entre

ambos vectores centrados:

Si r = 1, el ngulo , ambos vectores son colineales (paralelos).

Si r = 0, el ngulo , ambos vectores son ortogonales. Si r =-1, el ngulo , ambos vectores son colineales de direccin opuesto.
http://es.wikipedia.org/w/index.php?title=Cosenohttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_Correlaci%C3%B3n_Intraclasehttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_can%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Covarianzahttp://es.wikipedia.org/w/index.php?title=Francis_Galtonhttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n_de_Pearsonhttp://es.wikipedia.org/w/index.php?title=Curva_no_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Curva_no_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=Curva_monot%C3%B3nicahttp://es.wikipedia.org/w/index.php?title=L%C3%ADnea_rectahttp://es.wikipedia.org/w/index.php?title=M%C3%ADnimos_cuadradoshttp://es.wikipedia.org/w/index.php?title=Cum_hoc_ergo_propter_hochttp://es.wikipedia.org/w/index.php?title=Variable_estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Proporcionalidadhttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_matem%C3%A1ticahttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Probabilidad


19/35

Correlacin 17

Ms generalmente: .

Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el coeficiente de correlacin tiene

siempre un sentido, cualquiera si que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado

de dependencia entre las variables, que sobre su distancia angular en la hiperesfera a n dimensiones.

La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que reposa en esta idea. La

correlacin lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.La frmula de correlacin para dos series distintas con cierto desfase "k", est dada por la frmula:

Distribucin del coeficiente de correlacin

El coeficiente de correlacin muestral de una muestra es de hecho una varible aleatoria, eso significa que si

repetimos un experimento o consideramos diferentes muestras se obtendrn valores diferentes y por tanto el

coeficiente de correlacin muestral calculado a partir de ellas tendr valores ligeramente diferentes. Para muestras

grandes la variacin en dicho coeficiente ser menor que para muestras pequeas. R. A. Fisher fue el primero en

determinar la distribucin de probabilidad para el coeficiente de correlacin.

Si las dos variables aleatorias que trata de relacionarse proceden de una distribucin gaussiana bivariante entonces el

coeficiente de correlacin r sigue una distribucin de probabilidad dada por:[1][2]

donde:

es la distribucin gamma

es la funcin gaussiana hipergeomtrica.

Ntese que , por tanto r es estimador sesgado de .

Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuacin:

for

Aunque, la solucn:

es subptima. Se puede obtener un estimador sesgado con mnima varianza para grandes valores de n, con sesgo de

orden buscando el mximo de la expresin:

, i.e.

En el caso especial de que , la distribucin original puede ser reescrita como:
http://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_hipergeom%C3%A9tricahttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_gammahttp://es.wikipedia.org/w/index.php?title=Hiperesfera


20/35

Correlacin 18

donde es la funcin beta.

Referencias

[1] Kenney, J. F. and Keeping, E. S.,Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.

[2] Correlation Coefficient - Bivariate Normal Distribution (http://mathworld.wolfram.com/

CorrelationCoefficientBivariateNormalDistribution.html)

Enlaces externos

Diccionario Estadstico - Divestadstica (http://www.divestadistica.es/es/diccionario_estadistico.html#C) (en

castellano)

(http:/ /cajael.com/mestadisticos/T1EDescriptiva/node20.php) Simulacin de la correlacin entre dos

variables discretas con R (lenguaje de programacin)

Coeficiente de correlacin de Spearman

El coeficiente de correlacin de Spearman es

menos sensible que el de Pearson para los valores

muy lejos de lo esperado. En este ejemplo:

Pearson = 0.30706 Spearman = 0.76270

En estadstica, el coeficiente de correlacin de Spearman, (ro) es

una medida de la correlacin (la asociacin o interdependencia) entre

dos variables aleatorias continuas. Para calcular , los datos son

ordenados y reemplazados por su respectivo orden.

El estadstico viene dado por la expresin:

donde D es la diferencia entre los correspondientes estadsticos de

orden dex -y.N es el nmero de parejas.

Se tiene que considerar la existencia de datos idnticos a la hora de

ordenarlos, aunque si stos son pocos, se puede ignorar tal

circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de

Student

La interpretacin de coeficiente de Spearman es igual que la del coeficiente de correlacin de Pearson. Oscila entre

-1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero noindependencia. La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos ordenaciones de

una distribucin normal bivariante.

Ejemplo

Los datos brutos usados en este ejemplo se ven debajo.
http://es.wikipedia.org/w/index.php?title=Tau_de_Kendallhttp://es.wikipedia.org/w/index.php?title=Coeficiente_de_correlaci%C3%B3n_de_Pearsonhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Variables_aleatoriashttp://es.wikipedia.org/w/index.php?title=Rhohttp://es.wikipedia.org/w/index.php?title=Estad%C3%ADsticahttp://es.wikipedia.org/w/index.php?title=Archivo%3ASpearman_500x325.pnghttp://es.wikipedia.org/w/index.php?title=R_%28lenguaje_de_programaci%C3%B3n%29http://cajael.com/mestadisticos/T1EDescriptiva/node20.phphttp://www.divestadistica.es/es/diccionario_estadistico.html#Chttp://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.htmlhttp://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.htmlhttp://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_beta


21/35


22/35

Coeficiente de correlacin de Spearman 20

Determinando la significacin estadstica

La aproximacin moderna al problema de averiguar si un valor observado de es significativamente diferente de

cero (siempre tendremos -1 1) es calcular la probabilidad de que sea mayor o igual que el esperado, dada la

hiptesis nula, utilizando un test de permutacin. Esta aproximacin es casi siempre superior a los mtodos

tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informtica no sea suficiente para

generar permutaciones (poco probable con la informtica moderna), o a no ser que sea difcil crear un algoritmo paracrear permutaciones que sean lgicas bajo la hiptesis nula en el caso particular de que se trate (aunque normalmente

estos algoritmos no ofrecen dificultad).

Aunque el test de permutacin es a menudo trivial para cualquiera con recursos informticos y experiencia en

programacin, todava se usan ampliamente los mtodos tradicionales para obtener significacin. La aproximacin

ms bsica es comparar el observado con tablas publicadas para varios niveles de significacin. Es una solucin

simple si la significacin slo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras

haya tablas disponibles que especifiquen los rangos adecuados. Ms abajo hay una referencia a una tabla semejante.

Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los aos se han usado

complicados trucos matemticos para generar tablas para tamaos de muestra cada vez mayores, de modo que no es

prctico para la mayora extender las tablas existentes.

Una aproximacin alternativa para tamaos de muestra suficientemente grandes es una aproximacin a la

distribucin t de Student. Para tamaos de muestra ms grandes que unos 20 individuos, la variable

tiene una distribucin t de Student en el caso nulo (correlacin cero). En el caso no nulo (ej: para averiguar si un

observado es significativamente diferente a un valor terico o si dos s observados difieren significativamente, los

tests son mucho menos potentes, pero puede utilizarse de nuevo la distribucin t.

Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms condiciones, varios

individuos son observados en cada una de ellas, y predecimos que las observaciones tendrn un orden en particular.

Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que

su habilidad mejorar de intento en intento. Un test de la significacin de la tendencia entre las condiciones en esta

situacin fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas

ordenadas.

Enlaces externos

Tabla de los valores crticos del coeficiente de correlacin de Spearman para muestras pequeas [1] (ingls)

Calculadora en internet [2] (ingls)

Fuente

Wikipedia. Traduccin del ingls.

Referencias

[1] http://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm

[2] http://www.wessa.net/rankcorr.wasp
http://www.wessa.net/rankcorr.wasphttp://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htmhttp://www.wessa.net/rankcorr.wasphttp://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htmhttp://es.wikipedia.org/w/index.php?title=Page%27s_trend_testhttp://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_t_de_Studenthttp://es.wikipedia.org/w/index.php?title=Conjunto_de_datoshttp://es.wikipedia.org/w/index.php?title=Remuestreo%23Test_de_Permutaci%C3%B3nhttp://es.wikipedia.org/w/index.php?title=Hip%C3%B3tesis_nula


23/35

Anlisis de la correlacin cannica 21

Anlisis de la correlacin cannica

El anlisis de correlacin cannica es un mtodo de anlisis multivariante desarrollado por Harold Hotelling. Su

objetivo es buscar las relaciones que pueda haber entre dos grupos de variables y la validez de las mismas. Se

diferencia del anlisis de correlacin mltiple en que ste slo predice una variable dependiente a partir de mltiples

independientes, mientras que la correlacin cannica predice mltiples variables dependientes a partir de mltiplesindependientes. La correlacin hipercannica es una correlacin lineal y, por tanto, slo busca relaciones lineales

entre las variables.

Al disear el experimento hay que considerar el tamao de la muestra ya que son necesarias un mnimo de

observaciones por variable, para que el anlisis pueda representar las correlaciones adecuadamente.

Finalmente, hay que interpretar las cargas cannicas para determinar la importancia de cada variable en la funcin

cannica. Las cargas cannicas reflejan la varianza que la variable observada comparte con el valor terico cannico.

Iconografa de las correlacionesLa iconografa de las correlaciones, uno de los mtodos de anlisis de datos, consiste en reemplazar una matriz de

correlacin por un esquema o grafo donde las correlaciones notables son representadas por un trazo continuo

(correlacin positiva), o un trazo punteado (correlacin negativa).

A partir de un cuadro de datos (por ejemplo, una hoja de clculo) que contiene columnas (variables) y lneas

(observaciones de estas variables), la iconografa de las correlaciones elimina las falsas buenas correlaciones

entre estas variables, esto es, las que se deben a una tercera variable, y detecta las correlaciones enmascaradas. El

esquema final, que presenta solo los vnculos directos entre las variables cualitativas y\o cuantitativas, es un medio

de percibir de una ojeada lo esencial, sobre una figura nica, quitando las redundancias.

Correlaciones "notables" entre los perfiles alimenticios en

Europa.

Qu es una correlacin notable?

Una correlacin no tiene sentido aisladamente.

Recprocamente una correlacin escasa no implica la ausencia

de vnculo.

Ejemplo 1 : las variables A y C se correlacionan

fuertemente porque sus variaciones son vinculadas las

dos a una variable X. En realidad no hay vnculo AC,

sino un vnculo XA y un vnculo XC. En otros

trminos, la correlacin entra A y C es redundante, ydesaparece, cuando X es mantenido constante

(hablamos de correlacin parcial escasa con relacin a

X). Lo deducimos el esquema de las solas correlaciones

notables :

Ejemplo 2 : la variable Y depende de varias variables C, D, E, F y G independientes. Tambin la correlacin

de Y con cada una de ellas, consideradas por separado, es escasa (no "significativa" con sentido probabilista

del trmino). En realidad, existen unos vnculos rigurosos CY, DY, EY, FY y GY. Lo deducimos el esquema

de las correlaciones notables :
http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation1.pnghttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo%3ACorrelationIconographyEsp.pnghttp://es.wikipedia.org/w/index.php?title=Hoja_de_c%C3%A1lculohttp://es.wikipedia.org/w/index.php?title=Grafohttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_datoshttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_correlaci%C3%B3n_m%C3%BAltiplehttp://es.wikipedia.org/w/index.php?title=Harold_Hotellinghttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_multivariante


24/35


Seleccin de los vnculos notables

Ilustrmosla sobre un pequeo ejemplo: en el momento de un control matemtico de un nivel de clase de tercer ao

de bachillerato, ocho alumnos del primer ao al ltimo curso, cuyo peso, la edad y la asiduidad conocemos,

obtuvieron las notas siguientes:

Datos originales

Alumno Peso Edad Asiduidad Nota

e1 52 12 12 5

e2 59 12,5 9 5

e3 55 13 15 9

e4 58 14,5 5 5

e5 66 15,5 11 13,5

e6 62 16 15 18

e7 63 17 12 18

e8 69 18 9 18

Matriz de correlacin

Peso Edad Assiduidad Nota

Peso 1

Edad 0,885 1

Asiduidad -0,160 -0,059 1

Nota 0,774 0,893 0,383 1

Coloquemos nuestras cuatro variables al azar sobre el papel, y tracemos uno trazo entre dos de ellas cada vez que su

correlacin es superior al umbral 0,3 en valor absoluto.

A la vista de este esquema, la correlacin (peso, nota) = 0.774, relativamente fuerte, da a pensar que el peso tiene

ms influencia sobre la nota que la asiduidad! Pero, por otra parte, tenemos las correlaciones (peso, edad) = 0,885, y(edad, nota) = 0,893.
http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation3esp.pnghttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation2.png


25/35


A partir de estos 3 coeficientes de correlacin total, la frmula de la correlacin parcial da: correlacin (peso, nota)

a edad constante : = -0,08

La correlacin entre nota y peso, a edad constante fuertemente baj (es hasta ligeramente negativa)! De otro trmino

el peso no tiene influencia sobre la nota. Borremos el vnculo entre peso y nota:

En definitiva, un vnculo no es trazado,

sea porque su correlacin total es inferior al umbral, en valor absoluto,

sea porque existe por lo menos una correlacin parcial inferior al umbral, en valor absoluto, o de signo contrario a

la correlacin total.

No es necesario, aqu, de borrar otros vnculos, como se lo verifica a partir de los valores de otras correlaciones

parciales:Correlacin (peso, nota) a asiduidad constante = 0,92

Correlacin (edad, peso) a nota constante = 0,68

Correlacin (edad, peso) a asiduidad constante = 0,89

Correlacin (edad, nota) a peso constante= 0,71

Correlacin (asiduidad, peso) a nota constante = -0,78

Correlacin (asiduidad, peso) a edad constante = -0,23

Correlacin (asiduidad, nota) a peso constante = 0,81

Correlacin (asiduidad, nota) a edad constante = 0,97Correlacin (asiduidad, edad) a peso constante = 0,18

Correlacin (asiduidad, edad) a nota constante = -0,97

Instantes notables del anlisis

Los datos disponibles permiten llevar ms lejos el anlisis.

Podemos considerar en efecto cada lnea como un instante del anlisis, caracterizado por una variable indicadora

igual a 1 en el instante de la lnea considerada, y a 0, en otro caso:

Alumno Peso Edad Asiduidad Nota e1 e2 e3 e4 e5 e6 e7 e8

e1 52 12 12 5 1 0 0 0 0 0 0 0

e2 59 12,5 9 5 0 1 0 0 0 0 0 0

e3 55 13 15 9 0 0 1 0 0 0 0 0

e4 58 14,5 5 5 0 0 0 1 0 0 0 0

e5 66 15,5 11 13,5 0 0 0 0 1 0 0 0

e6 62 16 15 18 0 0 0 0 0 1 0 0

e7 63 17 12 18 0 0 0 0 0 0 1 0

e8 69 18 9 18 0 0 0 0 0 0 0 1
http://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation4esp.pnghttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcial


26/35


Aunque los instantes llevan los mismos nombres que los alumnos, hay que recordar que las alumnas son unas

lneas (observaciones), mientras que los instantes son unas columnas, que forman parte de las variables, con el

mismo ttulo que las 4 primeras columnas.

Podemos pues adoptar el mismo criterio de trazado de los vnculos para los "instantes" y las variables originales. No

obstante, para no agravar el esquema, dibujemos solamente los instantes vinculados a una variable por lo menos

(instantes notables).

Los instantes son representados por un tringulo, para que se puedan distinguir de las variables originales, que son

representadas por un cuadrado.

Con relacin al esquema precedente, el vnculo entre nota y asiduidad desapareci, reemplaz por los vnculos

(Nota, e6) y (Asiduidad, e6) . Era pues redundante: el alumno e6, muy asiduo y bien anotado, le explica a solas el

vnculo (Nota, Asiduidad) .

El alumno e3 tiene asiduidad notablemente fuerte, y el alumno e4 asiduidad notablemente escasa (trazo

punteado).

Un vnculo es dicho notable cuando otros vnculos presentes sobre la figura no bastan con explicarlo.

El alumno e6 tiene en efecto una nota notable: 18/20.

Los alumnos e7 y e8 que tienen, tambin, 18/20, no son notables: no aparecen sobre el esquema, porque, ms de

edad, sus nota es ya explicada por el vnculo (edad, anota).

Del mismo modo, podemos verificar sobre los datos, que e5 tiene un peso notablemente fuerte para su edad (con

relacin a los 8 alumnos de la poblacin estudiada); mientras que el alumno e1 tiene un peso notablemente escaso

para su edad.

Los vnculos entre cuadrados (variables - variables) subrayan las leyes generales; los vnculos cuadrado-tringulo

(variable - instante) subrayan los acontecimientos raros.

Algoritmo de la iconografa de las correlaciones

El principio de la iconografa de las correlaciones es bastante simple para permitir un trazado manual, si el cuadro de

datos es pequeo. Si no, hay que recurrir a un programa que contiene, en entrada, la matriz de correlacin y el

umbral escogido (por ejemplo 0,3). He aqu el algoritmo:

Para evitar las redundancias, el vnculo AB es trazado si y solamente si la correlacin total r(A,B) es superior

al umbral en valor absoluto, y si las correlaciones parciales r(A,B), con relacin a una variable Z, son

superiores al umbral, en valor absoluto, y con lo mismo signo que la correlacin total, para todo Z entre las

variables disponibles, incluido los instantes.

Este criterio de trazado es estricto, y garantiza la seleccin de los vnculos notables.

Las variables pueden ser cuantitativas y\o cualitativas (siempre y cuando estas ltimas utilicen una codificacin

disyuntiva completa).
http://es.wikipedia.org/w/index.php?title=Codificaci%C3%B3n_disyuntiva_completahttp://es.wikipedia.org/w/index.php?title=Codificaci%C3%B3n_disyuntiva_completahttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation5esp.png


27/35


Posicin de los puntos sobre el papel

El ejemplo anterior mostr dos tipos de puntos: las variables (cuadrados), y los instantes (tringulos). Una vez

encontrados los vnculos entre estos elementos, positivos (trazos continuos) o negativos (trazos punteados), solo

queda dibujarlos sobre el papel.

Toda libertad de posicionamiento es dejada al analista, ya que la interpretacin depende de vnculos y no de

posiciones.

En lo posible, hay que evitar los cruces intiles entre vnculos, molestando para la lectura. El esquema siguiente, por

ejemplo, es menos legible que el precedente, aunque la interpretacin sea la misma (vnculos idnticos):

Varias tcnicas pueden ser utilizadas para colocar los puntos de modo automtico.

Un primer enfoque consiste en proyectar la nube de puntos de las variables sobre los dos primeros ejes de un anlisis

de los componentes principales. Pero las proyecciones no son adaptadas siempre a una buena legibilidad cuando hay

muchos componentes principales estadsticamente significativos, y particularmente en caso de mezcla de variables

cualitativas y cuantitativas.

Otro enfoque consiste en sacar partido de la interpretacin geomtrica del coeficiente de correlacin (coseno), y en

dibujar el esquema a la superficie de una esfera a 3 dimensiones.

Al siendo el arco-coseno de la correlacin una distancia angular, dos puntos sern tanto ms prximos sobre laesfera cuanto sern correlacionados ms (positivamente). A la inversa la distancia angular entre dos puntos

que se correlacionan negativamente es un ngulo obtuso; si la correlacin vale -1, los puntos son opuestos

sobre la esfera (ngulo 180).

Se trata, desde luego, de un mal menor, porque la esfera efectiva no est a 3 dimensiones, sino a n

dimensiones. Si pues dos puntos que se correlacionan mucho forzosamente son prximos sobre el dibujo, lo

inverso no est segura: dos puntos muy prximos sobre el dibujo no se correlacionan forzosamente. No

obstante, la ausencia de vnculo trazado levanta la ambigedad.

Podramos contemplar muchos otros modos de eleccin de las posiciones: el ms utilizado consiste en escoger como

distancia angular el arco-coseno del valor absoluto de la correlacin. As, los puntos que se correlacionan

negativamente no son opuestos sobre la esfera, y el vnculo punteado es ms corto y atesta menos el esquema

En prctica, en un enfoque software, una primera variable A es dibujada dondequiera sobre la esfera. Luego la

variable B que se correlacionan menos a esta primera es puesta sobre la esfera a la distancia

arco-coseno(r(A,B)) de la primera. Colocamos entonces, por triangulacin, la variable C la menos

correlacionada con ambas primeras. Otros puntos son puestos poco a poco. Si la cuarta variable tiene una

correlacin nula con las tres primeras, no es materialmente posible asignarle una posicin exacta. Las

distancias son vueltas a calcular de modo proporcional a los valores efectivos. Al cabo de un cierto tiempo, la

posicin de los primeros puntos es vuelta a calcular segn los siguientes. Etc. As, la figura progresivamente es

reajustada.
http://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_los_componentes_principaleshttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_de_los_componentes_principaleshttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation6esp.png


28/35


Eleccin del umbral

El umbral puede variar entre 0 y 1. Un vnculo es trazado si, no solamente la correlacin total pero adems todas las

correlaciones parciales correspondientes son superiores al umbral en valor absoluto y del mismo signo. Esta

condicin es severa, y los vnculos que subsisten son ricos, en general, en informacin.

Aumentar el valor del umbral disminuye el nmero de vnculos, y clarifica la figura, pero disminuye tambin la

informacin, sobre todo cuando la variable de inters depende de varias variables independientes.

Es a menudo preferible tomar un umbral bastante bajo. Luego, si la figura completa es demasiado prolija, se puede

dibujar slo los vnculos a la variable de inters.

Por ejemplo, cuando se aborda nuevos datos, y cuando no se sabe cual umbral escoger, podremos comenzar por:

un umbral = 0.3 para un anlisis de datos;

un umbral = 0.1 para el anlisis de los resultados de un diseo de experimentos. En este caso en efecto, todos

los factores son controlados, y podemos permitirnos no dibujar los "instantes" (a priori notables por

construccin del plano), lo que alivia la figura;

un umbral = 0.01, o menos, podr hasta ser escogido cuando la tabla de datos comprende varias centenas de

observaciones.En nuestro ejemplo, hasta el umbral nulo, el vnculo (peso, nota) no es trazado, porque la correlacin parcial con

relacin a la edad est con signo contrario a la correlacin total. Pero el vnculo (asiduidad, nota) aparece, y hay ms

instantes notables.

Organizacin de los vnculos

La Iconografa de las Correlaciones pretende poner en evidencia la organizacin de los vnculos, que puede ser

cerrada tanto como jerrquica o continuamente repartida.

La ausencia de eje, cualquiera que sea la dimensin del problema permite reemplazar una multitud de proyecciones

bidimensionales por una imagen nica, o lo esencial aparece de una ojeada.

Retirada de una influencia evidente

Es comn, en anlisis de datos, disponer de una variable Z cuya influencia, preponderante, y ya bien conocida,

enmascara fenmenos ms finos que procuramos descubrir.

La solucin consiste en trazar el esquema, no de la matriz de correlacin total, pero de la matriz de las correlaciones

parciales con relacin a Z, con el fin de retirar toda influencia lineal de Z si existe all (creciente o decreciente) sobre

otras variables. El esquema revela entonces otra organizacin, abstraccin hecha las variaciones de Z.

Por ejemplo, retiremos el componente de la edad, cuya influencia, preponderante, es bien conocida. El esquema

revela entonces la influencia directa de la asiduidad sobre la nota. La edad desapareci de la figura, as como su

componente en todas las variables. Y el peso se encuentra aislado.
http://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Correlaci%C3%B3n_parcialhttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation7esp.png


29/35


En una tabla de datos que contiene ms variables puede ser interesante retirar varias influencias (el resultado no

depende del orden en el cual son retirados).

Interacciones lgicas notables

Lo mismo que los instantes son aadidos, ms arriba, a la tabla inicial, como de nuevas columnas, lo mismo,podemos aadir otras columnas, por ejemplo funciones de las variables iniciales, en particular las interacciones

lgicas, que son unos acoplamientos de variables.

El nmero de columnas suplementarias importa poco, con tal que se aada sobre el esquema slo a las que sern

vinculadas a uno por lo menos variables iniciales, con el fin de no agravar intilmente la figura.

Por ejemplo, en respuesta al aadido de nuevas columnas que corresponde a "y" lgica entre dos variables

cualquiera, slo la interaccin Edad&Asiduidad directamente parece vinculada a la nota :

La interaccin lgica aporta algo adems a la interpretacin (habida cuenta, por supuesto, del pequeo nmero de

variables explicativas disponibles en este ejemplo): para obtener una buena nota no basta con tener mayor edad, hay

que tambin ser asiduo a la clase.
http://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation8esp.pnghttp://es.wikipedia.org/w/index.php?title=Interacci%C3%B3n_l%C3%B3gicahttp://es.wikipedia.org/w/index.php?title=Interacci%C3%B3n_l%C3%B3gicahttp://es.wikipedia.org/w/index.php?title=Archivo:LinkCorrelation9espbis.png


30/35


Base de conocimiento asociada con esquema

Los vnculos del esquema pueden ser descritos de la manera siguiente: a cada vnculo trazado, asociemos una regla

del tipo SI ENTONCES, seguida por el valor del coeficiente de correlacin total, precedido por uno * si el

vnculo es trazado, y de ? si el vnculo no es trazado, porque dudoso (el valor de la correlacin es superior al

umbral a causa de una sola observacin).

SI Peso ENTONCES Edad *.885

SI Edad ENTONCES Peso *.885

SI Edad ENTONCES Nota *.893

SI Nota ENTONCES Edad *.893

SI Asiduidad ENTONCES Edad*Asiduidad ?.493

SI Nota ENTONCES Edad*Asiduidad *.960

SI Edad*Asiduidad ENTONCES Nota *.960

SI .e1 ENTONCES Peso *.610

SI .e3 ENTONCES Asiduidad *.484SI .e4 ENTONCES Asiduidad *.726

SI .e5 ENTONCES Peso *.395

SI .e6 ENTONCES Edad*Asiduidad *.597

Los vnculos entre variables son indicados aqu en ambas direcciones, porque la causalidad no es directamente

deducible de la correlacin.

Los vnculos instantes notables - variables pueden ser indicadas en una sola direccin, porque la variable

emana de su realizacin en el instante considerado.

Una base de conocimiento puede servir de entrada a un sistema experto; y el utilizador puede enriquecerlo o

precisarlo.Por ejemplo, es contrario al sentido comn decir que la edad depende de una buena nota. No obstante lo

inverso puede ser posible. Lo mismo, los nios engordan aumentando, pero no es el peso que hace el nmero

de los aos. El utilizador puede pues suprimir las reglas SI Nota ENTONCES Edad .893, SI Nota

ENTONCES Edad *Asiduidad .960 y SI Peso ENTONCES Edad .885.

La base de conocimiento as modificado da un esquema donde ciertos vnculos son orientados en lo sucesivo.

Podemos aplicarle la Teora de grafos y sacarlo flujos de informaciones.
http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_de_grafoshttp://es.wikipedia.org/w/index.php?title=Sistema_experto


31/35


Campos de aplicacin

El mtodo se aplica en campos mltiples.

Un medio de no olvidar nada de esencial en un cuadro de datos

Vase un ejemplo de aplicacin a un gran cuadro de datos astronmicos difcil de aprehender de una ojeada.

Iconografa de correlaciones planetarias.Trazos continuos: correlaciones positivas.

Trazos punteados: correlaciones negativas

Mediante iconografa de las

correlaciones se puede representar, en

una figura nica, las relaciones ms

notables de la tabla anterior de los

Planetas principales. Podemos ver las

correlaciones ms notables (vnculos),

ya sean positivas (trazos continuos) o

negativas (trazos punteados) entre las

distintas variables.

La figura muestra los vnculos ms omenos evidentes (como la de la

gravedad con la velocidad de escape);

y tambin los vnculos propios de cada

planeta. Es un medio de no olvidar

nada de esencial en el cuadro de datos.

Se indican a continuacin algunas de

las correlaciones:

Los planetas con fuerte velocidad

orbital (como Mercurio) tienen

tambin una densidad fuerte y una

temperatura de superficie fuerte (en particular Vnus).

La Tierra tiene una inclinacin escasa (trazo punteado), mucho O2

en su atmsfera, y fuerte discriminante

planetario (trazos continuos).

Un gran perodo de rotacin corresponde a una inclinacin axial escasa y a una excentricidad fuerte.

El anlisis de los tableros de mandos

El tablero de mandos de gestin es un medio de pilotaje y de diagnstico. Constituido por varios indicadores de

realizacin, permite conocer la carga de trabajo, percibir la hipertrofia o atrofias de ejecucin de las diferentes tareas,

situar las anomalas de funcionamiento, enderezar ciertas situaciones. Sin embargo, habida cuenta de los lmites denuestra memoria, un tablero de mandos debe contener pocas cifras para ser de empleo fcil.

La iconografa de las correlaciones es un medio de analizar un tablero de mandos que tiene muchas cifras, y de

explotar verdaderamente todas las informaciones de la empresa. Pudiendo librarse de influencias exteriores (tales

como tendencias econmicas o decisiones de marketing), permite poner en evidencia la influencia mutua de las

tareas, analizar las causas de desviacin entre previsin y realizacin, y, gracias al esquema sinttico, traducir

rpidamente la informacin en forma de preconizaciones operacionales claras y bien apoyadas.
http://es.wikipedia.org/w/index.php?title=Archivo%3ADataPlanetas.pnghttp://es.wikipedia.org/w/index.php?title=Anexo:Datos_de_los_planetas_del_Sistema_Solar


32/35


Referencias

Lesty M. (1999) Une nouvelle approche dans le choix des rgresseurs de la rgression multiple en prsence

dinteractions et de colinarits. La revue de Modulad, n22, janvier 1999, pp. 41-77 [1]. (en francs)

Referencias

[1] http://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdf
http://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdfhttp://www-rocq.inria.fr/axis/modulad/archives/numero-22/Lesty-22/unenouvelle.pdf


33/35

Fuentes y contribuyentes del artculo 31

Fuentes y contribuyentes del artculoAnlisis de la regresinFuente: http://es.wikipedia.org/w/index.php?oldid=66382028 Contribuyentes: Acratta, Amads, ConPermiso, Cpey, Ezarate, GermanX, Ihtizon, Juan Mayordomo, LP,Lauranrg, MarcoAurelio, Matdrodes, SrDonPatrn, Wikilptico, 37 ediciones annimas

Regresin no linealFuente: http://es.wikipedia.org/w/index.php?oldid=68947694 Contribuyentes: Antn Francho, Chocoteco, ConPermiso, Deachp, Donatiu, Gaortizg, GermanX, Ggenellina,HanPritcher, Jarfil, Juan Mayordomo, Lucien leGrey, Matdrodes, Nizampop, Pacomegia, Rhernan, Tano4595, Technopat, Tirithel, Trujilloleonardo, 46 ediciones annimas

Regresin segmentadaFuente: http://es.wikipedia.org/w/index.php?oldid=64617025 Contribuyentes: ConPermiso, Juan Mayordomo, Mr. Moonlight

Contraste de hiptesisFuente: http://es.wikipedia.org/w/index.php?oldid=69349525 Contribuyentes: Acratta, Alakasam, Califasuseso, Cgb, Davius, Elpolaco08, Fenicio, Folkvanger, Hu12,Ialad, Isha, Jagarsoft, Jcaraballo, Jmvkrecords, Jorge c2010, Joseaperez, Juan Mayordomo, LauraFarina, Lloux, LuchoX, Matdrodes, Mxcatania, NACLE, Niqueco, Pabloallo, Plux, RaimundoPastor, Sageo, Varyatanil, 64 ediciones annimas

CorrelacinFuente: http://es.wikipedia.org/w/index.php?oldid=70497511 Contribuyentes: Acratta, Alhen, Bucho, Camilo, Davius, Diegusjaimes, Egozcue, El Quinche, Grillitus, Humberto,Jkbw, Juan Mayordomo, Lauranrg

Regresion y Correlacion Tipos de Regresion y Correlacion

Documents

Transcript of Regresion y Correlacion Tipos de Regresion y Correlacion