Analisis de Correlacion

8
Qué es el análisis de correlación? Es el estudio de la relación entre variantes. Para explicarlo mejor, supongamos que el gerente de ventas de Copier Sales of America, que tiene una fuerza de ventas muy numerosa en Estados Unidos y Canadá, quiere determinar si existe una relación entre el número de llamadas de ventas que se realizan al mes y el número de copiadoras que se venden durante ese mes. El gerente selecciona una muestra aleatoria de 10 representantes y determina el número de llamadas de ventas que cada uno hizo el mes pasado y la cantidad de copiadoras vendidas. La información de la muestra se presenta en la siguiente tabla. Representante de Ventas Número de llamadas de ventas Número de copiadoras vendidas Tom Keller 20 30 Jeff Hall 40 60 Brian Virost 20 40 Greg Fish 30 60 Susan Welch 10 30 Carlos Raírez 10 40 Rich Niles 20 40 Mike Kiel 20 50 Mark Reynolds 20 30 Soni Jones 30 70 Al revisar los datos, observamos que sí parece existir una relación entre el número de llamadas de ventas y el número de unidades vendidas. Es decir, los vendedores que hicieron mayor cantidad de llamadas vendieron más unidades. Sin embargo. La relación no es “perfecta” o exacta. Por ejemplo, Soni Jones hizo menos llamadas que Jeff Hall, pero vendió más unidades.

Transcript of Analisis de Correlacion

Page 1: Analisis de Correlacion

Qué es el análisis de correlación?

Es el estudio de la relación entre variantes. Para explicarlo mejor, supongamos que el

gerente de ventas de Copier Sales of America, que tiene una fuerza de ventas muy

numerosa en Estados Unidos y Canadá, quiere determinar si existe una relación entre el

número de llamadas de ventas que se realizan al mes y el número de copiadoras que se

venden durante ese mes. El gerente selecciona una muestra aleatoria de 10

representantes y determina el número de llamadas de ventas que cada uno hizo el mes

pasado y la cantidad de copiadoras vendidas. La información de la muestra se presenta

en la siguiente tabla.

Representante de Ventas Número de llamadas de ventas

Número de copiadoras vendidas

Tom Keller 20 30

Jeff Hall 40 60

Brian Virost 20 40

Greg Fish 30 60

Susan Welch 10 30

Carlos Raírez 10 40

Rich Niles 20 40

Mike Kiel 20 50

Mark Reynolds 20 30

Soni Jones 30 70

Al revisar los datos, observamos que sí parece existir una relación entre el número de llamadas de

ventas y el número de unidades vendidas. Es decir, los vendedores que hicieron mayor cantidad

de llamadas vendieron más unidades. Sin embargo. La relación no es “perfecta” o exacta. Por

ejemplo, Soni Jones hizo menos llamadas que Jeff Hall, pero vendió más unidades.

En lugar de hablar en términos generales, desarrollaremos algunas medidas estadísticas para

representar con mayor precisión la relación entre las dos variables, las llamadas de ventas y las

copiadoras vendidas. Este grupo de técnicas estadísticas se conoce como Análisis de

Correlación.

ANALISIS DE CORRELACION. Grupo de Técnicas para medir la asociación entre dos

variables.

La idea básica del análisis de correlación es reportar la asociación entre dos variables. Por lo

general, el primer paso consiste en incluir los datos en un Diagrama de Dispersión. Un ejemplo

Page 2: Analisis de Correlacion

nos ayudará a ilustrar cómo se usa un diagrama de dispersión.

Copier Sales of America vende copiadoras a negocios de cualquier tamaño en Estados Unidos y

Canadá. La señorita Marcy Bancer hace poco subió al puesto de gerente nacional de ventas. A la

próxima junta de ventas, van a asistir los representantes de todo el país. La señorita Bancer

quiere hacerles comprender la importancia de hacer llamadas de ventas adicionales cada día, por

lo que decide recopilar cierta información sobre la relación de entre el número de llamadas de

ventas y el número de copiadoras vendidas. Para ello, seleccionó una muestra aleatoria de 10

representantes de ventas y determinó el número de llamadas que hicieron el mes pasado y el

número de copiadoras que vendieron. La información de la muestra se detalla en la tala anterior.

Qué comentarios puede usted hacer acerca de la relación entre el número de llamadas de ventas

y el número de copiadoras vendidas? Elabore un diagrama de dispersión para presentar la

información.

Con base en la información de la anterior Tabla, la señorita Bancer sospecha que hay una relacion

entre el número de llamadas realizadas en un mes y el número de copiadoras vendidas. Soni

Jones vendió la mayor cantidad de copiadoras el mes pasado y fue una de los tres representantes

que hicieron 30 llamadas o más. Por otra parte, Susan Welch y Carlos Ramírez sólo hicieron 10

llamadas de ventas durante el mes pasado. La señorita Welch fue la que vendió menos

copiadoras entre los representantes de la muestra.

La conclusión es que el número de copiadoras vendidas tiene una relación con el número de

llamadas de ventas realizadas. Conforme aumenta el número de llamadas, al parecer, también se

incrementa el número de copiadoras vendidas. Nos referimos al número de llamadas de ventas

como la variante independiente y al número de copiadoras vendidas como la variable

dependiente.

VARIABLE DEPENDIENTE. La variable que se predice o calcula.

VARIANTE INDEPENDIENTE. Una variable que proporciona las bases para el cálculo. Es la

variable de predicción.

Es práctica común incluir la variable dependiente (copiadoras vendidas) sobre el eje vertical o Y, y

la variable independiente (número de llamadas de ventas) sobre el eje horizontal o X. Para

elaborar un diagrama de dispersión de la información de ventas de Copier Sales of America,

empezamos con el primer representante de ventas, Tom Keller. Tom hizo 20 llamadas de ventas el

mes pasado y vendió 30 copiadoras, de modo que X=20 y Y=30. Para trazar esta información,

desplacese a lo largo del eje horizontal hasta X=20, y luego en dirección vertical hasta Y=30 y

coloque un punto en la intersección. Este proceso continua hasta incluir todos los pares de datos,

Page 3: Analisis de Correlacion

como se muestra en la siguiente gráfica.

El diagrama de dispersión ilustra gráficamente que los representantes de ventas que hicieron

más llamadas vendieron más copiadoras. Es razonable que la señorita Bancer, gerente nacional

de ventas de Copier Sales of America, diga a sus vendedores que entre más llamadas de ventas

hagan, más copiadoras van a vender. Observe que aun cuando parece existir una relación positiva

entre ambas variables, no todos los puntos se encuentran en una linea. En la sección siguiente

vamos a medir la fuerza y la dirección de esta relación entre dos variables al determinar el

coeficiente de correlación.

El coeficiente de correlación.

Creado por Karl Pearson en 1900, el Coeficiente de Correlación describe la fuerza de la relación

entre dos grupos de variantes en escala de intervalo o de razón. El coeficiente de correlación se

representa con la letra “r” y a menudo se conoce como “r de Pearson y coeficiente de correlación

producto-momento de Pearson”. Puede asumir cualquier valor de -1.00 a+1.00, inclusive. Un

coeficiente de correlación de -1.00 a+1.00 indica una correlación perfecta. Por ejemplo, un

coeficiente de correlación para el ejemplo anterior, que se calcula en +1.00, indicaría que el

número de llamadas de ventas y el número de copiadoras vendidas tienen una relación perfecta

en un sentido lineal positivo. Un valor calculado de -1.00 revela que las llamadas de ventas y

copiadoras vendidas se relacionan en forma perfecta en un sentido lineal inverso.

Si no hay ninguna relación entre dos conjuntos de variables la “r de Pearson” es cero. Un

coeficiente de correlación “r” cercano a 0 (digamos de 0.08) indica que la relación lineal es muy

débil. Llegamos a la misma conclusión si r=-0.08. Los coeficientes de -0.91 y +0.91 tienen la

misma fuerza, ambos indican una correlación muy fuerte entre las dos variables. Por tanto, la

fuerza de la correlación no depende de la dirección (ya sea – o +).

en la gráfica siguiente se ilustran los diagramas de dispersión para r=0m una “r” débil (digamos, -

0.23) y una “r” fuerte, (digamos +0.87). observe que si la relación es débil, existe una dispersión

considerable alrededor de la línea que se traza desde el centro de los datos. Para el diagrama de

dispersión que representa una relación fuerte, hay muy poca dispersión alrededor de la línea. Esto

indica, en el ejemplo que se muestra en la gráfica, que las horas estudiadas constituyen un buen

factor de predicción de la calificación en el examen.

La gráfica siguiente resume la fuerza y la dirección del coeficiente de correlación.

Page 4: Analisis de Correlacion

Correlación negativa perfecta

No hay correlación

Correlación positiva perfecta

Correlación negativa

fuerte

Correlación negativa

moderada

Correlación negativa

débil

Correlación positiva débil

Correlación positiva

moderada

Correlación positiva fuerte

-1 -0.5 0 0.5 1

correlación negativa Correlación Positiva

COEFICIENTE DE CORRELACION: Medida de la magnitud de la relación entre dos variables.

Cómo se determina el valor del coeficiente de correlación? Utilizaremos como ejemplo los datos

de Copier Sales of America, que se reportan en la siguiente tabla. Trace una línea vertical a través

de los valores de los datos como la media de los valores X y una línea horizontal en la media de

los valores Y. En la gráfica 13-4 agregamos una línea vertical en 22.0 llamadas ( =

∑X/n=220/10=22) y una línea horizontal en 45.0 copiadoras ( =∑y/N=450/10=45.0). Estas líneas

pasan a través del “centro” de los datos y dividen el diagrama de dispersión en cuatro cuadrantes.

Considere mover el origen de (0,0) a 22,45).

Page 5: Analisis de Correlacion

llamadas de Ventas y Copiadoras Vendidas para 10 vendedores

Representante de Ventas Número de llamadas de ventas

(X)

Número de copiadoras vendidas

(Y)

Tom Keller 20 30

Jeff Hall 40 60

Brian Virost 20 40

Greg Fish 30 60

Susan Welch 10 30

Carlos Raírez 10 40

Rich Niles 20 40

Mike Kiel 20 50

Mark Reynolds 20 30

Soni Jones 30 70

Total 220 450

Dos variables tienen una relación positiva cuando el número de copiadoras vendidas está por

encima de la media y el número de llamadas de ventas también lo está. Estos puntos aparecen en

el cuadrante superior derecho de la gráfica 13-4. de modo similar, cuando el número de

copiadoras vendidas es inferior a la media, también lo es el número de llamadas de ventas. Estos

puntos se encuentran en la esquina inferior izquierda del cuadrante de la gráfica 13-4. por

ejemplo, la última persona en la lista de la tabla anterior, Soni Jones, hizo treinta llamadas de

ventas y vendió 70 copiadoras. Estos Valores se encuentran por encima de sus medias

respectivas, de modo que este punto se localiza en el cuadrante superior derecho. Hizo 8(X- =

30-22) más llamadas de ventas que la media y vendió 25 (Y- =70-45) más copiadoras que la

media. Tom Keller, el primer nombre en la lista hizo 20 llamadas y vendió 30 copiadoras. Ambos

valores son menores que la media respectiva, por tanto, este punto se encuentra en el cuadrante

inferior izquierdo. Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias

respectivas. Las desviaciones del número medio de llamadas de ventas y el número medio de

copiadoras vendidas se resumen en la tabla siguiente para los 10 representantes de ventas. La

suma de los productos de las desviaciones de las medias respectivas es 900. es decir, el término

∑(X- )(Y- )=900.

Representante de Ventas Llamadas X

Ventas Y X- Y- (X- )(Y- )

Tom Keller 20 30 -2 -15 30

Page 6: Analisis de Correlacion

Jeff Hall 40 60 18 15 270

Brian Virost 20 40 -2 -5 10

Greg Fish 30 60 8 15 120

Susan Welch 10 30 -12 -15 180

Carlos Raírez 10 40 -12 -5 60

Rich Niles 20 40 -2 -5 10

Mike Kiel 20 50 -2 5 -10

Mark Reynolds 20 30 -2 -15 30

Soni Jones 30 70 8 25 200

900

En los cuadrantes superior derecho e inferior izquierdo, el producto de (X- )(Y- ) es positivo porque los dos factores tienen el mismo signo. En nuestro ejemplo, esto sucede para todos los vendedores, excepto para Mike Kiel. Por tanto, podemos esperar que el coeficiente de correlación tenga un valor positivo.

Si las dos variables tienen una relación inversa, una estará por encima de la media y la otra debajo de la media. En este caso, la mayor parte de los puntos ocurren en los cuadrantes superior

izquierdo e inferior derecho. Ahora, (X- )(Y- ) tendrán signos opuestos, de modo que su producto es negativo. El coeficiente de correlación es negativo.

Que sucede si no hay una relación lineal entre las dos variables? Los puntos en el diagrama de

dispersión van a aparecer en los cuatro cuadrantes. Los productos negativos de (X- )(Y- ) superan a los productos positivos, de modo que la suma es cercana a cero. Esto da lugar a un coeficiente de correlación cercano a cero.

Pearson también quería que el coeficiente de correlación no se viera afectado por las unidades de las dos variables. Por ejemplo, de haber utilizado cientos de copiadoras vendidas en lugar del número vendido, el coeficiente de correlación sería el mismo. El coeficiente de correlación es

independiente de la escala utilizada si dividimos el término ∑(X- )(Y- ) entre las desviaciones estándar de la muestra. También se vuelve independiente del tamaño de la muestra y se limita por los valores +1.00 y -1.00 si dividimos (n-1).Este razonamiento lleva a la fórmula siguiente:

∑(X- )(Y- ) _____________

(n-1) sx sy

Para calcular el coeficiente de correlación, utilizamos las desviaciones estándar de la

muestra de 10 llamadas de ventas y 10 copiadoras vendidas. Podríamos usar la formula

(3-12) para calcular las desviaciones estándar o podríamos utilizar un programa de

software.

Ahora insertamos estos valores en la fórmula (13-1) para determinar el coeficiente de correlacion:

Page 7: Analisis de Correlacion

∑(X- )(Y- ) 900r = _____________ = ____________________ = 0.759

(n-1) sx sy (10 – 1) (9.189)(14.337)

Cómo interpretamos la correlación de 0.759? Primero, es positivo, si vemos que hay una relación

directa entre el número de llamadas de ventas y el número de copiadoras vendidas. Esto confirma

el razonamiento basado en el diagrama de dispersión. e. valor de 0.759 es cercano a 1.00, por lo

que podemos concluir que la asociación es fuerte. Dicho de otra manera, un incremento en las

llamadas significaría más ventas.