Estadistica y Prob 05 (118)
Transcript of Estadistica y Prob 05 (118)
MEDIDAS DE
POSICIÓN
Ing. William León Velásquez
CLASE 05 ESTADISTICA Y
PROBABILIDADES
MEDIDAS DE POSICIÓN
Las medidas de posición también facilitan información sobre la serie de datos que se desea analizar.
La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de éstos, dentro de un contexto de valores posible.
ING. WILLIAM LEON V.
2
MEDIDA DE POSICIÓN
UTILIDAD Se trata de encontrar unas
medidas que sinteticen las
distribuciones de frecuencias.
En vez de manejar todos los
datos sobre las variables, tarea
que puede ser pesada, se
puede describir su distribución
de frecuencias mediante
algunos valores numéricos,
eligiendo como resumen de los
datos un valor central
alrededor del cual se
encuentran distribuidos los
valores de la variable ING. WILLIAM LEON V.
3
MEDIDA DE POSICIÓN
DEFINICIÓN Son indicadores usados
para señalar que
porcentaje de datos dentro
de una distribución de
frecuencias superan estas
expresiones, cuyo valor
representa el valor del dato
que se encuentra en el
centro de la distribución de
frecuencia.
ING. WILLIAM LEON V.
4
MEDIDA DE POSICIÓN
DEFINICIÓN Estas medidas de posición de una
distribución de frecuencias han de cumplir determinadas condiciones para que sean verdaderamente representativas de la variable a la que resumen.
Toda síntesis de una distribución se considerara como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias y siendo siempre calculable y de fácil obtención
ING. WILLIAM LEON V.
5
MEDIDA DE POSICIÓN
CUANTILES
Son valores que dividen al
total de los datos
debidamente ordenados
en k partes iguales.
ING. WILLIAM LEON V.
6
CUANTILES
CUARTILES
Son medidas de
posición que dividen al
total de los datos
ordenados, en cuatro
partes iguales.
De esta forma entre dos
cuartiles consecutivos
se encuentra ubicado
no más del 25% del total
de los datos. ING. WILLIAM LEON V.
7
DEFINICIÓN
CUARTILES
Hay 3 cuartiles que dividen a una
distribución en 4 partes iguales:
primero, segundo y tercer cuartil.
ING. WILLIAM LEON V. 8
DEFINICIÓN
CUARTILES
El cálculo para los cuartiles se
determina a través de la siguiente
expresión:
Af
fkn
LQi
iacum
ik
14
ING. WILLIAM LEON V. 9
DEFINICIÓN
CUARTILES
Donde:
ING. WILLIAM LEON V. 10
DEFINICIÓN
k Orden del cuartil
Límite inferior del intervalo que
contiene al cuartil
Frecuencia acumulada considerada al
intervalo donde se encuentra
Frecuencia del intervalo que contiene el
cuartil
n Número de mediciones
A Ic Amplitud del intervalo
if
1iacumf
iL
PRIMER CUARTIL (Q1)
Aquel valor de una serie que supera al 25% de los datos y es superado por el 75% restante.
Formula de Q1 para series de Datos Agrupados en Clase.
ING. WILLIAM LEON V. 11
DEFINICIÓN
PRIMER CUARTIL (Q1)
Donde:
: posición de Q1, la cual se
localiza en la primera frecuencia acumulada que la contenga, siendo la clase de Q1, la correspondiente a tal frecuencia acumulada.
Li, faa, fi, Ic : idéntico a los conceptos vistos para Mediana pero referidos a la medida de la posición correspondiente.
ING. WILLIAM LEON V. 12
DEFINICIÓN
SEGUNDO CUARTIL (Q2)
Coincide, es idéntico o
similar al valor de la
Mediana (Q2 = Md).
Es decir, supera y es
superado por el 50% de los
valores de una Serie.
ING. WILLIAM LEON V. 13
DEFINICIÓN
TERCER CUARTIL (Q3)
Es aquel valor, termino o dato
que supera al 75% y es
superado por el 25% de los
datos restantes de la Serie.
Formula de Q3 para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 14
DEFINICIÓN
TERCER CUARTIL (Q3)
Donde:
: posición de Q3, la cual se
localiza en la primera frecuencia acumulada que la contenga, siendo la clase de Q3, la correspondiente a tal frecuencia acumulada.
Li, faa, fi, Ic : idéntico a los conceptos vistos para Mediana pero referidos a la medida de la posición correspondiente.
ING. WILLIAM LEON V. 15
DEFINICIÓN
CUARTILES
Un reporte de laboratorio
indica el número de
pacientes que en los
primeros 100 días del año
recibieron peticiones por
parte de una clínica, de
reportes clínicos para
realizar estudios de
glucosa.
ING. WILLIAM LEON V. 16
EJEMPLO
CUARTILES
ING. WILLIAM LEON V. 17
EJEMPLO
Veremos que el primer cuartil se localiza
en el intervalo de clase marcada en color
El intervalo de clase donde se ubica el
segundo cuartil esta marcado por
El tercer cuartil esta marcado por
El número de datos a considerar son 63
pacientes.
CUARTILES
ING. WILLIAM LEON V. 18
EJEMPLO
Intervalos
1 día a 9 días 5 5 5
10 día a 19 días 14.5 6 11
20 día a 29 días 24.5 8 19
30 día a 39 días 34.5 8 27
40 día a 49 días 44.5 4 31
50 día a 59 días 54.5 5 36
60 día a 69 días 64.5 7 43
70 día a 79 días 74.5 8 51
80 día a 89 días 84.5 4 55
90día a 100 días 94.5 8 63
Promedio
de días
ix
Número de
pacientes
if
Frecuencia acumulada
acumuladaf
CUARTILES
Para la obtención del primer
cuartil tenemos k=1, obteniendo:
75.15
4
63)1(
4
kn
ING. WILLIAM LEON V. 19
EJEMPLO
CUARTILES
lo que representa que el primer cuartil se
encuentre en la tercera clase, sus datos
están dados como
9;8;11;20 1 AffL iiacumi
ING. WILLIAM LEON V. 20
EJEMPLO
CUARTILES
por lo que el primer cuartil es igual a
díasQ 34.2598
114
)63(1
201
ING. WILLIAM LEON V. 21
EJEMPLO
CUARTILES
Interpretación:
Lo que indica que 25 % de
los pacientes fueron
mandados a valoración de
glucosa en 25.34 días y el
75% de los pacientes
atendidos lo hicieron
después de 25.34 días.
ING. WILLIAM LEON V. 22
EJEMPLO
CUARTILES
Nótese que la consideración para
elegir el primer cuartil se hizo
considerando la frecuencia
acumulada y de esta manera se
considerará para localizarla para
el resto.
ING. WILLIAM LEON V. 23
EJEMPLO
CUARTILES
Para la obtención del segundo
cuartil consideraremos k=2 por lo
que
5.314
632
4
kn
ING. WILLIAM LEON V. 24
EJEMPLO
CUARTILES
Considerando que para este
segundo cuartil ,
con ello el cuartil tendrá un valor de
9;5;31;50 1 AffL iiacumi
díasQ 9.5095
314
)63(2
502
ING. WILLIAM LEON V. 25
EJEMPLO
CUARTILES
Lo que indica que en 50.9 días se habían
atendido al 50 % de los pacientes a ser
valorados de los niveles de glucosa.
Lo que indica que 50 % de los pacientes fueron
mandados a valoración de glucosa en 50.9
días y el 50% restante de los pacientes
atendidos lo hicieron después de 50.9 días.
ING. WILLIAM LEON V. 26
EJEMPLO
CUARTILES
Nótese que efectivamente el segundo
cuartil corresponde a la mediana, ya
que si sustituimos k=2 tendremos la
misma formula que utilizamos para el
calculo de la mediana para datos
agrupados
MeAf
fn
LAf
fn
LQi
iacum
i
i
iacum
i
11
224
2
ING. WILLIAM LEON V. 27
EJEMPLO
CUARTILES
Para el cálculo del tercer cuartil,
k=3, observamos que:
con
25.474
633
4
kn
9;8;43;70 1 AffL iiacumi
ING. WILLIAM LEON V. 28
EJEMPLO
CUARTILES
tenemos
díasQ 78.7498
434
)63(3
703
ING. WILLIAM LEON V. 29
EJEMPLO
lo cual indica que 75% de pacientes que envió la clínica a realizarse estudios de glucosa lo realizo en 74.78días y el resto en los otros días restantes.
CUARTILES
Nótese que para el cálculo del cuarto
cuartil es de manera inmediata, en
este se contempla la totalidad de la
muestra, por lo que no es necesario realizar ningún cálculo, aunque si lo
realizamos observamos que cubre el
total de días.
ING. WILLIAM LEON V. 30
EJEMPLO
Cuartiles para datos no
agrupados
La forma de calcular los cuartiles
cuando los datos no están agrupados
se da a través del siguiente concepto.
Para un número de n observaciones en
el que los datos no son representados
en clases, una vez ordenados los datos
la posición de los cuartiles se pueden
localizar de la siguiente forma:
ING. WILLIAM LEON V. 31
DEFINICIÓN
Cuartiles para datos no
agrupados
es importante considerar que si el
cálculo no corresponde con la
posición exacta entonces se usa
interpolación lineal.
4y3,2,1,
4
1
k
nk
ING. WILLIAM LEON V. 32
DEFINICIÓN
Cuartiles para datos no
agrupados
En el caso en que la posición no corresponda exactamente con la posición la interpolación se realiza de la siguiente forma:
Donde:
4,3,2,1,
4
k
LLkLQ is
ik
ING. WILLIAM LEON V. 33
DEFINICIÓN
;SuperiorLimite;,inferiorlimite;Cuartil fik LLkQ
Cuartiles para datos no
agrupados
Ejemplo. Consideremos las siguientes tabla de
temperaturas reportadas en un experimento:
ING. WILLIAM LEON V. 34
EJEMPLO:
25 °C 28 °C 25 °C 26 °C 28 °C 28 °C
35 °C 32 °C 31 °C 31 °C 32 °C 27 °C
25 °C 29 °C 26 °C 28 °C 27 °C 28 °C
30 °C 30 °C 31 °C 31 °C 30 °C 31 °C
Cuartiles para datos no
agrupados
Ordenando los datos tenemos:
25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28,
28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32,
32, 35
ING. WILLIAM LEON V. 35
EJEMPLO:
Cuartiles para datos no
agrupados La posición del primer cuartil es:
25.6
4
25
4
1241
ING. WILLIAM LEON V. 36
EJEMPLO:
Cuartiles para datos no
agrupados
lo que significa que el primer cuartil se encuentra entre la posición 6 y 7, como en este caso el número es el mismo entonces
por lo que el primer cuartil es igual a .
0 fi LL
ING. WILLIAM LEON V. 37
EJEMPLO:
CQ 271
Cuartiles para datos no
agrupados La posición para el segundo cuartil
es
5.12
4
50
4
1242
ING. WILLIAM LEON V. 38
EJEMPLO:
Cuartiles para datos no
agrupados
En este caso la posición 12 la ocupa la temperatura 28°C y la posición 13 la temperatura 29°C entonces, la interpolación nos conduce a
5.28
4
28292282
Q
ING. WILLIAM LEON V. 39
EJEMPLO:
Cuartiles para datos no
agrupados
La posición del tercer cuartil se
puede calcular como
75.18
4
1243
ING. WILLIAM LEON V. 40
EJEMPLO:
Cuartiles para datos no
agrupados
Como la posición 18 y 19 tienen la
temperatura 30°C entonces, por la
misma razón que el primer cuartil,
el tercer cuartil es igual a 30°C.
ING. WILLIAM LEON V. 41
EJEMPLO:
RANGO INTERCUARTIL Es la distancia que hay entre el tercer cuartil (Q
3 ) y el primer cuartil (Q 1 ):
RIC = Q 3 - Q 1
RIC es la amplitud del intervalo que contiene el
50% central de individuos.
Interpretación es como una medida de
variabilidad;
Si es pequeña significará que los valores están
muy concentrados alrededor de la medida de
tendencia central (mediana) y
Si es grande hay gran dispersión.
ING. WILLIAM LEON V. 42
DECILES
Son valores que dividen al total de
los datos ordenados, en diez partes
iguales; de modo que en cada
una de estas partes se encuentre
ubicado no más del 10% del total.
ING. WILLIAM LEON V. 43
DEFINICIÓN
Primer Decil (D1)
El primer decil es aquel valor de
una serie que supera a 1/10 parte
de los datos y es superado por las
9/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 10% y es
superado por el 90% restante),
ING. WILLIAM LEON V. 44
DEFINICIÓN
Primer Decil (D1)
ING. WILLIAM LEON V.
45
DEFINICIÓN
Quinto Decil (D5)
El quinto decil es aquel valor de
una serie que supera a 5/10 parte
de los datos y es superado por las
5/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 50% y es
superado por el 50% restante),
ING. WILLIAM LEON V. 46
DEFINICIÓN
Quinto Decil (D5)
ING. WILLIAM LEON V.
47
DEFINICIÓN
Noveno Decil (D9)
El noveno decil es aquel valor de
una serie que supera a 9/10 parte
de los datos y es superado por las
1/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 90% y es
superado por el 10% restante),
ING. WILLIAM LEON V. 48
DEFINICIÓN
Noveno Decil (D9)
ING. WILLIAM LEON V.
49
DEFINICIÓN
Deciles
Como se observa, son formulas
parecidas a la del calculo de la
Mediana, cambiando solamente la
respectivas posiciones de las
medidas.
ING. WILLIAM LEON V. 50
DEFINICIÓN
PERCENTILES
Son valores que dividen al total de
los datos ordenados, en cien
partes iguales: de manera que en
cada una de estas partes se
encuentre ubicado no más del 1%
del total.
ING. WILLIAM LEON V. 51
DEFINICIÓN
PERCENTILES De esta manera se puede
establecer la siguiente relación
entre cuartiles, deciles y percentiles
así como también con la mediana.
ING. WILLIAM LEON V. 52
DEFINICIÓN
Primer Percentil (P1)
El primer percentil supera al uno
por ciento de los valores y es
superado por el noventa y nueve
por ciento restante.
Formulas de P1, para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 53
DEFINICIÓN
Percentil 50 (P50)
El percentil 50 supera al cincuenta
por ciento de los valores y es
superado por el cincuenta por
ciento restante.
Formulas de P50, para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 54
DEFINICIÓN
Percentil 99 (P99)
El percentil 99 supera al noventa y
nueve por ciento de los valores y
es superado por el uno por ciento
restante.
Formulas de P99, para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 55
DEFINICIÓN
Percentil
Para determinar estas medidas se aplicara el principio de la mediana; así, el primer cuartil cereal valor por debajo del cual se encuentra el 25 por ciento de los datos; bajo el tecer cuartil se encuentra el 75 por ciento; el 80 decil será el valor por encima del cual estará el 20 por ciento de los datos, etc.
ING. WILLIAM LEON V. 56
DEFINICIÓN
Percentil
Como se observa, todas estas
medidas no son sino casos
particulares del percentil ya que el
primer cuartil no es sino el 25°
percentil, el tercer cuartil el 75°
percentil, el cuarto decil el 40°
percentil, etc.
ING. WILLIAM LEON V. 57
DEFINICIÓN
Percentil Ejemplo:
Para la siguiente tabla de
frecuencias que
corresponde a la
distribución de 42 días de
acuerdo a la temperatura
que se registró en cada
día.
El 35% inferior de los días,
¿qué temperatura
presentó como máximo?
ING. WILLIAM LEON V. 58
Ejemplo
Percentil
ING. WILLIAM LEON V. 59
Ejemplo
Temperatura
( C ) Nº días
10-15 8 8
15-18 9 17
18-25 12 29
25-30 7 36
30-34 6 42
lugar.vo157,14100
4235
iF
Percentil
Luego:
ING. WILLIAM LEON V.
60
Ejemplo
21 F100
4235F
235 IP
33,179
815315P35
Percentil
Interpretación:
En el 35% inferior de los días se registró una temperatura de 17 C como máximo?
ING. WILLIAM LEON V.
61
Ejemplo
Cuantiles para datos no
agrupados:
Ejemplo: En una serie de 32 términos se desea localizar el 4° sextil, 8° decil y el 95° percentil.
ING. WILLIAM LEON V.
62
Ejemplo
Cuantiles para datos no
agrupados:
ING. WILLIAM LEON V.
63
Ejemplo
Cuantiles para datos no
agrupados:
Esto significa que el 4° sextil se encuentra localizado en el termino numero 21, es decir, el que ocupa la 21° posición; el 8° decil se encuentra localizado entre el termino numero 25° y 26° ; y el 95°
percentil entre la posición 30° y 31° .
ING. WILLIAM LEON V.
64
Ejemplo
Cuantiles para datos agrupados:
Ejemplo: Determinación del primer cuartil, el cuarto sextil, el séptimo decil y el 30° percentil.
ING. WILLIAM LEON V.
65
Ejemplo
Cuantiles para datos agrupados:
Ejemplo: Determinación del primer cuartil, el cuarto sextil, el séptimo decil y el 30° percentil.
ING. WILLIAM LEON V.
66
Ejemplo
Salarios(I. de
Clases)
N° de empleados (fi) fa
200 – 299 85 85
300 – 399 90 175
400 – 499 120 295
500 – 599 70 365
600 – 699 62 427
700 – 800 36 463
Cuantiles para datos agrupados:
Ejemplo: .
ING. WILLIAM LEON V. 67
Ejemplo
Cuantiles para datos agrupados:
Ejemplo: .
ING. WILLIAM LEON V. 68
Ejemplo
Cuantiles para datos agrupados:
Ejemplo: .
ING. WILLIAM LEON V. 69
Ejemplo
Cuantiles para datos agrupados:
Ejemplo: .
ING. WILLIAM LEON V. 70
Ejemplo
Cuantiles para datos agrupados:
Estos resultados nos indican que el 25 por ciento de los empleados ganan salarios por debajo de $. 334; que sobre $. 519,51 ganan el 33,33 por ciento de los empleados; que bajo $ 541,57 gana el 57 por ciento de los empleados y sobre $. 359,88 gana el 70 por ciento de los empleados. .
ING. WILLIAM LEON V. 71
Ejemplo
Cuantiles
Muchas veces necesitamos conocer el porcentaje de valores que esta por debajo o por encima de un valor dado; lo que representa un problema contrario al anterior, esto es, dado un cierto valor en la abscisa determinar en la ordenada el tanto por ciento de valores inferiores y superiores al valor dado. .
ING. WILLIAM LEON V. 72
Definición
Cuantiles
Operación que se resuelve utilizando la
siguiente formula general:
Donde:
P: lugar percentil que se busca.
P: valor reconocido en la escala X.
fa-1: frecuencia acumulada de la clase
anterior a la clase en que esta incluida P.
fi: frecuencia de la clase que contiene a p.
Li: limite inferior de la clase que contiene a P.
Ic: intervalo de clase.
N: frecuencia total..
ING. WILLIAM LEON V. 73
Definición
Cuantiles
Ejemplo:
Utilizando la distribución
anterior, determinar que
porcentaje de personas ganan
salarios inferiores a $ 450,00
ING. WILLIAM LEON V. 74
Definición
Cuantiles
ING. WILLIAM LEON V.
75
El 50,75 por ciento de las personas ganan
salarios inferiores a $. 450.
Definición
DIAGRAMAS DE CAJA
Es una presentación visual que describe
al mismo tiempo varias características
importantes de un conjunto de datos,
ING. WILLIAM LEON V.
77
CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
Las características que representan
son:
el centro, la dispersión, la desviación
de la simetría y
la identificación de observaciones
que se alejan de manera poco usual
del resto de los datos, este tipo de
observaciones se conocen como
“valores atípicos”.
ING. WILLIAM LEON V.
78
CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
ING. WILLIAM LEON V.
79
CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
El diagrama de caja presenta los tres
cuartiles, y los valores mínimo y máximo de
los datos sobre un rectángulo, alineado
horizontal o verticalmente.
El rectángulo delimita el rango
intercuartílico con la arista izquierda (o
inferior) ubicada en el primer cuartil y la
arista derecha (o superior) en el tercer
cuartil.
ING. WILLIAM LEON V.
80
CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
Dentro del rectángulo se dibuja una línea
en la posición que corresponde a la
mediana.
Cuando la distribución es simétrica la
mediana divide a la caja en dos partes
iguales.
ING. WILLIAM LEON V.
81
CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
Fuera del rectángulo se dibujan dos segmentos,
llamados `bigotes' o brazos que llegan hasta los
datos más lejos que estén a una distancia menor o
igual a 1:5 x (RI) del rectángulo, donde RI
representa el rango intercuartil.
Cualquier punto que no esté incluido en este rango
se representa individualmente y se considera un
punto atípico (outlier).
ING. WILLIAM LEON V.
82
CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
ING. WILLIAM LEON V.
83
CAJAS Y BRAZOS
RESUMEN DE CINCO NÚMEROS
Los cinco números son el valor mínimo, el primer
cuartil, la mediana,
el tercer cuartil, y el valor máximo,
respectivamente. ING. WILLIAM LEON V.
84
CAJAS MÚLTIPLES
Estos gráficos se utilizan para
comparar la distribución de los
valores entre diferentes grupos.
Si en una caja la línea que
representa al cuartil 1 está por
encima de la línea que representa a
la mediana en la otra caja,
entonces se concluye que las
medias de las poblaciones son
diferentes.
ING. WILLIAM LEON V.
85
CAJAS Y BRAZOS
CAJAS MÚLTIPLES
ING. WILLIAM LEON V.
86
CAJAS Y BRAZOS
CARACTERÍSTICAS
a) La anchura de la caja refleja la
amplitud intercuartil (abreviado como IQR
o como RI), en ella está representado el
50% de la muestra.
b) El borde superior de la caja es el
percentil 75 (Q3).
c) El borde inferior es el percentil 25 (Q1).
ING. WILLIAM LEON V.
87
CAJAS Y BRAZOS
CARACTERÍSTICAS
d) La línea central de la caja es la
mediana. Cuando el valor de la
mediana coincide con el punto
medio de la caja (IQR/2 + Q1), la
variable representada es simétrica.
Diremos que es asimétrica positiva
o a la derecha si está próxima al
borde izquierdo de la caja y,
asimétrica negativa o a la izquierda
si está próxima al borde derecho
ING. WILLIAM LEON V.
88
CAJAS Y BRAZOS
CARACTERÍSTICAS
e) Los valores que no son
considerados extremos son aquéllos
comprendidos entre el límite inferior
y el límite superior.
Límite inferior = Q1 – 1,5*IQR
Límite superior = Q3 + 1,5IQR
Los valores de las patillas
corresponden a la primera y última
observación dentro de dichos límites.
ING. WILLIAM LEON V.
89
CAJAS Y BRAZOS
CARACTERÍSTICAS
f) Se señalan con signos (*,O) los casos
muy alejados o extremos.
g) Con una O se marcan los casos
situados entre 1,5 y 3 veces la amplitud
intercuartil desde los dos extremos de la
caja.
ING. WILLIAM LEON V.
90
CAJAS Y BRAZOS
Variables
estadísticas
bidimensionales
Ing. William León Velásquez
Covarianza
Correlacion
Variables estadísticas
bidimensionales
Se trata de variables
que surgen cuando
se estudian dos
características
asociadas a la
observación de un
fenómeno.
Organización de datos
Las variables estadísticas bidimensionales se representan por el par (X,Y), donde X es una variable unidimensional que toma los valores x1,x2,....xn e Y es otra variable unidimensional que toma los valores y1,y2,...yn.
Si representamos estos pares (x1,y1), (x2,y2)......en un sistema de ejes cartesianos se obtiene un conjunto de puntos sobre el plano que se denomina diagrama de dispersión o nube de puntos.
Cálculo de parámetro
Considere una variable
estadística bidimensional
(X,Y) y recuerde las
definiciones de media y
varianza para
distribuciones de variable
estadística
unidimensional:
Cálculo de parámetro
A la raíz cuadrada positiva de las varianzas se la llama
desviación típica y se representa por Sx y por Sy.
Variables estadísticas bidimensionales
Ejemplo 1.- Estudiamos la
talla, medida en cm. y el
peso, medido en kg. de
un grupo de 10 personas,
podemos obtener los
siguientes valores
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs) 55 58 58 61 67 62 66 74 79 83
Podemos llamar X a la talla e Y al peso
con lo que se obtendría la variable
bidimensional (X, Y) que toma 10 valores,
que son las 10 parejas de valores de la
tabla anterior: (160,55), (165,58), etc.
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
Variables estadísticas
bidimensionales
En algunos casos el número de "parejas" de valores (x,y) es grande y además muchos de ellos aparecen repetidos; en este caso se utiliza una "Tabla de doble entrada" como la que se muestra a continuación en el ejemplo 2
En la primera fila se colocan los valores de una de las características o variable que componen la variable bidimensional y en la primera columna los de la otra.
Variables estadísticas
bidimensionales Ejemplo 2.- Se representa por X el número de hijos
de 100 familias y por Y el número de hijas
# de hijas (Y) 0 1 2 3
# de hijos (x) ----------- ---- ---- ---- ---
0 ----------- 10 15 15 3
1 ----------- 10 12 7 2
2 ----------- 8 4 3 1
3 ----------- 3 2 1 0
4 ----------- 2 1 1 0
Variables estadísticas bidimensionales
La lectura de esta tabla es sencilla.
Por ejemplo: habría 7 familias que tendrían 1
hijo y 2 hijas y ninguna familia tendría 3 hijos
y 3 hijas.
Diagramas de dispersión o nubes de
puntos La representación gráfica de este
tipo de variables es en realidad
semejante a la respresentación
de puntos en el plano, usando
unos ejes de coordenadas. Cada
pareja de valores da lugar a un
punto en el plano y el conjunto
de puntos que se obtiene se
denomina "diagrama de
dispersión o nube de puntos".
Diagramas de dispersión o nubes de puntos En el ejemplo 1 anterior en el que se estudiaba la
talla y el peso de 10 personas se obtendría el siguiente diagrama de dispersión: (En el eje X se representa la talla en cm. y en el eje Y el peso en kg.)
TALLA
PE
SO
Diagramas de dispersión o nubes
de puntos Se puede ver en el primera figura que correspondía
al diagrama de talla - peso que la serie de puntos presenta una tendencia "ascendente" . Se dice en este caso que existen entre las dos variables una "dependencia directa" .
En caso en que la tendencia sea "descendente" se diría que estaríamos ante una " dependencia inversa "
En caso en que no se pueda observar una tendencia clara estaríamos ante una dependencia muy débil que no se puede observar mediante la nube de puntos
Diagramas de dispersión o nubes de puntos
COVARIANZA
Sean (xi, yi ) pares de
observaciones de dos
caracteristicas X y Y, y sean
sus respectivas medias. La
covarianza entre entre las dos
variables se define por :
COVARIANZA
Donde xi e yi representan los pares de valores de la variable y el producto corresponde al producto de las medias aritméticas de las variables x e y respectivamente.
Pasos para calcular la covarianza de una serie de eventos
Paso 1: Se calcula Σxiyi , esto es la sumatoria de los
productos de las variablares x y y; o sea:
(x1 * y1) + (x2 * y2) + ... +(xn * yn )
Paso 2: se define n, que el numero de eventos o el
numero de pares de variables
Paso 3: Se calcula , que es el producto de las medias
de ambas variables
Paso 4: Obtenidos todos los datos se sustituyen en la
formula y se obtiene el resultado
Calcular la covarianza para el ejemplo primero
correspondiente a la variable talla - peso
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
Paso 1:
La suma de todos los productos de los valores de x (talla) por los de y (peso) sería: 160 · 55 + 165 · 58 + 168 · 58 + 170 · 61 + 171 · 67 + 175 · 62 + 175 · 66 + 180 · 74 + 180 · 79 + 182 · 83 = 114987
Paso 2: Definir n como el numero de eventos en este caso es 10
Paso 3:
A este valor debemos restarle el producto de las medias de
ambas variables que naturalmente sabes calcular:
Media de x (talla): 172.6
= 172.6 * 66.3 = 11443.38
Media de y (peso): 66.3
De acuerdo ala formula tenemos que:
Sxy = (114987 / 10 ) – 11443.38
Sxy = 55.32
Se ha obtenido un valor positivo para la covarianza que
corresponde a una dependencia directa como ya habíamos
intuido con la nube de puntos
CORRELACIÓN
Se llama correlación a
la teoría que trata de
estudiar la relación o
dependencia que existe
entre las dos variables
que intervienen en una
distribución
bidimensional.
Coeficiente de correlación de Pearson.
Si le llamamos r, su valor es:
Puede observarse que el signo del
coeficiente de correlación es el mismo
que el de la covarianza y puede
deducirse que el valor del mismo esta
comprendico entre -1 y 1.
CORRELACIÓN
Se pueden deducir las siguientes conclusiones
relativas al coeficiente de correlación (r):
- Su signo es el mismo de la covarianza, luego si r es
positivo la dependencia es directa y si es negativo
inversa.
- Si r se acerca a -1 o a +1, la dependencia es fuerte y
por tanto las predicciones que se realicen a partir de la
recta de regresión serán bastante fiables.
- Si r se acerca a 0 la dependencia es débil y por tanto
las predicciones que se realicen a partir de la recta de
regresión serán poco fiables
CORRELACIÓN
Ejemplo:
Calcularemos la correlacion para el ejemplo de las
tallas y los pesos
Sxy = 55.32
Sx = 50.71
Sy = 752.81
r = 55.32 / (50.71 * 752.81)
r =0.0014
r se acerca a 0 la dependencia es débil y por tanto las
predicciones que se realicen a partir de la recta de
regresión serán poco fiables
CORRELACIÓN
EJERCICIOS 01
Se han realizado unas pruebas de habilidad (puntúan de
0 a 5) en un grupo de alumnos. Las siguientes
puntuaciones corresponden a las obtenidas por seis alumnos en dos de ellas:
Calcula la covarianza y el coeficiente de correlación.
¿Cómo es la relación entre las variables?
EJERCICIOS 01 Cálculos
EJERCICIOS 01 Cálculos
EJERCICIOS 01 Cálculos