Introducción a la Probabilidad - II parte

18
MÉTRICA EN EL ESPACIO ESTADÍSTICO Docente: Paolo Castillo Rubio

Transcript of Introducción a la Probabilidad - II parte

Page 1: Introducción a la Probabilidad - II parte

MÉTRICA EN EL ESPACIO ESTADÍSTICO

Docente: Paolo Castillo Rubio

Page 2: Introducción a la Probabilidad - II parte

Medidas de tendencia central

Una característica importante de cualquier población es su posición, es decir, donde está situada con respecto al eje de abscisas (Eje horizontal). En nuestro caso, es importante saber si los datos se agrupan alrededor de 60 kg o de 90 kg o alrededor de 12 kg. Una manera de obtener un dato numérico que nos de idea de la posición de nuestra población es calcular el Promedio o Media de todas las observaciones:

Page 3: Introducción a la Probabilidad - II parte

Este importante parámetro nos permite efectuar comparaciones entre distintas poblaciones. Por ejemplo, si tuviéramos una población formada por mediciones del peso de mujeres de 30 años, otra de peso de varones de 40 años y una tercera de peso de niños de 8 años, es indudable que los promedios van a ser diferentes. El promedio, entonces, nos está diciendo que las tres poblaciones son diferentes y también en que medida difieren.

Ahora, si tuviéramos una población de varones con peso promedio 70 kg y otra población de varones con el mismo promedio, ¿se puede afirmar que ambas poblaciones son equivalentes? Para responder esta pregunta necesitamos tener medidas de la dispersión de la población de datos.

Page 4: Introducción a la Probabilidad - II parte

Medidas de Dispersión

La otra característica muy importante de una población es el grado de dispersión de las observaciones. No es lo mismo si en nuestra población encontramos que todos los valores están entre 75 y 90 kg que si están entre 60 y 105 kg, aunque el promedio sea el mismo. Es necesario agregar alguna idea de la dispersión de los valores.

Una manera es a través del Rango de las observaciones, es decir, el valor Máximo y el valor Mínimo de los datos de la población. Entonces, una descripción más realista acerca de los seres humanos sería decir que pesan en promedio 70 kg y que el rango es de 40 a 120 kg. (Estos valores son supuestos).

Page 5: Introducción a la Probabilidad - II parte

Una manera más precisa de dar idea de la dispersión de valores de una población es a través de la Varianza o su raíz cuadrada, que es la Desviación Standard.

Vamos a calcular la varianza y la desviación standard de un número pequeño de datos (una muestra) para ilustrar el cálculo. Supongamos que se midió la altura de 10 personas adultas y de sexo femenino, y se obtuvieron los valores siguientes (en cm): 165 ; 163 ; 171 ; 156 ; 162 ; 159 ; 162 ; 168 ; 159 ; 167

El promedio de estas observaciones es de:

163, 2 cm

Si a cada una de las observaciones le restamos el promedio, obtenemos los Residuos:

Page 6: Introducción a la Probabilidad - II parte

Los residuos también nos dan una idea de la dispersión de las observaciones individuales alrededor del promedio. Si el valor absoluto (El valor numérico sin el signo) de los residuos es grande, es porque los valores están muy dispersos. Si el valor absoluto de los residuos es pequeño, significa que las observaciones individuales están muy cerca del promedio, y por lo tanto, hay poca dispersión.

Pero nosotros necesitamos un sólo número que nos provea información acerca de la dispersión de los valores. Si sumamos los residuos, como algunos son positivos y otros negativos, se cancelarían entre sí, con lo cual perdemos la información acerca de la dispersión. Entonces, los elevamos al cuadrado:

Page 7: Introducción a la Probabilidad - II parte

Si ahora sumamos los residuos elevados al cuadrado, tenemos un número donde se condensa toda la información de la dispersión de la población:

Este número, la suma de cuadrados, es dependiente del número de datos N, y por lo tanto no nos sirve para comparar poblaciones con distinto número de observaciones.

Pero si dividimos la suma de cuadrados por N, tenemos un número que es independiente del número de observaciones, que se denomina Varianza:

En nuestro caso:

Page 8: Introducción a la Probabilidad - II parte

Las fórmulas anteriores son las que se aplican al cálculo de la varianza y desviación standard de una población de datos. Más adelante veremos que las fórmulas a aplicar en el caso de una muestra son ligeramente diferentes. La varianza es un número que nos permite comparar poblaciones. Cuando la dispersión de las observaciones es grande (Datos que se alejan mucho por encima y por debajo del promedio), el valor de los residuos (distancia entre cada dato y el promedio) será grande. Entonces aumenta la suma de cuadrados de los residuos y por lo tanto la varianza.

También se utiliza la raíz cuadrada de la varianza:

Page 9: Introducción a la Probabilidad - II parte

Por lo tanto:

La desviación standard o desviación típica tiene las mismas unidades que la variable con la que estamos trabajando, en nuestro caso el centímetro. Tanto la varianza como la desviación standard nos permiten comparar el grado de dispersión de distintas poblaciones.

Page 10: Introducción a la Probabilidad - II parte

Media y Varianza de una Muestra

Hasta ahora hemos visto como se calcula la media o promedio de una población y también como se calcula la varianza y la desviación standard de una población o universo de observaciones. Cuando tenemos una muestra (Subconjunto de algunos datos extraídos de una población), también podemos calcular su media, su varianza y su desviación standard. Es muy importante distinguir entre la media, varianza y desviación standard poblacional, de la media, varianza y desviación standard muestral.

Page 11: Introducción a la Probabilidad - II parte

La media, varianza y desviación standard de una población o universo se denominan parámetros de la población y en general se designan con letras griegas: para la Media, 2 para la Varianza y para la Desviación Standard poblacionales. En el caso de una muestra, la media, varianza y desviación standard se denominan estadísticos y se utilizan letras de nuestro alfabeto: x, para la Media; s2, para la Varianza y s, para la Desviación Standard muestral.

El cálculo de la varianza y la desviación standard de una muestra de n observaciones se realiza con una fórmula levemente diferente que la ya vista para la varianza y desviación standard de una población:

Page 12: Introducción a la Probabilidad - II parte

En lugar de dividir por n, el número total de observaciones en la muestra, dividimos por n - 1. Este valor, n - 1, son los Grados de Libertad de la muestra. En general, cuando tenemos una muestra de n observaciones, se dice que la misma tiene n - 1 grados de libertad.

La media, varianza y desviación standard de una muestra, en general, no van a coincidir con los mismos parámetros de la población de la cual se extrajo la muestra (Aunque usemos la misma fórmula para calcular la varianza muestral y poblacional). Si extraemos n muestras de una población, vamos a obtener n promedios muestrales distintos del promedio de la población y n varianzas muestrales distintas de la varianza de la población. Esto se debe a que una población o universo tienen un número muy grande de datos, mientras que una muestra son sólo algunos pocos datos extraídos de ese universo. Cuando sacamos una segunda, tercera, ... etc. muestras, los datos extraídos no tienen por que ser los mismos que en la primera muestra. Por lo tanto, el promedio y la varianza de las muestras van a ser distintos para las distintas muestras, y distintos de la media y la varianza de la población de la cual se extrajeron las muestras.

Page 13: Introducción a la Probabilidad - II parte

Muestreo Aleatorio

En general, no es posible disponer de todas las observaciones de un universo o población, ya sea porque es un universo hipotético o porque la disposición de todos los datos resulta una tarea excesiva para nuestras posibilidades. Normalmente se dispone de una muestra de datos extraídos de un universo, y lo que se pretende es estimar (Conocer de manera aproximada) los parámetros del universo por medio de cálculos realizados sobre la muestra. En este sentido decimos que la media muestral es una estimación de la media del universo, y que la varianza y desviación standard muestrales son estimaciones de la varianza y desviación standard poblacionales respectivamente.

Page 14: Introducción a la Probabilidad - II parte

Veamos algunos ejemplos. Supongamos que un partido político necesita averiguar la cantidad de personas que están dispuestas a votar por su candidato. Entonces, encarga a una empresa la realización de una encuesta un día previo a las elecciones. El encargado de la encuesta podría pensar en consultar la intención de voto de toda la población de votantes (Más de 8 millones en Chile). Esto, obviamente, es una tarea excesiva que por distintas razones no se puede realizar. Entonces, el camino que resta es tomar una muestra representativa de esa población de personas y consultar la intención de voto en esa muestra. Los resultados que se obtengan son solamente una estimación del resultado que se hubiera obtenido si la consulta se hubiera efectuado sobre toda la población de votantes.

Page 15: Introducción a la Probabilidad - II parte

Ahora bien, ¿cómo se obtiene una muestra representativa?Para tratar de entenderlo, vamos a trabajar con una población de muy pocos datos. Supongamos que nuestra población son 10 bolas con los siguientes números 2, 5 y 9 y una frecuencia según la tabla adjunta:

El promedio de la población es 4. Supongamos que queremos obtener una muestra de 5 elementos de esa población. Hay varias formas de hacerlo. Supongamos que puedo ver los números y elijo 2, 2, 2, 2 y 5. El promedio de estos 5 números extraídos de la población es 2,6 que difiere sustancialmente del promedio de la población.

Page 16: Introducción a la Probabilidad - II parte

Es evidente que dicha muestra no es representativa de la población de la que fue extraída. No se mantiene la misma proporción de cada número que existe en la población. Una muestra de 5 elementos en la que hay la misma proporción de cada dígito debería tener 3 dos, 1 cinco y 1 nueve, y su promedio es 4, el mismo de la población:

En una población de muchos datos, no es posible obtener una muestra eligiendo cada elemento para que figure en la misma proporción que en la población, porque para ello deberíamos disponer de todos los datos de la misma, y en ese caso no sería necesario sacar una muestra. Si a cada elemento de la población se le da la misma oportunidad de ser elegido, entonces se supone que cada número estará en la muestra en un número proporcional a la cantidad de veces que está en la población. Por ejemplo, el 2 va a estar en la muestra más veces que el 5, porque en la población hay 6 dos y sólo 2 cincos.

Page 17: Introducción a la Probabilidad - II parte

Si introducimos las diez bolas en una bolsa y las mezclamos suficientemente, la probabilidad que tiene una bola individual de ser extraída es la misma para cualquiera de las bolas.

En esas condiciones, si extraemos cinco bolas sucesivas, mezclándolas previamente en cada oportunidad, es razonable pensar que vamos a sacar el 2 en más oportunidades que el 5 o el 9.Esta forma de obtener la muestra es lo que se conoce como Muestreo Aleatorio.

Page 18: Introducción a la Probabilidad - II parte

El muestreo aleatorio no garantiza que la muestra va a ser representativa de la población, pero al eliminar toda influencia externa en el acto de extraer un elemento de la población, la proporción de cada uno estará influida sólo por la cantidad de veces que está presente en la población de la cual se extrae la muestra.

Entonces, realizando el muestreo en forma aleatoria (al azar), la probabilidad de obtener una muestra representativa de la población es mayor que si en la elección de los elementos de la muestra interviene la voluntad del que

efectúa la operación o algún otro factor de influencia.