Estadistica (Universidad Nacional de Loja)

38
UNIVERSIDAD NACIONAL DE LOJA AREA DE ENERGÍA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES GUIA DE CLASES PROFESOR: MSc Jorge Patricio Muñoz V. JUNIO 2005 LOJA ECUADOR

description

La palabra "estadística" suele utilizarse bajo dos significados distintos, a saber: Primero: Como colección de datos numéricos.- Esto es el significado más vulgar de la palabra estadística. Se sobrentiende que dichos datos numéricos han de estar presentados de manera ordenada y sistemática. Tenemos muchos ejemplos de este tipo de estadísticas, tal el caso de la información que se publica en el Anuario Estadístico publicado por el Instituto Nacional de Estadística y Censos (INEC), etc. Segundo: Como ciencia.- En este significado, la Estadística estudia el comportamiento de los fenómenos de masas. Como todas las ciencias, busca las características generales de un colectivo y prescinde de las particulares de cada elemento. Así por ejemplo al investigar el sexo de los nacimientos, iniciaremos el trabajo tomando un grupo numeroso de nacimientos y obtener después la proporción de varones. Es muy frecuente enfrentarnos con fenómenos en los que es muy difícil predecir el resultado; así, no podemos dar una lista, con las personas que van a morir con una cierta edad, o el sexo de un nuevo ser hasta que transcurra un determinado tiempo de embarazo, etc. Por tanto, el objetivo de la estadística es hallar las regularidades que se encuentran en los fenómenos de masa.

Transcript of Estadistica (Universidad Nacional de Loja)

Page 1: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGÍA, INDUSTRIAS Y RECURSOS

NATURALES NO RENOVABLES

GGUUIIAA DDEE CCLLAASSEESS

PROFESOR: MSc Jorge Patricio Muñoz V.

JUNIO – 2005

LOJA ECUADOR

Page 2: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 2

1. Introducción: La palabra "estadística" suele utilizarse bajo dos significados distintos, a saber: Primero: Como colección de datos numéricos.- Esto es el significado más vulgar de la palabra estadística. Se sobrentiende que dichos datos numéricos han de estar presentados de manera ordenada y sistemática. Tenemos muchos ejemplos de este tipo de estadísticas, tal el caso de la información que se publica en el Anuario Estadístico publicado por el Instituto Nacional de Estadística y Censos (INEC), etc. Segundo: Como ciencia.- En este significado, la Estadística estudia el comportamiento de los fenómenos de masas. Como todas las ciencias, busca las características generales de un colectivo y prescinde de las particulares de cada elemento. Así por ejemplo al investigar el sexo de los nacimientos, iniciaremos el trabajo tomando un grupo numeroso de nacimientos y obtener después la proporción de varones. Es muy frecuente enfrentarnos con fenómenos en los que es muy difícil predecir el resultado; así, no podemos dar una lista, con las personas que van a morir con una cierta edad, o el sexo de un nuevo ser hasta que transcurra un determinado tiempo de embarazo, etc. Por tanto, el objetivo de la estadística es hallar las regularidades que se encuentran en los fenómenos de masa.

Definición de Estadística Descriptiva: La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.

2. Población, elementos y caracteres. Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos población. Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo. A su vez, cada elemento de la población tiene una serie de características que pueden ser objeto del estudio estadístico. Así por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: sexo, edad, nivel de estudios, profesión, peso, altura, color de pelo, etc.

Page 3: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 3

Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres. La población puede ser según su tamaño de dos tipos:

Población finita: cuando el número de elementos que la forman es finito, por ejemplo el número de alumnos de un centro de enseñanza, o grupo clase. Población infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita.

Ahora bien, normalmente en un estudio estadístico, no se puede trabajar con todos los elementos de la población sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado número de elementos de la población, sin que en principio tengan nada en común; o una subpoblación, que es el subconjunto de la población formado por los elementos de la población que comparten una determinada característica, por ejemplo de los alumnos del 4º Módulo, la subpoblación de los varones. 3. Variables y atributos. Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: dos grandes clases: Variables Cuantitativas. Variables Cualitativas o Atributos. Las variables cuantitativas son las que se describen por medio de números, como por ejemplo el peso, altura, edad, número de suspensos. A su vez este tipo de variables se puede dividir en dos subclases: Cuantitativas discretas. Aquellas a las que se les puede asociar un

número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, etc.

Cuantitativas continuas: Aquellas que no se pueden expresar mediante

un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. etc.

Page 4: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 4

No obstante en muchos casos el tratamiento estadístico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa. Los atributos son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número. Por ejemplo sexo, profesión, estado civil, etc. A su vez las podemos clasificar en:

Ordenables: Aquellas que sugieren una ordenación, por ejemplo la graduación militar, el nivel de estudios, etc.

No ordenables: Aquellas que sólo admiten una mera ordenación

alfabética, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc.

DISTINTOS TIPOS DE FRECUENCIA: Una de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de resultados, es decir, recoger la información de la muestra resumida en una tabla en la que a cada valor de la variable se le asocian determinados números que representan el número de veces que ha aparecido, su proporción con respecto a otros valores de la variable, etc. Estos números se denominan frecuencias: Así tenemos los siguientes tipos de frecuencia: a) Frecuencia absoluta b) Frecuencia relativa c) Porcentaje d) Frecuencia absoluta acumulada e) Frecuencia relativa acumulada f) Porcentaje acumulado

Frecuencia absoluta: La frecuencia absoluta de una variable estadística es el número de veces que aparece en la muestra dicho valor de la variable, la representaremos por ni Frecuencia relativa: La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra, al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por fi.

Page 5: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 5

Donde N = Tamaño de la muestra Porcentaje: La frecuencia relativa es un tanto por uno, sin embargo, hoy día es bastante frecuente hablar siempre en términos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. La denotaremos por pi.

Frecuencia Absoluta Acumulada: Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por Ni. Frecuencia Relativa Acumulada: Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el tamaño de la muestra, y la denotaremos por Fi

Porcentaje Acumulado: Análogamente se define el Porcentaje Acumulado y lo vamos a denotar por Pi como la frecuencia relativa acumulada por 100.

Veamos esto con un ejemplo: Tomamos para ello los datos relativos a las personas activas.

Número Familias Fi pi Ni Fi Pi

Xi ni

1 16 16/50 32% 16 16/50 32%

2 20 20/50 40% 36 36/50 72%

3 9 9/50 18% 45 45/50 90%

4 5 5/50 10% 50 50/50 100%

Total 50

En este ejemplo se puede ver fácilmente como se calculan estas frecuencias.

Page 6: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 6

MEDIDAS DE CENTRALIZACIÓN: MEDIA: Vamos a estudiar en este apartado los distintos tipos de media que hemos detallado en el apartado anterior. Media aritmética: La media aritmética de una variable se define como la suma ponderada de los

valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresión:

n

i

ixn

x1

1

Para una tabla de frecuencias se deberá aplicar:

xi representa el valor de la variable o en su caso la marca de clase. Propiedades: 1. Si multiplicamos o dividimos todas las observaciones por un mismo

número, la media queda multiplicada o dividida por dicho numero. 2. Si le sumamos a todas las observaciones un mismo número, la media

aumentará en dicha cantidad. 3. Además de la media aritmética existen otros conceptos de media, como

son la media geométrica y la media armónica. Media geométrica: La media geométrica de N observaciones es la raíz de índice N del producto de todas las observaciones. La representaremos por G.

Solo se puede calcular si no hay observaciones negativas. Es una medida estadística poco o nada usual. Media armónica:

Page 7: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 7

La media armónica de N observaciones es la inversa de la media de las inversas de las observaciones y la denotaremos por H.

Al igual que en el caso de la media geométrica su utilización es bastante poco frecuente. MEDIANA: La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra. Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua. Cálculo de la mediana en el caso discreto: Tendremos en cuenta el tamaño de la muestra.

Si N es Impar, hay un término central, el término que será el valor de la mediana.

Si N es Par, hay dos términos centrales,

la mediana será la media de esos dos valores. Veamos un ejemplo.

N par N impar

1, 4, 6, 7, 8, 9, 12, 16, 20, 24, 25, 27 N=12 1, 4, 6, 7, 8, 9, 12, 16, 20, 24, 25, 27, 30 N=13

Términos Centrales el 6º y 7º, son 9 y 12 Término Central el 7º , 12

Me = 10,5

Me= 12

Cálculo de la mediana en el caso continuo: Si la variable es continua, la tabla vendrá en intervalos, por lo que se calcula de la siguiente forma: Nos vamos a apoyar en un gráfico de un histograma de frecuencias acumuladas.

Page 8: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 8

De donde la mediana vale:

donde ai es la amplitud del intervalo. Veámoslo por medio de un ejemplo. Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma:

Li-1 Li ni Ni Como el tamaño de la muestra es N=50, buscamos el intervalo en el que la Frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3º y aplicamos la fórmula anterior. Luego la Mediana será:

Me = 69,74

45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

MODA: La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo. Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o polimodal según el caso.

Page 9: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 9

Por lo tanto el cálculo de la moda en distribuciones discretas o cualitativas no precisa de una explicación mayor; sin embargo, debemos detenernos un poco en el cálculo de la moda para distribuciones cuantitativas continuas.

Apoyándonos en el gráfico podemos llegar a la determinación de la expresión para la moda es:

Otros autores dan una expresión aproximada para la moda que viene dada por la siguiente expresión:

Veamos su cálculo mediante un ejemplo, para ello usaremos los datos del apartado anterior

Li-1 Li ni Ni

Utilizando la fórmula aproximada

45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

Page 10: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 10

MEDIDAS DE DISPERSIÓN: 1. Breve Introducción 2. Rango 3. Concepto de desviación 4. Desviación Media 5. Varianza 6. Desviación Típica 7. Cuasi varianza 8. Cuasi Desviación típica 9. Coeficiente de Variación 10. Ejemplo Breve Introducción: Hasta el momento hemos estudiado los valores centrales de la distribución, pero también es importante conocer si los valores en general están cerca o alejados de estos valores centrales, es por lo que surge la necesidad de estudiar medidas de dispersión. Rango: Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el menor de la distribución,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular. Hemos estudiado varias medidas de centralización, por lo que podemos hablar de desviación con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media. Desviación: Es la diferencia que se observa entre el valor de la variable y la media aritmética. La denotaremos por di . No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviación, por lo que precisaremos una medida que resuma dicha información. La primera solución puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la de todas las desviaciones y calculamos su media. Pero esta solución es mala pues como veremos siempre va a ser 0.

Page 11: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 11

Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las negativas. Para resolver este problema, tenemos dos caminos:

Tomar el valor absoluto de las desviaciones. Desviación media Elevar al cuadrado las desviaciones. Varianza.

Desviación media: Es la media de los valores absolutos de las desviaciones, y la denotaremos por dm.

Varianza: La varianza de la muestra se denota por Sx

2 o бx2 y se define por la fórmula:

N

i

ixx xxN

S1

222 )(1

1

O también por la siguiente expresión para una tabla de frecuencias:

Aunque también es posible calcularlo como:

Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm2. Desviación típica o desviación estándar:

Es la raíz cuadrada de la varianza, se denota por Sx o x.

2

1

)(1

1xx

NS i

N

i

xx

Page 12: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 12

Para usar con la tabla de frecuencias:

Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor. Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica, que como veremos cuando estudiemos el tema de estimación estadística, son los estimadores de la varianza y desviación típica poblacionales respectivamente. Cuasivarianza: Es una medida de dispersión, cuya única diferencia con la varianza es que

dividimos por N-1, la representaremos por o y la calcularemos de la siguiente forma:

Cuasidesviación típica:

La raíz cuadrada de la cuasivarianza y la denotaremos por SN—1 o N-1.

Todas estas medidas de dispersión tienen influencia por la unidad en la que se mide la variable, esto implica que si cambiamos de unidad de medida, los valores de estos estadísticos se vean a su vez modificados. Además, no permite comparar por ejemplo, en un grupo de alumnos si los pesos o las alturas presentan más dispersión. Pues no es posible comparar unidades de distinto tipo. Precisamos por lo tanto, una medida "escalar", es decir, que no lleve asociado ninguna unidad de medida.

Page 13: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 13

Ejemplo Veamos por último un ejemplo de cómo se calculan todas estas medidas.

45 55 6 6 50 300 -19,4 116,4 2258,16 15000

55 65 10 16 60 600 -9,4 94 883,6 36000

65 75 19 35 70 1330 0,6 11,4 6,84 93100

75 85 11 46 80 880 10,6 116,6 1235,96 70400

85 95 4 50 90 360 20,6 82,4 1697,44 32400

N= 50 3470 420,8 6082 246900

=

Dm=

=

MEDIDAS DE LOCALIZACIÓN Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra. Así en psicología los resultados de los test o pruebas que realizan a un determinado individuo, sirve para clasificar a dicho sujeto en una determinada categoría en función de una puntuación obtenida. 1. Cuartiles 2. Deciles 3. Percentiles 4. Ejemplos de cálculo 5. Algunas medidas de dispersión asociadas Cuartiles Medida de localización que divide la población o muestra en cuatro partes iguales. Q1= Valor de la variable que deja a la izquierda el 25% de la distribución. Q2= Valor de la variable que deja a la izquierda el 50% de la distribución =

mediana. Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.

Page 14: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 14

Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos, depende del tipo de variable. Caso I: Variable cuantitativa discreta:

En este caso tendremos que observar el tamaño de la muestra: N y para calcular Q1 o Q3 procederemos como si tuviésemos que calcular la mediana de la correspondiente mitad de la muestra.

Caso II: Variable cuantitativa continua:

En este caso el cálculo es más simple:, sea la distribución que sigue:

Siendo el intervalo coloreado donde se encuentra el Cuartil correspondiente:

y Deciles Medida de localización que divide la población o muestra en 10 partes iguales No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver sólo para las variables continuas. dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k·10 % de la distribución.

Intervalo donde se encuentra el Decil correspondiente:

k = 1 .. 9 Percentiles Medida de localización que divide la población o muestra en 100 partes iguales. No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver sólo para las variables continuas.

[Li-2 -- Li-1) ni-1 Ni-1

[Li-1 -- Li) ni Ni

[Li-2 -- Li-1) ni-1 Ni-1

[Li-1 -- Li) ni Ni

Page 15: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 15

pk = Percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribución.

Intervalo donde se encuentra el percentil corespondiente:

k=1 .. 99 EJEMPLO: Como se puede observar la forma de calcular estas medidas es muy similar a la del cálculo de la mediana. Veamos el cálculo de algunas de estas medidas en el ejemplo que estamos estudiando. Vamos a calcular Q1,Q3, d3, y p45

Li-1 Li ni Ni

45 55 6 6

55 65 10 16

65 75 19 35

75 85 11 46

85 95 4 50

Cálculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2º intervalo.(50/4=12.5)

Análogamente calculemos Q3, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el 4º intervalo (3.50/4=37.5)

Veamos ahora el decil 3º. (corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo.

Por último veamos el percentil 45 (45·50/100 = 22.5) Corresponde al intervalo 3º.

[Li-2 -- Li-1) ni-1 Ni-1

[Li-1 -- Li) ni Ni

Page 16: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 16

Medidas de Simetría: Las medidas de la asimetría, al igual que la curtosis, van a ser medidas de la forma de la distribución, es frecuente que los valores de una distribución tiendan a ser similares a ambos lados de las medidas de centralización. La simetría es importante para saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable.

As < 0 As = 0 As > 0

Asimetría Negativa a la Izquierda

Simétrica

Asimetría Positiva a la Derecha.

Para medir la asimetría se puede realizar atendiendo básicamente a dos criterios: Comparando la Media y la Moda. Comparando los valores de la variable con la media. Comparando la Media y la Moda:

Si la diferencia Mox es positiva, diremos que hay asimetría positiva o a la derecha, en el caso de que sea negativa diremos que hay asimetría negativa o a la izquierda. No obstante, esta medida es poco operativa al no ser una medida relativa, ya que esta influida por la unidad en que se mida la variable, por lo que se define el coeficiente de Asimetría como:

Esta medida es muy fácil de calcular, pero menos precisa que el coeficiente de asimetría de Pearson. El coeficiente de asimetría de Pearson, se basa en la comparación con la media de todos los valores de la variable, así que es una medida que se basará en las

diferencias , como vimos en el caso de la dispersión si medimos la media de esas desviaciones sería nulas, si las elevamos al cuadrado, serían siempre

Page 17: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 17

positivas por lo que tampoco servirían, por lo tanto precisamos elevar esas diferencias al cubo. Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto relativa, dividimos por el cubo de su desviación típica. Con lo que resulta la siguiente expresión:

PROBABILIDAD

La experiencia demuestra que la mayoría de los experimentos aleatorios exhiben regularidad estadística o estabilidad de las frecuencias relativas; en varias sucesiones largas de un experimento tal, las frecuencias relativas correspondientes de un evento son casi iguales. Ya que la mayoría de los experimentos aleatorios exhiben regularidad estadística, puede asegurarse que para cualquier evento E en un experimento tal, existe un número P(E) tal que la frecuencia relativa de E, en un gran número de ejecuciones del experimento, es aproximadamente igual a P(E). Por esta razón, a continuación se postula la existencia de un numero P(E), que se llama probabilidad del evento E en ese experimento aleatorio.

LANZAMIENTO DE UNA MONEDA

Experimentos realizados por

Número de lanzamientos

Número de caras Frecuencia relativa de las caras

BUFFON 4.040 2.048 0.5069

K. PEARSON 12.000 6.019 0.5016

K. PEARSON 24.000 12.012 0.5005

Dado que la Estadística se utiliza con mucha frecuencia hoy en día, inclusive ya en el lenguaje cotidiano, es conveniente saber entender con toda precisión qué es lo que se nos dice, por ejemplo, en los medios de comunicación cuando se hace referencia a la probabilidad de algún suceso.

Así, es corriente oír decir que la probabilidad de que un recién nacido sea varón es aproximadamente del 50%, que es muy poco probable que llueva en Torremolinos en la segunda quincena del mes de julio, o inclusive, hasta podemos leer en la prensa (El País, 12 de noviembre de 1991) cosas tales como que en una evaluación internacional sobre matemáticas y ciencias, desarrollada por la National Assessment of Educational Progress de Estados Unidos, entre escolares españoles de 13 años, los chicos muestran un mejor rendimiento en matemáticas

Page 18: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 18

que las chicas, haciendo esta afirmación con un margen de error muy pequeño (del 5 %). Nos apresuramos a decir, claro está, que el informe no afirma que los niños tengan una mayor aptitud o una mayor capacidad para las matemáticas, sino que "probablemente" estos resultados son la consecuencia de unos determinados (y erróneos) comportamientos sociales. En todo caso, el lector o lectora estará de acuerdo conmigo en que es interesante tener muy claro qué significa el que la probabilidad de error ante esa afirmación sea 0'05. Una respuesta completa deberá postergarse hasta el capítulo 7, en donde se describan con detalle las técnicas utilizadas en dicho informe, aunque el concepto de probabilidad que allí se utilice será el que aquí se va a estudiar.

Así pues, es corriente hablar de la probabilidad de un suceso, entendiendo como tal un número entre 0 y 1, de forma que si éste es cercano a 0 (a 1), el suceso tiene poca (mucha) probabilidad de ocurrir o haber ocurrido, aunque ya en el ejemplo anterior hablábamos, por un lado, de una probabilidad científica de que el informe estuviera equivocado, y, por otro, de unas " probables" causas a estos resultados. Vemos, pues, que conviene precisar en cada caso de qué se está hablando, tratando de evitar afirmaciones tan comunes en los medios de comunicación como la de "... mañana es posible que llueva pero no es probable...". La probabilidad así introducida es la contraparte de la frecuencia relativa empírica. Por tanto, resulta natural requerir que deba tener ciertas propiedades básicas que tiene la frecuencia relativa y que se los puede llamar como axiomas.

Espacio Muestral

La Estadística, y por tanto el cálculo de probabilidades, se ocupan de los denominados fenómenos o experimentos aleatorios. El conjunto de todos los resultados posibles diferentes de un determinado experimento aleatorio se denomina Espacio Muestral asociado a dicho experimento y se suele representar por Ω. A los elementos de Ω se les denomina sucesos elementales. Así por ejemplo, el espacio muestral asociado al experimento aleatorio consistente en el lanzamiento de una moneda es Ω = {Cara, Cruz}; el espacio muestral asociado al lanzamiento de un dado es Ω = {1, 2, 3, 4, 5, 6}, siendo Cara y Cruz los sucesos elementales asociados al primer experimento aleatorio y 1, 2, 3, 4, 5 y 6 los seis sucesos elementales del segundo experimento aleatorio. A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto abstracto de puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y propiedades de la teoría de conjuntos constituyen un contexto natural en el que desarrollar el Cálculo de Probabilidades. Sea A el conjunto de las partes de, es decir, el conjunto de todos los subconjuntos de Ω. En principio, cualquier elemento de A, es decir, cualquier subconjunto del espacio muestral contendrá una cierta incertidumbre, por lo que trataremos de

Page 19: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 19

asignarle un número entre 0 y 1 como medida de su incertidumbre. En Cálculo de Probabilidades dichos subconjuntos reciben en el nombre de sucesos, siendo la medida de la incertidumbre su probabilidad. La tripleta (Ω,A,P) recibe el nombre de espacio probabilístico. Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral, la clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados a nuestro experimento aleatorio A, y una función real, P: A [0, 1], la cual asignará a cada suceso (elemento de A) un número entre cero y uno como medida de su incertidumbre. Advertimos no obstante, que la elección del espacio muestral asociado a un experimento aleatorio no tiene por qué ser única, sino que dependerá de que sucesos elementales queramos considerar como distintos y del problema de la asignación de la probabilidad sobre esos sucesos elementales.

Estimación del Tamaño de la Muestra

Muestreo Aleatorio Simple Se necesita encuestar una muestra y para ello tomará un tamaño mediante un sistema de muestreo aleatorio simple, cuya fórmula es:

2

22/

2

SZn

n = tamaño necesaria de la muestra

Z/2 = margen de confiabilidad o número de unidades de desviación estándar en la distribución normal que producirá el nivel deseado de confianza (para

una confianza de 95% o un = 0,05, Z = 1,96; para una confianza de 99%

o un = 0,01, Z = 2,58). S = desviación estándar de la población (conocida o estimada a partir de

anteriores estudios o de una prueba piloto).

= error o diferencia máxima entre la media muestral y la media de la población que se está dispuesto a aceptar con el nivel de confianza que se ha definido.

Muestreo Proporcional Una compañía de seguros cuenta con 200 asegurados en el país. Por una investigación piloto se supo que el 73% de las personas aseguradas declaran una excelente aceptación de los seguros de la empresa. Ésta desea conocer el grado de aceptación de un nuevo seguro con un margen de confiabilidad de 95% y un error de estimación de 5%. Calcular el tamaño de la muestra de los asegurados para este nuevo tipo de producto.

PQZN

PQNZn

22

2/2

)1(

Page 20: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 20

n = tamaño necesaria de la muestra

Z/2 = 1,96 P = probabilidad de que el evento ocurra 0,73 ó 73% (50% si no hay

información). Q = probabilidad de que el evento no ocurra (1-P) = 0,27 ó 27% (50% si no hay

información).

= 0,05 ó 5% N = tamaño de la población: 200 asegurados La empresa necesita entrevistar a 121 de sus asegurados para conocerle grado de aceptación de su nuevo producto. Ahora, cuando no se conoce la probabilidad de ocurrencia de un evento, a P se le

da un valor máximo que es de 0,5, lo mismo que a Q, e igualmente no debe ser mayor de 6%.

Ejemplo:

Sea un dado no cargado, es decir, un dado de material homogéneo y estrictamente de forma cúbica que se lanza una vez. En este experimento, S = {1, 2, 3, 4, 5, 6}. Por tanto se tiene P(1) = 1/6, P(2) = 1/6, P(6) 1/6.

Ejemplo: "Lanzamiento de un dado"

El espacio probabilístico asociado al experimento aleatorio consistente en el lanzamiento de un dado, tendrá como espacio muestras Ω={1,2,3,4,5,6} y como espacio de sucesos el conjunto de las partes por ser Ω finito, el cual contiene 26 elementos, A = { Φ, {1}, {2}, {3}, {4}, {5}, {6}, {1,2}, {1,3}, {1,4}, {1,5}, {1,6}, {2,3}, {2,4}, {2,5}, {2,6}, {3,4}, {3,5}, {3,6}, {4,5}, {4,6}, {5,6}, {1,2,3}, {1,2,4}, {1,2,5}, {1,2,6}, {1,3,4}, {1,3,5}, {1,3,6}, {1,4,5}, {1,4,6}, {1,5,6}, {2,3,4}, {2,3,5}, {2,3,6}, {2,4,5}, {2,4,6}, {2,5,6}, {3,4,5}, {3,4,6}, {3,5,6}, {4,5,6}, {1,2,3,4}, {1,2,3,5}, {1,2,3,6}, {1,2,4,5}, {1,2,4,6}, {1.,2,5,6}, {1,3,4,5}, {1,3,4,6}, {1,3,5,6}, {1,4,5,6}, {2,3,4,5}, {2,3,4,6}, {2,3,5,6}, {2,4,5,6}, {3,4,5,6}, {1,2,3,4,5}, {1,2,3,4,6}, {1,2,3,5,6}, {1,2,4,5,6}, {1,3,4,5,6}, {2, 3, 4, 5, 6}, Ω }. Obsérvese que este conjunto contiene los sucesos sobre los que habitualmente se tiene incertidumbre, como por ejemplo que salga un número par, {2, 4, 6}, o un número mayor que cuatro, {5, 6}, o simplemente que salga un seis, {6}, y que como se ve es cerrado respecto de las operaciones entre conjuntos. El último elemento del espacio probabilístico es la probabilidad, que como antes dijimos está definida sobre A, asignando a cada suceso un número entre 0 y 1. Este es el objetivo de la siguiente sección.

Page 21: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 21

Conceptos de Probabilidad

En la sección anterior vimos que a cada suceso A le corresponde su probabilidad P(A), pero, ¿este número viene dado?, ¿es un número desconocido?, ¿lo tenemos que calcular nosotros?. En los casos más sencillos bastará con asignar la probabilidad a los sucesos elementales de un experimento aleatorio. La probabilidad de los demás sucesos se podrá calcular utilizando las propiedades que más adelante veremos. En los casos más complicados (que habitualmente se corresponderán con las situaciones reales) asignaremos un modelo probabilístico al experimento en cuestión, como ideal que creemos corresponde a la situación en estudio, ideal que veremos habrá que chequear inferencialmente. Más adelante hablaremos de la asignación de probabilidades. Ahora analizamos brevemente los conceptos que se han desarrollado a lo largo de la historia, con el propósito de formalizar las ideas intuitivas que desde el origen del hombre siempre existieron sobre la probabilidad, aunque no llegaran a formalizarse hasta comienzos del siglo XIX.

a. Concepto frecuentista Es un hecho, empíricamente comprobado, que la frecuencia relativa de un suceso tiende a estabilizarse cuando la frecuencia total aumenta. Surge así el concepto frecuentista de la probabilidad de un suceso como un número ideal al que converge su frecuencia relativa cuando la frecuencia total tiende a infinito. Así, solemos afirmar que la probabilidad de que salga un seis al tirar un dado es 1/6 porque al hacer un gran número de tiradas su frecuencia relativa es aproximadamente esa. El problema radica en que al no poder repetir la experiencia infinitas veces, la probabilidad de un suceso ha de ser aproximada por su frecuencia relativa para un n suficientemente grande, y ¿cuán grande es un n grande?. 0, ¿qué hacer con aquellas experiencias que solo se pueden repetir una vez?.

b. Concepto clásico Está basado en el concepto de resultados igualmente verosímiles y motivado por el denominado Principio de la Razón Insuficiente, el cual postula que si no existe un fundamento para preferir una entre varias posibilidades, todas deben ser consideradas equiprobables. Así, en el lanzamiento de una moneda perfecta la probabilidad de cara debe ser igual que la de cruz y, por tanto, ambas iguales a 1/2.. De la misma manera, la probabilidad de cada uno de los seis sucesos elementales asociados al lanzamiento de un dado debe ser 1/6. Laplace recogió esta idea y formuló la regla clásica del cociente entre casos favorables y casos posibles, supuestos éstos igualmente verosímiles. El problema aquí surge porque en definitiva igualmente verosímil es lo mismo que igualmente probable, es decir, se justifica la premisa con el

Page 22: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 22

resultado. Además ¿qué ocurre cuando estamos considerando un experimento donde no se da esa simetría?, o, ¿ qué hacer cuando el número de resultados posibles es infinito?.

c. Concepto subjetivo Se basa en la idea de que la probabilidad que una persona da a un suceso debe depender de su juicio y experiencia personal, pudiendo dar dos personas distintas probabilidades diferentes a un mismo suceso. Estas ideas pueden formalizarse, y si las opiniones de una persona satisfacen ciertas relaciones de consistencia, puede llegarse a definir una probabilidad para los sucesos. El principal problema a que da lugar esta definición es, como antes dijimos, que dos personas diferentes pueden dar probabilidades diferentes a un mismo suceso.

d. Definición formal de Probabilidad Los anteriores conceptos de lo que debería ser la probabilidad de un suceso, llevaron a Kolmogorov a dar una definición axiomática de probabilidad. Es decir, a introducir rigor matemático en el concepto de probabilidad, de forma que se pudiera desarrollar una teoría sólida sobre el concepto definido. Así, llamaremos probabilidad a una aplicación P : A [0, 1] tal que

Axioma 1: Para todo suceso A de A sea P(A) 0.

Axioma 2: Sea P(Ω) = 1

Axioma 3: Para toda colección de sucesos incompatibles, {Ai} con Ai

Aj = , debe ser:

Obsérvese que esta definición no dice cómo asignar las probabilidades ni siquiera a los sucesos elementales. Solo dice que cualquier asignación que hagamos debe verificar estos tres axiomas para que pueda llamarse Probabilidad.

Propiedades Elementales de la Probabilidad

1. P( ) = 1 - P( A ) 2. P( Ø ) = 0

Page 23: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 23

3. Si A B P( B ) = P( A ) + P( )

4. Si A B P( A ) P( B ) 5. Si A1 , A2 , ... , Ak , son incompatibles dos a dos, entonces:

P( A1 A2 ... Ak ) = P( A1 ) + P( A2 ) + ... + P( Ak )

6. P( ) = P( A ) + P( B ) - P( ) 7. Si el espacio muestral E es finito y un sucesos es A={x1 , x2 , ... , xK} ,

entonces: P( A ) = P( x1 ) + P( x2 ) + ... + P( xK )

Asignación de Probabilidad

Por las propiedades demostradas en la sección anterior, es suficiente conocer la probabilidad de los sucesos elementales, ya que, entonces, se podrá determinar la de cualquier otro suceso. Así, en el ejemplo del Lanzamiento de un Dado, si la probabilidad de obtener un 1 es, pl, la de un 3 , p2, y la de un 5, p3, la del suceso obtener un número impar, el cual corresponde a ω28 en el conjunto de los sucesos, será, por la propiedad 2, p1 + p2 + p3 . Es decir, el problema radica en asignar una probabilidad a los sucesos elementales: Asignar un número entre 0 y 1 a cada uno de los sucesos elementales, de tal forma que su suma sea 1. En principio, cualquier asignación que cumpla los tres axiomas mencionados en la definición de probabilidad es válida. No obstante, el propósito del cálculo de probabilidades, como soporte de la Estadística, es el de construir un esquema matemático que refleje de la forma más exacta posible el fenómeno aleatorio real que estemos estudiando, por lo que la asignación de probabilidad que elijamos debe ser lo más ajustada posible a la realidad que estamos observando. Así, en el ejemplo del Lanzamiento de un Dado la asignación razonable será la de

P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = . En otras ocasiones, la observación del mismo fenómeno en otra población semejante a la que estamos estudiando, o inclusive en la objeto de estudio en un tiempo anterior, permitirá obtener una distribución de frecuencias a partir de la cual asignar una probabilidad.

Page 24: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 24

Ejemplo:

Un estudio sobre el color de los ojos en niños recién nacidos de una población determinada dio la siguiente distribución de frecuencias relativas:

Color fi

Azules 0.05

Verdes 0.02

Castaños 0.69

Negros 0.24

Supuesto que no consideremos la componente genética que esta característica tiene, no teniendo en cuenta el color de ojos de los padres, podríamos considerar esta distribución de frecuencias como una buena aproximación de la probabilidad y decir, por ejemplo, que la probabilidad que tiene un recién nacido de esta población de tener los ojos claros es P{ ojos claros } = P{Azules} + P{Verdes} = 0.05 + 0.02 = 0.07. A veces es precisamente la asignación de la probabilidad la que determina el espacio muestral. Así, en el ejemplo del experimento aleatorio consistente en extraer una bola al azar de una urna compuesta por tres bolas rojas, dos blancas y una verde., si consideramos como espacio muestral: Ω2 = {ω1, ω2, ω3, ω4, ω5, ω6} en donde era ωi = bola roja, i = 1,2,3, ωi = bola blanca, i = 4,5 y ω6 = bola verde, los seis sucesos elementales pueden ser considerados como equiprobables, siendo en ese caso, P(ωi) = 1/6, mientras que si consideramos como espacio muestral Ω1 = {ω1, ω2, ω3} en donde era ω1 = bola roja, ω2 = bola blanca y ω3 = bola verde, los sucesos dejan ya de ser equiprobables, por lo que, en una situación más compleja, la elección de un espacio muestral en donde los sucesos elementales sean equiprobables puede ser más adecuada. Aquí, por las propiedades estudiadas en la sección anterior, es equivalente utilizar Ω2 con sucesos elementales equiprobables, que utilizar Ω1 con P(ω1) = 3/6, P(ω2) = 2/6 y P(ω3) = 1/6. Sin embargo, la mayoría de los fenómenos aleatorios que se observan en la naturaleza admiten un esquema tan sencillo, ni será necesario detallar esta asignación en los sucesos elementales en la mayoría de las situaciones reales. Se podrá actuar en una forma más encapsulada, asignando de forma global un modelo probabilístico a la característica que estemos estudiando, el cual recibe el nombre de Distribución de Probabilidad. No obstante, en esa modelización global que hagamos de la realidad, siempre será posible descender hasta la probabilidad que tiene asociada.

Page 25: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 25

La asignación que hagamos, tanto en un nivel elemental como en forma de distribución modelo, podrá ser contrastada con las observaciones que hagamos de nuestro experimento aleatorio, de forma que podamos estar razonablemente seguros de nuestras conclusiones. Dentro de las posibles asignaciones de probabilidad existe una que destaca, tanto por ser una de las más utilizadas como por obtenerse de ella interesantes propiedades. Se trata del denominado Modelo Uniforme.

Modelo Uniforme

En esta sección estudiaremos un caso particular muy importante, el cual se corresponde con una situación en la que los sucesos elementales del espacio muestral puedan ser considerados como equiprobables.

Ejemplo:

Consideremos el experimento aleatorio consistente en lanzar una moneda al aire. En el espacio muestral asociado, Ω={Cara, Cruz}, ambos sucesos elementales pueden considerarse como equiprobables.

Ejemplo:

Si seleccionamos al azar una carta de una baraja española, los cuarenta sucesos elementales correspondientes a las cuarenta cartas, pueden ser considerados como equiprobables, estando de nuevo ante un esquema de modelo uniforme.

Ejemplo:

Supongamos el experimento aleatorio consistente en dividir el intervalo [0,1] en

tres trozos eligiendo dos puntos x1, x2 [0, 1] al azar. De nuevo, al ser al azar la elección de los puntos, estaremos ante un modelo uniforme.

Ejemplo:

Consideremos el experimento aleatorio consistente en lanzar al aire una moneda dos veces. El espacio muestral que razonablemente vendrá asociado será, = {(C, C), (C, X), (X, X)}, siendo C y X, respectivamente, la cara y la cruz de la moneda. En este espacio muestral los sucesos no son equiprobables, aunque puede conseguirse esta simetría si consideramos como espacio muestral = {(C, C), (C, X), (X, C), (X, X)}. En todos estos casos de modelos uniformes, en especial en los que el espacio muestral es finito, Ω={ ω1, ω2,..., ωn} el cálculo de las probabilidades de los sucesos resulta sencillo, ya que al ser los sucesos elementales incompatibles y equiprobables, será

Page 26: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 26

1 = P(Ω) = P(ωl) + ... + P(ωn) = n ·P(ωi)

con lo que P(ωi) = 1/n, i=1,...,n. Por tanto, si un suceso A es unión de k sucesos elementales, será

con lo que en definitiva, el cálculo de probabilidades de sucesos en un modelo uniforme, se limita a contar el número de casos favorables a dicho suceso y el número de casos posibles. No obstante, dicho cómputo no resulta siempre fácil por lo que es conveniente tener presente las fórmulas de las variaciones, combinaciones y permutaciones, ya que éstas facilitarán el cálculo.

Permutaciones y Combinaciones

Si de un grupo de N elementos tomamos n importándonos el orden de los n elementos seleccionados, tendremos variaciones y si no nos importa el orden, combinaciones. Además, si admitimos la posibilidad de que entre estos n pueda haber elementos repetidos, hablaremos, respectivamente, de variaciones y de combinaciones con repetición. Por último, si solamente queremos contar el número posible de reordenaciones de un conjunto de elementos, hablaremos de permutaciones con o sin repetición dependiendo de que admitamos o no la posibilidad de que haya elementos repetidos. Las fórmulas son:

Permutaciones de N elementos

PN = N! = N · (N - 1) · ……... · 2 · 1 Permutaciones con repetición de N elementos, uno de los cuales se repite

n1 veces, otro n2 veces, ..., otro nr veces

El número de variaciones diferentes de N cosas diferentes tomadas n a la vez, sin repetición es (interesa el orden de los elementos)

)¡(

¡

nN

NV N

n

Page 27: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 27

Variaciones con repetición de N elementos tomados de n en n (interesa el orden de los elementos)

nN

n NVR

El número de combinaciones diferentes de N cosas diferentes tomadas n a

la vez , sin repetición, es (no interesa el orden de los elementos)

El número de combinaciones diferentes de N cosas diferentes tomadas n a

la vez , con repetición, es

Ejemplo:

Una enciclopedia en seis volúmenes es colocada en una estantería de forma aleatorio. La probabilidad de que resulte colocada de forma correcta, supuesto que ésto signifique empezar a contar por la izquierda, será

Probabilidad Condicionada - Sucesos Independientes

a. Probabilidad condicionada

Mediante un espacio probabilístico damos una formulación matemática a un fenómeno aleatorio que estemos observando. Parece por tanto razonable que si observamos algo que aporte información a nuestro fenómeno aleatorio, ésta deba alterar el espacio probabilístico de partida. Por ejemplo, la extracción de una bola de una urna con tres bolas blancas y dos negras, puede formalizarse con un espacio probabilístico en el que los sucesos elementales sean las cinco bolas y donde la probabilidad sea uniforme sobre estos cinco sucesos elementales, es decir, igual a 1/5. Si extraemos una bola de la urna, es decir, si observamos el suceso A bola negra, y no la devolvemos a la urna, es razonable que el espacio probabilístico cambie en el sentido no solo de que ahora ya habrá únicamente cuatro sucesos elementales, sino que además la función de probabilidad deberá cambiar en orden a recoger la información que la observación del suceso A nos proporcionó.

Page 28: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 28

Es decir, en el nuevo espacio probabilístico deberá hablarse de probabilidad condicionada al suceso A, de forma que se recojan hechos tan evidentes como que ahora la probabilidad (condicionada) de obtener negra se habrá reducido y habrá aumentado la de blanca. Las propiedades vistas en el capítulo anterior para las distribuciones (le frecuencias condicionadas llevan a la siguiente definición.

Definición:

Dado un espacio probabilístico (Ω,A,P) y un suceso B A tal que P(B) > 0, llamaremos probabilidad condicionada del suceso A respecto al B a:

A partir de esta definición podemos deducir que

P( A B ) = P(A/B) · P(B) y como los sucesos A y B pueden intercambiarse en la expresión anterior, será:

P(A B) = P(A/B)·P(B) = P(B/A)·P(A) por lo que tenemos una expresión más para calcular la probabilidad condicionada

b. Independencia de sucesos Existen situaciones en las que la información suministrada por el acaecimiento de un suceso B no altera para nada el cálculo de la probabilidad de otro suceso A. Son aquellas en las que el suceso A es independiente de B. Es decir, cuando P(A/B) = P(A). Como entonces, por la última expresión de la probabilidad condicionada, es

y, por tanto, se podría decir que también B lo es de A, hablaremos de sucesos independientes cuando esta situación ocurra. La definición formal que se da a continuación implica estas dos situaciones.

Definición:

Dos sucesos A y B de un mismo espacio probabilístico (Ω, A, P) se dicen independientes cuando

Page 29: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 29

P( A B ) = P(A) · P(B)

Teorema de la Probabilidad Total - Teorema de Bayes

Teorema de la Probabilidad Total

En el cálculo numérico de probabilidades tiene una gran aplicación práctica el siguiente resultado.

Teorema

Sea un espacio probabilístico (Ω, A, P) y {An} A una partición de sucesos de Ω . Es decir,

An = Ω y Ai Aj = para todo i j.

Entonces, para todo suceso B A es

P(B) = P(B/An) · P(An). Resultado que se puede parafrasear diciendo que la probabilidad de un suceso que se puede dar de varias formas es igual a la suma de los productos de las probabilidades de éste en cada una de esas formas, P(B/An), por las probabilidades de que se den estas formas, P(An).

Ejemplo

Una población está formada por tres grupos étnicos: A (un 30%), B (un 10%) y C (un 6O%). Además se sabe que el porcentaje de personas con ojos claros en cada una de estas poblaciones es, respectivamente, del 20%, 40% y 5%. Por el teorema de la probabilidad total, la probabilidad de que un individuo elegido al azar de esta población tenga ojos claros es: P(ojos claros) = P(A) ·P(ojos claros/A) + P(B) · P(ojos claros/B) + P(C) · P(0jos claros/C ) = 0'3 · 0'2 + 0'1 · 0'4 + 0'6 · 0'05 = 0'13.

Teorema de Bayes El siguiente teorema es un resultado con una gran carga filosófica detrás, el cual mide el cambio que se va produciendo en las probabilidades de los sucesos a medida que vamos haciendo observaciones. Paradógicamente a su importancia, su demostración no es más que la aplicación de la definición de probabilidad condicionada seguida de la aplicación del teorema de la probabilidad total.

Teorema

Sea un espacio probabilístico (Ω, A, P) y {An} A una partición de

sucesos de Ω y B A un suceso con probabilidad positiva. Entonces, para todo suceso Ai es

Page 30: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 30

Este teorema tiene una interpretación intuitiva muy interesante. Si las cosas que pueden ocurrir las tenemos clasificadas en los sucesos Ai de los cuales conocemos sus probabilidaes P(Ai), denominadas a priori, y se observa un suceso B, la fórmula de Bayes nos da las probabilidades a posteriori de los sucesos A<SUB<I< sub>, ajustadas o modificadas por B.

Ejemplo

Supongamos que tenemos una urna delante de nosotros de la cual solo conocemos que o es la urna A1 con 3 bolas blancas y 1 negra, o es la urna A2 con 3 bolas negras y 1 blanca. Con objeto de obtener más información acerca de cual urna tenemos delante, realizamos un experimento consistente en extraer una bola de la urna desconocida. Si suponemos que la bola extraida resultó blanca 1B y a priori ninguna de las dos urnas es más verosímil que la otra, P(A1) = P(A2) = 1/2, entonces la fórmula de Bayes nos dice que las probabilidades a posteriori de cada urna son P(A1/1B) =3/4 y P(A2/1B) =1/4 habiendo alterado de esta forma nuestra creencia sobre la urna que tenemos delante: Antes creíamos que eran equiprobables y ahora creemos que es tres veces más probable que la urna desconocida sea la A1. Pero, ¿qué ocurrirá si extraemos otra bola?. Lógicamente, en la fórmula de Bayes deberemos tomar ahora como probabilidades a priori las calculadas, 3/4 y 1/4, pues éstas son nuestras creencias sobre la composición de la urna, antes de volver a realizar el experimento. Si suponemos que la bola no fue reemplazada (se deja para el lector el caso de reemplazamiento), y sale una bola negra 2N, la fórmula de Bayes nos devolverí a la incertidumbre inicial, ya que sería P(A1/2N) =1/2 y P(A2/2N) =1/2 Si hubiera salido blanca, la fórmula de Bayes, al igual que la lógica, también sería concluyente, P(A1/2B) =1 y P(A2/2B) =0 La utilización de la fórmula de Bayes, es decir, la utilización de distribuciones de probabilidad a posteriori como modelos en la estimación de parámetros, al recoger ésta tanto la información muestral, P(B/Ai), como la información a priori sobre ellos, P(Ai), constituye una filosofía inferencial en gran desarrollo en los últimos años, la cual, no obstante, tiene el inconveniente (o según ellos la ventaja) de depender de la información a

Page 31: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 31

priori, la cual en muchas ocasiones es subjetiva y por tanto, pudiendo ser diferente de un investigador a otro.

REGRESIONES

En la práctica se observa que existe una relación entre dos o más variables, como por ejemplo la relación que existe entre el área de los terrenos y sus respectivos precios unitarios. Se define como regresión al estudio de la fuerza, consistencia o grado de asociación de la correlación de n variables independientes. El análisis de regresión determina la naturaleza de la correlación y permite realizar la correspondiente predicción. El problema de ajustar una curva a una serie de datos, consiste en primer término determinar la Familia de Curvas que mejor describe el fenómeno. Posteriormente realizada esta decisión se procederá a encontrar los parámetros de la curva correspondiente. LA CURVA DE REGRESION LINEAL En la siguiente gráfica se ha dibujado una curva (una línea recta en este caso) de una familia de curvas preseleccionadas y un grupo de datos. El Método de ajuste de los Mínimos Cuadrados consiste en determinar los parámetros de una curva, de manera que la suma de los cuadrados de las diferencias mencionadas sea la menor posible.

El tipo más sencillo de curva de aproximación en la línea recta cuya ecuación puede escribirse:

Y = a + b * X

Para poder determinar los valores de a y b, se recurre al método de los mínimos cuadrados, que cumple la condición de minimizar la siguiente expresión:

Page 32: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 32

n

i

ci YY1

2)(

Yi = es un valor observado Yc = es un valor calculado por la ecuación de regresión n= es el número de observaciones Si se remplaza Yc por a + b Xi es posible, derivando, encontrar los valores de los coeficientes de regresión a y b que satisfacen la condición.

n

i

ii BXaYZ1

2)(

Estas ecuaciones representan que la suma del cuadrado de las desviaciones es mínima y se obtienen haciendo la primera derivada con respecto a a y la primera derivada con respecto a B igual a cero en la ecuación de la curva (recta) de mínimo cuadrado:

0)1()(21

n

i

ii BXaYa

Z

0)()(21

i

n

i

ii XBXaYb

Z

Realizando operaciones

0)(1

n

i

ii BXaY

0)(1

2

n

i

iiii BXaXXY

La recta de aproximación por mínimos cuadrados del conjunto de puntos (x1,y1), (x2,y2)...(xn,yn) tienen las ecuaciones normales siguientes:

n

i

iiii BXaXXY1

2)

n

i

ii BXnaY1

)

Page 33: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 33

Resolviendo el sistema de ecuaciones anterior se despejan los parámetros a y b de donde se obtienen sus respectivos valores:

EJEMPLO: Se tiene una serie de datos que se indican en la siguiente Tabla:

x: o sea la Variable Independiente, representa el tiempo transcurrido en meses desde la primera operación de compra venta hasta la más reciente (18 meses mas tarde). y: o sea la Variable Dependiente, representa el precio unitario en Bs/M2 correspondiente a cada operación revisada.

n = 6

222.50 * 685) - (53 * 2,577.50) a = ----------------------------------------------- = 12.15

(6 * 685) - (53)^2 (6 * 2,577.50) - (53 * 222.50)

b = ------------------------------------------------ = 2.82 (6 * 685) - (53)^2

Por lo tanto la ecuación de correlación de la línea mínimo cuadrática de mejor ajuste será:

y = 12.17 + 2.82 * x Ahora se puede predecir cuál será el comportamiento de la variable dependiente y en función de la variable independiente x.

Page 34: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 34

LA CURVA DE REGRESION EXPONENCIAL La familia de rectas (y =a + b x) y las familias de curvas exponenciales (y = a * b^x), son las ecuaciones de correlación simple mas utilizadas en la práctica. En este caso para correlacionar la muestra de datos obtenidas se estudiará una ecuación exponencial cuya expresión es:

Resolviendo el sistema de sus ecuaciones normales se obtienen las siguientes expresiones para los coeficientes a y b:

EJEMPLO En un caso similar al ejemplo anterior; se han obtenido el registro de operaciones de compra-venta de terreno en los últimos 20 meses:

En este caso x (la variable independiente) y y (la variable dependiente).

Page 35: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 35

n = 8

(11.8205)*(1,334) - (90)*(148.4355) log a = -------------------------------------------------- = 0.9367

(8) *(1,334) - 90^2

(8)*(148.4355) - 90*(11.8205) log b =-------------------------------------------- = 0.0481

(8) *(1,334) - 90^2 Calculando los antilogaritmos

a = antlg (0.9367) = 8.6437 b = antlg (0.0481) = 1.1171

La ecuación de correlación será:

EL COEFICIENTE DE DETERMINACION El Coeficiente de Determinación, mide la bondad del ajuste relativo de la curva de regresión. Indica la cantidad de variación en y que se explica en la ecuación de regresión.

Desviación Total de y Es la diferencia entre el valor observado (datos) y el promedio de los valores observados:

Desviación No Explicada

Page 36: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 36

Corresponde al Error o Residual y se define como la diferencia entre el valor observado y el valor calculado:

Desviación Explicada Corresponde a la diferencia entre el valor calculado y el valor promedio:

Relación entre los términos anteriores. Se cumplirá que:

Desviación Total = Desv. No Explicada + Desv. Explicada

Dentro de la Teoría de los Mínimos Cuadrados que estamos utilizando, considerando que se eleven al cuadrado cada una de las desviaciones y sumando todos los valores correspondientes a los N datos u observaciones, se obtienen los siguientes Estadísticos: SCT o Suma de Cuadrados Total

SCE o Suma del Cuadrado del Error

SCR o Suma del Cuadrado de la Regresión

De la misma manera anterior, se cumple la relación:

SCT = SCE + SCR El Coeficiente de Determinación: Se define como coeficiente de determinación:

Despejando:

Page 37: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 37

Donde el coeficiente de determinación toma valores comprendidos en el intervalo: [0 , 1] Interpretación del Coeficiente de Determinación: Un valor de R^2 = 0.75, debe interpretarse que el 75% de las variaciones de y (Muestra), son explicadas por las variables y número de datos utilizados para calcular el modelo. Se preferirá siempre el Modelo cuyo Coeficiente de Determinación sea lo más cercano a la unidad (1.0). El Coeficiente de Correlación, se define como Coeficiente de Correlación r como:

su interpretación es la misma que el Coeficiente de Determinación y sus valores estarán comprendidos en el intervalo: [ -1 , 1 ] EJEMPLO: Sean los siguientes datos correspondientes al ejemplo anterior:

Ecuación de correlación:

Page 38: Estadistica (Universidad Nacional de Loja)

UNIVERSIDAD NACIONAL DE LOJA

AREA DE ENERGIA, INDUSTRIAS Y RECURSOS NATURALES NO RENOVABLES

ESTADISTICA

MSc. Jorge Patricio Muñoz V. 38