Download - ESTADISTICA - COMPILACION VITUTOR

ESTADÍSTICA DESCRIPTIVA

La Estadística trata del recuento, ordenación y clasificación de los datos

obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones.

Un estudio estadístico consta de las siguientes fases:

Recogida de datos.

Organización y representación de datos.

Análisis de datos.

Obtención de conclusiones.

Conceptos de Estadística

Población

Una población es el conjunto de todos los elementos a los que se somete a un

estudio estadístico.

Individuo

Un individuo o unidad estadística es cada uno de los elementos que componen

la población.

Muestra

Una muestra es un conjunto representativo de la población de referencia, el

número de individuos de una muestra es menor que el de la población.

Muestreo

El muestreo es la reunión de datos que se desea estudiar, obtenidos de una

proporción reducida y representativa de la población.

Valor

Un valor es cada uno de los distintos resultados que se pueden obtener en un

estudio estadístico. Si lanzamos una moneda al aire 5 veces obtenemos dos valores:

cara y cruz.

Dato

Un dato es cada uno de los valores que se ha obtenido al realizar un estudio

estadístico. Si lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara,

cruz, cara, cruz.

Variables estadísticas

Una variable estadística es cada una de las características o cualidades que

poseen los individuos de una población .

Tipos de variable estadísticas

Variable cualitativa

Las variables cualitativas se refieren a características o

cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos:

Variable cualitativa nominal

Una variable cualitativa nominal presenta modalidades no

numéricas que no admiten un criterio de orden . Por ejemplo:

El estado civil, con las siguientes modalidades: soltero, casado, separado,

divorciado y viudo.

Variable cualitativa ordinal o variable cuasicuantitativa

Una variable cualitativa ordinal presenta modalidades no númericas , en las

que existe un orden . Por ejemplo:

La nota en un examen: suspenso, aprobado, notable, sobresaliente.

Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...

Medallas de una prueba deportiva: oro, plata, bronce.

Variable cuantitativa

Una variable cuantitativa es la que se expresa mediante un número, por tanto

se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:

Variable discreta

Una variable discreta es aquella que toma valores aislados , es

decir no admite valores intermedios entre dos valores específicos. Por ejemplo:

El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.

Variable continua

Una variable continua es aquella que puede tomar valores comprendidos

entre dos números . Por ejemplo:

La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.

En la práctica medimos la altura con dos decimales, pero también se podría dar

con tres decimales.

Distribución de frecuencias

Una distribución de frecuencias o tabla de frecuencias es

una ordenación en forma de tabla de los datos estadísticos , asignando a

cada dato su frecuencia correspondiente .

Tipos de frecuencia

Frecuencia absoluta

La frecuencia absoluta es el número de veces que aparece un

determinado valor en un estudio estadístico.

Se representa por f i.

La suma de las frecuencias absolutas es igual al número total de datos, que

se representa por N.

Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma

mayúscula) que se lee suma o sumatoria.

Frecuencia relativa

La frecuencia relativa es el cociente entre la frecuencia absoluta de un

determinado valor y el número total de datos .

Se puede expresar en tantos por ciento y se representa por n i.

La suma de las frecuencias relativas es igual a 1.

Frecuencia acumulada

La frecuencia acumulada es la suma de las frecuencias absolutas de todos

los valores inferiores o iguales al valor considerado.

Se representa por F i.

Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la frecuencia

acumulada de un determinado valor y el número total de datos . Se puede expresar

en tantos por ciento.

Ejemplo

Durante el mes de julio, en una ciudad se han registrado las siguientes

temperaturas máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29,

30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

En la primera columna de la tabla colocamos la variable ordenada de menor a

mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia

absoluta.

x i Recuento f i F i n i N i

27 I 1 1 0.032 0.032

28 II 2 3 0.065 0.097

29 6 9 0.194 0.290

30 7 16 0.226 0.516

31 8 24 0.258 0.774

32 III 3 27 0.097 0.871

33 III 3 30 0.097 0.968

34 I 1 31 0.032 1

31 1

Este tipo de tablas de frecuencias se utiliza con variables discretas .

Distribución de frecuencias agrupadas

La distribución de frecuencias agrupadas o tabla con datos agrupados se

emplea si las variables toman un número grande de valores o la variable es

continua .

Se agrupan los valores en intervalos que tengan la misma

amplitud denominados clases . A cada clase se le asigna su frecuencia

correspondiente .

Límites de la clase

Cada clase está delimitada por el límite inferior de la clase y el límite

superior de la clase .

Amplitud de la clase

La amplitud de la clase es la diferencia entre el límite superior e

inferior de la clase.

Marca de clase

La marca de clase es el punto medio de cada intervalo y es el valor que

representa a todo el intervalo para el cálculo de algunosparámetros .

Construcción de una tabla de datos agrupados

3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26,

20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

1º se localizan los valores menor y mayor de la distribución. En este caso son 3 y

48.

2º Se restan y se busca un número entero un poco mayor que la diferencia y que

sea divisible por el número de intervalos de queramos poner.

Es conveniente que el número de intervalos oscile entre 6 y 15.

En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.

Se forman los intervalos teniendo presente que el límite inferior de una clase

pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el

siguiente intervalo.

c i f i F i n i N i

[0, 5) 2.5 1 1 0.025 0.025

[5, 10) 7.5 1 2 0.025 0.050

[10, 15) 12.5 3 5 0.075 0.125

[15, 20) 17.5 3 8 0.075 0.200

[20, 25) 22.5 3 11 0.075 0.2775

[25, 30) 27.5 6 17 0.150 0.425

[30, 35) 32.5 7 24 0.175 0.600

[35, 40) 37.5 10 34 0.250 0.850

[40, 45) 42.5 4 38 0.100 0.950

[45, 50) 47.5 2 40 0.050 1

40 1

Gráficas de estadística

Diagrama de sectores

Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se

usa frecuentemente para las variables cualitativas .

Los datos se representan en un círculo , de modo que el ángulo de

cada sector es proporcional a la frecuencia absolutacorrespondiente.

El diagrama circular se construye con la ayuda de un transportador de ángulos.

Ejemplo

En una clase de 30 alumnos, 12 juegan a baloncesto, 3 practican la natación, 4

juegan al fútbol y el resto no practica ningún deporte.

Alumnos Ángulo

Baloncesto 12 144°

Natación 3 36°

Fútbol 9 108°

Sin deporte 6 72°

Total 30 360°

Diagrama de barras

Un diagrama de barras se utiliza para de presentar datos

cualitativos o datos cuantitativos de tipo discreto .

Se representan sobre unos ejes de coordenadas, en el eje de abscisas se

colocan los valores de la variable , y sobre el eje de ordenadas las frecuencias

absolutas o relativas o acumuladas .

Los datos se representan mediante barras de una altura proporcional a

la frecuencia .

Ejemplo

Un estudio hecho al conjunto de los 20 alumnos de una clase para determinar su

grupo sanguíneo ha dado el siguiente resultado:

Grupo sanguíneo

fi

A 6

B 4

AB 1

0 9

20

Histograma

Un histograma es una representación gráfica de una variable en forma

de barras.

Se utilizan para variables continuas o para variables discretas , con un gran

número de datos, y que se han agrupado en clases .

En el eje abscisas se construyen unos rectángulos que tienen por base la

amplitud del intervalo , y por altura, la frecuencia absoluta de cada intervalo .

La superficie de cada barra es proporcional a la frecuencia de

los valores representados.

Ejemplo

El peso de 65 personas adultas viene dado por la siguiente tabla:

c i f i F i

[50, 60) 55 8 8

[60, 70) 65 10 18

[70, 80) 75 16 34

[80, 90) 85 14 48

[90, 100) 95 10 58

[100, 110) 110 5 63

[110, 120) 115 2 65

65

Histograma de frecuencias acumuladas

Si se representan las frecuencias acumuladas de una tabla de datos

agrupados se obtiene el histograma de frecuencias acumuladas .

Histogramas con intervalos de amplitud diferente

Para costruir un histogramas con intervalo de amplitud diferente tenemos

que calcular las alturas de los rectángulos del histograma .

h i es la altura del intervalo

f i es la frecuencia del intervalo

a i es la amplitud del intervalo

Ejemplo

En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y

sobresaliente) obtenidas pr un grupo de 50 alumnos.

f i h i

[0, 5) 15 3

[5, 7) 20 10

[7, 9) 12 6

[9, 10) 3 3

50

Polígonos de frecuencia

Un polígono de frecuencias se forma uniendo los extremos de las barras de

un diagrama de barras mediante segmentos .

También se puede realizar trazando los puntos que representan

las frecuencias y uniéndolos mediante segmentos .

Ejemplo

Las temperaturas en un día de otoño de una ciudad han sufrido las siguientes

variaciones:

Hora Temperatura

6 7º

9 12°

12 14°

15 11°

18 12°

21 10°

24 8°

Polígonos de frecuencia para datos agrupados

Para construir el polígono de frecuencia se toma la marca de clase que

coincide con el punto medio de cada rectángulo de unhistograma .

Ejemplo

El peso de 65 personas adultas viene dado por la siguiente tabla:

c i f i F i

[50, 60) 55 8 8

[60, 70) 65 10 18

[70, 80) 75 16 34

[80, 90) 85 14 48

[90, 100) 95 10 58

[100, 110) 110 5 63

[110, 120) 115 2 65

65

Polígono de frecuencias acumuladas

Si se representan las frecuencias acumuladas de una tabla de datos

agrupados se obtiene el histograma de frecuencias acumuladas o su

correspondiente polígono .

Moda, mediana y media

La moda es el valor que tiene mayor frecuencia absoluta .

Se representa por Mo .

Se puede hallar la moda para variables cualitativas y cuantitativas .

Hallar la moda de la distribución:

2, 3, 3, 4, 4, 4, 5, 5 Mo= 4

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa

frecuencia es la máxima, la distribución es bimodal omultimodal , es decir,

tiene varias modas .

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9

Cuando todas las puntuaciones de un grupo tienen la misma

frecuencia , no hay moda.

2, 2, 3, 3, 6, 6, 9, 9

Si dos puntuaciones adyacentes tienen la frecuencia máxima , la moda es

el promedio de las dos puntuaciones adyacentes.

0, 1, 3, 3, 5, 5, 7, 8Mo = 4

Cálculo de la moda para datos agrupados

1º Todos los intervalos tienen la misma amplitud.

L i -1 es el límite inferior de la clase modal.

f i es la frecuencia absoluta de la clase modal.

f i - -1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.

f i -+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.

a i es la amplitud de la clase.

También se utiliza otra fórmula de la moda que da un valor aproximado de

ésta:

Ejemplo

Calcular la moda de una distribución estadística que viene dada por la siguiente

tabla:

f i

[60, 63) 5

[63, 66) 18

[66, 69) 42

[69, 72) 27

[72, 75) 8

100

2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

La fórmula de la moda aproximada cuando existen distintas amplitudes es:

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos

están ordenados de menor a mayor .

La mediana se representa por Me .

La mediana se puede hallar sólo para variables cuantitativas .

Cálculo de la mediana

1 Ordenamos los datos de menor a mayor .

2 Si la serie tiene un número impar de medidas la mediana es la puntuación

central de la misma.

2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5

3 Si la serie tiene un número par de puntuaciones la mediana es

la media entre las dos puntuaciones centrales .

7, 8, 9, 10, 11, 12Me= 9.5

Cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia acumulada l lega

hasta la mitad de la suma de las frecuencias absolutas .

Es decir tenemos que buscar el intervalo en el que se encuentre .

L i -1 es el límite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas.

F i -1 es la frecuencia acumulada anterior a la clase mediana.


La mediana es independiente de las amplitudes de los intervalos .

Ejemplo

Calcular la mediana de una distribución estadística que viene dada por la

siguiente tabla:

f i F i

[60, 63) 5 5

[63, 66) 18 23

[66, 69) 42 65

[69, 72) 27 92

[72, 75) 8 100

100

100 / 2 = 50

Clase modal: [66, 69)

Media aritmética

La media aritmética es el valor obtenido al sumar todos los datos y dividir el

resultado entre el número total de datos.

es el símbolo de la media aritmética .

Ejemplo

Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

Media aritmética para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de

la media es:

Ejercicio de media aritmética

En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones

que muestra la tabla. Calcula la puntuación media .

x i f i x i · f i

[10, 20) 15 1 15

[20, 30) 25 8 200

[30,40) 35 10 350

[40, 50) 45 9 405

[50, 60 55 8 440

[60,70) 65 4 260

[70, 80) 75 2 150

42 1 820

Propiedades de la media aritmética

1 La suma de las desviaciones de todas las puntuaciones de una distribución

respecto a la media de la misma igual a cero.

Las suma de las desviaciones de los números 8, 3, 5, 12, 10 de su media

aritmética 7.6 es igual a 0:

8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 =

= 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0

2 La media aritmética de los cuadrados de las desviaciones de los valores de

la variable con respecto a un número cualquiera se hace mínima cuando

dicho número coincide con la media aritmética .

3 Si a todos los valores de la variable se les suma un mismo número, la media

aritmética queda aumentada en dicho número.

4 Si todos los valores de la variable se multiplican por un

mismo número la media aritmética queda multiplicada por dichonúmero.

Observaciones sobre la media aritmética

1 La media se puede hallar sólo para variables cuantitativas .

2 La media es independiente de las amplitudes de los intervalos .

3 La media es muy sensible a las puntuaciones extremas . Si tenemos una

distribución con los siguientes pesos:

65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.

La media es igual a 74 kg, que es una medida de centralización poco

representativa de la distribución.

4 La media no se puede calcular si hay un intervalo con una amplitud

indeterminada .

Cuartiles, deciles y percentiles

Cuartiles

Los cuartiles son los tres valores de la variable que dividen a

un conjunto de datos ordenados en cuatro partes iguales .

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al

75% de los datos.

Q2 coincide con la mediana .

Cálculo de los cuartiles


2 Buscamos el lugar que ocupa cada cuartil mediante la

expresión .

Número impar de datos

2, 5, 3, 6, 7, 4, 9

Número par de datos

2, 5, 3, 4, 6, 7, 1, 9

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra , en

la tabla de las frecuencias acumuladas .

Ejercicio de cuartiles

Calcular los cuartiles de la distribución de la tabla:

f i F i

[50, 60) 8 8

[60, 70) 10 18

[70, 80) 16 34

[80, 90) 14 48

[90, 100) 10 58

[100, 110) 5 63

[110, 120) 2 65

65

Cálculo del primer cuartil

Cálculo del segundo cuartil

Cálculo del tercer cuartil

Deciles

Los deciles son los nueve valores que dividen la serie de datos en diez

partes iguales .

Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los

datos.

D5 coincide con la mediana .

Cálculo de los deciles


la tabla de las frecuencias acumuladas.

Ejercicio de deciles

Calcular los deciles de la distribución de la tabla:

f i F i

[50, 60) 8 8

[60, 70) 10 18

[70, 80) 16 34

[80, 90) 14 48

[90, 100) 10 58

[100, 110) 5 63

[110, 120) 2 65

65

Cálculo del primer decil

Cálculo del segundo decil

Cálculo del tercer decil

Cálculo del cuarto decil

Cálculo del quinto decil

Cálculo del sexto decil

Cálculo del séptimo decil

Cálculo del octavo decil

Cálculo del noveno decil

Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100

partes iguales .

Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los

datos.

P50 coincide con la mediana .

Cálculo de los percentiles

En primer lugar buscamos la clase donde se encuentra ,

en la tabla de las frecuencias acumuladas.

Ejercicio de percentiles

Calcular el percentil 35 y 60 de la distribución de la tabla:

f i F i

[50, 60) 8 8

[60, 70) 10 18

[70, 80) 16 34

[80, 90) 14 48

[90, 100) 10 58

[100, 110) 5 63

[110, 120) 2 65

65

Percentil 35

Percentil 60

Medidas de dispersión

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los

valores de la distribución.

Las medidas de dispersión son:

Rango o recorrido

El rango es la diferencia entre el mayor y el menor de los datos de una

distribución estadística.

Desviación media

La desviación respecto a la media es la diferencia entre cada valor de la

variable estadística y la media aritmética .

D i = x - x

La desviación media es la media aritmética de los valores absolutos de las

desviaciones respecto a la media .

La desviación media se representa por

Ejemplo

Calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias , la expresión de

la desviación media es:

Ejemplo

Calcular la desviación media de la distribución:

x i f i x i · f i |x - x| |x - x| · f i

[10, 15) 12.5 3 37.5 9.286 27.858

[15, 20) 17.5 5 87.5 4.286 21.43

[20, 25) 22.5 7 157.5 0.714 4.998

[25, 30) 27.5 4 110 5.714 22.856

[30, 35) 32.5 2 65 10.174 21.428

21 457.5 98.57

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones

respecto a la media de una distribución estadística.

La varianza se representa por .

Varianza para datos agrupados

Para simplificar el cálculo de la varianza vamos o utilizar las siguientes

expresiones que son equivalentes a las anteriores.


Ejercicios de varianza

Calcular la varianza de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Calcular la varianza de la distribución de la tabla:

x i f i x i · f i x i2 · f i

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

[30,40) 35 10 350 12 250

[40, 50) 45 9 405 18 225

[50, 60 55 8 440 24 200

[60,70) 65 4 260 16 900

[70, 80) 75 2 150 11 250

42 1 820 88 050

Propiedades de la varianza

1 La varianza será siempre un valor positivo o cero , en el caso de que las

puntuaciones sean iguales.

2 Si a todos los valores de la variable se les suma un número la varianza no

varía.

3 Si todos los valores de la variable se multiplican por

un número la varianza queda multiplicada por el cuadrado de dichonúmero.

4 Si tenemos varias distribuciones con la misma media y conocemos sus

respectivas varianzas se puede calcular la varianza total .

Si todas las muestras tienen el mismo tamaño:

Si las muestras tienen distinto tamaño:

Observaciones sobre la varianza

1 La varianza , al igual que la media, es un índice muy sensible a las

puntuaciones extremas.

2 En los casos que no se pueda hallar la media tampoco será posible hallar

la varianza .

3 La varianza no viene expresada en las mismas unidades que los datos, ya que

las desviaciones están elevadas al cuadrado.

Desviación típica

La desviación típica es la raíz cuadrada de la varianza .

Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de

desviación.

La desviación típica se representa por σ.

Desviación típica para datos agrupados

Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son

equivalentes a las anteriores.


Ejercicios de desviación típica

Calcular la desviación típica de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Calcular la desviación típica de la distribución de la tabla:

x i f i x i · f i x i2 · f i

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

[30,40) 35 10 350 12 250

[40, 50) 45 9 405 18 225

[50, 60) 55 8 440 24 200

[60,70) 65 4 260 16 900

[70, 80) 75 2 150 11 250

42 1 820 88 050

Propiedades de la desviación típica

1 La desviación típica será siempre un valor positivo o cero , en el caso de

que las puntuaciones sean iguales.

2 Si a todos los valores de la variable se les suma un número la desviación

típica no varía .

3 Si todos los valores de la variable se multiplican por

un número la desviación típica queda multiplicada por dicho número.

4 Si tenemos varias distribuciones con la misma media y conocemos sus

respectivas desviaciones típicas se puede calcular ladesviación típica total .

Si todas las muestras tienen el mismo tamaño:

Si las muestras tienen distinto tamaño:

Observaciones sobre la desviación típica

1 La desviación típica , al igual que la media y la varianza, es un índice muy

sensible a las puntuaciones extremas.

2 En los casos que no se pueda hallar la media tampoco será posible hallar

la desviación típica .

3 Cuanta más pequeña sea la desviación típica mayor será la concentración

de datos alrededor de la media.

Coeficiente de variación y puntuaciones típicas

Coeficiente de variación

El coeficiente de variación es la relación entre la desviación típica de una

muestra y su media.

El coeficiente de variación se suele expresar en porcentajes:

El coeficiente de variación permite comparar las dispersiones de dos

distribuciones distintas, siempre que sus medias sean positivas .

Se calcula para cada una de las distribuciones y los valores que se obtienen se

comparan entre sí.

La mayor dispersión corresponderá al valor del coeficiente de variación

mayor.

Ejercicio

Una distribución tiene x = 140 y σ = 28.28 y otra x = 150 y σ = 25. ¿Cuál de las

dos presenta mayor dispersión?

La primera distribución presenta mayor dispersión.

Puntuaciones típicasPuntuaciones diferenciales

Las puntuaciones diferenciales resultan de restarles a las puntuaciones

directas la media aritmética .

x i = X i − X

Puntuaciones típicas

Las puntuaciones típicas son el resultado de dividir las puntuaciones

diferenciales entre la desviación típica . Este proceso se llamatipificación .

Las puntuaciones típicas se representan por z.

Observaciones sobre puntuaciones típicas

La media aritmética de las puntuaciones típicas es 0.

La desviación típica de las puntuaciones típicas es 1.

Las puntuaciones típicas son adimensionales , es decir, son independientes de

las unidades utilizadas.

Las puntuaciones típicas se utilizan

para comparar las puntuaciones obtenidas en distintas distribuciones.

Ejemplo

En una clase hay 15 alumnos y 20 alumnas. El peso medio de los alumnos es 58.2

kg y el de las alumnas y 54.4 kg. Las desviaciones típicas de los dos grupos son,

respectivamente, 3.1 kg y 5.1 kg. El peso de José es de 70 kg y el de Ana es 65 kg.

¿Cuál de ellos puede, dentro del grupo de alumnos de su sexo, considerarse más

grueso?

José es más grueso respecto de su grupo el Pilar respecto al suyo.

DISTRIBUCIONES BIDEMENSIONALES

Covarianza

La covarianza se representa por sxy o σxy y viene dada por las expresiones.

Ejercicios

Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42

y 44 kilos.

Hallar la covarianza .

x i y i x i ·y i x i2 y i

2

2 14 4 196 28

3 20 9 400 60

5 32 25 1 024 160

7 42 49 1 764 294

8 44 64 1 936 352

25 152 151 5 320 894

Se ha solicitado a un grupo de 50 individuos información sobre el número de

horas que dedican diariamente a dormir y ver la televisión. La clasificación de las

respuestas ha permitido elaborar la siente tabla:

Nº de horas dormidas (X) 6 7 8 9 10

Nº de horas de televisión (Y) 4 3 3 2 1

Frecuencias absolutas (f i) 3 16 20 10 1

Calcular la covarianza

x i y i f i x i · f i x i2 · f i y i · f i y i

2 · f i x i · y i · f i

6 4 3 18 108 12 48 72

7 3 16 112 784 48 144 336

8 3 20 160 1280 60 180 480

9 2 10 90 810 20 40 180

10 1 1 10 100 1 1 10

50 390 3082 141 413 1078

Correlación

La correlación trata de establecer la relación o dependencia que existe entre las

dos variables que intervienen en una distribución bidimensional .

Es decir, determinar si los cambios en una de las variables influyen en los

cambios de la otra. En caso de que suceda, diremos que las variables están

correlacionadas o que hay correlación entre ellas.

Coeficiente de correlación lineal

El coeficiente de correlación lineal se expresa mediante la letra r.

Propiedades

1. El coeficiente de correlación no varía al hacerlo la escala de medición.

Es decir, si expresamos la altura en metros o en centímetros el coeficiente de

correlación no varía.

2. El signo del coeficiente de correlación es el mismo que el de

la covarianza .

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real comprendido entre

menos −1 y 1.

−1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la

correlación es fuerte e inversa , y será tanto más fuerte cuanto más se aproxime r a

−1.

5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la

correlación es fuerte y directa , y será tanto más fuerte cuanto más se aproxime r a 1.

6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la

correlación es débil.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o

decreciente. Entre ambas variables hay dependencia funcional .

Ejercicios

Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:

Estatura (X) 186 189 190 192 193 193 198 201 203 205

Pesos (Y) 85 85 86 90 87 91 93 103 100 101

Calcular el coeficiente de correlación .

x i y i x i2 y i

2 x i ·y i

186 8534

596

7

225

15

810

189 8535

721

7

225

16

065

190 86 36 7 16

100 396 340

192 9036

864

8

100

17

280

193 8737

249

7

569

16

791

193 9137

249

8

28117563

198 9339

204

8

649

18

414

201 10340

401

10

609

20

703

203 10041

209

10

000

20

300

205 10142

025

10

201

20

705

1

950921

380

618

85

255

179

971

Correlación positiva muy fuerte .

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X 100 50 25

14 1 1 0

18 2 3 0

22 0 1 2

Obtener e interpretar el coeficiente de correlación lineal .

Convertimos la tabla de doble entrada en una tabla simple.

x i y i f i x i · f i x i2 · f i y i · f i y i

2 · f i

x i · y i ·

f i

100 14 1 10010

00014 196 1 400

100 18 2 20020

00036 648 3 600

50 14 1 50 2 500 14 196 700

50 18 3 150 7 500 54 972 2 700

50 22 1 50 2 500 22 484 1 100

25 22 2 50 1 250 44 968 1 100

10 60043

750184

3

46410 600

Es una correlación negativa débil .

Diagrama de dispersión

En las distribuciones bidimensionales a cada individuo le corresponden los

valores de dos variables, las representamos por el par (x i, y i).

Si representamos cada par de valores como las coordenadas de un punto, el

conjunto de todos ellos se llama nube de puntos odiagrama de dispersión .

Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor

posible, llamada recta de regresión .

Ejemplo

Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10

Física 1 3 2 4 4 4 6 4 6 7 9 10

Diagrama de dispersión

1º Correlación directa

La recta correspondiente a la nube de puntos de la distribución es una recta

creciente.

2º Correlación inversa

La recta correspondiente a la nube de puntos de la distribución es una recta

decreciente.

3º Correlación nula

En este caso se dice que las variables son incorreladas y la nube de puntos tiene

una forma redondeada.

Grado de correlación

El grado de correlación indica la proximidad que hay entre los puntos de la

nube de puntos. Se pueden dar tres tipos:

1. Correlación fuerte

La correlación será fuerte cuanto más cerca estén los puntos de la recta.

2. Correlación débil

La correlación será débil cuanto más separados estén los puntos de la recta.

3. Correlación nula

Regresión lineal

Una recta de regresión es la que mejor se ajusta a la nube de puntos .

La recta de regresión pasa por el punto llamado centro de gravedad .

Recta de regresión de Y sobre X

La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a

partir de los de la X.

La pendiente de la recta es el cociente entre la covarianza y la varianza de la

variable X.

Recta de regresión de X sobre Y

La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a

partir de los de la Y.

La pendiente de la recta es el cociente entre la covarianza y la varianza de la

variable Y.

Si la correlación es nula, r = 0, las rectas de regresión son perpendiculares entre

sí, y sus eucaciones son:

y =

x =

Ejemplo

Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10

Física 1 3 2 4 4 4 6 4 6 7 9 10

Hallar las rectas de regresión y representarlas.

x i y i x i ·y i x i2 y i

2

2 1 2 4 1

3 3 9 9 9

4 2 8 16 4

4 4 16 16 16

5 4 20 25 16

6 4 24 36 16

6 6 36 36 36

7 4 28 49 16

7 6 42 49 36

8 7 56 64 49

10 9 90 100 81

10 10 100 100 100

72 60 431 504 380

1º Hallamos las medias ariméticas .

2º Calculamos la covarianza .

3º Calculamos las varianzas .

4ºRecta de regresión de Y sobre X.

4ºRecta de regresión de X sobre Y.

INFERENCIA ESTADÍSTICA

La Inferencia estadística estudia cómo sacar conclusiones generales para toda

la población a partir del estudio de una muestra, y el grado de fiabilidad o significación

de los resultados obtenidos.

Muestreo probabilístico

Consiste en elegir una muestra de una población al azar. Podemos distinguir

varios tipos de muestreo :

Muestreo aleatorio simple

Para obtener una muestra, se numeran los elementos de la población y se

seleccionan al azar los n elementos que contiene la muestra.

Muestreo aleatorio sistemático

Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen

los demás hasta completar la muestra.

Por ejemplo si tenemos una población formada por 100 elementos y queremos

extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo

de selección que será igual a 100/25 = 4. A continuación elegimos el elemento de

arranque, tomando aleatoriamente un número entre el 1 y el 4, y a partir de él

obtenemos los restantes elementos de la muestra.

2, 6, 10, 14,..., 98

Muestreo aleatorio estratificado

Se divide la población en clases o estratos y se escoge, aleatoriamente, un

número de individuos de cada estrato proporcional al número de componentes de cada

estrato.

Ejemplo

En una fábrica que consta de 600 trabajadores queremos tomar una muestra de

20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C y 100

en la D.

Un muestreo puede hacerse con o sin reposición, y la población de partida puede

ser infinita o finita.

En todo nuestro estudio vamos a limitarnos a una población de partida

infinita o a muestreo con reposición .

Si consideremos todas las posibles muestras de tamaño n en una población, para

cada muestra podemos calcular un estadístico (media, desviación típica,

proporción, ...) que variará de una a otra.

Así obtenemos una distribución del estadístico que se llama distribución

muestral .

Intervalos característicos

P[Μ - K < X < Μ + K] = P

Hallar el intervalo característico de una distribución normal N(0, 1)

correspondiente a la probabilidad p = 0.9.

El nivel de confianza (p) se designa mediante 1 - α.

El nivel de significación se designa mediante α.

El valor crítico (k) como z α /2 .

P(Z>z α /2) = α/2 P[-z α/2 < z < z α /2] = 1- α

Valores críticos

1 - α α/2 z α /2

0.90 0.05 1.645

0.95 0.025 1.96

0.99 0.005 2.575

En una distribución N(μ, σ ) el intervalo característico correspondiente a una

probabilidad p = 1 - α es:

(μ - z α /2 · σ , μ + z α /2 · σ )

1 - α α/2 z α /2 Intervalos característicos

0.90 0.05 1.645 (μ - 1.645 · σ , μ + 1.645 · σ)

0.95 0.025 1.96 (μ - 1.96 · σ , μ + 1.96 · σ )

0.99 0.005 2.575 (μ - 2.575 · σ , μ + 2.575 · σ )

Teorema central del límite

Si una población tiene media μ y desviación típica σ, y tomamos muestras de

tamaño n (n>30, ó cualquier tamaño si la población es "normal"), las medias de estas

muestras siguen aproximadamente la distribución:

Consecuencias:

1.Permite averiguar la probabilidad de que la media de una muestra concreta

esté en un cierto intervalo.

2.Permite calcular la probabilidad de que la suma de los elementos de una

muestra esté, a priori, en un cierto intervalo.

3. Inferir la media de la población a partir de una muestra.

Ejemplo

Las bolsas de sal envasadas por una máquina tienen μ = 500 g y σ = 35 g. Las

bolsas se empaquetaron en cajas de 100 unidades.

1.Calcular la probabilidad de que la media de los pesos de las bolsas de un

paquete sea menor que 495 g.

2.Calcular la probabilidad de que una caja 100 de bolsas pese más de 51 kg.

Estimación estadística

Estimación de parámetros

Es el procedimiento utilizado para conocer las características de un parámetro

poblacional, a partir del conocimiento de la muestra.

Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de un

valor de un parámetro de la población; pero también necesitamos precisar un:

Intervalo de confianza

Se llama así a un intervalo en el que sabemos que está un parámetro, con un

nivel de confianza específico.

Nivel de confianza

Probabilidad de que el parámetro a estimar se encuentre en el intervalo de

confianza.

Error de estimación admisible

Que estará relacionado con el radio del intervalo de confianza.

Estimación de la media de una población

El intervalo de confianza , para la media de una población, con un nivel de

confianza de 1 − α , siendo x la media de una muestra de tamaño n y σ la desviación

típica de la población, es:

El error máximo de estimación es:

Cuanto mayor sea el tamaño de la muestra, n, menor es el error .

Cuanto mayor sea el nivel de confianza , 1-α, mayor es el error .

Tamaño de la muestra

Si aumentamos el nivel de confianza , aumenta el tamaño de la muestra .

Si disminuimos el error , tenemos que aumentar el tamaño de la muestra .

El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes

sigue una ley normal con media desconocida y desviación típica 0,5 minutos. Para una

muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos.

1.Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se

tarda en cobrar a los clientes.

2. Indica el tamaño muestral necesario para estimar dicho tiempo medio con un

el error de ± 0,5 minutos y un nivel de confianza del 95%.

n ≥ 4

Estimación de una proporción

Si en una población , una determinada característica se presenta en una

proporción p, la proporción p' , de individuos con dicha característica en

las muestras de tamaño n, se distribuirán según:

Intervalo de confianza para una proporción


En una fábrica de componentes electrónicos, la proporción de componentes

finales defectuosos era del 20%. Tras una serie de operaciones e inversiones

destinadas a mejorar el rendimiento se analizó una muestra aleatoria de 500

componentes, encontrándose que 90 de ellos eran defectuosos. ¿Qué nivel de confianza

debe adoptarse para aceptar que el rendimiento no ha sufrido variaciones?

p = 0.2 q = 1 - p =0.8 p'= 90/ 500 = 0.18

E = 0.2 - 0.18 = 0.02

P (1 - zα /2 <1.12) = 0.86861 - 0.8686 = 0.1314

0.8686 - 0.1314 = 0.737

Nivel de confianza: 73.72%

Prueba de hipótesis

Un test estadístico es un procedimiento para, a partir de una muestra aleatoria

y significativa, extraer conclusiones que permitanaceptar o rechazar una

hipótesis previamente emitida sobre el valor de un parámetro desconocido de una

población.

La hipótesis emitida se designa por H0 y se llama HIPÓTESIS NULA.

La hipótesis contraria se designa por H1 y se llama HIPÓTESIS ALTERNATIVA .

Contrastes de hipótesis

1. Enunciar la hipótesis nula H0 y la alternativa H1.

Bilateral H0=k H1 ≠ k

Unilateral

H0≥ k H1 < k

H0 ≤k H1> k

2. A partir de un nivel de confianza 1 − α o el de significación α .

Determinar:

El valor zα/2 (bilaterales), o bien zα (unilaterales)

La zona de aceptación del parámetro muestral (x o p').

3. Calcular: x o p', a partir de la muestra.

4. Si el valor del parámetro muestral está dentro de la zona de la

aceptación, se acepta la hipótesis con un nivel de significación α. Si no, se

rechaza.

Contraste bilateral

Se presenta cuando la hipótesis nula es del tipo H0: μ = k (o bien H0: p = k) y la

hipótesis alternativa, por tanto, es del tipo H1: μ≠ k(o bien H1: p≠ k).

El nivel de significación α se concentra en dos partes (o colas) simétricas

respecto de la media.

La región de aceptación en este caso no es más que el correspondiente

intervalo de probabilidad para x o p', es decir:

o bien:

Se sabe que la desviación típica de las notas de cierto examen de Matemáticas

es 2,4. Para una muestra de 36 estudiantes se obtuvo una nota media de 5,6. ¿Sirven

estos datos para confirmar la hipótesis de que la nota media del examen fue de 6, con

un nivel de confianza del 95%?

1. Enunciamos las hipótesis nula y alternativa:

H0 : μ = 6 La nota media no ha variado.

H1 : μ ≠ 6 La nota media ha variado.

2. Zona de aceptación

Para α = 0.05 , le corresponde un valor crítico: zα/2 = 1.96.

Determinamos el intervalo de confianza para la media:

(6-1,96 · 0,4 ; 6+1,96 · 0,4) = (5,22 ; 6,78)

3. Verificación.

Valor obtenido de la media de la muestra: 5,6 .

4. Decisión

Aceptamos la hipótesis nula H 0, con un nivel de significación del 5%.

Contraste unilateral

Caso 1

La hipótesis nula es del tipo H0: μ ≥ k (o bien H0: p ≥ k).

La hipótesis alternativa , por tanto, es del tipo H1: μ < k (o bien H1: p < k).

Valores críticos

1 − α α z α

0.90 0.10 1.28

0.95 0.05 1.645

0.99 0.01 2.33

El nivel de significación α se concentra en una parte o cola.

La región de aceptación en este caso será:

o bien:

Un sociólogo ha pronosticado, que en una determinada ciudad, el nivel de

abstención en las próximas elecciones será del 40% como mínimo. Se elige al azar una

muestra aleatoria de 200 individuos, con derecho a voto, 75 de los cuales estarían

dispuestos a votar. Determinar con un nivel de significación del 1%, si se puede admitir

el pronóstico.


H0 : μ ≥ 0.40 La abstención será como mínimo del 40%.

H1 : μ < 0.40 La abstención será como máximo del 40%;

2. Zona de aceptación

Para α = 0.01 , le corresponde un valor crítico: zα = 2.33.

Determinamos el intervalo de confianza para la media:

3.Verificación.

4.Decisión

Aceptamos la hipótesis nula H0. Podemos afirmar, con un nivel de significación

del 1%, que la La abstención será como mínimo del 40%.

Caso 2

La hipótesis nula es del tipo H0: μ ≤ k (o bien H0: p ≤ k).

La hipótesis alternativa, por tanto, es del tipo H1: μ > k (o bien H1: p > k).

El nivel de significación α se concentra en la otra parte o cola.

La región de aceptación en este caso será:

o bien:

Un informe indica que el precio medio del billete de avión entre Canarias y

Madrid es, como máximo, de 120 € con una desviación típica de 40 €. Se toma una

muestra de 100 viajeros y se obtiene que la media de los precios de sus billetes es de

128 €.

¿Se puede aceptar, con un nivel de significación igual a 0,1, la afirmación de

partida?


H0 : μ ≤ 120

H1 : μ > 120

2.Zona de aceptación

Para α = 0.1 , le corresponde un valor crítico: zα = 1.28 .

Determinamos el intervalo de confianza:

3. Verificación.

Valor obtenido de la media de la muestra: 128 € .

4. Decisión

No aceptamos la hipótesis nula H0. Con un nivel de significación del 10%.

Errores de tipo I y tipo II

Error de tipo I . Se comete cuando la hipótesis nula es verdadera y, como

consecuencia del contraste, se rechaza .

Error de tipo II. Se comete cuando la hipótesis nula es falsa y, como

consecuencia del contraste se acepta .

H0 Verdadera

Aceptar

Decisón correcta

Probabilidad = 1 − α

Rechazar

ERROR DE TIPO I

Probabilidad = α

La probabilidad de cometer Error de tipo I es el nivel de significación α.

La probabilidad de cometer Error de tipo II depende del verdadero valor del

parámetro. Se hace tanto menor cuanto mayor sea n .

PROBABILIDAD

Combinatoria

Factorial

Variaciones ordinarias

Las variaciones ordinarias de m elementos tomados de n en n (m ≥ n) son

los distintos grupos formados por n elementos de forma que:

No entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.

Variaciones con repetición

Las variaciones con repetición de m elementos tomados de n en n son los

distintos grupos formados por n elementos de manera que:

No entran todos los elementos si m > n. Sí pueden entrar todos los elementos si

m ≤ n


Sí se repiten los elementos.

Permutaciones

Laspermutaciones de m elementos (m = n) son las diferentes agrupaciones

de esos m elementos de forma que:

Sí entran todos los elementos.



Permutaciones circulares

Permutaciones con repetición

Permutaciones con repetición de m elementos donde el primer elemento se

repite a veces , el segundo b veces , el tercero cveces, ...(m = a + b + c + ... = n )

son los distintos grupos que pueden formarse con esos m elementos de forma que :




Combinaciones

Las combinaciones de m elementos tomados de n en n (m ≥ n) son todas

las agrupaciones posibles que pueden hacerse con los m elementos de forma que:


No importa el orden.


Combinaciones con repetición

Las combinaciones con repetición de m elementos tomados de n en n (m ≥

n), son los distintos grupos formados por n elementos de manera que:




Números combinatorios

Propiedades de los números combinatorios

1.

2.

3.

Ejercicios

¿De cuántas formas distintas pueden sentarse ocho personas en una fila de

butacas?

Sí entran todos los elementos. Tienen que sentarse las 8 personas.


No se repiten los elementos. Una persona no se puede repetir.

¿De cuántas formas pueden mezclarse los siete colores del arco iris tomándolos

de tres en tres?




¿Cuántos números de tres cifras se puede formar con los dígitos: 0, 1, 2, 3, 4, 5 ?

m = 6 n = 3

Tenemos que separar el número en dos bloques:

El primer bloque, de un número, lo puede ocupar sólo uno de 5 dígitos porque un

número no comienza por cero (excepto los de las matriculas, los de la lotería y otros

casos particulares),

m = 5 n = 1

El segundo bloque, de dos números, lo puede ocupar cualquier dígito.

m = 6 n = 2

En una bodega hay en un cinco tipos diferentes de botellas. ¿De cuántas formas

se pueden elegir cuatro botellas?

No entran todos los elementos. Sólo elije 4..

No importa el orden. Da igual que elija 2 botellas de anís y 2 de ron, que 2 de

ron y 2 de anís.

Sí se repiten los elementos. Puede elegir más de una botella del mismo tipo.

Con las cifras 1, 2 y 3, ¿cuántos números de cinco cifras pueden formarse?

¿Cuántos son pares?

Sí entran todos los elementos: 3 < 5



Si el número es par tan sólo puede terminar en 2.

Un grupo, compuesto por cinco hombres y siete mujeres, forma un comité de 5

hombres y 3 mujeres. De cuántas formas puede formarse, si:

1. Puede pertenecer a él cualquier hombre o mujer.

2. Una mujer determinada debe pertenecer al comité.

3. Dos hombres determinados no pueden estar en el comité.

Con las cifras 2, 2, 2, 3, 3, 3, 3, 4, 4; ¿cuántos números de nueve cifras se

pueden formar?

m = 9 a = 3 b = 4 c = 2 a + b + c = 9




Con las letras de la palabra libro, ¿cuántas ordenaciones distintas se pueden

hacer que empiecen por vocal?

La palabra empieza por i u o seguida de las 4 letras restantes tomadas de 4 en 4.




Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes

de química se colocan en un estante. De cuántas formas distintas es posible ordenarlos

si:

1. Los libros de cada asignatura deben estar todos juntos.

2.Solamente los libros de matemáticas deben estar juntos.

Halla el número de capicúas de ocho cifras. ¿Cuántos capicúas hay de nueve

cifras?

Probabilidad

Ley de Laplace

Probabilidad de la unión de sucesos incompatibles

A B =

p(A B) = p(A) + p(B)

Probabilidad de la unión de sucesos compatibles

A B ≠

p(A B) = p(A) + p(B) − p(A B)

Probabilidad condicionada

Probabilidad de la intersección de sucesos independientes

p(A B) = p(A) · p(B)

Probabilidad de la intersección de sucesos dependientes

p(A B) = p(A) · p(B/A)

Probabilidad de la diferencia de sucesos

Teorema de la probabilidad total

p(B) = p(A1) · p(B/A1) + p(A2) · p(B/A2 ) + ... + p(An) · p(B/An )

Teorema de Bayes

0 ≤ p(A) ≤ 1

p(E) = 1

Ejercicios

Hallar la probabilidad de que al levantar unas fichas de dominó se obtenga un

número de puntos mayor que 9 o que sea múltiplo de 4.

Se lanzan dos dados al aire y se anota la suma de los puntos obtenidos. Se pide:

1La probabilidad de que salga el 7.

2La probabilidad de que el número obtenido sea par.

3La probabilidad de que el número obtenido sea múltiplo de tres.

Se extrae una bola de una urna que contiene 4 bolas rojas, 5 blancas y 6 negras,

¿cuál es la probabilidad de que la bola sea roja o blanca? ¿Cuál es la probabilidad de

que no sea blanca?

Dos hermanos salen de casa. El primero mata un promedio de 2 piezas cada 5

disparos y el segundo una pieza cada 2 disparos. Si los dos disparan al mismo tiempo a

una misma pieza, ¿cuál es la probabilidad de que la maten?

La probabilidad de que un hombre viva 20 años es ¼ y la de que su mujer viva 20

años es 1/3. Se pide calcular la probabilidad:

1De que ambos vivan 20 años.

2De que el hombre viva 20 años y su mujer no.

3De que ambos mueran antes de los 20 años.

En un centro escolar los alumnos pueden optar por cursar como lengua extranjera

inglés o francés. En un determinado curso, el 90% de los alumnos estudia inglés y el

resto francés. El 30% de los que estudian inglés son chicos y de los que estudian

francés son chicos el 40%. El elegido un alumno al azar, ¿cuál es la probabilidad de que

sea chica?

p(chica) = 0.9 · 0.7 + 0.1 · 0.6 = 0.69

De una baraja de 48 cartas se extrae simultáneamente dos de ellas. Calcular la

probabilidad de que:

1 Las dos sean copas.

2Al menos una sea copas.

3Una sea copa y la otra espada.

Un taller sabe que por término medio acuden: por la mañana tres automóviles

con problemas eléctricos, ocho con problemas mecánicos y tres con problemas de

chapa, y por la tarde dos con problemas eléctricos, tres con problemas mecánicos y

uno con problemas de chapa.

1 Hacer una tabla ordenando los datos anteriores.

2Calcular el porcentaje de los que acuden por la tarde.

3Calcular el porcentaje de los que acuden por problemas mecánicos.

4Calcular la probabilidad de que un automóvil con problemas eléctricos acuda

por la mañana.

Un estudiante cuenta, para un examen con la ayuda de un despertador, el cual

consigue despertarlo en un 80% de los casos. Si oye el despertador, la probabilidad de

que realiza el examen es 0.9 y, en caso contrario, de 0.5.

1 Si va a realizar el examen, ¿cuál es la probabilidad de que haya oído el

despertador?

2Si no realiza el examen, ¿cuál es la probabilidad de que no haya oído el

despertador?

En una estantería hay 60 novelas y 20 libros de poesía. Una persona A elige un

libro al azar de la estantería y se lo lleva. A continuación otra persona B elige otro libro

al azar.

1 ¿Cuál es la probabilidad de que el libro seleccionado por B sea una novela?

2Si se sabe que B eligió una novela, ¿cuál es la probabilidad de que el libro

seleccionado por A sea de poesía?

Se supone que 25 de cada 100 hombres y 600 de cada 1000 mujeres usan gafas.

Si el número de mujeres es cuatro veces superior al de hombres, se pide la

probabilidad de encontrarnos:

1 Con una persona sin gafas.

2Con una mujer con gafas.

En una casa hay tres llaveros A, B y C; el primero con cinco llaves, el segundo

con siete y el tercero con ocho, de las que sólo una de cada llavero abre la puerta del

trastero. Se escoge a Lázaro llavero y, de él, una llave intenta abrir el trastero. Se

pide:

1 ¿Cuál será la probabilidad de que se acierte con la llave?

2¿Cuál será la probabilidad de que el llavero escogido sea el tercero y la llave no

abra?

3Y si la llave escogida es la correcta, ¿cuál será la probabilidad de que

pertenezca al primer llavero A?

Distribución binomial

Distribuciones discretasEsperanza matemática o media

Varianza

Desviación típica

0 ≤ p i ≤ 1

p1 + p2 + p3 + · · · + pn = Σ p i = 1

Distribución binomial

n es el número de pruebas.

k es el número de éxitos.

p es la probabilidad de éxito.

q es la probabilidad de fracaso.

El número combinatorio

Media

Varianza

Desviación típica

Ejercicios

La última novela de un autor ha tenido un gran éxito, hasta el punto de que el

80% de los lectores ya la han leido. Un grupo de 4 amigos son aficionados a la lectura:

1. ¿Cuál es la probabilidad de que en el grupo hayan leido la novela 2 personas?

B(4, 0.8) p = 0.8 q = 0.2

2.¿Y cómo máximo 2?

Un agente de seguros vende pólizas a cinco personas de la misma edad y que

disfrutan de buena salud. Según las tablas actuales, la probabilidad de que una

persona en estas condiciones viva 30 años o más es 2/3. Hállese la probabilidad de

que, transcurridos 30 años, vivan:

1. Las cinco personas.

B(5, 2/3) p = 2/3 q = 1/3

2.Al menos tres personas.

3.Exactamente dos personas.

Si de seis a siete de la tarde se admite que un número de teléfono de cada cinco

está comunicando, ¿cuál es la probabilidad de que, cuando se marquen 10 números de

teléfono elegidos al azar, sólo comuniquen dos?

B(10, 1/5)p = 1/5q = 4/5

La probabilidad de que un hombre acierte en el blanco es 1/4. Si dispara 10

veces ¿cuál es la probabilidad de que acierte exactamente en tres ocasiones? ¿Cuál es

la probabilidad de que acierte por lo menos en una ocasión?

B(10, 1/4) p = 1/4q = 3/4

En unas pruebas de alcoholemia se ha observado que el 5% de los conductores

controlados dan positivo en la prueba y que el 10% de los conductores controlados no

llevan aprovechado el cinturón de seguridad. También se ha observado que las dos

infracciones son independientes.

Un guardia de tráfico para cinco conductores al azar. Si tenemos en cuenta que

el número de conductores es suficientemente importante como para estimar que la

proporción de infractores no varía al hacer la selección.

1. Determinar la probabilidad a de que exactamente tres conductores hayan

cometido alguna de las dos infracciones.

2. Determine la probabilidad de que al menos uno de los conductores

controlados haya cometido alguna de las dos infracciones.

La probabilidad de que un artículo producido por una fabrica sea defectuoso es p

= 0.02. Se envió un cargamento de 10.000 artículos a unos almacenes. Hallar el

número esperado de artículos defectuosos, la varianza y la desviación típica.

En una urna hay 30 bolas, 10 rojas y el resto blancas. Se elige una bola al azar y

se anota si es roja; el proceso se repite, devolviendo la bola, 10 veces. Calcular la

media y la desviación típica.

B(10, 1/3) p = 1/3q = 2/3

Un laboratorio afirma que una droga causa de efectos secundarios en una

proporción de 3 de cada 100 pacientes. Para contrastar esta afirmación, otro

laboratorio elige al azar a 5 pacientes a los que aplica la droga. ¿Cuál es la

probabilidad de los siguientes sucesos?

1. Ningún paciente tenga efectos secundarios.

B(100, 0.03) p = 0.03 q = 0.97

2.Al menos dos tengan efectos secundarios.

3.¿Cuál es el número medio de pacientes que espera laboratorio que sufran

efectos secundarios si elige 100 pacientes al azar?

Distribución normal

Una distribución normal de media μ y desviación típica σ se designa

por N(μ, σ). Su gráfica es la campana de Gauss :

El área del recinto determinado por la función y el eje de abscisas es igual a la

unidad.

Al ser simétrica respecto al eje que pasa por x = µ, deja un área igual a 0.5 a

la izquierda y otra igual a 0.5 a la derecha .

La probabilidad equivale al área encerrada bajo la curva.

Distribución normal estándarN(0, 1)

La distribución normal estándar, o tipificada o reducida, es aquella que

tiene por media el valor cero, μ =0, y por desviación típica la unidad, σ =1 .

La probabilidad de la variable X dependerá del área del recinto

sombreado en la figura . Y para calcularla utilizaremos una tabla .

Tipificación de la variable

Para poder utilizar la tabla tenemos que transformar la variable X que sigue una

distribución N(μ, σ) en otra variable Z que siga una distribución N(0, 1) .

Cálculo de probabiladades en distribuciones normales

La tabla nos da las probabilidades de P(z ≤ k) , siendo z la variable tipificada.

Estas probabilidades nos dan la función de distribución Φ(k).

Φ(k) = P(z ≤ k)

Búsqueda en la tabla de valor de k

Unidades y décimas en la columna de la izquierda.

Céntesimas en la fila de arriba.

P(Z ≤ a)

P(Z > a) = 1 - P(Z ≤ a)

P(Z ≤ −a) = 1 − P(Z ≤ a)

P(Z > −a) = P(Z ≤ a)

P(a < Z ≤ b ) = P(Z ≤ b) − P(Z ≤ a)

P(−b < Z ≤ −a ) = P(a < Z ≤ b )

Nos encontramos con el caso inverso a los anteriores, conocemos el valor de la

probabilidad y se trata de hallar el valor de la abscisa. Ahora tenemos que buscar en la

tabla el valor que más se aproxime a K .

P(−a < Z ≤ b ) = P(Z ≤ b) − [ 1 − P(Z ≤ a)]

p = K

Para calcular la variable X nos vamos a la fórmula de la tipificación.

Aproximación de la binomial por la normal

Teorema de Moivre

Si:

n·p ≥ 0 y n·q ≥ 0.

La distribución binomial B(n, p) se puede aproximar mediante

una distribución norma l:

Ejercicios

En una ciudad se estima que la temperatura máxima en el mes de junio si una

distribución normal, con media 23° y desviación típica 5°. Calcular el número de días

del mes en los que se espera alcanzar máximas entre 21° y 27°.

La media y los que de los pesos de 500 estudiantes de un colegio es 70 kg y la

desviación típica 3 kg. Suponiendo que los pesos se distribuyen normalmente, hallar

cuántos estudiantes pesan:

1. Entre 60 kg y 75 kg.

2.Más de 90 kg.

3.Menos de 64 kg.

4.64 kg.

5.64 kg o menos.

Se supone que los resultados de un examen siguen una distribución normal con

media 78 y desviación típica 36. Se pide:

1. ¿Cuál es la probabilidad de que una persona que se presenta el examen

obtenga una calificación superior a 72?

2.Calcular la proporción de estudiantes que tienen puntuaciones que exceden

por lo menos en cinco puntos de la puntuación que marca la frontera entre el Apto y el

No-Apto (son declarados No-Aptos el 25% de los estudiantes que obtuvieron las

puntuaciones más bajas).

3.Si se sabe que la calificación de un estudiante es mayor que 72 ¿cuál es la

prioridad de que su calificación sea, de hecho, superior a 84?

Tras un test de cultura general se observa que las puntuaciones obtenidas siguen

una distribución una distribución N(65, 18). Se desea clasificar a los examinados en

tres grupos (de baja cultura general, de cultura general aceptable, de excelente cultura

general) de modo que hay en el primero un 20% la población, un 65% el segundo y un

15% en el tercero. ¿Cuáles han de ser las puntuaciones que marcan el paso de un

grupo al otro?

Baja cultura hasta 49 puntos.

Cultura aceptable entre 50 y 83.

Excelente cultura a partir de 84 puntos.

Varios test de inteligencia dieron una puntuación que sigue una ley normal con

media 100 y desviación típica 15.

1. Determinar el porcentaje de población que obtendría un coeficiente entre 95 y

110.

2. ¿Qué intervalo centrado en 100 contiene al 50% de la población?

3. En una población de 2500 individuos ¿cuántos individuos se esperan que

tengan un coeficiente superior a 125?

En una ciudad una de cada tres familias posee teléfono. Si se eligen al azar 90

familias, calcular la probabilidad de que entre ellas haya por lo menos 30 tipos se han

teléfono.

En un examen tipo test de 200 preguntas de elección múltiple, cada pregunta

tiene una respuesta correcta y una incorrecta. Se aprueba si se contesta a más de 110

respuestas correctas. Suponiendo que se contesta al azar, calcular la probabilidad de

aprobar el examen.

Un estudio ha mostrado que, en un cierto barrio, el 60% de los hogares tienen al

menos dos televisores Se elige al azar una muestra de 50 hogares en el citado barrio.

Se pide:

1. ¿Cuál es la probabilidad de que al menos 20 de los citados hogares tengan

cuando menos dos televisores?

2. ¿Cuál es la probabilidad de que entre 35 y 40 hogares tenga cuando menos

dos televisores?

Tabla de la distribución normal

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,

0

0,500

0

0,504

0

0,508

0

0,512

0

0,516

0

0,519

9

0,523

9

0,527

9

0,531

9

0,535

9

0,

1

0,539

8

0,543

8

0,547

8

0,551

7

0,555

7

0,559

6

0,563

6

0,567

5

0,571

4

0,575

3

0,

2

0,579

3

0,583

2

0,587

1

0,591

0

0,594

8

0,598

7

0,602

6

0,606

4

0,610

3

0,614

1

0,

3

0,617

9

0,621

7

0,625

5

0,629

3

0,633

1

0,636

8

0,640

6

0,644

3

0,648

0

0,651

7

0,

4

0,655

4

0,659

1

0,662

8

0,666

4

0,670

0

0,673

6

0,677

2

0,680

8

0,684

4

0,687

9

0,

5

0,691

5

0,695

0

0,698

5

0,701

9

0,705

4

0,708

8

0,712

3

0,715

7

0,719

0

0,722

4

0,

6

0,725

7

0,729

1

0,732

4

0,735

7

0,738

9

0,742

2

0,745

4

0,748

6

0,751

7

0,754

9

0,

7

0,758

0

0,761

1

0,764

2

0,767

3

0,770

4

0,773

4

0,776

4

0,779

4

0,782

3

0,785

2

0,

8

0,788

1

0,791

0

0,793

9

0,796

7

0,799

5

0,802

3

0,805

1

0,807

8

0,810

6

0,813

3

0,

9

0,815

9

0,818

6

0,821

2

0,823

8

0,826

4

0,828

9

0,831

5

0,834

0

0,836

5

0,838

9

0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

1,

0

0,841

3

0,843

8

0,846

1

0,848

5

0,850

8

0,853

1

0,855

4

0,857

7

0,859

9

0,862

1

1,

1

0,864

3

0,866

5

0,868

6

0,870

8

0,872

9

0,874

9

0,877

0

0,879

0

0,881

0

0,883

0

1,

2

0,884

9

0,886

9

0,888

8

0,890

7

0,892

5

0,894

4

0,896

2

0,898

0

0,899

7

0,901

5

1,

3

0,903

2

0,904

9

0,906

6

0,908

2

0,909

9

0,911

5

0,913

1

0,914

7

0,916

2

0,917

7

1,

4

0,919

2

0,920

7

0,922

2

0,923

6

0,925

1

0,926

5

0,927

9

0,929

2

0,930

6

0,931

9

1,

5

0,933

2

0,934

5

0,935

7

0,937

0

0,938

2

0,939

4

0,940

6

0,941

8

0,942

9

0,944

1

1,

6

0,945

2

0,946

3

0,947

4

0,948

4

0,949

5

0,950

5

0,951

5

0,952

5

0,953

5

0,954

5

1,

7

0,955

4

0,956

4

0,957

3

0,958

2

0,959

1

0,959

9

0,960

8

0,961

6

0,962

5

0,963

3

1,

8

0,964

1

0,964

9

0,965

6

0,966

4

0,967

1

0,967

8

0,968

6

0,969

3

0,969

9

0,970

6

1,

9

0,971

3

0,971

9

0,972

6

0,973

2

0,973

8

0,974

4

0,975

0

0,975

6

0,976

1

0,976

7

0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

2,

0

0,977

2

0,977

8

0,978

3

0,978

8

0,979

3

0,979

8

0,980

3

0,980

8

0,981

2

0,981

7

2,

1

0,982

1

0,982

6

0,983

0

0,983

4

0,983

8

0,984

2

0,984

6

0,985

0

0,985

4

0,985

7

2,

2

0,986

1

0,986

4

0,986

8

0,987

1

0,987

5

0,987

8

0,988

1

0,988

4

0,988

7

0,989

0

2,

3

0,989

3

0,989

6

0,989

8

0,990

1

0,990

4

0,990

6

0,990

9

0,991

1

0,991

3

0,991

6

2,

4

0,991

8

0,992

0

0,992

2

0,992

5

0,992

7

0,992

9

0,993

1

0,993

2

0,993

4

0,993

6

2,

5

0,993

8

0,994

0

0,994

1

0,994

3

0,994

5

0,994

6

0,994

8

0,994

9

0,995

1

0,995

2

2,

6

0,995

3

0,995

5

0,995

6

0,995

7

0,995

9

0,996

0

0,996

1

0,996

2

0,996

3

0,996

4

2,

7

0,996

5

0,996

6

0,996

7

0,996

8

0,996

9

0,997

0

0,997

1

0,997

2

0,997

3

0,997

4

2,

8

0,997

4

0,997

5

0,997

6

0,997

7

0,997

7

0,997

8

0,997

9

0,997

9

0,998

0

0,998

1

2,

9

0,998

1

0,998

2

0,998

2

0,998

3

0,998

4

0,998

4

0,998

5

0,998

5

0,998

6

0,998

6

0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

30,998

7

0,998

7

0,998

7

0,998

8

0,998

8

0,998

9

0,998

9

0,998

9

0,999

0

0,999

0

3,

1

0,999

0

0,999

1

0,999

1

0,999

1

0,999

2

0,999

2

0,999

2

0,999

2

0,999

3

0,999

3

3,

2

0,999

3

0,999

3

0,999

4

0,999

4

0,999

4

0,999

4

0,999

4

0,999

5

0,999

5

0,999

5

3,

3

0,999

5

0,999

5

0,999

5

0,999

6

0,999

6

0,999

6

0,999

6

0,999

6

0,999

6

0,999

7

3,

4

0,999

7

0,999

7

0,999

7

0,999

7

0,999

7

0,999

7

0,999

7

0,999

7

0,999

7

0,999

8

3,

5

0,999

8

0,999

8

0,999

8

0,999

8

0,999

8

0,999

8

0,999

8

0,999

8

0,999

8

0,999

8

3,

6

0,999

8

0,999

8

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

3,

7

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

3,

8

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

0,999

9

3,

9

1,000

0

1,000

0

1,000

0

1,000

0

1,000

0

1,000

0

1,000

0

1,000

0

1,000

0

1,000

0

RESUMEN FÓRMULAS DE ESTADÍSTICA

Moda

La moda, Mo, es el valor que tiene mayor frecuencia absoluta .

1º Todos los intervalos tienen la misma amplitud.

L i -1 es el límite inferior de la clase modal.

f i es la frecuencia absoluta de la clase modal.

f i - -1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.

f i -+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.


También se utiliza otra fórmula de la moda que da un valor aproximado de

ésta:

2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

La fórmula de la moda aproximada cuando existen distintas amplitudes es:

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos

están ordenados de menor a mayor .

1 Si la serie tiene un número impar de medidas la mediana es la puntuación

central de la misma.

2 Si la serie tiene un número par de puntuaciones la mediana es

la media entre las dos puntuaciones centrales .

Mediana para datos agrupados

es la semisuma de las frecuencias absolutas.

L i -1 es el límite inferior de la clase donde se encuentra .

F i -1 es la frecuencia acumulada anterior a la clase mediana.


Media aritmética

La media aritmética es el valor obtenido al sumar todos los datos y dividir el

resultado entre el número total de datos.

Cuartiles

Los cuartiles son los tres valores de la variable dividen a

un conjunto de datos ordenados en cuatro partes iguales .

Cálculo de los cuartiles


2 Buscamos el lugar que ocupa cada cuartil mediante la

expresión .

Cálculo de los cuartiles para datos agrupados


la tabla de las frecuencias acumuladas .

Deciles

Los deciles son los nueve valores que dividen la serie de datos en diez

partes iguales .

Cálculo de deciles

Ordenamos los datos de menor a mayor .

Buscamos la puntuación, en la serie, o la clase, en la tabla de las frecuencias

acumuladas, donde se encuentra , .

Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100

partes iguales .

Cálculo de percentiles

Ordenamos los datos de menor a mayor .

Buscamos la puntuación, en la serie, o la clase, en la tabla de las frecuencias

acumuladas, donde se encuentra ,.

Desviación media

La desviación media es la media aritmética de los valores absolutos de las

desviaciones respecto a la media .

Desviación media para datos agrupados

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones

respecto a la media de una distribución estadística.


Para simplificar el cálculo de la varianza vamos o utilizar las siguientes

expresiones que son equivalentes a las anteriores.


Desviación típica

La desviación típica es la raíz cuadrada de la varianza .


Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son

equivalentes a las anteriores.


Coeficiente de variación

El coeficiente de variación es la relación entre la desviación típica de una

muestra y su media.

Coeficiente de variación en tanto por ciento

Puntuaciones diferenciales

Las puntuaciones diferenciales resultan de restarles a las puntuaciones

directas la media aritmética .

x i = X i − X

Puntuaciones típicas

Las puntuaciones típicas son el resultado de dividir las puntuaciones

diferenciales entre la desviación típica . Este proceso se llamatipificación .

Distribuciones bidimensionalesCovarianza

Coeficiente de correlación lineal

Recta de regresión de Y sobre X

Recta de regresión de X sobre Y

Fórmulas de inferencia estadística

Intervalos característicos

El nivel de confianza (p) se designa mediante 1 - α.

El nivel de significación se designa mediante α.

El valor crítico (k) como z α /2 .

En una distribución N(μ, σ) el intervalo característico correspondiente a una

probabilidad p = 1 - α es:

(μ - z α /2 · σ , μ + z α /2 · σ )

1 - α α/2 z α /2 Intervalos característicos

0.90 0.05 1.645 (μ - 1.645 · σ , μ + 1.645 · σ)

0.95 0.025 1.96 (μ - 1.96 · σ , μ + 1.96 · σ )

0.99 0.005 2.575 (μ - 2.575 · σ , μ + 2.575 · σ )

Teorema central del límite

μ media de la población

σ desviación típica de la población

n Tamaño de la muestra (n>30, ó cualquier tamaño si la población

es "normal")

Las medias de las muestras siguen aproximadamente la distribución:

Estimación de la media de una población

Intervalo de confianza para la media

Error máximo de estimación

Tamaño de la muestra

Estimación de una proporción

Intervalo de confianza para una proporción


Contrastes de hipótesis

1. Enunciar la hipótesis nula H0 y la alternativa H1.

Bilateral H0=k H1 ≠ k

Unilateral

H0≥ k H1 < k

H0 ≤k H1> k

2. A partir de un nivel de confianza 1 - α o el de significación α .

Determinar:

El valor zα/2 (bilaterales), o bien zα (unilaterales)

La zona de aceptación del parámetro muestral (x o p').

3. Calcular: x o p', a partir de la muestra.

4. Si el valor del parámetro muestral está dentro de la zona de la

aceptación, se acepta la hipótesis con un nivel de significación α. Si no, se

rechaza.

Contraste Bilateral

H0: μ = k (o bien H0: p = k)

H1: μ≠ k (o bien H1: p≠ k).

o bien:

Contraste unilateral

Caso 1

H0: μ ≥ k (o bien H0: p ≥ k).

H1: μ < k (o bien H1: p < k).

Valores críticos

1 - α α z α

0.90 0.10 1.28

0.95 0.05 1.645

0.99 0.01 2.33

o bien:

Caso 2

H0: μ ≤ k (o bien H0: p ≤ k).

H1: μ > k (o bien H1: p > k).

o bien:

Errores

H0 Verdadera Falsa

Aceptar

Decisón correcta

Probabilidad = 1 - α

Decisión incorrecta:

ERROR DE TIPO II

Rechazar

ERROR DE TIPO I

Probabilidad = α

Decisión

correcta