Estadística Computacional I Maestría en Estadística Aplicada.
Estadística
Transcript of Estadística
ESTADÍSTICA
Objetivo: La estadística tiene por objeto el desarrollo de técnicas para el conocimiento
numérico de un conjunto de datos empíricos (recogidos mediante experimentos o
encuestas).
Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y
serán objetos de nuestro estudio.
Muestra: Es un subconjunto, extraído de la población, cuyo estudio sirve para inferir
características de toda la población.
Individuo: Es cada uno de los elementos que forman la población o la muestra.
Caracteres y variables: Caracteres son los aspectos que deseamos estudiar en los
individuos de una población. Cada carácter puede tomar distintos valores o
modalidades. Una variable estadística recorre todos los valores de un cierto carácter.
Clasificación de las variables estadísticas:
• Cualitativas: No toman valores numéricos. Ejemplo: color del pelo
• Cuantitativas discretas: Toman valores numéricos aislados. Ejemplo: nº de
hermanos
• Cuantitativas continuas: Pueden tomar todos los valores de un intervalo. Ejemplo:
altura
Las tablas de frecuencias sirven para ordenar y organizar los datos estadísticos. Con
ellas, una masa amorfa de datos pasa a ser una colección ordenada y perfectamente
inteligible. Con los datos se construye la tabla de frecuencias:
0 3
1 6
2 5
3 4
4 3
5 1
- En la primera columna, la variable , con todos sus posibles valores (Por ejemplo
número de hermanos)
- En la segunda columna, la correspondiente frecuencia , : número de veces que
aparece cada valor.
Esta tabla se lee: hay 5 personas que tienen 0 hermanos, 3 personas que tienen 1
hermano ,4 personas que tienen dos hermanos…
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos
agrupados se emplea si las variables toman un número grande de
valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma
amplitud denominados clases. A cada clase se le asigna su
frecuencia correspondiente.
Límites de la clase: Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase .
Amplitud de la clase: La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Marca de clase: La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros . Es la que tomaremos para hallar los parámetros estadísticos.
[0,5[ 2,5 1
[5,10[ 7,5 2
[10.15[ 12,5 0
[15,20[ 17,5 2
FRECUENCIAS RELATIVAS
Cuando se desea comparar varias distribuciones similares con distinto número de
elementos, se debe recurrir a las frecuencias relativas. Estas vienen dadas en “tanto
por uno” ( ) o en “tantos por ciento” (%). Si N es el número de individuos: =
%= .
FRECUENCIAS ACUMULADAS
En una distribución de frecuencias, se llama frecuencia acumulada, correspondiente
al valor i-ésimo, a la suma de la frecuencia de ese valor con todas las anteriores:
Sea la tabla anterior añadimos las frecuencias relativas y acumuladas:
% acumuladas
0 3
3
1 6
3+6=9
2 5
3+6+5=14
3 4
3+6+5+4=18
4 3
3+6+5+4+3=21
5 1
3+6+5+4+3+1=22
22 1
GRÁFICOS ESTADÍSTICOS
GRAFICOS PARA VARIABLES CUALITATIVAS O CUANTITATIVAS DISCRETAS
Diagrama de barras: - En el eje de las X : Se representan los valores de la variable - En el eje de las Y : Se representan los valores de la frecuencia: f, fr ó % - Se levanta para cada valor de la X una barra que representa la frecuencia de dicho valor. Diagrama de barras acumuladas: - En el eje de las X : Se representan los valores de la variable - En el eje de las Y : Se representan los valores de la frecuencia acumulada: F, Fr ó %a - Se levanta para cada valor de la X una barra que representa la frecuencia acumulada de dicho valor. GRAFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS
SI TODOS LOS INTERVALOS TIENEN LA MISMA AMPLITUD Histograma : - En el eje de las X : Se representan los valores de la variable - En el eje de las Y : Se representan los valores de la frecuencia: f, fr ó % - Se levanta para cada valor del intervalo de la X un rectángulo de altura la frecuencia de dicho intervalo. Diagrama de barras acumuladas: - En el eje de las X : Se representan los valores de la variable - En el eje de las Y : Se representan los valores de la frecuencia acumulada: F, Fr ó %a - Se levanta para cada valor del intervalo de la X un rectángulo de altura la frecuencia acumulada de dicho valor.
PARÁMETROS ESTADÍSTICOS
Para calcular los siguientes parámetros calcularemos algunas operaciones de la
fórmula en la tabla de frecuencias para organizar mejor los cálculos.
xi fi xi∙fi xi2∙fi
.
.
.
.
.
.
.
.
.
.
.
.
∑ n ii fx ii fx2
n
fxxMedia
ii
2
2
2 xn
fxVarianza
ii
2_ típicaDesviación
xCViacióndeeCoeficient
var__
Calculemos la media, varianza, desviación típica de los datos del ejemplo anterior:
0 3
1 6
2 5
3 4
4 3
5 1
n=22 45 135
MEDIDAS DE POSICIÓN
Mediana: Si los individuos de una población están colocados en orden creciente
según la variable que estudiamos, el que ocupa el valor central se llama individuo
mediana, y su valor, la mediana. La mediana, Me, está situada de modo que antes de
ella está el 50% de la población y detrás, el otro 50%.
Si partimos la población en 100 partes y señalamos el lugar que deja debajo k de ellas,
el valor de la variable correspondiente a esa lugar se designa por y se denomina
percentil k.
La mediana es Me =
Para hallar la mediana de una variable cuantitativa discreta tenemos que construir la
tabla de frecuencias y obtener el % de frecuencias acumuladas. Cada percentil es
el valor para el cual la frecuencia acumulada correspondiente supera el k%.
En el caso de que una de ellas coincida con k%, se toma como el valor intermedio
entre ese valor de x y el siguiente.
Calculemos la mediana del ejemplo:
% acumuladas
0 3
3
1 6
3+6=9
2 5
3+6+5=14
3 4
3+6+5+4=18
4 3
3+6+5+4+3=21
5 1
3+6+5+4+3+1=22
22 1
El primer valor que supera el 50% es x=2 por tanto Me=2.
Para hallar la mediana de una variable cuantitativa continua tenemos que construir
la tabla de frecuencias y obtener el % de frecuencias acumuladas. A partir de esto
construiremos el polígono de frecuencias acumuladas de la siguiente manera:
% acumuladas
[0,5[ 2,5 4 4
[5,10[ 7,5 2 4+2=6
[10.15[ 12,5 3 4+2+3=9
[15,20[ 17,5 2 4+2+3+2=11
Para calcular cualquier percentil a partir del anterior polígono de porcentajes
acumulados, se trabaja con semejanza de triángulos. Se saca el porcentaje
acumulado anterior y siguiente del que se busca y se traza una perpendicular al eje x
desde el porcentaje que buscamos, lo veremos mejor en el ejemplo:
Si queremos obtener la mediana, es decir el percentil 50 tenemos lo siguiente:
0
20
40
60
80
100
120
0 5 10 15 20
54.54%
50% 54,54-36,36=18,18
36.36% x
5 10
Queremos hallar x, que luego sumado a 5 será nuestra mediana, para ello
montamos la ecuación:
3,75 por tanto Me=8,75
10-5=5
50-36,36=13,64
DIAGRAMA DE CAJA Y BIGOTES
Cuando hemos calculado el , y la Mediana de una distribución podemos elaborar
el diagrama de caja y bigotes.
Elaboramos el diagrama de caja y bigotes siguiendo lo siguiente:
1. Colocamos un eje en el que podamos localizar todos los datos.
2. Dibujamos la caja que va del Q1 al Q3.
3. Representamos la mediana.
4. Desde cada extremos de la caja, trazamos los bigotes que van hasta los
límites inferior y superior respectivamente. (el valor más grande y el más
pequeño de xi)