Estadistica primera parte

24
Estadística Una forma de adquirir conocimiento Prof. EEC Angel Luis Vicentín Conceptos básicos Población: conjunto completo de individuos, objetos o datos que el investigador está interesado en estudiar. – Muestra: Subconjunto de la población. Variable: Cualquier propiedad o característica de algún evento, objeto o persona, que puede tener diversos valores en diferentes instantes según las condiciones. Independiente: es aquella que es controlada por el investigador. Dependiente: es la que mide el observador. Mide el efecto que la variable independiente ejerce sobre ésta. Dato: es el resultado de la medición hecha sobre un evento o fenómeno. Estadístico: valor calculado a partir de los datos de una muestra. Parámetro: valor calculado a partir de los datos de una población. Prof. EEC Angel Luis Vicentín

Transcript of Estadistica primera parte

Page 1: Estadistica primera parte

Estadística

Una forma de adquirir conocimiento

Prof. EEC Angel LuisVicentín

Conceptos básicos• Población: conjunto completo de individuos, objetos o datos

que el investigador está interesado en estudiar.– Muestra: Subconjunto de la población.

• Variable: Cualquier propiedad o característica de algún evento, objeto o persona, que puede tener diversos valores en diferentes instantes según las condiciones. – Independiente: es aquella que es controlada por el

investigador.– Dependiente: es la que mide el observador. Mide el efecto

que la variable independiente ejerce sobre ésta.• Dato: es el resultado de la medición hecha sobre un evento o

fenómeno. • Estadístico: valor calculado a partir de los datos de una

muestra. • Parámetro: valor calculado a partir de los datos de una

población. Prof. EEC Angel Luis Vicentín

Page 2: Estadistica primera parte

Prof. EEC Angel Luis Vicentín

Estadística Descriptiva:Estudia las técnicas que utilizan los datos

muestras obtenidos para hacer inferencias sobre poblaciones.

Estadística Inferencial:Involucra las técnicas que se emplean para

obtener datos muestrales y, a partir de ellas, hacer inferencias sobre sus respectivas poblaciones

Las Técnicas Estadísticas son importantes tanto para los estudios observacionales, como los

experimentos reales

Escalas

• Nominales: Asigna nombres a los distintos valores que asume una variable.

• Ordinales: Asigna un orden a los distintos valores de la variable.

• De Intervalos: Asigna un número. Escalas numéricas sin cero absoluto.

• De proporción: Asigna un número. Escala numérica con cero absoluto.

Prof. EEC Angel Luis Vicentín

Page 3: Estadistica primera parte

Variables• Continua: es aquella que, en teoría, puede

asumir un número infinito de valores entre unidades adyacentes de una escala.

• Discreta: es aquella para la cual no existen valores posibles entre las unidades adyacentes de una escala.

• Deterministica: es aquella cuyo valor estáfijado por el comportamiento de otra.

• Aleatoria: es aquella cuyo valor no puede ser determinado por el comportamiento de otra. Prof. EEC Angel Luis Vicentín

Distribución de Frecuencias• Es una tabla donde se presenta los valores

de los datos y su frecuencia de aparición.– Ej: Notas de los alumnos de Lic.enEd. Física:

Prof. EEC Angel Luis Vicentín

Notas Frecuencia10 1

9 28 37 46 55 64 73 82 91 10

Page 4: Estadistica primera parte

Distribución de Frecuencias

• Sin Agrupamientos: por la cantidad de mediciones no se justifica agrupar las frecuencias.

• Agrupadas: se agrupan los datos por intervalos de clases. Ej: los grupos etáreos.– Rango = Dato máximo – Dato mínimo– Amplitud de intervalo = Rango

Cantidad de intervalosProf. EEC Angel Luis Vicentín

Frecuencias agrupadasPara construir una tabla de Frecuencias

agrupadas procedemos:1. Determinar el Rango de los datos.2. Determinar la Amplitud de cada intervalo. 3. Enumerar los límites de cada intervalo de

clase, colocando el intervalo que contiene al dato mínimo en la parte inferior.

4. Contar los datos en bruto en los intervalos de clase adecuados

5. Sumar las cuentas de cada intervalo para hallar las frecuencias de cada intervalos

Prof. EEC Angel Luis Vicentín

Page 5: Estadistica primera parte

Frecuencias AGrupadas

Prof. EEC Angel Luis Vicentín

Supongamos que un grupo de 70 alumnos fueron evaluados con un examen. La escala de las notas van de 0 a 100. Se obtuvieron 70 notas cuyo valor máximo fue de 99 y el mínimo de 46 Por lo tanto el rango de datos es: Rango =99-46 = 53 y la amplitud del intervalo es:

53I = ---------------- = 5.3

10

Que se redondea a 5.

Distribución de Frecuencias • Distribución de Frecuencias Relativas indica la

proporción del número total de datos que aparecen en cada intervalo.

• Distribución de Frecuencias Acumuladas indica el número de datos que caen por debajo del límite real superior de cada intervalo.

• Distribución de porcentajes acumulados indica el porcentaje de datos que caen por debajo del límite real superior de cada intervalo

• Punto percentil: es el valor sobre la escala de medida, debajo del cual cae un porcentaje dado de los datos en la distribución.

Prof. EEC Angel Luis Vicentín

Page 6: Estadistica primera parte

Calculo de PercentilesLos percentiles, entregan la idea de "posición" de los

datos, es decir, avisan a partir de qué observación o intervalo de clase se ha acumulado un determinado porcentaje de observaciones. Cuando hablemos de percentil de orden k, significa que debemos identificar una observación (caso discreto) o un intervalo de clase (caso continuo) de tal manera que la frecuencia asociada a ese valor lleva acumulado el k% de las observaciones.

Por ejemplo:• Me interesa saber, cuál fue la nota que el 50 % (o el

30% o el 75%) de los alumnos la superó ( o no la superó)? Prof. EEC Angel Luis Vicentín

Intervalo de Clase

f fr fA fA %

95 – 99 4 0.06 70 100.0090 – 94 6 0.09 66 94.2985 – 89 7 0.10 60 85.7180 – 84 10 0.14 53 75.71 Acá está 75º punto percentil75 – 79 16 0.14 43 61.43 Acá está el 50º punto percentil70 – 74 9 0.23 27 38.5765 – 69 7 0.13 18 25.71 Acá está el 25º punto percentil60 – 64 4 0.10 11 15.7155 – 59 4 0.06 7 10.0050 – 54 2 0.03 3 4.2945 – 49 1 0.01 1 1.43

N= 70 1.00

Prof. EEC Angel Luis Vicentín

Page 7: Estadistica primera parte

Prof. EEC Angel Luis Vicentín

Pk = XL + (i/fi) (fP acumulada – fL acumulada)

Pk :Punto k-esimo percentilXL :Valor del límite real inferior del intervalo que contiene el punto percentil.i : Amplitud del Intervalo.fi : Frecuencia del Intervalo que contiene el punto percentil.fP acumulada: frecuencia de datos que están por debajo del punto percentil.fL acumulada: frecuencia de datos que está por debajo del límite real del intervalo que contiene al punto percentil.Punto percentil 50 P50 = 77,00

Rangos Percentiles

• Es el porcentaje de datos con valores menores que el del dato en cuestión.

• Es el valor “opuesto” al punto percentil, ahora sabemos el punto percentil y debemos calcular el porcentaje de datos que están por debajo de él. Ej: cuántos alumnos sacaron menos de 75 puntos?

Prof. EEC Angel Luis Vicentín

Page 8: Estadistica primera parte

fL acumulada + (fi /i) ( X – XL ) • Rango Percentil = ----------------------------------------------------- x 100

N

• fL acumulada: frecuencia de datos que está por debajo del límite real del intervalo que contiene al punto percentil.

• XL :Valor del límite real inferior del intervalo que contiene el punto percentil.

• i : Amplitud del Intervalo.• fi : Frecuencia del Intervalo que contiene el punto percentil.• fP acumulada: frecuencia de datos que están por debajo del punto

percentil.• Rango percentil de 86 = 78,71

Prof. EEC Angel Luis Vicentín

Cálculo de Rangos Percentiles

Gráficos de las distribuciones de frecuencias

• Una gráfica cartesiana tiene 2 ejes en ángulo recto. Eje X (horizontal, abscisas), eje Y (vertical, ordenadas).

• Cada eje tiene una unidad de medida. • En el eje X se localizan los datos y en el otro

eje la característica que se quiere medir. • Tener en cuenta la escala con que se miden

los datos.• Cada eje tiene un rótulo que indica qué se

mide y con qué escala. Título. Prof. EEC Angel Luis Vicentín

Page 9: Estadistica primera parte

Gráficos de Barras

• Usualmente para escalas nominales

Prof. EEC Angel Luis Vicentín

El HistogramaEs un caso de gráfico de barras, utilizado para

representar datos agrupados y/o en escala de proporciones. Los intervalos se representan en el eje X. Cada barra representa la frecuencia de un intervalo.

Prof. EEC Angel Luis Vicentín

Se marca el punto medio de cada barra, luego se unen los puntos y se extiende un “intervalo”contiguo con frecuencia 0.

Page 10: Estadistica primera parte

Curva de Frecuencias

• Las distribuciones de frecuencias acumuladas absolutas y de porcentajes también se pueden graficar.

Prof. EEC Angel Luis Vicentín

Formas

Prof. EEC Angel Luis Vicentín

Page 11: Estadistica primera parte

Diagrama de tallos y hojas

• Son alternativas sencillas de histogramas.

Prof. EEC Angel Luis Vicentín

95 57 76 93 86 80 89

76 76 63 74 94 96 77

65 79 60 56 72 82 70

67 79 71 77 52 76 68

72 88 84 70 83 93 76

82 96 87 69 89 77 81

87 65 77 72 56 78 78

58 54 82 82 66 73 79

86 81 63 46 62 99 93

82 92 75 76 90 74 67

Diagrama de Tallo y Hojas

4 6

5 2 4 6 6 7 8

6 0 2 3 3 5 5 6 7 7 8 9

7 0 0 1 2 2 2 3 4 4 5 6 6 6 6 6 6 7 7 7 7 8 8 9 9 9

8 0 1 1 2 2 2 2 2 3 4 6 6 7 7 8 9 9

9 0 2 3 3 3 4 5 6 6 9

Medidas de Tendencia central

• Son medidas que permiten describir el comportamiento de una distribución. Se llaman así porque determinan valores centrales de la distribución. Sirven para cuantificar y comparar distribuciones de frecuencias.

• La Media Aritmética ( promedio ) X• La Mediana (P50) Me• La Moda Mo

Prof. EEC Angel Luis Vicentín

Page 12: Estadistica primera parte

La Media Aritmética• Es la suma de los datos dividido la

cantidad de datos. X = Σ xi = x1 + x2+ …+ xn

N N μ: en el caso de población.

Prof. EEC Angel Luis Vicentín

Propiedades de la media aritmética• La media es sensible al valor exacto de TODOS

los datos de la distribución. • La suma de las desviaciones con respecto a la

Media es 0. Σ (xi – X) = 0. La media es el punto de equilibro de la distribución.

• La Media es muy sensible a los datos extremos. • La suma de los cuadrados de las desviaciones

de todos los datos con respecto a su media es mínima. Σ (xi – X)2

• De todas las MTC la Media es la que menos sujeta está a la variación debido al muestreo.

Prof. EEC Angel Luis Vicentín

Page 13: Estadistica primera parte

La Media Global• La media de varios grupos de datos es igual a

la suma del producto entre la cantidad de datos de cada grupo por la media de ese grupo dividido la suma de las cantidades.

X global = Σ ni Xi

Σ ni

X global = n1 X1 + n2X2 +…+ntXtn1+n2+…..+nt

Prof. EEC Angel Luis Vicentín

La Mediana • Me o Mdn• Es el valor de la escala debajo del cual está

el 50 % de los datos. Es igual a P50

• La mediana es el dato central, si el número de datos es impar.

• Si el número de datos es par, la Me meconsidera el promedio de los datos centrales.

Prof. EEC Angel Luis Vicentín

Page 14: Estadistica primera parte

Propiedades de la mediana

• La Me es menos sensible que la Media a los datos extremos.

• La Me está mas sujeta a la variabilidad de la muestra que la Media. La Me es menos estable que la Media, de una muestra a otra por lo tanto no es tan útil para la estadística inferencial. Prof. EEC Angel Luis Vicentín

Datos Media Mediana3,4,6,7,10 6 63,4,6,7,100 24 63,4,6,7,1000 204 6

La Moda

• Es el dato mas frecuente. Mo.• Se halla observando los datos. En datos

agrupados es el punto medio del intervalo que contiene la mayor frecuencia.

• Distribuciones unimodales: tienen una sola Mo.

• Distribuciones bi o polimodales: tienen dos o mas Mo.

• Es la menos usada de las MTC, ya que es la menos estable de una distribución a otra. Prof. EEC Angel Luis Vicentín

Page 15: Estadistica primera parte

MTC y simetría

Prof. EEC Angel Luis Vicentín

Me =Mo = X Mo Me X

X Mo Me

Medidas de Variabilidad

• La variabilidad tiene que ver con qué tan alejados están los datos de la Media.

• Cuantifican la extensión de la dispersión de los datos respecto a la Media.

• Existen tres medidas mas usadas: – El Rango– La Desviación Estándar– La Varianza

Page 16: Estadistica primera parte

El Rango

• Se define como la diferencia entre el dato máximo y el dato mínimo de una distribución.

• Es fácil de calcular.• Proporciona una medida, relativamente

inexacta de la dispersión, porque solo mide la dispersión de los datos extremos y no de los intermedios.

• Es sensible a los datos extremos.

La Desviación Estándar• El Puntaje de Desviación nos permite saber qué

tan lejos está un dato en bruto con respecto a la Media de la distribución.

• Es la diferencia (resta) entre cada valor y su Media.

• La suma de los puntajes de desviación es igual a 0.

• Se aplica la siguiente fórmula:

S = Σ (xi – X)2

N - 1

Page 17: Estadistica primera parte

Cálculo de la Desviación Estándar

x x - X (x – X)2

2 -4 16 Σ (xi – X)2

S =N – 1

40S = = 3,16

4

4 -2 46 0 08 2 4

10 4 160 40

La Varianza

• Es el cuadrado del desvío estándar. S2

• Es utiliza en la estadística inferencial.

• Tener en cuenta:

Medida Muestra Población

MediaAritmética X μ

Desviación estándar s σ

Varianza s2 σ2

La Curva Normal

• Es una curva teórica de los datos de una población en forma de campana.

NY = e –(x-μ)2/2σ2

2πσ

0

5

10

15

20

25

30

35

40

45

0 2 4 6

Page 18: Estadistica primera parte

Correlación• Se usa para comparar si los datos de una

distribución se relacionan con las de otras.• Si dos variables están relacionadas, una

podría ser causa de la otra. • La correlación se ocupa principalmente,

de establecer si existe una relación, asícomo determinar su magnitud y dirección.

• La regresión lineal se encarga, principalmente, de efectuar predicciones.

• Sirve para determinar la confiabilidad de un test.

Relaciones• Una gráfica de dispersión es una gráfica de parejas de

valores de X y valores de Y.• Una relación lineal entre dos variables es aquella que

puede representarse con la mejor exactitud posiblemediante una línea recta.

Salto en largo

33,23,43,63,8

44,24,44,64,8

5

1,6 1,65 1,7 1,75 1,8 1,85 1,9 1,95

Altura

Mar

ca d

e Sa

lto

Alumnos Altura Salto en largo

1 1,65 3,97

2 1,70 3,85

3 1,75 4,01

4 1,80 4,21

5 1,85 4,18

6 1,90 4,22

Page 19: Estadistica primera parte

Relaciones• Relación Positiva: indica que existe una

relación directa ( X aumenta, Y también) entre las variables.

• Relación Negativa: indica que hay una relación inversa ( X aumenta, Y disminuye), entre las variables.

• Relaciones Perfectas: todos los puntos caen sobre la recta.

• Relaciones imperfectas: no todos los puntos caen sobre la recta.

• Es mas común este tipo de relaciones.

Correlación• Trata la dirección y el grado de la relación.• El grado puede ser: desde perfecto a no

existir relación• La dirección podrá ser positiva o negativa.• Coeficiente de Correlación lineal r de

Pearson.• r cerca de -1 entonces relación negativa perfecta• r cerca de 0 entonces no existe relación• r cerca de +1 entonces existe relación positiva

Page 20: Estadistica primera parte

Coeficiente r de Pearson

Σ xy – Σx Σ y N

r =(Σx)2 (Σy)2

Σ x2- Σ y2-N N

• También permite expresar la variabilidad de Y explicada por medio de X. ( valores reales vs. Valores obtenidos por la relación )

• Yi – Y = ( Yi – Y’ ) + (Y’ – Y )

Desviación de YiError en la predicción que utiliza la relación entre X e Y

Desviación de Yiexplicada mediante la relación entre X e Y

• Σ(Yi – Y)2 = Σ ( Yi – Y’ )2 + Σ (Y’ – Y )2

Σ (Y’ – Y )2 proporción de la • r = variable Y

Σ(Yi – Y)2 explicada por X

Variabilidad total de Y

Variabilidad total de los errores de predicción

Variabilidad de Y por el efecto de X

Page 21: Estadistica primera parte

Coeficiente r2

• Es el coeficiente de determinación• r2 = es igual a la proporción de la

variabilidad total de Y de la que da cuenta, o es explicada por X.

• El coeficiente r y r2 pueden utilizarse en escala de proporción.

• Existen otros coeficientes de correlación que se pueden aplicar en otras escalas.

Interpretación de la Correlación• Que haya correlación entre 2 variables

puede darse porque:– La correlación entre X e Y sea espuria

• Mala toma de datos• Errores de cálculo• Datos no representativos

– Que X es la causa de Y – Que Y es la causa de X– Que haya otra variable que cause la

correlación entre X e Y.

Page 22: Estadistica primera parte

Regresión Lineal• Analiza la relación entre 2 o mas variables para

determinar una predicción.• La Correlación mide la magnitud y la dirección de

la relación. • La Regresión Lineal determina cómo se predice

el comportamiento, sobre todo cuando la relación no es perfecta.

• Método de los mínimos cuadrados: es la línea de predicción que hace mínima las diferencia entre los valores observados y los obtenidos de la relación

Construcción de la recta de regresión por mínimos cuadrados

La ecuación de la línea de regresión por mínimos cuadrados está dada por:

Y’ = bY X+ aY

Σ XY – (ΣX) (ΣY)N

bY = aY= Y – bY XΣX2 – (ΣX)2

N

Y’ es el valor predicho o estimado de YbY es la pendiente de la recta que minimiza los errores de predicción de Y.aY es la ordenada al origen de la recta que minimiza los errores de predicción de Y.

Page 23: Estadistica primera parte

Regresión de X sobre Y

• Y’ = bY X+ aY significa que los valores de Y se “predicen” a partir de los valores de X.

• También se puede hacer lo opuesto, es decir predecir X a partir de valores observados de Y.

• X’ = bx Y+ ax X’ es el valor predicho o estimado de Xbx es la pendiente de la recta que minimiza los errores de predicción de X.ax es la ordenada al origen de la recta que minimiza los errores de predicción de Y.

Σ XY – (ΣX) (ΣY)N

bY = ΣY2 – (ΣY)2

N

ax= X – bY Y

Error Estándar de la Estimación

• Siempre hay errores en la predicción. • Es útil conocer ese error. • El error estándar de la estimación nos da la

medida de la desviación promedio de los errores de predicción en torno a la línea de regresión.

Σ(Y – Y’)2

• S nx =N - 2

Page 24: Estadistica primera parte