2. niveles de medicion

54
Introducción a la estadística Algunas definiciones de estadística Ciencia de tomar decisiones en presencia de la incertidumbre. Freund, J. E. – Eallis y Roberts § Rama del conocimiento científico que se ocupa del análisis numérico e interpretación de los resultados que provienen de experimentos de naturaleza aleatoria. Capelletti, C. A. § Disciplina que investiga la posibilidad de extraer de los datos inferencias válidas, elaborando los métodos mediante los cuales pueden obtenerse dichas inferencias. Cramer, H. § Ciencia de tomar decisiones en base a observaciones. Sprowls, C. § Operación de análisis matemático que permite estudiar con el máximo de precisión los fenómenos no conocidos completamente. Mothes, J. § Disciplina que trata los problemas relativos a las características operatorias de las reglas de comportamiento inductivo, basadas en experimentos aleatorios. Neyman, J.

Transcript of 2. niveles de medicion

Page 1: 2. niveles de medicion

Introducción a la estadísticaAlgunas definiciones de estadística

• Ciencia de tomar decisiones en presencia de la incertidumbre. Freund, J. E. – Eallis y Roberts

• § Rama del conocimiento científico que se ocupa del análisis numérico e interpretación de los resultados que provienen de experimentos de naturaleza aleatoria. Capelletti, C. A.

• § Disciplina que investiga la posibilidad de extraer de los datos inferencias válidas, elaborando los métodos mediante los cuales pueden obtenerse dichas inferencias. Cramer, H.

• § Ciencia de tomar decisiones en base a observaciones. Sprowls, C.• § Operación de análisis matemático que permite estudiar con el máximo

de precisión los fenómenos no conocidos completamente. Mothes, J.• § Disciplina que trata los problemas relativos a las características

operatorias de las reglas de comportamiento inductivo, basadas en experimentos aleatorios. Neyman, J.

Page 2: 2. niveles de medicion

Introducción a la estadística

• Estadística descriptiva.• Estadística inferencial.• Relación entre variables, de acuerdo a los distintos

niveles de medición.• Técnicas de análisis de asociación entre variables

de distintos niveles de medición.

• Lógica de los test de hipótesis.

Page 3: 2. niveles de medicion

Sistema de Información Estadística

• Un Sistema de Información Estadística

• “Conjunto de reglas, principios, métodos y actividades ordenadamente relacionados entre sí, que permiten observar y evaluar mediante mediciones periódicas o permanentes y desde un punto de vista cuantitativo, recursos, actividades, resultados y acciones realizadas dentro de un sector, una entidad o de un conjunto de sectores o de entidades ”.

Page 4: 2. niveles de medicion

Estadística

• Describir nuestro conjunto de datos: Características, valores atípicos, dispersión, tendencias para datos temporales.

• Descubrir patrones de comportamiento en los datos o ciertas relaciones entre las variables medidas.

• Intentar extrapolar la información contenida en la muestra a un conjunto mayor de datos.

• Inferir futuros comportamientos de la población estudiada (predicción)

Page 5: 2. niveles de medicion

Estadística: clasificaciones

• Estadística descriptiva• Estadística inferencial

• Estadística exploratoria• Estadística multivariada

• Estadística no paramétrica

Page 6: 2. niveles de medicion

Niveles de medición

• Nominal: El valor de la variable indica solo la clase de pertenencia

• Ordinal: Las clases de pertenencia pueden ser ordenadas.

• Intervalo: El valor de la variable tiene un sentido y en general podremos (en al mayoría de los casos) calcular promedios, medidas de dispersión y aplicar test. Pero no siempre podremos establecer razones ente dos valores de la variable.

• Razón: Existe un cero absoluto, podemos efectuar cocientes de los valores de la variable.

Page 7: 2. niveles de medicion

Resumen de información

• Estadísticos de posición o locación: ¿Donde esta ubicado nuestro conjunto de datos?– Modo– Mediana– Media

• Estadísticos de dispersión

– Rango– Coeficiente de variación

Page 8: 2. niveles de medicion

Statistics

Average female life expectancy

109

0

74,00

10,572

52,00

59,00

66,50

68,00

70,00

74,00

76,00

78,00

78,00

79,00

80,00

Valid

Missing

N

Median

Std. Deviation

10

20

25

30

40

50

60

70

75

80

90

Percentiles

Distribución de frecuencias

Page 9: 2. niveles de medicion

Variables cuantitativas: medidas de posición

• Modo. • Mediana y percentiles• Media: promedio de la variable

• El uso de estos estadisticos depende de los objetivos del analista o de las características de la población que se desea estudiar.

Page 10: 2. niveles de medicion

Histograma

Page 11: 2. niveles de medicion

25 50 75 100

Females who read (%)

50

60

70

80A

ve

rag

e f

em

ale

life

exp

ect

ancy

Gráfico de dispersión

Page 12: 2. niveles de medicion

Pirámides de población

Page 13: 2. niveles de medicion
Page 14: 2. niveles de medicion

Variables simétricas

0

0.2

0.4

0.6

0.8

1

1.2

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Ser ie1

Page 15: 2. niveles de medicion

Variables Asimétricas

0

0.2

0.4

0.6

0.8

1

1.2

1.4

0 1 2 3 4 5 6 7 8

Ser ie1

Page 16: 2. niveles de medicion

Medidas de asimetría

• La medida más usual de asimetría: “skewness”

• Cuando se tiene variables asimétricas con valores positivos (ingreso por ejemplo), es usual tomar logaritmo para

simetrizarlas.

Page 17: 2. niveles de medicion

Box-Plot

Page 18: 2. niveles de medicion

Box-Plot: Horas trabajadas según sexo – Encuesta Permanente de Hogares

Varon Mujer

Sexo

0,0

20,0

40,0

60,0

80,0

100,0

Horas trabajadas

8.345

6.928

3.773

7.451

5.8443.159

3.035

8.7998.7568.7498.520

8.393 5.1818.6957.445

8.344 7.601

6.0395.8413.6746.6826.0834.441

3.296

4.048

Page 19: 2. niveles de medicion

0

5000

10000

15000

p21

Ingreso ocupacion

principal

EPH

1998

GBA

Page 20: 2. niveles de medicion

0

5000

10000

15000

p21

Ingreso ocupación principal EPH 1998GBASin cero

Page 21: 2. niveles de medicion

Relación entre dos variables nominales Tablas de contingencia

Condicion de actividad por sexo – Fuente: EPH - INDEC

58.3 41.7

50.5 49.5

33.7 66.3

51.2 48.8

47.9 52.1

Ocupado

Desocupado

Inactivo

Menor de 10 años

Condicionde actividad

Total

%

Varon

%

Mujer

Sexo

Page 22: 2. niveles de medicion

Relación entre dos variables nominales: Tablas de contingencia

• Hipótesis nula: no existe asociación estadistica entre las dos variables, la distribución de los efectivos es proporcional a los “marginales”: totales fila y columna.

• Hipotesis alternativa: existe asociación estadística entre las variables

Page 23: 2. niveles de medicion

Tablas de contingenciaTest de Chi – Cuadrado

• Chi-cuadrado: Compara los efectivos teóricos (bajo el supuesto de independencia) con los observados.

• Efectivos teóricos en la celda (i,j):

n

nnn ij

ij•• ⋅

=*

Page 24: 2. niveles de medicion

Chi-cuadrado

• Si los observados son iguales a los teóricos, el coeficiente vale cero.

• El coeficiente aumenta al aumentar la discrepancia entre el observado y el teórico, respecto al valor teórico.

• Pero este coeficiente depende de n: Aumenta con el número de observaciones.

∑−

=ji ji

jijiobs n

nn

,*

2*2 )(

χ

Page 25: 2. niveles de medicion

Chi-cuadrado normalizado - PHI

• Se cumple que <=min(J-1, I-1)

nobs /22 χφ =

Page 26: 2. niveles de medicion

V de Cramer

• Donde m = min(L-1, K-1)

• Se cumple que 0<=V<=1

mnV obs ⋅= /2χ

Page 27: 2. niveles de medicion

Ejercicio practico 1:Calcular el chi-cuadrado en la siguiente tabla

Variable X

Variable Y C D

A 0 20

B 12 0

Page 28: 2. niveles de medicion

Ejercicio practico 2:Calcular el chi-cuadrado y el V de Cramer en

la siguiente tabla

Variable X

Variable Y C D

A 0 200

B 120 0

Page 29: 2. niveles de medicion

Asociación entre variables ordinales y cuantitativas: Coeficientes de correlación

• Estos coeficientes reflejan en general el hecho de que una de las variables aumenta de valor cuando la otra lo hace.

• Los más utilizados:

– Coeficiente de correlación de Pearson (Karl Pearson, 1857-1936)

– Coeficiente de correlación de Spearman (Charles Spearman, (1863-1945)

Page 30: 2. niveles de medicion

Coeficiente de correlación de Pearson entre dos variables X e Y

ρ = Cov(X, Y)/DS(X)*DS(Y)

• Variables continuas (de razón).

• Mide la existencia de una relación lineal entre las variables.

• -1 <= ρ <= 1• ρ =0 : ausencia de relación lineal• ρ =1: relación lineal creciente• ρ =-1: relación lineal decreciente• Sensible a valores extremos o atípicos

Page 31: 2. niveles de medicion

Coeficiente de correlación de Pearson: significado

• El ρ de Pearson indica la existencia de una relación lineal entre X e Y.

• Identifica relaciones positivas y negativas. El coeficiente 0 indica ausencia de relacion estadística

• Puede haber una relación creciente, pero no lineal.

Page 32: 2. niveles de medicion

Ejercicio practico 3:Coeficiente de correlación de Pearson

• Hallar el ρ de Pearson para la siguiente serie de valores. Graficarla con Excel.

X Y

1 1

2 4

3 9

4 16

Page 33: 2. niveles de medicion

Coeficiente de correlación de Spearman entre dos variables X e Y

rs = ρ(rang(X), rang(Y))

• Variables ordinales. • Mide la existencia de una relación creciente o

decreciente entre las variables.• -1 <= ρ <= 1• ρ =0 : ausencia de relación creciente o decreciente• ρ =1: relación creciente

• ρ =-1: relación decreciente• Robusto a valores extremos o atípicos

Page 34: 2. niveles de medicion

Coeficiente de correlación de Spearman entre dos variables X e Y

• En caso de rangos “empatados”, tomamos el promedio de los rangos.

Page 35: 2. niveles de medicion

Ejercicio práctico 4: Asociación entre dos variable ordinales y cuantitativas

• Dada el siguiente par de valores de dos variables, comprobar que el coeficiente de correlación de Spearman es el coeficiente de correlación de Pearson de los rangos

.

X Y

4 7

3 2

1 2

5 3

2 2

Page 36: 2. niveles de medicion

Recta de regresión

• Supongamos tener n obervaciones bivariadas, o sea a cada elemento le medimos un par de variables (Xi, Yi) que supondremos continuas por ahora.

– Peso y estatura.– Producto Bruto Per capita y Tasa de mortalidad infantil.– Tasa de desempleo y ingreso medio de los asalariados

– Cigarrillos fumados por día y probabilidad de sufrir cáncer de pulmón.

Page 37: 2. niveles de medicion

Recta de regresión: Ejemplo

• En el siguiente gráfico se muestran los 8511 radios censales del Gran Buenos Aires. A cada radio se le midieron dos variables: % de hogares con celular y % de hogares con freezer, según datos del CENSO 2001.

• Los datos se graficaron mediante un gráfico X-Y.

• El eje de las X (horizontal) indica al % de hogares con freezer, el eje de las Y (vertical) el % de hogares con celular.

• Vemos que hay una relación aproximadamente lineal entre ambas variables, por lo menos en la parte central del gráfico.

Page 38: 2. niveles de medicion

Nube de puntos y recta de regresión

-50

0

50

100

150

200

250

300

0 20 40 60 80 100 120

Serie1

Lineal (Serie1)

y = 1.9852x + 22.132R2 = 0.8244

Page 39: 2. niveles de medicion

Modelo de regresión

• La relación puede ser lineal solo en una parte del recorrido de las variables.

• Variable X: variable “independiente” o explicativa.• Variable Y: variable “dependiente” o explicada.

• El modelo de regresión no implica “causalidad” (ej. Educación e Ingreso).

• El modelo de regresión puede tener más de una variable: explicativa: modelo de regresión múltiple.

Page 40: 2. niveles de medicion

Modelo de regresión: Forma general

• El modelo subyacente en la regresión lineal (simple o múltiple) es que la variable dependientes una función lineal de las variables independientes:

• Y= 1+b1·X1+b2·X2+…bk·Xk + e.• e es una variable aleatoria, pues no es razonable suponer

una relación lineal exacta entre Y y X1,…, Xk• Pero en promedio podemos suponer que e será igual a

cero.• e se denomina el término de errror. Es igual a la diferencia

entre el valor observado y la recta de regresión.

Page 41: 2. niveles de medicion

Ajuste del modelo de regresión

• Por ajuste del modelo de regresión se interpreta cuan bien la “nube de puntos” está cerca de la recta de regresión.

• El modelo de regresión tiene una medida de la “bondad de ajsute”: el R2. Este valor está entre 0 y 1.

• 1 -> Ajuste perfecto

• 0 -> No hay efecto de las variables independientes y la variable dependiente.

• No todos los modelos en estadística poseen una medida objetiva del “ajuste” de los datos al modelo.

Page 42: 2. niveles de medicion

Ajuste del modelo de regresión

• Supongamos el modelo de regresión simple

• Y = a + b * X + e– El “parámetro“ b indica cuánto aumenta Y por un

aumento unitario de X.

– Si X no tiene efecto sobre Y, b valdrá 0....– a es la ordenada al origen.

Page 43: 2. niveles de medicion

Ajuste del modelo de regresión

• Los paquetes estadísticos o Excel nos proveen estadísticos para evaluar el ajuste del modelo (R2).

• Y para evaluar si b es “significativamente distinto de cero” o no..... Si es “significativamente distinto de cero”, la variable independiente X tiene un efecto sobre Y.

Page 44: 2. niveles de medicion

Ajuste del modelo de regresión

• En general, si el tamaño de muestra es muy grande, los parámetros pueden ser “significativamente distintos de cero” a menudo.

• Esto no significa que sean relevantes para el investigador.

Page 45: 2. niveles de medicion

Recta de regresión: Cálculo de los parámetros

• Para el ejemplo anterior son los 8511 radios censales, se plantea el modelo que explica a la variable CEL (% de celulares).

• Cel = a + b*Freezer + e

• Con el paquete Stata se calcularon los parámetros a y b. La salida es la siguiente:

Page 46: 2. niveles de medicion

Modelo de regresión: Salida Iregress Cel Freez

Number of obs = 8511

F( 1, 8509) =23555.43

Prob > F = 0.0000

R-squared = 0.7346

Adj R-squared = 0.7346

-----------------------------------------------------------------------

Cel | Coef. Std. Err. t P>|t| [95% Conf. Interval]

------+----------------------------------------------------------------

Freez | .993698 .0064745 153.48 0.000 .9810063 1.00639

_cons | -33.26479 .3813768 -87.22 0.000 -34.01238 -32.5172

-----------------------------------------------------------------------

O sea la recta de regresión es Cel = -33.3 + 0.994*Frezzer

Page 47: 2. niveles de medicion

Modelo de regresión: Salida IINumber of obs = 426F( 7, 418) = 125.51Prob > F = 0.0000R-squared = 0.6776 ----------------------------------------------------------- t_desoc | Coef. Std. Er. t P>|t| [95% Conf.Int]---------+-------------------------------------------------t_activ | .308 .0803029 3.84 0.000 .15 .46j_sipip | .693 .0564412 12.29 0.000 .58 .80 j_ucp | -.231 .0649551 -3.56 0.000 -.35 -.10Cta_prop| .219 .2550068 0.86 0.390 -.28 .72Publico | .551 .2433731 2.27 0.024 .07 1.03Privado | .52 .2395047 2.18 0.030 .05 .99 Patron | -.048 .2832193 -0.17 0.865 -.60 .50 _cons | -33.9 24.51396 -1.39 0.167 -82.1 14.2-----------------------------------------------------------

Page 48: 2. niveles de medicion

Ajuste del modelo de regresión

• Por ajuste del modelo se interpreta cuan bien los valores observados se ajustan a nuestro modelo.

• En el modelo de regresión lineal hay un estadístico, el R2 que nos indica la bondad del ajuste. R2 está comprendido entre 0 y 1. 1 indica un ajuste perfecto: todas las observaciones están sobre una recta.

Page 49: 2. niveles de medicion

Prueba de los coeficientes

• Otra pregunta que el investigador se plantea es si algún coeficiente es igual a cero. O si es “significativamente distinto de cero”. Esta pregunta puede ser respondida mediante el estadístico t de Student.

• Cuanto más grade es t, mayor la probabilidad de que el coeficiente correspondiente sea igual a cero.

Page 50: 2. niveles de medicion

Análisis de los residuos

• Luego está el análisis de los residuos observados: observaciones con residuos elevados en valor absoluto pueden indicar errores de medición, puntos extremos, o un modelo especificado incorrectamente.

• En general los paquetes estadísticos traen opciones para graficar los residuos y detectar aquellos con valores grandes.

• Finalmente, corresponde al investigador social interpretar si el modelo es plausible, que significan los parámetros, explicar el porquébuna observación tiene un residuo excesivamente grande, mantener o eliminar una variable.

Page 51: 2. niveles de medicion

Tipo de variables en el modelo de regresión lineal

• El modelo de regresión se plantea en general cuando la variable dependiente (Y) es continua

• En teoría, las variables explicativas (X) pueden ser todas nominales (por ejemplo en un modelo que explique el ingreso sexo, tramo de edad, etc.).

• Cuando la variable a explicar (Y) no es continua, debemos aplicar otro modelo (Poisson, logit, etc)

Page 52: 2. niveles de medicion

Ejercicio practico 4:Regresión lineal simple

• Para los siguientes datos, calcular los coeficientes de regresión mediante el programa EXCEL.

X Y

2 34

5 33

10 21

40 39

Page 53: 2. niveles de medicion

Ejercicio práctico 4:

Page 54: 2. niveles de medicion

Universo, población y muestra

• Universo, población, muestra.• Parámetros poblacionales.• Estimación a partir de una muestra: Inferencia y

estimadores.

• Propiedades de los estimadores.