01 - Estadistica Descriptiva2014

download 01 - Estadistica Descriptiva2014

of 51

Transcript of 01 - Estadistica Descriptiva2014

  • 1n Teora: Yo, Federico [email protected]

    n Clases Tericas: viernes cada 15 das, de 19:00 a 23:00.

    n Prcticas: Carlos Piccinini.n Tres parciales, fechas tentativas: 24/6,

    23/9, 25/11.

    Probabilidad y EstadProbabilidad y Estadsticastica

    Consideraciones generales

    2

    Bibliografa

    n Montgomery, Runge: Probabilidad y Estadstica Aplicada a la Ingeniera.

    n Canavos: Probabilidad y Estadstica.

    n Meyer: Probabilidad y Aplicaciones Estadsticas.

  • 3Metodologa de trabajo

    n Con la teora que se da en clase alcanza para resolver todos los ejercicios.

    n Consultar bibliografa no est de mas.n Las clases prcticas sirven como gua para

    resolver los otros ejercicios.

    Estudiar la teora

    Resolver la prctica

    4

    Probabilidad y Estadstica

    Presentacin y Objeto de la Materia

  • 5Probabilidad y Estadstica

    n Estudiar fenmeno aleatorios.n Describir y modelar la variabilidad.n Inferencia estadstica: obtener

    conclusiones generales a partir de una muestra.

    n Estadstica descriptiva: ordenar y sintetizar datos.

    6

    Cien registros del tiempo que tardan 3 CPU en realizar diferentes tareas.

    Cul es ms rapido?

    Cul es mejor?

  • 7Duracin de cada erupcin y tiempo de espera entre ellas de ese geiser famoso. Hay dos variables medidas (duracin y tiempo de espera) y una indicadora (da en que fue tomada la medicin).Puede detectar algn patrn a simple vista?

    Old Faithful

    Son 222 mediciones

    8

    Diferentes variedades de trigo sembradas con o sin riego, y analizado su rinde. Regar hace la diferencia?Depende de la variedad?

  • 9Rendimiento MaRendimiento Maz LB13 2007z LB13 2007

    Datos de rendimiento y NDVI del lote LB13, maz, 2007. Ac la idea no es ver la distribucin de cada variable, sino ver que relacin hay entre ellas (si es que hay).

    2302 Registros

    10

    Algunos nombres usados

    n Poblacin objeto: de donde obtengo los datos.

    n Variable: caracterstica de la poblacin objeto.

    n Valor de variable: nmero o caracterstica correspondiente a una observacin.

    n Poblacin estadstica: conjunto de todos los resultados posibles.

    n Muestra: un subconjunto de la poblacin estadstica

  • 11

    Tipos de Variables

    Variables a medir

    Cualitativa

    Cuantitativa

    Ordinal (R, B, MB, E)

    Cardinal (color predilecto)

    Contar (discreta)

    Medir (continua)

    12

    Inferencia

    MuestraClculo de estadsticas

    Inferencia sobre la poblacin

    n Se va de lo particular a lo general.n Hay incertidumbre, posibilidad de error.n Medida de confiabilidad, en trminos de

    probabilidad.

  • 13

    Deductivo vs Inductivo

    n Deductivo: analizando los factores, uno deduce la relacin entre las variables.

    n Inductivo: analizando los resultados, uno infiere la relacin entre las variables.

    Analizando la estructura celular de un girasol (y muchos otros factores) uno podra deducir la relacin entre rinde y NDVI.

    Comparando el rinde con el NDVI en varios lotes, uno podra inferir la relacin entre ellos.

    14

    Modelos determinsticos

    n Se puede predecir con exactitud el resultado de un experimento

    F = maPermite calcular exactamente la aceleracin de una partcula de masa m sometida a una fuerza F.

  • 15

    Modelos probabilsticos

    n Se puede predecir la frecuencia relativa con la cual ocurren los diferentes resultados.

    Si tiramos un dado honesto muchas veces, aproximadamente un sexto de las veces va a salir 1.

    16

    Pasos de una investigacin estadstica

    n Planteo de objetivos / Diseo de experimento.

    n Diseo muestral.

    n Anlisis exploratorio de datos.

    n Inferencia estadstica.

    Lo hace el investigador, que es quien sabe lo que quiere.

    Muy difcil, otra historia.

    Aqu se utilizan los mtodos de estadstica descriptiva.

    Se elaboran las conclusiones con cierta medida de confianza o certeza.

  • 17

    Estadstica Descriptiva

    n Diagrama de puntos

    n Tallo y hojan Histograma / tabla

    de frecuencias relativas

    n Polgonos de frecuencia relativa / acumulada

    n Box Plot

    Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles

    n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin

    n Percentilesn Modan Mximo y mnimo

    n Diagrama de dispersin n Coeficiente de correlacinVarias Variables

    18

    Estadstica Descriptiva

    n Tcnicas grficas y numricas para resumir informacin

    n Presentar los datos para que sobresalga su estructura

    n Detectar caractersticas sobresalientes e inesperadas

    n Tambin llamado Anlisis Exploratorio de Datos

  • 19

    Datos de ejemplo

    9587797365

    9384787165

    9284787164

    8883777063

    8881756361

    25 mediciones de ruido (en Decibeles, dB) de motos circulando por la ciudad.

    Usaremos para ejemplificar los siguientes datos:

    20

    Estadstica Descriptiva

    n Diagrama de puntos

    n Tallo y hojan Histograma / tabla

    de frecuencias relativas

    n Polgonos de frecuencia relativa / acumulada

    n Box Plot

    Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles

    n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin

    n Percentilesn Modan Mximo y mnimo

    n Diagrama de dispersin n Coeficiente de correlacinVarias Variables

  • 21

    Diagrama de puntos

    60 70 80 90 100

    Colocar un puntito por cada dato sobre una recta numerada. Para los datos del ejemplo queda as:

    22

    Diagrama de puntos de 100 mediciones tiempos CPU A, B y C

    Diagrama de puntos

  • 23

    787164777063756361

    Diagrama tallo/hoja

    n Si las observaciones tienen varios dgitos, separamos cada observacin en dos partes: tallo (dgitos de la izquierda) y hojas (dgitos de la derecha).

    n Se anotan en una tabla hasta agotar los datos.

    tallo hoja

    6

    7

    1 3

    0

    24

    Diagrama tallo/hoja

    n Para este ejemplo se eligi la unidad como hoja y la decena como tallo.

    n Dicha eleccin depende del sentido comn.

    95877973659384787165928478716488837770638881756661Tallo Hoja

  • 25

    Diagrama tallo/hoja

    TalloTallo

    HojaHoja

    Por ah esta es una mejor eleccin.

    Esta definitivamente es una mala eleccin.

    26

    Ejemplos en Minitab 15

    Nuestros datos El del CPU A de los datos de velocidad (100 registros)

  • 27

    n Rango de las observaciones.n Forma de la distribucin.n Posicin del centro y dispersin.n Datos extremos, desviaciones marcadas.

    En este grfico observamos:

    No hay perdida de informacin

    Diagrama tallo/hoja

    28

    Histograma

    n Es el tpico grfico de barras.n Se divide el rango total de los datos en

    intervalos llamados clases. El centro se llama marca de clase.

    n La cantidad de observaciones en cada clase se llama frecuencia absoluta.

    n Sobre cada clase se grafica un rectngulo de reaproporcional a la frecuencia de la clase.

  • 29

    Histograma

    hi = fibi

    rea fi

    Clase i, de ancho biMarca de la clase i

    l0 l1 l2 l3 li-1 li lk-1 lk

    hk

    h1

    hi

    h2

    h3

    [ )[ ) [ ) [ ) [ ). . . . . . . . . .

    . . . . . . . . . .

    xix1

    30

    n Necesaria para construir el histograma, resume la informacin numrica.

    Tabla frecuencias acumuladas

    fi = ni n

    Notacin mas o menos universal:

    n = cantidad de datos, que se dividen en kclases. La clase i es [li 1 , li), tiene longitud biy marca de clase xi. La clase i tiene ni datos (frecuencia absoluta), y frecuencia relativa

  • 31

    .....

    1(nk / n)= fkn1 ++ nknk[lk-1 ,lk)..... .....

    f1 + f2(n2 / n)= f2n1 + n2n2[l1 , l2)f1(n1 / n)= f1n1n1[l0 , l1)

    Relativa acumulada

    Frecuencia relativa fi

    Frecuencia acumulada

    Frecuenciani

    Clase

    n

    Tabla frecuencias acumuladas

    32

    0.960.08242[90,95)

    0.600.20155[75,80)0.400.16104[70,75)

    10.04251[95,100)

    0.880.12223[85,90) 0.760.16194[80,85)

    0.240.1263[65,70)0.120.1233[60,65)

    Relativa acumulada

    Frecuencia relativa fi

    Frecuencia acumulada

    Frecuenciani

    Clase

    Con nuestros datos: 8 clases de longitud 5

  • 33

    Histograma - Tabla de Frecuencias

    n Entre 5 y 15 clases, usar sentido comn.n Salvo excepciones, clases de igual longitud.n Como altura de la clase i tomar

    hi = fibi

    para que en el grfico el rea sea (proporcional a) la frecuencia relativa.

    n Cuando las clases son todas de longitud b, tomar hi = fi /b.

    34

    Histograma

    hi = fib

    rea fi

    Todas las clases de ancho b

    h3

    hk

    h1

    hi

    h2

    . . . . . . . . . .

    [ )[ ) [ ) [ ) [ ). . . . . . . . . . l0 l1 l2 l3 li-1 li lk-1 lk

    fk

    f1

    fi

    f2

    f3

    En la prctica depende de la escala de los ejes, importa solo para comparar grficos.

  • 35

    Basado en la tabla de frecuencias de nuestros datos de ejemplo. Hecho en Infostat.

    Histograma

    3697.590.082.575.067.560.0

    0.05

    0.04

    0.03

    0.02

    0.01

    0.00

    Ruido dB

    De

    nsid

    ad

    Histograma de Ruido dB

    10090807060

    0.05

    0.04

    0.03

    0.02

    0.01

    0.00

    Ruido dB

    Den

    sida

    d

    Histograma de Ruido dB

    Misma rea

    Bien hechos, con Minitab, para poder comparar si uno subdivide las clases y/o agrega mediciones

  • 37

    Tabla de frecuencias e histograma del CPU A de los datos de velocidad (100 registros), hecho con Infostat.

    38

    Polgono de Frecuencias

    f3

    f1

    fi

    f2

    . . . . .

    [ )[ ) [ ) [ ) [ ). . . . . l0 l1 l2 l3 li-1 li lk-1 lk

    [ )[ ) [ )

    n Une las marcas de clase.n El rea debajo del polgono es igual a la

    suma del rea de los rectngulos.

  • 39

    La lnea roja es el polgono de frecuencias para nuestros datos (hecho a mano).

    40

    Histograma

    n Rango de las observaciones.n Forma de la distribucin.n Posicin del centro y dispersin.n Datos extremos, desviaciones marcadas.n Mas adecuado que tallo-hoja cuando hay

    muchos datos (resumen grande).

    En este grfico observamos:

    Hay perdida de informacin !!

  • 41

    Simtrico acampanado Asimetra a izquierda

    Asimetra a derecha Mala eleccin de escala o no hay patrn (o tri-modal).

    42

    Uniforme Bi-modal

    Bi-modal

  • 43

    Polgono de frecuencias acumuladas

    Unir los extremos de cada clase con un segmento, como sugiere el dibujo. Se usa para dividir datos en proporciones.

    l0 l1 l2 l3 lj-1 lj lk-1 lk

    f1+f2

    1

    f1

    f1+f2 +f3

    f1++ fk-1

    f1++ fj-1

    f1++ fj

    [ )[ ) [ ) [ ) [ ). . . . . . . . . .

    44

    As queda con nuestros datos de ejemplo, hecho a mano.

    Polgono de frecuencias acumuladas

  • 45

    0.960.08242[90,95)

    0.600.20155[75,80)0.400.16104[70,75)

    10.04251[95,100)

    0.880.12223[85,90) 0.760.16194[80,85)

    0.240.1263[65,70)0.120.1233[60,65)

    Relativa acumulada

    Frecuencia relativa fi

    Frecuencia acumulada

    Frecuenciani

    Clase

    Con nuestros datos: 8 clases de longitud 5

    46

    As lo hace Minitab, y lo llama Distribucin Acumulada. Esto es muy importante para lo que sigue.

    10090807060

    1.0

    0.8

    0.6

    0.4

    0.2

    0.0

    Ruido dB

    Prob

    abili

    dad

    CDF emprica de Ruido dB

  • 47

    As lo hace Infostat, y lo llama Grfica de Distribucin Emprica. No muy bueno, faltara la curva.

    48

    Estadstica Descriptiva

    n Diagrama de puntos

    n Tallo y hojan Histograma / tabla

    de frecuencias relativas

    n Polgonos de frecuencia relativa / acumulada

    n Box Plot

    Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles

    n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin

    n Percentilesn Modan Mximo y mnimo

    n Diagrama de dispersin n Coeficiente de correlacinVarias Variables

  • 49

    Medidas numricas

    n Son valores numricos que resumen la informacin de los datos.

    n De posicin o tendencia central, y de dispersin.

    n Denotaremos los n datos comox1, x2,,xn

    50

    n Median Medianan Cuartilesn Percentilesn Modan Mximo y mnimo

    n Rangon Rango intercuartiln Varianzan MADn Coeficiente de

    Variacin

    Medidas de tendencia central

    Medidas de variabilidad

  • 51

    Media x

    n Es el promedio de los datos.n Punto de equilibrio en el grfico de puntos.n Frmula para el clculo:

    n Es sensible a valores extremos.n Existe la media de la poblacin, , que en

    general es desconocida.

    52

    En nuestros datos,

    60 70 80 90 100

    Si cambiamos el ltimo dato de 95 a 595 queda

    97.24

  • 53

    Mediana xn Divide los datos ordenados en dos grupos

    iguales.n Al menos 50% de los datos que x, al

    menos 50% de los datos x.n Frmula para el clculo:

    Recordar datos ordenados: x1 x2 xn

    n Robusta, no es sensible a valores extremos.

    54

    Nuestros datos ordenados:

    61 63 64 65 65 66 70 71 71 73 75 7778 78 79 81 83 84 84 87 88 88 92 93 95

    n = 25 impar, entonces

    x = x13 = 78

    Si cambiamos el ltimo dato de 95 a 595 queda

    78

  • 55

    n Cuando n es par, cualquier valor numrico entre xn/2 y x(n+1)/2 divide la muestra en dos.

    n Por convencin se toma el promedio:

    n Relacin aproximada entre media y mediana

    56

    n Generalizacin de la mediana, divide los datos ordenados.

    n Cuartil q1: al menos 25% de los datos que q1, al menos 75% de los datos q1.

    n Cuartil q2 = mediana.n Cuartil q3: al menos 75% de los datos

    que q3, al menos 25% de los datos q3.

    Cuartiles

  • 57

    n Generalizacin de cuartiles, divide los datos ordenados.

    n Si 0 < k < 1, el pk- percentil deja: al menos 100k% de los datos que pk, y al menos 100(1 k)% de los datos pk.

    n Frmula: si x1 x2 xn , entonces

    Percentiles

    donde j es el menor entero mayor que nk.

    58

    1 2 nk nk+1 n

    nk datos n(1 k) datos

    Si nk es entero:

    1 2 j -1 j n

    menos de nk datos menos de n(1 k) datos

    Si nk no es entero:

    nk

  • 59

    n Si k = 0.25 queda el primer cuartilp0.25 = q1

    n Si k = 0.75 queda el tercer cuartilp0.75 = q3

    60

    Nuestros datos ordenados:

    61 63 64 65 65 66 70 71 71 73 75 7778 78 79 81 83 84 84 87 88 88 92 93 95

    25 x 0.25 = 6.25, entonces q1 = x7 = 70

    25 x 0.75 = 18.75, entonces q3 = x19 = 84

    Si tomamos k = 0.2, 25 x 0.2 = 5, entonces p0.2 = 65.5

  • 61

    n Moda: dato que mas se repite. Pueden ser dos (datos bimodales) o mas.

    n Mximo y mnimo: mayor y menor dato.

    Otras medidas de posicin

    Nuestros datos ordenados:61 63 64 65 65 66 70 71 71 73 75 7778 78 79 81 83 84 84 87 88 88 92 93 95

    n No tiene sentido hablar de moda (hay 5 valores que se repiten dos veces).

    n Mx = 95, y mn = 61.

    62

    Estadstica Descriptiva

    n Diagrama de puntos

    n Tallo y hojan Histograma / tabla

    de frecuencias relativas

    n Polgonos de frecuencia relativa / acumulada

    n Box Plot

    Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles

    n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin

    n Percentilesn Modan Mximo y mnimo

    n Diagrama de dispersin n Coeficiente de correlacinVarias Variables

  • 63

    Varianzan Promedio del cuadrado de las desviaciones

    de la media.n Frmula para el clculo:

    n El desvo estndar es:

    n Tiene las mismas unidades que los datos

    n Es sensible a datos extremos.

    64

    n Existe la varianza de la poblacin, 2, que en general es desconocida.

    n Frmulas alternativas para s2:

  • 65

    En nuestros datos,

    Si cambiamos el ltimo dato de 95 a 595 queda

    10853

    66

    M.A.D.

    n Es a la varianza como la mediana a la media.

    n Robusta, no sensible a valores extremos.

    n Para datos x1, x2,,xn , definir

    entonces

  • 67

    En nuestros datos: ordenados les restamos

    61 63 64 65 65 66 70 71 71 73 75 77 78 78 79 81 83 84 84 87 88 88 92 93 95

    Ordenamos, y como n = 25 la mediana es el dato 13:

    x = 78 y anotamos el valor absoluto

    Si cambiamos el ltimo dato de 95 a 595 queda

    MAD = 8

    17 15 14 13 13 12 8 7 7 5 3 1 0 0 1 3 5 6 6 9 10 10 14 15 17

    0 0 1 1 3 3 5 5 6 6 7 7 8 9 10 10 12 13 13 14 14 15 15 17 17

    8

    68

    Coeficiente de variacin

    n Mide el tamao de la varianza en trminos de la media.

    n Sirve para comparar diferentes mediciones.n En ocasiones se expresa porcentualmente,

    multiplicado por 100

    En nuestros datos,

  • 69

    n Rango: R = Mx mn.n Rango intercuartil: d = q3 q1.

    Otras medidas de variabilidad

    Nuestros datos:

    Mx = 95 mn = 61

    q1 = 70 q3 = 84

    n R = 95 61 = 34.n d = 84 70 = 14.

    70

    Estadsticas de nuestros datos calculadas con Infostat.

    Estadsticas del tiempo CPU A calculadas con Infostat.

  • 71

    Estadstica Descriptiva

    n Diagrama de puntos

    n Tallo y hojan Histograma / tabla

    de frecuencias relativas

    n Polgonos de frecuencia relativa / acumulada

    n Box Plot

    Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles

    n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin

    n Percentilesn Modan Mximo y mnimo

    n Diagrama de dispersin n Coeficiente de correlacinVarias Variables

    72

    Grafico caja-bigote (box-plot)

    n Grafico simple que junta las medidas resumen.

    n Sirve para comparar conjuntos de datos.

    q1 q3

    xmin q1 1.5d

    Outlierscercanos q3+3d

    Max q3 + 1.5d

    Outlierscercanos > q3+3dx

    d

  • 73

    n Rango de las observaciones.n Forma de la distribucin, asimetras.n Posicin del centro y dispersin.n Datos extremos, desviaciones marcadas.n Tiende a esconder datos bimodales.

    En este grfico observamos:

    Grafico caja-bigote (box-plot)

    74

    En nuestros datos,

  • 75

    Relacin box-plot vs histograma

    76

    Box-plot paralelos para comparar tres conjuntos de datos.

  • 77

    Estadstica Descriptiva

    n Diagrama de puntos

    n Tallo y hojan Histograma / tabla

    de frecuencias relativas

    n Polgonos de frecuencia relativa / acumulada

    n Box Plot

    Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles

    n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin

    n Percentilesn Modan Mximo y mnimo

    n Diagrama de dispersin n Coeficiente de correlacinVarias Variables

    78

    Diagrama de Dispersin

    Es un grfico para estudiar la relacin entre dos magnitudes, medidas simultneamente de cada sujeto (por ejemplo, altura y peso). Si tenemos n sujetos, obtendremos

    1 1( , ),..., ( , )n nx y x y

    n pares de datos. Se grafica una variable contra la otra en un plano cartesiano.

  • 79

    n Cigarrillos Capacidad pulmonar

    1 0 452 5 423 10 334 15 315 20 29

    Capa

    cida

    d pu

    lmon

    ar

    Cigarrillos

    Diagrama de Dispersin

    Grfico de Nro. de cigarrillos vs capacidad pulmonar

    80

    Diagrama de Dispersin

    Duracin vs tiempo de espera, archivo Old Faithful (222 registros), hecho con Infostat.

  • 81

    Diagrama de Dispersin

    Ejemplo de cosas que se suelen ver:

    82

    Diagrama de DispersinTambin existen en 3D, para estudiar la relacin entre tres magnitudes

  • 83

    Covarianza/Correlacin Muestral

    1

    1( , ) ( )( )1

    n

    xy i ii

    Cov x y s x x y yn =

    = = - --

    1 1( , ),..., ( , )n nx y x y

    2 2

    1

    1 ( )1

    n

    x ii

    s x xn =

    = --

    2 2

    1

    1 ( )1

    n

    y ii

    s y yn =

    = --

    1

    1 ni

    ix x

    n ==

    1

    1 ni

    iy y

    n ==

    xyxy

    x y

    sr

    s s=

    Definicin: Si tenemos n pares de datos

    la covarianza y el coeficiente de correlacin muestrales se definen como

    donde:

    y

    84

    1 1 1

    1 11

    n n n

    xy i i i ii i i

    s x y x yn n= = =

    = - -

    ( )( )( ) ( )

    1 1 1

    2 22 2

    1 1 1 1

    n n ni i i ii i i

    n n n ni i i ii i i i

    n

    n nxy

    x y x y

    x x y yr = = =

    = = = =

    -=

    - -

    Para hacer los clculos manualmente se usan las siguientes frmulas:

    Covarianza/Correlacin Muestral

    Se suele llamar Coeficiente de Correlacin de Pearson.

  • 85

    n Toma valores entre 1 y 1 ( 1 rxy 1)n Mide la relacin lineal entre x e yn rxy prximo a 0 implica que no hay relacin

    linealn rxy prximo a 1 implica relacin lineal crecienten rxy prximo a 1 implica relacin lineal

    decrecienten Es independiente de las magnitudes de las

    variables

    Covarianza/Correlacin Muestral

    Ms adelante veremos que el coeficiente de correlacin satisface:

    86

    Covarianza/Correlacin Muestral

    r=-0,50

    102030405060708090

    140 150 160 170 180 190 200

    r=-0,70

    10203040

    50607080

    140 150 160 170 180 190 200

    r=-0,9990

    10203040

    50607080

    140 150 160 170 180 190 200

    r=0,630405060708090

    100110

    140 150 160 170 180 190 200

    r=0,130

    80

    130

    180

    230

    280

    330

    140 150 160 170 180 190 200

    r=0,830

    40

    50

    60

    70

    80

    90

    100

    140 150 160 170 180 190 200

  • 87

    Duracin vs tiempo de espera, archivo Old Faithful(222 registros), hecho con Infostat.

    Covarianza/Correlacin Muestral

    88

    nn Ejemplo: Investigar la relaciEjemplo: Investigar la relacin entre n entre cantidad de cigarrillos y capacidad cantidad de cigarrillos y capacidad pulmonarpulmonar

    nn Datos: Muestra de 5 pacientes con Datos: Muestra de 5 pacientes con diferente hdiferente hbito de fumar (cantidad de bito de fumar (cantidad de cigarrillos por dcigarrillos por da durante cierta cantidad a durante cierta cantidad de ade aos) a los cuales se les mide la os) a los cuales se les mide la capacidad pulmonarcapacidad pulmonar

    Fumar vs Capacidad Pulmonar

  • 89

    n Cigarrillos(X )

    Capacidad

    pulmonar

    (Y)1 0 452 5 423 10 334 15 315 20 29

    Capa

    cida

    d pu

    lmon

    ar (

    Y)Cigarrillos (X)

    Fumar vs Capacidad Pulmonar

    10X = 36Y =

    90

    nn Se observa que a medida que crece la Se observa que a medida que crece la cantidad de cigarrillos, decrece la cantidad de cigarrillos, decrece la capacidad pulmonar. capacidad pulmonar.

    nn Las variables Las variables covariancovarian inversamente.inversamente.n La covarianza (media del producto de las

    desviaciones) y el coeficiente de correlacin cuantifican esta relacin.

    Fumar vs Capacidad Pulmonar

  • 91

    X Y 0 10 90 9 455 5 30 6 4210 0 0 3 3315 5 25 5 3120 10 70 7 29

    = 215

    ( ) ( )X X Y Y- - ( )Y Y- ( )X X-

    Fumar vs Capacidad Pulmonar

    1 ( 215) 53.754xy

    S = - = -Entonces

    Clculo de cov(X,Y):

    92

    X X 2 XY Y 2 Y 0 0 0 2025 455 25 210 1764 4210 100 330 1089 3315 225 465 961 3120 400 580 841 29

    = 50 750 1585 6680 180

    Fumar vs Capacidad PulmonarClculo de rXY:

    ( )( )2 25(1585) 50(180) 7925 9000

    (3750 2500)(33400 32400)5(750) 50 5(6680) 180xyr

    - -= =

    - -- -

    1075 0.9615(1250)(1000)

    -= = -

    ( )( )( ) ( )

    1 1 1

    2 22 2

    1 1 1 1

    n n ni i i ii i i

    n n n ni i i ii i i i

    n

    n n

    x y x y

    x x y y

    = = =

    = = = =

    -

    - -

  • 93

    n rxy = = 0.960.96 implica casi con certeza implica casi con certeza que fumar disminuye la capacidad que fumar disminuye la capacidad pulmonarpulmonar

    nn A mayor cantidad de cigarrillos, mayor A mayor cantidad de cigarrillos, mayor perdida de capacidad pulmonarperdida de capacidad pulmonar

    0.96xyr = -

    Fumar vs Capacidad PulmonarConclusin:

    94

    Estadstica DescriptivaCasos particulares

    n Histogramas con clases desigualesn Datos agrupados

  • 95

    Histograma con clases desiguales

    n Hay casos donde no se puede tomar clases de igual tamao, por ejemplo si nos dan los datos agrupados.

    n Lo importante es que el rea de cada rectngulo debe ser proporcional a la frecuencia relativa.

    rea

    fi

    bi

    hi

    hi = fibi

    96

    n La siguiente tabla tiene las notificaciones de casos de Rubola en ao 2000 (fuente: SINAVE).

    n Se realiza (errneamente) un histograma tomando como altura la frecuencia relativa

  • 97

    Pareciera que la mayora de los enfermos tiene entre 15 y 50 aos

    98

    7.77 = 23.3 / 3

    Ancho 3

  • 99

    Datos agrupados

    n A veces no hay acceso a los datos, solo a las clases, frecuencias, total de mediciones.

    n Las estadsticas se calculan tomando las clases como datos.

    100

  • 101l0 l1 l2 l3 lj-1 lj lk-1 lk

    f1+f2

    1

    f1

    f1+f2 +f3

    f1++ fk-1

    0.5f1++ fj-1

    f1++ fj

    Polgonos de frecuencias acumuladas

    x[ )[ ) [ ) [ ) [ ). . . . . . . . . .

    102

    21e

    Para encontrar la mediana, se plantea la siguiente igualdad utilizando proporcin de tringulos, y se despeja