Estadística Descriptiva(Población y Muestra)Clase3

76
1 Análisis de Datos

description

estadistica descriptiva de las clases de estadisticas del profesor

Transcript of Estadística Descriptiva(Población y Muestra)Clase3

  • Anlisis de Datos

  • Fuentes de Datos

  • Tipos de Datos

  • DefinicionesUna variable categrica indica a qu grupo o a qu categora pertenece una observacin. Todo lo que podemos hacer es calcular la proporcin de datos que entra en cada categora.

    Una variable cuantitativa toma valores numricos sobre los cuales podemos realizar operaciones aritmticas. Las variables cuantitativas pueden ser discretas o contnuas.

  • Datos cuantitativosEdad - ingreso55750004268000....Aumento de peso+10+5..Datos categricosPersona Casado/no casado1si2no3no....Profesor Rango1Visitante2Full Time3Asistente....Ejemplos

  • Variables discretas y continuasUna variable es discreta si toma solo un nmero contable de valores. Una variable es contnua si la misma toma un nmero incontable de valores. 011/21/41/16Variable continuaPor lo tanto, el nmero de valores es contableVariable discretaPor lo tanto, el nmero de valores es incontable

  • Estadstica DescriptivaAbarca la agrupacin, resmen y presentacin de los datos para permitir su interpretacin y poder tomar decisiones basadas en dicha interpretacin.

    La estadstica descriptiva utilizaTcnicas grficasMedidas de descripcin numricas

  • Variables CategricasEstas son algunas de las representaciones ms utilizadas para variables categricas.Pie chartGrfico de barras

  • Variables cuantitativasLas variables cuantitativas contnuas toman un nmero considerable de valores.

    Su representacin grfica resulta ms clara si se agrupan los valores prximos de la variable.

    El grfico ms comn de la distribucin de una variable cuantitativa contnua es un histograma.

  • Histograma: distribucin del salario horario en una gran ciudad.

  • Aspecto general de una distribucinPara describir el aspecto general de una distribucin:Debemos:

    Proporcionar su centro y su dispersin.

    Evaluar si la distribucin tiene una forma simple que pueda describirse de forma sencilla.

  • Medidas de Posicin Central:Usualmente, nuestra atencin se centra en dos aspectos de las medidas de posicin central:

    Medicin del punto central (promedio)

    Medicin de la dispersin en torno al promedio

  • Medidas de Posicin Central: la mediaEs la medida mas popular.

    Es decir, tenemos una muestra de n observaciones: x1, x2,,xn. Su media muestral es:

    De forma compacta:

  • Medidas de Posicin Central: la media Ejemplo:La media de la muestra de seis observaciones: 7, 3, 9, -2, 4, 6

    esta dada por:739464.5

  • Medidas de Posicin Central: la media Ejemplo:

  • La mediana

    La mediana (Me) es el valor central de un histograma.

    Para hallar la mediana de una distribucin debemos:1. Ordenar las observaciones en orden ascendente. 2. Si el nmero de observaciones n es impar, Me es la observacin central de la lista ordenada. Me se halla contando (n+1)/2 observaciones desde el comienzo de la lista.3. Si el nmero de observaciones n es par, Me es la media de las dos observaciones centrales de la lista ordenada.

  • La mediana Nro. de observaciones es impar26,26,28,29,30,32,60Nro. de observaciones es par26,26,28,29, 30,31, 32,60Hay dos valores en el medio!Primero, ordenar los salarios.Luego, localizar el valor en el medio.26,26,28,29, 30,31,32,6029.5, Ejemplo:Primero, ordenar los salarios.Luego, localizar el valor en el medio.

  • El modo es el valor que ocurre con mayor frecuencia en un grupo de observaciones.El modoCuando la muestra es grande, los datos se agrupan en intervalosy obtenemos el Intervalo modal El modo En un conjunto de observaciones puede haber ms de un modo.

  • Ejemplo

    El gerente de una tienda de ropa posee la siguiente informacin sobre el talle de los pantalones que se vendieron ayer: 31, 34, 36, 33, 28, 34, 30, 34, 32, 40.El modo es 34 El modo

  • Media y MedianaLa media es sensible a observaciones extremas .

    La mediana solo es sensible a cambios en su entorno que la cruzan. Por ello, se dice que la mediana es un estimador robusto de la tendencia central.

    La media y la mediana de una distribucin simtrica se encuentran muy cerca. Si la distribucin es exactamente simtrica, la media y la mediana coinciden.

    Si la distribucin es asimtrica, la media queda desplazada hacia la cola ms larga del histograma de la distribucin.

  • Distribuciones simtricas y asimtricasUna distribucin es simtrica si el lado derecho e izquierdo del histograma con respecto a la mediana son aproximadamente iguales. Un distribucin es asimtrica hacia la derecha si el lado derecho del histograma se extiende sobre un mayor nmero de valores (intervalos) que el lado izquierdo. Una distribucin es asimtrica hacia la izquierda si el lado izquierdo del histograma se extiende sobre un mayor nmero de valores (intervalos) que el lado derecho.

  • Aspecto general de una distribucin

    La figura muestra la distribucin de ventas de libros por individuo en la feria del libro. Esta distribucin es asimtrica hacia la derecha. Es decir hay muchas ventas de 3 o 4 libros y pocas ventas de 10 libros.

    Chart5

    4

    17

    22

    24

    13

    8

    6

    4

    3

    2

    1.5

    0.75

    Sheet1

    q

    54

    617

    722

    824

    913

    108

    116

    124

    133

    142

    151.5

    160.75

    170

    180

    191

    200

    Sheet1

    Sheet2

    Sheet3

  • Aspecto general de una distribucin

    La figura muestra la distribucin de ventas de libros por individuo en la feria del libro. Esta distribucin es asimtrica hacia la derecha. Es decir hay muchas ventas de 3 o 4 libros y pocas ventas de 10 libros.

    Chart5

    4

    17

    22

    24

    13

    8

    6

    4

    3

    2

    1.5

    0.75

    Sheet1

    q

    54

    617

    722

    824

    913

    108

    116

    124

    133

    142

    151.5

    160.75

    170

    180

    191

    200

    Sheet1

    Sheet2

    Sheet3

  • Distribuciones representadas con nmerosQu edad tenan los presidentes de Chile al inicio de su mandato? La edad media es de aproximadamente 55 aos. Una breve descripcin de la distribucin:Su forma es aproximadamente simtrica.El centro de la distribucin es aproximadamente 55 aos. Dispersin: Rango de variacin, de 42 a 69 aos. La forma, el centro y la dispersin proporcionan una buena descripcin del aspecto general de cualquier distribucin de una variable cuantitativa.

  • Media, Mediana y ModoSi una distribucin es simtrica, la media, mediana y modo coincidenSi una distribucin no es simtrica, las tres medidas difieren.Asimetra hacia la derecha(asimetra positiva)MediaMedianaModoMediaMedianaModoAsimetra hacia la izquierda(asimetra negativa)

  • Medidas de dispersin

    Caracterizar una distribucin solamente a travs de una medida central no es apropiado.

    Las distribuciones del ingreso de dos regiones con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variacin de ingresos entre familias.

    Estamos interesados en la dispersin o variabilidad de los ingresos, adems de estarlo en sus centros.

  • Ejemplo de dos conjuntos de datos con igual mediaDatos con alta dispersinDatos con baja dispersinMedidas de dispersin

  • Medidas de dispersinRangoUna manera de medir la dispersin es calcular el recorrido de la distribucin emprica, es decir, la diferencia entre las observaciones mxima y mnima. Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda informacin sobre la dispersin existente entre ambos valores extremos.

  • Medidas de dispersinEl rango depende slo de las observaciones mxima y mnima, que podran ser observaciones atpicas.Podramos mejorar nuestra descripcin de la dispersin fijndonos, por ejemplo, tambin en la dispersin del 50% de los valores centrales de nuestros datos.Un conjunto de estadsticos de utilidad son los cuartiles de una distribucin.

  • CuartilesPara calcular los cuartiles de una distribucin debemos:

    1. Ordenar las observaciones en orden creciente y localizar la mediana. 2. El primer cuartil Q1 es la mediana de las observaciones situadas a la izquierda de la mediana de la distribucin. 3. El tercer cuartil Q3 es la mediana de las observaciones situadas a la derecha de la mediana de la distribucin.

  • CuartilesLos cuartiles son medidas de tendencia no central de una distribucin.

    Dividen los datos ordenados en 4 cuartos iguales:

    El segundo cuartil de una distribucin es su mediana.Q1Q2Q3

    25%

    25%

    25%

    25%

  • PercentilesLos percentiles son otro conjunto de medidas de tendencia no central de una distribucin.

    Dividen los datos ordenados en 100 partes iguales.

    El percentil 25 es el primer cuartil ...

    EjemploSupongamos que el 78% de los resultados de la PSU es menor o igual a 600 puntos. Entonces, 600 es el percentil 78 de la distribucin.

    60020080078% de todos los resultados22%

  • PercentilesPercentiles frecuentemente utilizadosPrimer decil= percentil 10Primer cuartil, Q1,= percentil 25Segundo cuartil,Q2,= percentil 50Tercer cuartil, Q3, = percentil 75Noveno decil= percentil 90

    EjemploEncontrar los cuartiles del siguiente conjunto de datos:

    7, 8, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8

  • PercentilesSolucinPrimero, ordenar las observaciones2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30Como mximo, (.25)(15) = 3.75 observaciones deberan aparecer pordebajo del primer cuartil.Como mximo, (.75)(15)=11.25 observaciones deberan aparecer por encima del primer cuartil.Primer cuartilSi el numero de observaciones es par, los resultados se encuentran entre dos observaciones.En ese caso, hay que elegir el punto medio entre ambas observaciones.

  • Diagrama de cajaLos cinco nmeros resmen de una distribucin son representados grficamente por un diagrama de caja.

    L - Observacin mximaQ3 - Tercer cuartil Q2 - MedianaQ1 - Primer cuartilS - Observacin mnima

  • Diagrama de cajaLos lados inferior y superior de la caja van del primer al tercer cuartil. Por tanto, la altura de la caja es la amplitud del 50% de los datos centrales. El segmento del interior de la caja indica la mediana. Los extremos de los segmentos perpendiculares a los lados superior e inferior indican, respectivamente, los valores mximo y mnimo de la distribucin.SQ1Q2Q3L

  • Diagrama de caja

  • Una medida de dispersin: La varianzaLa varianza s2 de un conjunto de observaciones es el promedio de los cuadrados de la desviaciones de las observaciones respecto a su media. Formalmente:

    De forma compacta:

  • Considere dos poblaciones:Poblacin A: 8, 9, 10, 11, 12Poblacin B: 4, 7, 10, 13, 161098741011121316 8 10 = -2 9 10 = -111 10 = +112 10 = +2 Suma = 0 4 -10 = - 6 7- 10 = -313 -10 = +3 Suma = 016 -10 = +6La media de ambas poblaciones es 10...pero en B los datos estn mucho mas dispersos que en AComencemos calculando la suma de las desviacionesABEn ambos casos, la suma de las desviaciones esCero (lo cual es siempre Cierto). Por lo tanto, usamosla suma de los cuadrados.La varianza

  • Calculemos la suma de las desviaciones al cuadrado para ambas poblaciones:Por qu la varianza esta definidacomo un promedio de desviaciones al cuadrado y no como su simple suma?La suma de las desviaciones al cuadrado aumentancuando la dispersin de aumenta!!La varianza

  • 131325ABB es mas dispersa alrededor de su media que A. Sin embargo, la suma no muestra eso.Es por ello que se usa el promedio Calculemos la suma de las desviaciones cuadradas para ambas poblacionesSumaA = (1-2)2 ++(1-2)2 +(3-2)2 + +(3-2)2= 10SumaB = (1-3)2 + (5-3)2 = 85 veces5 veces!La varianza

  • Una medida de dispersin: La desviacin standard

    La desviacin tpica es la raz cuadrada positiva de la varianza s2:

    Ejemplo:Tasas de retorno de dos fondos de inversiones durante 10 aos Cual de los dos es ms riesgoso?Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05 Media: 14.6 Desvo standard: 16.74Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4 Media: 11.75 Desvo standard: 9.97El fondo A es mas riesgoso dado que su desvo standard es mayor.

  • Grados de libertadPor qu calculamos la varianza dividiendo por n - 1, en lugar de dividir por n? Como la suma de las desviaciones es 0, la ltima desviacin es una combinacin lineal de las n - 1 desviaciones restantes. Por lo tanto, no estamos calculando el promedio de n nmeros independientes (los desvos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por ello, promediamos la suma de los desvos al cuadrado dividiendo por n -1. Al numero n -1 se lo denomina grados de libertad de la varianza o de la desviacin tpica.

  • Propiedades del desvo standards mide la dispersin respecto a la media. Debe emplearse solo cuando se escoge la media como medida central de la distribucin. s = 0 solo ocurre cuando no hay dispersin: todas las observaciones toman el mismo valor. De lo contrario s > 0. Cuanto ms dispersin hay entre las observaciones, mayor es s.s, al igual que la media, se encuentra fuertemente influenciado por las observaciones extremas.

  • Descripcin de una distribucin asimtricaUna distribucin asimtrica con unas pocas observaciones en la cola larga de la distribucin tendr un desvo standard grande. En tal caso, s no proporciona informacin til sobre la dispersin de la distribucin. Como en una distribucin muy asimtrica la dispersin de cada una de las colas es muy distinta, es imposible describir bien la dispersin con un solo nmero. Los cinco nmeros resmen proporcionan mejor informacin sobre la dispersin de la distribucin. Es preferible utilizar los cinco nmeros resmen en lugar de la media y el desvo standard para describir una distribucin asimtrica

  • Coeficiente de variacinEl coeficiente de variacin es una medida de dispersin relativa.Muestra la dispersin de una distribucin en relacin a su media.Se utiliza para comparar distintas distribuciones.Su frmula es:

    Por ejemplo, un desvio standard de 10, puede ser grande si la media es 100, pero no lo es si la media es 500.

  • Curva de densidadUna curva de densidad describe el aspecto general de una distribucin.

    El rea por debajo de la curva, entre cualquier intervalo de valores, es la proporcin de todas las observaciones que estn situadas en dicho intervalo.

    El rea total bajo una curva de densidad es 1.

  • Distribuciones normales Todas las distribuciones normales tienen la misma forma general.La curva de densidad de una distribucin normal se describe por su media y su desvo standard . La media se sita en el centro de la curva simtrica, en el mismo lugar que la mediana. Si se cambia sin cambiar se provoca un desplazamiento de la curva de densidad a lo largo del eje de las abscisas sin que cambie su dispersin. La desviacin tpica controla la dispersin de la curva normal.

  • Distribuciones normalesLa curva con mayor desvo standard es la curva que presenta mayor dispersin.La desviacin tpica es la medida natural de la dispersin de una distribucin normal. La forma de una curva normal no solo queda completamente determinada por y , sino que adems es posible situar a simple vista en la curva. Cuando nos alejamos de , en cualquier direccin, la curva pasa de descender rpidamente a descender suavemente. Estos puntos de inflexin estn situados a una distancia de .

  • Distribuciones normalesEn una distribucin normal: El 68 % de las observaciones se encuentra entre .El 95 % de las observaciones se encuentra entre 2 .El 99.7 % de las observaciones se encuentra entre 3 .

  • Distribucin normal estandarizadaSi x es una observacin de una distribucin de media y de desvo standard , el valor estandarizado de x es:

    La distribucin normal estandarizada es la distribucin normal N(0,1): su media es 0 y su desvo standard es 1.

    Si una variable x tiene una distribucin normal N(,), entonces z posee una distribucin normal estandarizada.

  • Coeficiente de asimetraEl coeficiente de asimetra es una medida de asimetra de una distribucin. Su frmula es:

    Si es positivo, la curva presenta asimetra hacia la derecha.Si es negativo, la curva presenta asimetra hacia la izquierda.Si es cero, la distribucin es simtrica.

  • Concentracin: KurtosisLa kurtosis es una medida de la concentracin de la distribucin en torno a su media. Su frmula es:

    Si K es positiva, la distribucin tiene una concentracin superior a la de una curva normal. Si es negativa, ocurre lo contrario.

  • Medidas de asociacin: Covarianzax ( y) es la media poblacional de la variable X (Y)

    N es el tamao de la poblacin. n es el tamao de la muestra.

  • Este coeficiente responde a la pregunta: Cun fuerte es la asociacin (lineal) entre X e Y?Medidas de asociacin: Correlacin

  • COV(X,Y)=0r o r =+1

    0

    -1Correlacin lineal positiva fuerteEl valor se encuentra cerca de 1No hay correlacin linealCoeficiente cercano a ceroCorrelacin lineal negativa fuerteEl valor se encuentra cerca de -1COV(X,Y)>0COV(X,Y)

  • EjemploBusque la covarianza y el coeficiente de correlacin para medir como los gastos de marketing y los niveles de ventas se relacionan.MarketingVentas130340540450235550335225Medidas de asociacinGastos de marketingVentasIntuitivamente, en este grafico de dispersin Las variables parecen estar positivamente relacionadas

    Chart1

    30

    40

    40

    50

    35

    50

    35

    25

    Sales

    Sheet1

    AdvertSales

    130

    340

    540

    450

    235

    550

    335

    225

    Sheet1

    0

    0

    0

    0

    0

    0

    0

    0

    Sales

    Advertising Expenditure

    Sales

  • A continuacin calculamos cov() y r:De igual forma, sy = 8.839

  • InterpretacinLa covarianza (10.2679) indica que los gastos de marketing y los niveles de ventas estn positivamente relacionadosEl coeficiente de correlacin (.797) indica que hay una relacin lineal positiva fuerte entre los gastos de marketing y los niveles de ventas.Medidas de asociacin

  • Tablas de Contingencia y Medidas de AsociacinEl objetivo de la tabulacin cruzada es identificar la relacin que existe entre dos variables. Con los datos de una muestra podemos observar si existe alguna relacin entre dos variables y la pregunta que surge naturalmente es si esta relacin es verdadera o es el resultado del error muestral.Las tablas de contingencia son tabulaciones cruzadas entre dos variables X e Y con r y c categoras respectivamente. Es decir que la tabla de contingencia entre X e Y tendr r filas y c columnas.

  • Tablas de Contingencia y Medidas de AsociacinPara responder a esta pregunta, se utiliza un test de hiptesis conocido como el test Chi-cuadrado de Pearson. La hiptesis nula del test es que las dos variables analizadas son independientes. La hiptesis alternativa es que las variables no son independientes, es decir que existe una relacin entre las dos variables.Ilustremos el test utilizando un ejemplo. La siguiente tabla de contingencia muestra la tabulacin cruzada de la variable ingreso anual (dividido en tres categoras) y la ltima marca de coche comprada (dividida en tres marcas).

  • Tablas de Contingencia y Medidas de Asociacin

    Marca del ltimo auto comprado

    Ford

    ToyotaRenaultTotal

    Ingreso anual

    Menos de 20,000

    50

    200

    125

    375

    20,000 - 40,000

    200

    100

    350

    650

    ms de 40,000

    100

    25

    50

    175

    Total

    350

    325

    525

    1200

  • Tablas de Contingencia y Medidas de AsociacinLas entradas de la tabla representan el nmero de personas en la muestra con cada combinacin de ingreso y marca de auto. Por ejemplo, 50 personas que ganan menos de 20,000 $ compraron un auto marca Ford.El test Chi-cuadrado de Pearson se basa en encontrar cual hubiera sido el valor de cada entrada si las variables fueran independientes. Es decir el valor esperado de cada celda de la tabla si las variables ingreso y marca son independientes.

  • Tablas de Contingencia y Medidas de AsociacinSi ingreso y marca son independientes, la probabilidad del evento conjunto "A1: ganar menos de 20,000$" y "B1: comprar marca Ford" es el producto de esas dos probabilidades:

    Pr(A1 y B1) = Pr(A1)*Pr(B1)

    Pr(A1) = A1/A = 375/1200, Pr(B1) = B1/B = 350/1200Donde A y B son las frecuencias totales de los eventos.

  • Tablas de Contingencia y Medidas de AsociacinPor lo tanto:

    Pr(A1 y B1) = Pr(A1)*Pr(B1) = 375*350/(1200*1200) = 0.091

    El nmero esperado en la entrada A1B1 es entonces:

    N* Pr(A1 y B1) = 1200*0.091 = 109.38

  • Tablas de Contingencia y Medidas de AsociacinEn general la frmula del valor esperado es:

    Eij = (NAi*NBj)/N.

    Eij = nmero esperadoNAi= nmero de elementos en la categora AiNBi= nmero de elementos en la categora Bi

    Para A1B1 el nmero esperado es:E11 = (375*350)/1200 = 109.38

  • Tablas de Contingencia y Medidas de AsociacinEste proceso se puede repetir para cada una de las entradas de la tabla. Una vez hecho esto el estadstico Chi-cuadrado se calcula con la siguiente frmula:

    r = nmero de categoras de la variable en las filasc = nmero de categoras de la variable en las columnasOij = nmero observado en entrada ijEij = nmero esperado en la entrada ijEste estadstico Chi-cuadrado tiene (r-1)*(c-1) grados de libertad.

  • Tablas de Contingencia y Medidas de AsociacinEn nuestro ejemplo hay (3-1)*(3-1) = 4 grados de libertad. Realizando todas las cuentas con la tabla del ejemplo, el estadstico da 252.2. Comparando este nmero con el valor crtico de la distribucin Chi-cuadrado con 4 grados de libertad a un nivel de significatividad del 5% el valor crtico correspondiente es 9.49. Como 252.2 > 9.49 se rechaza la hiptesis nula. Es decir, las variables no son independientes.

  • Tablas de Contingencia y Medidas de AsociacinEl estadstico de Pearson nos dice si dos variables son independientes una de otra pero no nos dice nada acerca de la naturaleza de la relacin.

    Cuando analizamos variables dicotmicas (adoptan solo los valores 0, 1) el estadstico de Pearson puede ser poco preciso. En esos casos se suelen utilizar otras medidas de asociacin.

  • Medidas de Asociacin para Tablas de 2x2El Coeficiente Phi ()Es una medida del grado de asociacin entre dos variables dicotmicas basada en el estadstico Chi-cuadrado de Pearson. Este coeficiente toma valores en el intervalo cero-uno. Valores prximos a cero indican poca asociacin entre las variables y valores cercanos a uno indican una fuerte asociacin. El coeficiente puede ser calculado como el coeficiente de correlacin entre dos variables dicotmicas.

  • Medidas de Asociacin para Tablas de 2x2Alternativamente, puede ser calculado utilizando el estadstico Chi-cuadrado de Pearson con la siguiente frmula:

    = (2/N)1/2

    donde N es el nmero de datos.

  • Medidas de Asociacin para Tablas de 2x2Riesgo Relativo

    El riesgo relativo es una medida del grado de asociacin entre dos variables dicotmicas, que compara el producto de las frecuencias en la diagonal principal de la tabla con el producto de las frecuencias en la diagonal opuesta mediante el cociente entre ambos. En consecuencia toma valores positivos y, si las variables son independientes, su valor ser prximo a uno.

  • Medidas de Asociacin para Tablas Mayores a 2x2El coeficiente de contingencia

    El coeficiente de contingencia es una extensin del coeficiente al caso de que al menos una de las variables presente ms de dos categoras. Toma valores entre 0 y Cmax, donde si r y c son el nmero de categoras de cada una de las variables:

    Cmax = [min(r-1,c-1)/(1+ min(r-1,c-1))]1/2

  • Medidas de Asociacin para Tablas Mayores a 2x2Valores del coeficiente de Contingencia cercanos a 0 indican que no hay asociacin entre las variables y valores prximos a Cmax indican una fuerte asociacin (note que Cmax es un nmero que siempre ser menor a uno).

  • Medidas de Asociacin para Tablas Mayores a 2x2La V de Cramer

    Otra extensin del coeficiente al caso de variables con ms de dos categoras es la V de Cramer que, a diferencia del coeficiente de contingencia toma valores entre 0 y 1. Valores de V cercanos a 0 indican que no hay asociacin entre las variables y valores cercanos a 1 indican una fuerte asociacin.

    V = (2/(r c)*N)1/2