Curso de Estadística...

Click here to load reader

  • date post

    20-Sep-2018
  • Category

    Documents

  • view

    219
  • download

    0

Embed Size (px)

Transcript of Curso de Estadística...

  • Curso de Estadstica no-paramtricaSesin 1: Introduccin Inferencia no Paramtrica

    David Conesa

    Grup dEstadstica espacial i Temporal Departament dEstadsticaen Epidemiologia i Medi Ambient i Investigaci Operativa

    Universitat de Valncia

    Junio 2013

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Inferencia Estadstica

    Estadstica: recopilacin, presentacin, anlisis y uso de los datos con elobjetivo de tomar decisiones y resolver problemas.

    Necesaria? Los procesos de la vida real presentan variabilidad.el nmero de empresas que cierran por ao es diferente,la cantidad de lluvia recogida en un dia en una determinada zona vara,el precio de una accin vara continuamente, etc.

    La Probabilidad juega un papel destacado en el razonamiento cientfico:El azar est presente en gran parte de los procesos cotidianos.Los resultados experimentales presentan variabilidad atribuible afactores no controlados por el experimentador.La seleccin de las unidades experimentales se basa en mecanismosaleatorios.

    Las conclusiones de un anlisis estadstico se formulan en trminosprobabilsticos, ya que los modelos probabilsticos fundamentan lajustificacin terica de la Inferencia Estadstica.

    2 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Inferencia estadstica (2)

    Distinguir entreEstadstica Descriptiva: mtodos para resumir y organizar datosInferencia Estadstica: mtodos para obtener conclusiones vlidas paratoda una poblacin a partir de los datos que nos aportan una parte dedicha poblacin.

    El esquema bsico:

    Poblacin muestra

    Seleccin aleatoria

    Inferencia Estadstica

    Estadstica Descriptiva

    RepresentatividadConclusiones en la Poblacin

    3 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Inferencia Paramtrica

    Poblacin: conjunto de individuos objeto de estudio; de dicha poblacinestudiamos una variable de inters: X .Poblacin: conjunto de valores de la variable observacional que obtendramos si serepitiera indefinidamente el proceso de obtencin de los datos.La variable de inters X tiene una distribucin de probabilidad asociada, ladistribucin poblacional (lo que habitualmente entendemos por poblacin).Tipos de variables aleatorias: Categricas (nominal u ordinal) y Cuantitativas(discreta o continua).Habitualmente (en problemas reales), la distribucin poblacional de la variable deinters es desconocida o al menos no es completamente conocida.En la mayora de los casos, lo que se conoce es la familia (o el tipo) a la cualpertenece la distribucin (exponencial, normal, etc.) pero lo que no se conocen sonsus parmetros.Los parmetros son las caractersticas de inters de la poblacin (media, varianza,proporcin poblacional, etc.).En los casos en los que no conocemos la distribucin (Estadstica no paramtrica)no tiene sentido preguntarse por los parmetros.

    4 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Ejemplos: poblaciones e inferencia

    1 Siete empresas familiares voluntarias participaron en un estudio para determinar siuna campaa publicitaria podra elevar las ventas anuales de la empresa. Semidieron las ventas dos veces, una antes de la campaa y otra despus. Losresultados de las ventas (en miles de euros) aparecen en la siguiente tabla:

    EMPRESAS Antes Despus Diferencia1 46 56 102 47 52 53 41 47 64 45 48 35 37 37 06 48 51 37 58 62 4

    Cual es la poblacin? Muestra? Variable de inters? Tamao muestral? Quinferencia tiene sentido aqu?

    2 Once empresas fueron analizadas por un inspector de hacienda. Tres de ellasestaban en regla, y el resto no:Poblacin? Muestra? Parmetro de inters? Qu inferencia tiene sentido aqu?

    5 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Cmo hacemos inferencia paramtrica?

    Muestreo aleatorio: muestra, tamao muestral, representatividad.Una muestra aleatoria de observaciones de una variable X de tamaomuestral n es un conjunto de variables aleatorias X1,X2, . . . ,Xnindependientes e idnticamente distribuidas con la misma distribucinde la variable X .Estadsticos. Distribucin en el muestreo.Utilizar esta informacin para extrapolar los resultados obtenidos auna poblacin ms grande (Inferencia Estadstica):

    1 Estimacin: la estimacin trata de utilizar la informacin muestral paraaproximar el valor de los parmetros desconocidos del modelo

    Puntual.Por Intervalos de Confianza.

    2 Contraste de Hiptesis: a partir de las observaciones podemos obtenerevidencia a favor o en contra de hiptesis referidas a losparmetros desconocidos del modelo.

    Qu pasa si no conocemos la distribucin de la variable?6 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Estimacin paramtrica

    MuestreoPoblacin muestra

    Estimacin y/o Contraste de HiptesisUtilizamos t(X) para explicar

    X Modelo() Parmetro(s)desconocido(s)

    X = (X1, . . . ,Xn)t(X) funcinde los datos

    7 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Estimacin paramtrica

    , Espacio Paramtrico: conjunto de valores posibles de los parmetros.S, Espacio Muestral: conjunto de todos los valores posibles que pueden tomar lasmuestras X = (X1, . . . ,Xn).Estimador es cualquier funcin del espacio muestral en el espacio paramtrico,t(X):

    T : S X t(X)

    Es decir, cualquier estadstico es un estimador y tiene asociado una distribucinmuestralEstimacin es cualquier realizacin del estimador.

    No todos los estimadores que se pueden obtener son igual de buenos. Buscamospues mtodos de obtencin de estimadores y criterios para su evaluacin:

    Que la distribucin del estimador est centrada en el parmetro,que tenga poca dispersin.

    Qu pasa si no conocemos la distribucin de la variable?

    8 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Contraste de Hiptesis paramtricos

    En general una hiptesis estadstica tiene la forma: 0 .Por el propio objetivo de un contraste, este siempre tendr dos hiptesis:Hiptesis nula que denotaremos H0 y que representa la afirmacin que se quiere

    contrastar 0Hiptesis alternativa que denotaremos H1 HA y que contiene los otros valores

    posibles del parmetro 1Se suele denotar como: {

    H0 : 0HA : 1

    El tratamiento no es simtrico, aceptaremos H0 mientras no demostremos que esfalsa. Por eso, habitualmente, indicaremos en HA lo que es ms relevante y en H0lo que consideraremos como cierto mientras no se demuestre lo contrario.Qu pasa si no conocemos la distribucin de la variable?

    9 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Contraste de Hiptesis paramtricos

    Contrastar una hiptesis es realizar un experimento relacionado con el(los)valor(es) desconocido(s) de un parmetro y, a partir del resultado de estainformacin, decidir sobre el rechazo o aceptacin de la hiptesiscontrastada.

    Un test de hiptesis es una regla de decisin que asigna uno de los dosposibles resultados (Aceptar H0 y Rechazar H0) para cada posible valor delexperimento X S.

    Los valores para los cuales se rechaza H0 se denominan Regin Crtica.

    Los tests de hiptesis se describen en trminos de un estadstico T (X) quese denomina estadstico de contraste o test estadstico o estadstico del test.

    Y si queremos hacer no paramtrica?

    10 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Ejemplo contrastes

    1 En el ejemplo de las empresas que hacen un estudio para valorar elfuncionamiento de la mejora de una campaa publicitaria, identificarsus elementos bsicos como un problema de contraste de hiptesis:

    Hiptesis Hiptesis estadsticas Poblacin Estadstica Parmetro Experimento Espacio Muestral Estadstico del contraste Test de hiptesis Regin crtica

    2 Anlogamente con el ejemplo de las empresas investigadas por uninspector.

    11 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Concepto de p-valor

    Los contrastes de hiptesis se pueden resolver como reglas de decisin sobrerechazar o no la hiptesis nula.Una alternativa muy popular se basa en la medicin de la credibilidad de lahiptesis nula a la luz de los datos obtenidos. Esta informacin sobre laconcordancia de los datos y la H0 se mide con probabilidades.Sea X1, . . . ,Xn una m.a. de una distribucin de probabilidad (modelo) conocida.

    Sea{

    H0 : 0H1 : 1

    una hiptesis que se desea contrastar y sea T un estadstico

    para el que los datos toman el valor T = t0 del que sabemos su distribucin.El p-valor correspondiente al valor observado t0 es la probabilidad (bajo H0) deobtener dicho valor t0 o valores ms extremos (en la direccin o direcciones de HA).La forma habitual de resolver el contraste es fijar un nivel de significatividad (errorde tipo I mximo que queremos cometer) y rechazar si el p-valor es menor quedicho nivel.Los pasos finales incluyen decidir que conclusin es la que vamos a tomar,interpretar los resultados obtenidos y reportar las conclusiones.

    12 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Concepto de p-valor (2)

    Contrastes unilaterales

    A menudo est claro que la desviacin de la mediana solo puede darse en unsentido o solamente nos interesa demostrar que esa desviacin se da en unnico sentido.

    En estos casos utilizaremos una hiptesis alternativa direccional para indicarque rechazaremos la hiptesis nula si la diferencia entre muestra y poblacines significativa en la direccin que propone la hiptesis alternativa.

    En este caso slo tenemos que cambiar la forma de calcular el P-valor:1 En primer lugar debemos comprobar que los datos estn en la misma

    direccin que la hiptesis alternativa. Si no es as no es posiblerechazar la hiptesis nula.

    2 Si los datos estn en la misma direccin que la hiptesis alternativadebemos dividir por dos el P-valor obtenido (solo queremos el rea deuna cola).

    13 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Inferencia no paramtrica

    En el campo de las ciencias sociales y del comportamiento nos encontramos condos caractersticas que hacen de la inferencia no paramtrica una herramienta muyimportante:

    Muchos datos estn clasificados en forma nominal u ordinal.Cuando tenemos datos continuos, no tenemos garantizada la normalidad.

    La mayora de los tests paramtricos (test t para comparar medias, ANOVA, etc.)se basan en una serie de suposiciones (datos normales, independencia de lasobservaciones, poblaciones con varianzas aproximadamente iguales, etc.) que nosiempre se cumplen, por lo que se necesitan tests alternativos para llevar a cabo lainferencia.A veces es posible evitar estos problemas, transformando los datos, o eliminarndoobservaciones extremas (outliers) que no dan sentido al modelo.Cuando los datos analizados cumplen las asunciones para la aplicacin de los testsparamtricos es preferible usarlos SIEMPRE, ya que los paramtricos son mspotentes (en el sentido que tienen mayor capacidad para rechazar la hiptesis nulacuando sta es falsa).La inferencia no paramtrica fundamentalmente se realiza mediante contrastes dehiptesis (aunque es posible ampliar la informacin que da un test mediante laestimacin por intervalos de confianza).

    14 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Inferencia no paramtrica (2)

    Un test no paramtrico es un test basado en un modelo que no necesita laespecificacin de ninguna condicin sobre los parmetros de la poblacin de la quese ha extraido la muestra. Ni siquiera sobre la propia poblacin.Observar pues que no necesitan suposiciones (datos normales, independencia delas observaciones, poblaciones con varianzas aproximadamente iguales, etc.) tanfuertes como las de los paramtricos.Adems existen mucho para datos nominales y ordinales: tests binomiales, bondadde ajuste, tablas de contingencia, medidas de correlacin entre variablescategricas, etc.Los tests no paramtricos para datos continuos se focalizan en conteos y rankingsu ordenaciones. Los datos se convierten de puntuaciones a rangos o signos.As, por ejemplo, un test que compara medias (test t) se basa en la diferenciamedia, mientras que un test no paramtrico se focaliza en la diferencia entre lasmedianas.

    15 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Inferencia no paramtrica (3)

    Hay diferentes tests no paramtricos dependiendo del tipo de datosque analizamos y del nmero de variables analizadas.

    Variables continuas:1 muestra: tests de localizacin, tests para valorar la forma de unadistribucin, tests de aleatoriedad.Comparacin 2 muestras independientesComparacin 2 muestras relacionadasComparacin K muestras independientesComparacin K muestras relacionadasRegresin y correlacin

    Variables categricas:Bondad de ajusteHomogeneidad e IndependenciaMedidas de AsociacinContrastes de Aleatoriedad

    16 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Conteos y rangos

    Dos de las herramientas ms bsicas en las que se basan muchos deestos tests son:

    1 Conteos: varios tests no paramtricos requieren el conteo (ofrecuencia) de las observaciones.

    Basta contar el nmero de veces que una observacin se repite.Tiene mucho sentido en variables categricas y en localizacin porencima de la mediana.Ejemplo: se observa el capital social de 15 empresas y se quiere ver siel valor central es superior a 15000 euros. Se construye un test basadoen el nmero de observaciones que superan dicho valor.

    2 Rangos (o transformaciones de rangos):La clave es ordenar los datos y ver cada valor en qu posicin queda.Hay que tener en cuenta los empates.Tiene mucho sentido en variables continuas para ver si los grupos sondiferentes.Ejemplo: se observa el capital social de 5 empresas valencianas y sequiere ver si el valor central es superior al de 5 empresas catalanas. Seconstruye un test basado en el orden que ocupan las empresas trasordenarlas conjuntamente.

    17 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Introduccin a SPSS

    SPSSSPSS (Statistical Package for the Social Sciences) es un programaestadstico informtico muy usado en las ciencias sociales y en el mbitosanitario.

    Sistema amigable de mens y ventanastambin nos permite programar utilizando sintaxis

    Fcil anlisis de datos y generacin de grficospoco flexible

    Desventaja: Software privadoalternativas como R (R-Commander) o PSPP

    18 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Interfaces de SPSSEditor de datos

    Vista de datosEsta pgina es visible al abrir por primera vez el Editor de datos y contieneel banco de datos.

    19 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Interfaces de SPSSEditor de datos

    Vista de variablesDescripcin de las variables que tenemos en el banco de datos

    20 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Interfaces de SPSSVisor

    VisorVentana donde aparecen los resultados

    21 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Interfaces de SPSSEditor de sintaxis

    Editor de sintaxisPara programar en SPSS

    22 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Importacin de datosIntroduccin de datos

    Importar datosSPSS nos permite importar datos en diferentes formatos.xls, .txt, .dat, .sav, etc...Archivo/Abrir/Datos...

    23 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Importacin de datosIntroduccin de datos: Importar datos txt

    Importar datos txt

    24 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Importacin de datosIntroduccin de datos: Importar datos xls

    Importar datos xls

    25 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Importacin de datosIntroduccin de datos: Directa (1)

    Introduccin directa de datosArchivo/Nuevo/Datos...

    26 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Anlisis de una muestra de una variable continua

    Cuando analizamos una muestra de una poblacin, lo primero que(siempre) debemos hacer es concretar cual es nuestro objetivo:

    Comparar unos datos observados con unos esperados:Datos categricos (sesin 3): test binomial (datos binarios) y testchi-cuadrado (variables categricas en general)Datos continuos: test de Kolmogorov-Smirnov (utilizado habitualmentepara contrastar normalidad)

    Comprobar la aleatoriedad de una muestra: test de rachasComprobar la localizacin de una muestra respecto a un valorprefijado: test de Wilcoxon

    27 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Test de Kolmogorov-Smirnov

    Cuando queremos comprobar si unos datos siguen una determinada distribucinutilizamos el test de Kolmogorov-Smirnov.Este procedimiento comprueba si la funcin de distribucin muestral de unamuestra se parece a la funcin de distribucin de la distribucin uniforme, normal,Poisson, o exponencial.Definicin de distribucin muestral de una muestra: distribucin discreta queasigna la probabilidad 1/n a cada valor obtenido Xj .Si la variable de la poblacin es discreta con posibles valores x1, x2, . . . , xm esosignifica asignar probabilidad fj/n para cada valor x1, x2, . . . , xm (donde fj es lafrecuencia de ocurrencia del valor xj en la muestra).Ejemplo: si en una Universidad con 5000 estudiantes realizamos una muestra de50 estudiantes con los siguientes resultados:

    Curso 1 2 3 4 5Frec. Abs. 10 12 8 7 13

    La distribucin muestral es:Curso 1 2 3 4 5

    Frec. Rel. 0.2 0.24 0.16 0.14 0.26

    28 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Test de Kolmogorov-Smirnov (2)

    En nuestro caso, como es continua utilizamos la funcin dedistribucin de la distribucin muestral.Definicin: es la funcin de distribucin que aumenta 1/n a cadavalor, es decir:

    Fn(x) =](observaciones x)

    nObservar que si el valor aparece k veces, tiene probabilidad k/n y laf.d.m. sube a k/n en ese valor (tericamente, si la variable escontinua los valores no pueden repetirse, pero por redondeo a vecesocurre en la prctica).Observar que esta funcin f.d.m. es una versin emprica de lafuncin de distribucin poblacional y en principio debera parecerse(por la ley de los grandes nmeros, Fn(x) converge a F (x)).

    29 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Anlisis de una muestra de una variable continuaComparar unos datos observados con unos esperados (1)

    Test de Kolmogorov-SmirnovAnalizar/Tests no paramtricos/1 muestra...

    30 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Anlisis de una muestra de una variable continuaComparar unos datos observados con unos esperados (2)

    Test de Kolmogorov-SmirnovAnalizar/Tests no paramtricos/1 muestra...

    31 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Anlisis de una muestra de una variable continuaComparar unos datos observados con unos esperados (3)

    Test de Kolmogorov-SmirnovAnalizar/Tests no paramtricos/1 muestra...

    32 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Test de Wilcoxon

    Cuando el objetivo es comprobar la localizacin de una muestrarespecto a un valor, analizamos su mediana y vemos si vale el valorque estamos cuestionando.En concreto, el test de rangos de Wilcoxon comprueba si la medianamuestral de una muestra difiere significativamente de un hipotticovalor (que es que queremos contrastar).Por ejemplo si queremos comprobar si el capital social de 5 empresases superior a 15000 euros. Tambin podramos plantearnos si esdiferente.

    33 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Anlisis de una muestra de una variable continuaLocalizacin de una muestra (1)

    Test de WilcoxonAnalizar/Tests no paramtricos/1 muestra...

    34 / 36

  • Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Anlisis de una muestra de una variable continuaLocalizacin de una muestra (2)

    Test de WilcoxonAnalizar/Tests no paramtricos/1 muestra...

    35 / 36

    Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

    Ejemplos

    Ejemplos

    1 Existe informacin sobre el porcentaje de la poblacin (p.e. Anon, 1991) con edadsuperior a 60 aos en ms de 200 pases. La siguiente muestra aleatoria se haobtenido de 12 de esos pases:

    4.9 6.0 6.9 17.6 4.5 12.35.7 5.3 9.6 13.5 15.7 7.7

    Utilizar el test de Wilcoxon par comprobar si la mediana es 12 o diferente.2 Comprobar la normalidad de los datos anteriores. Comprobar tambin si pueden

    venir de una distribucin uniforme.3 El valor de las reclamaciones por siniestros de automvil en un seguro durante un

    ao ha sido de 1000 euros. Para comprobar que las del ao siguiente no sondiferentes realizan una muestra de 8 reclamaciones, cuyos resultados son:

    409 900 1120 1700 450 1123 530 990

    Estn los datos de acuerdo con la suposin de la empresa?

    36 / 36

    IntroduccinEstadstica ParamtricaEstadstica no paramtricaIntroduccin SPSS bsico, importacin de datos y codificacin de variablesAnlisis 1 muestra: variables continuas.