1 - Introducción a estadística y prueba de hipótesis en SPSS (Agronomía)

Post on 04-Jul-2015

1.656 views 7 download

description

Curso introductorio de estadística, nociones de de estadística descriptiva e inferencial en SPSS, ejemplo adaptados para alumnos de ciencias agrarias y forestales.

Transcript of 1 - Introducción a estadística y prueba de hipótesis en SPSS (Agronomía)

Introducción a la estadística yprueba de hipótesis en SPSS

Marcelo Rodríguez G.Ingeniero Estadístico - Magister en Estadística

Universidad Católica del Maule

Facultad de Ciencias Básicas

Ingeniería en Agronomía

Diseño Experimental

14 de marzo de 2011

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 1 / 98

Introducción

De�nición (Estadística)

Es la ciencia de recolectar, describir einterpretar datos, (convertirinformación en conocimiento) comoun apoyo e�ciente para la toma dedecisiones.

De�nición (SPSS)

Es un programa estadístico quepermite realizar el proceso dedescripción de los datos, en formaautomatizada, (no recolecta niinterpreta los datos).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 2 / 98

Conceptos Estadísticos

Unidad de análisis: es el ente que proporciona un dato. Tambiénrecibe el nombre de unidad experimental.Medición: es el proceso que asigna un valor a una unidad de análisis.En Estadística no siempre una medición es como lo que clásicamenteentendemos, �medición� también puede entenderse como�observación� o �conteo�. Su objetivo es generar datos.Error de medición: es la diferencia entre el valor exacto que posee launidad de análisis y el valor entregado por un instrumento de medición.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 3 / 98

Conceptos Estadísticos

Exactitud: Un valor es exacto si no contiene error.Precisión: Un valor será más preciso en la medida en que acerque asu valor exacto (tiene que ver con la aproximación numérica).Error de precisión: es la diferencia entre el valor exacto y suaproximación numérica.Población: es el universo o conjunto total de unidad de análisis.Sobre este conjunto se obtendrán las conclusiones �nales.Muestra aleatoria: es un subconjunto de la población que posee ungrado de representatividad adecuado.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 4 / 98

Conceptos Estadísticos

Censo: estudio que involucra a toda la población. No contiene errorde precisión, pero es costoso.

Muestreo: estudio que involucra a una muestra. Contiene error demuestreo, pero es menos costoso.

Sesgo: componente de un estudio que hace que la muestra no seaaleatoria, pues distorsiona las conclusiones del estudio e impide que selleve a cabo un proceso inferencial.

Parámetros: información relacionada con la población y que es deinterés para el investigador.

Estimadores: aproximaciones de los parámetros basadas en lamuestra.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 5 / 98

Clasi�cación de los Métodos Estadísticos

Los métodos estadísticos pueden clasi�carse en dos grandes grupos:1 Descriptivos.2 Inferenciales.

De�nición (Métodos Descriptivos)

Se preocupan de describir el conjuntos de datos. Generalmente estánrelacionados con el análisis preliminar o exploratorio de los datos.

De�nición (Métodos Inferenciales)

Son los encargados de llevar adecuadamente los resultados de una muestraaleatoria hacia la población objetivo.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 6 / 98

Ejemplos de Problemas Estadísticos

Ejemplo

Evaluar el grado de dulzor de un fruto(◦Brix).

Identi�car el efecto de un fertilizante, en elcrecimiento de la lechuga.

Comparar la efectividad de dos insecticidas,en el control de plagas.

Comparar la efectividad de una dieta, encierto tipo de animal.

Todos estos problemas son distintos, pero hay una linea general de razon-amiento que es la misma para todos, la cual es llamada metodología de lainvestigación estadística.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 7 / 98

Metodología de la Investigación Estadística

La metodología de la investigaciónestadística se basa en el MétodoCientí�co.

La Estadística proporciona técnicasque permiten describir, obtener ocomprobar los resultados de unainvestigación.

Para que esos resultados seancon�ables es importante considerartodas las etapas de la investigación,éstas son: la plani�cación yejecución del estudio.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 8 / 98

Metodología de la Investigación Estadística: Plani�cación

i) Planteamiento del Problema. Aquí debe quedar claro el problema quemotiva la investigación, deben plantearse las preguntas que motivan elestudio y otros aspectos que permitan comprender con claridad, pero demanera resumida, lo que se desea describir, obtener o comprobar.

ii) Delimitar la Población Objetivo. Aquí se de�ne cuales serán lasunidades experimentales a analizar. Este punto es no menos importante, yaque las conclusiones que se desprendan del estudio sólo pueden alcanzar aeste conjunto.

iii) Describir los Objetivos. Aquí se deben plantear, con la mayorclaridad posible, el(os) objetivo(s) general(es) que motivan la investigación,así como los objetivos especí�cos que se desprendan de cada objetivogeneral (en el caso de haber más de uno). Los objetivos se plantean comoverbo en in�nitivo.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 9 / 98

Metodología de la Investigación Estadística: Plani�cación

iv) Plantear las Hipótesis de Trabajo. Cada objetivo especí�co setransforma en una hipótesis de trabajo y esta a su vez en dos hipótesisestadística:

la que postula lo que investigación plantea, es decir, la hipótesis deinvestigación (H1) y

la que refuta esto y que representa al estado actual de los hechos, esdecir, la hipótesis nula (H0).

Las hipótesis son aseveraciones que están sujetas a con�rmación, son sóloconjeturas y deben ser con�rmadas en base a los datos recolectados.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 10 / 98

Metodología de la Investigación Estadística: Plani�cación

v) Establecer la Metodología Estadística. Una vez delineados losobjetivos, se debe plantear de la manera más precisa posible, las técnicasestadísticas que permitirán comprobar los objetivos planteados. Sinembargo, una vez recolectados los datos, estos procedimientos deben sercon�rmados en base al comportamiento que presenten los datos.

vi) Plantear el plan de muestreo. Con la metodología estadísticaplanteada, se procede a desarrollar el plan de muestreo que permitiráescoger la muestra de unidades que se analizarán para validar los objetivospropuestos. Aquí se deberá determinar

el tamaño de la muestra,

la técnica especí�ca que se utilizará (m.a.s., m.a.e. u otro) y

se seleccionarán las unidades de análisis que conformarán esta muestra.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 11 / 98

Metodología de la Investigación Estadística: Ejecución

i) Recopilar los datos. Esto se realiza basándose en el plan de muestreoque se planteó antes y a través del instrumento que permitirá recopilar losdatos, por ejemplo:

cuestionarios,

pruebas,

instrumentos de medición, etcétera.

En esta etapa es importante evitar errores en la obtención de los datos.

ii) Diseño de la base de datos. Una vez que se han recogido los datos yse ha veri�cado que no hay errores, se procede a crear la matriz de datos.Generalmente previo al ingreso de los datos al computador, se procede a unproceso de codi�cación, en el caso de que los datos recopilados no seanrealmente números. Comúnmente se utiliza el software estadísticoIBM-SPSS o StatGraphics.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 12 / 98

Metodología de la Investigación Estadística: Ejecución

iii) Procesar los datos. Una vez creada la matriz de datos se procede alprocesamiento de los datos. Esto se debe hacer a través de un softwareestadístico y se aplican las técnicas que se plani�caron anteriormente. Deno ser posible aplicar éstas porque se viole algún supuesto que las valida, sebuscarán técnicas alternativas para el mismo propósito. Habitualmente serealiza primero un análisis exploratorio (estadística descriptiva) yposteriormente uno con�rmatorio (inferencia estadística).

iv) Analizar los resultados obtenidos. Una vez procesados los datos, seprocede a analizar los resultados obtenidos desde el punto de vistaestadístico. Dependiendo de los objetivos, esto puede consistir simplementeen una descripción de lo que ocurre en los datos o la búsqueda dediferencias estadísticamente signi�cativas, cuando proceda.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 13 / 98

Metodología de la Investigación Estadística: Ejecución

v) Obtener las conclusiones y publicar los resultados. Finalmente, ytratando de evitar un lenguaje demasiado técnico, se procede a obtener lasconclusiones y a incorporarlas en un informe estadístico del estudio, cuyosresultados serán incorporados al informe �nal del estudio, que deberáredactar el equipo investigador. Aquí termina la labor estadística.

vi) Tomar las decisiones pertinentes. Con estos resultados se procede atomar las decisiones más pertinentes para el propósito que se ha planteado.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 14 / 98

Variable Estadística

De�nición (Variable estadística)

Es cualquier característica o atributo que es deseable conocer acerca de lasunidades de análisis y que se espera varíe de una unidad a otra.Comúnmente, se identi�can con la letra X.

De�nición (Recorrido de una Variable)

Es el conjunto de todos los posibles valores de una variable. Comúnmente,se identi�can con el símbolo RX .

De�nición (Dato estadístico)

Es la observación, conteo o medición de una variable estadística sobre unaunidad de análisis.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 15 / 98

Tipos de Variables: Cualitativas y Cuantitativas

De�nición (Variable Cualitativa)

Variable que representa una cualidad o atributo.

De�nición (Variable Cuantitativa)

Variable que representa una cantidad o valor numérico.

De�nición (Variable Cuantitativa Discreta)

Si la variable cuantitativa se generó a través de un conteo, entonces ésta es�discreta� y sólo puede tomar valores enteros (su recorrido �se puedecontar�)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 16 / 98

Tipos de Variables: Cualitativas y Cuantitativas

De�nición (Variable Cuantitativa Continua)

Si la variable cuantitativa se generó a través de una medición(generalmente se usa un instrumento de medición, como una balanza, unreloj, termómetro, prueba, etcétera), entonces ésta es �continua� y admitevalores decimales y sus valores pertenecen a un intervalo de los númerosreales (su recorrido no es contable).

Variable

Cualitativa o categórica (cualidad o atributo)

Cuantitativa o numérica (cantidad)

Discreta (contable)

Continua (no contable)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 17 / 98

Escalas de Medición

Toda variable estadística se puede clasi�car en una de las siguientes escalasde medida, las que presentaremos en un orden ascendente respecto de lariqueza de información que nos entrega cada una de ellas.

Las escalas de medición son:

Nominal

Ordinal

Intervalo

Razón

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 18 / 98

Escala Nominal

De�nición (Escala Nominal)

Escala empleada en variables de tipo cualitativa, utiliza los números sólocomo símbolos, códigos o nombres (nominal deriva de nombre) paraseparar a las unidades de análisis en distintos grupos o clases excluyentes,sin que sea posible establecer un orden entre los códigos de dos unidadesque pertenezcan a distintas clases ni tampoco distancia entre los códigosde estas unidades.

Ejemplo (Escala Nominal)

Sea X la variedad de las manzanas. Entonces, la variable es cualitativa ymedida en escala nominal. Sus clases o categorías pueden ser las siguientes:

RX ≡ {Fuji(1);Royal Gala(2);Cripps Pink(3)}.

Nota: en este ejemplo se ha asignado los códigos 1, 2 y 3 a las tresvariedades, sin que 3 signi�que mejor que 2 ni que 1.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 19 / 98

Escala Ordinal

De�nición (Escala Ordinal)

En esta escala, empleada en el mismo sentido que la escala nominal, losnúmeros sí indican un orden, aunque no establecen distancias, es decir,siguen siendo códigos y no realmente números.

Ejemplo (Escala Ordinal)

Sea X el desempeño laboral. Entonces, la variable es cualitativa y medidaen escala ordinal. Sus clases o categorías pueden ser:

RX ≡ {Malo(1);Regular(2);Bueno(3);Excelente(4)}.

Nota: Si bien la unidad de análisis que tenga un código �4� tuvo mejordesempeño que la que obtuvo un 3 ó 2 ó 1, no signi�ca que ésta hayatenido, por ejemplo, un desempeño el doble de satisfactorio que la queobtuvo un �2� (4 es el doble de 2).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 20 / 98

Escala de Intervalos

De�nición (Escala de Intervalos)

Esta escala, utilizada exclusivamente para variables cuantitativas, en estecaso, los número de dejar de ser códigos y son efectivamente cantidadesnuméricas, por lo que es posible medir la magnitud de la diferencia entrelos valores. Sin embargo, su principal característica es que el cero (0) noindica ausencia de característica, es decir, depende de la unidad en que semida la variable (el 0 es relativo).

Ejemplo (Escala de Intervalos)

Sea X la temperatura ambiente. Entonces, la variable es cuantitativacontinua y medida en escala de intervalos, pues la temperatura 0oC noindica ausencia de temperatura.

0oC 6= 0oF 6= 0oK,

(F =

29

5· C + 32

).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 21 / 98

Escala de Razón

De�nición (Escala de Razón)

Se usa en el mismo sentido que la escala de intervalos, pero además en estecaso tiene sentido el concepto de �razón o cociente� entre dos cantidades(lo cual no es posible establecer en la escala de intervalos) sólo que en estecaso el cero (0) indica ausencia de la característica, es decir, no depende dela unidad en que se mida la variable (el 0 es absoluto).

Ejemplo (Escala de Razón)

Sea X el peso de las raíces secas de cierta planta. Entonces, la variable escuantitativa continua y medida en escala de razón, pues el peso 0, indicaausencia de peso.

0 tonelada ≡ 0 libras ≡ 0 kgs.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 22 / 98

Diagrama de Tipos de Variables v/s Escalas de Medición

Escalas de Medición︷ ︸︸ ︷no existe orden︷ ︸︸ ︷

Nominal ⇒existe orden︷ ︸︸ ︷Ordinal︸ ︷︷ ︸

Cualitativa

V

0 relativo︷ ︸︸ ︷Intervalo ⇒

0 absoluto︷ ︸︸ ︷Razón︸ ︷︷ ︸

Cuantitativa

DiscretaContinua︸ ︷︷ ︸

Tipos de Variables

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 23 / 98

Variable de respuesta y explicatoria

De�nición (Experimento)

Un experimento es el proceso de obtener una observación y representacualquier situación que tenga más de un resultado.

De�nición (Variable Respuesta � Y )

Mide alguna característica del resultado de un experimento. La variable derespuesta, depende de alguna manera, de otra variable. Es también llamadavariable dependiente.

De�nición (Variable Explicatoria � X)

Es la que explica o causa los cambios en la variable de respuesta, escontrolada por el investigador. También es llamada �variableindependiente�.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 24 / 98

Ejemplo

Ejemplo

Un ingeniero realizó un experimento para determinar los efectos de unfertilizante en el crecimiento y desarrollo de plantas. Se aplicaron dosfertilizantes (uno orgánico y otro convencional) a 20 plantas (a 10 plantasse le aplicaron cada fertilizante. Posteriormente, a cada planta, se le mideel peso de sus raíces en seco.

Experimento = Proceso de pesar las raíces secas.

Unidad experimental = Raíces secas.

Error Experimental = Es la variación entre los pesos de distintas raícestratadas de manera idéntica.

Variable de respuesta = Peso de las raíces en seco.

Variable explicatoria = Tipos de Fertilizantes.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 25 / 98

Iniciando SPSS

Cuando se inicia SPPS,aparece esta ventana, quees llamada Vista de datosen ella sólo se debe ingre-sar los datos. Para entre-garle las características delas variables (nombre, es-cala, decimales, etc), hayque ingresar a Vista devariables Existe una ter-cera vista que es llamadaVista de resultados, esdonde SPSS entrega todoslos resultados.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 26 / 98

Libro de códigos: Explicación de la base de datos

Puede descargar la base de datos desde: http://bit.ly/data_riego

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 27 / 98

Diseño de la base de datos: Las variables

En Vista de variable debe modi�car:

La Anchura en 8.

Los Decimales (según el caso).

La Etiqueta (nombre completode la variable, este nombre es elque aparece en los grá�cos ysalidas).

Los Valores, si la variable es nominal u ordinal, hay de�nir quesigni�can los valores.

En Medida, debe ingresar la escala de medición de las variables(nominal, ordinal, intervalo y razón). SPSS no distingue entre las deintervalo o razón y simplemente le llama escala.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 28 / 98

Medidas de Resumen

Estas medidas estadísticas resumen al conjunto de datos, también se lesdenomina estadísticos. Estas medidas se clasi�can en medidas de posición,dispersión y forma.

(Medidas de Posición)

Entregan la posición relativa que poseen los individuos dentro de ladistribución y se subdividen en dos:a) Las medidas de tendencia central, que tienden a ubicarse en el centro

de la distribución, entre las cuales se encuentran:La media o promedio aritmético.La mediana o valor del centro.La moda, o valor más frecuente.

b) Los percentiles, que tienden a ubicarse en distintas partes de ladistribución de la variable, entre los que se encuentran:

Los cuartiles (dividen al conjunto en cuatro partes iguales).Los deciles (dividen al conjunto en 10 partes iguales).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 29 / 98

Medidas de tendencia central: Media

De�nición (Media)

La media o promedio aritmético de un conjunto de n datos digamosx1, x2, . . . , xn, viene dado por:

x =

n∑i=1

xin.

De�nición (Media Recortada al 5%)

Es el promedio de los datos sin considerar el 5% más pequeño, ni el 5%más alto.

El uso de la media es exclusivamente para variables cuantitativas.La media puede ser afectado de manera desproporcionada por laexistencia de datos atípicos (fuera de lo común).La media recortada al 5%, comúnmente no es afectada por valoresatípicos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 30 / 98

Medidas de tendencia central: Mediana

De�nición (Mediana)

Corresponde al valor central cuando las n observaciones se ordenan demenor a mayor. Es decir, considere las siguientes observacionesx1, x2, ..., xn, además si ordenamos estas observaciones de menor a mayortenemos x(1), x(2), ..., x(n), entonces la mediana sería

Me =

x(n+12

), si n es impar;x(n

2) + x(n

2+1)

2, si n es par.

No se puede usar esta medida si la escala de medición de la variableses nominal.

Su cálculo no es afectado por la existencia de datos atípicos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 31 / 98

Medidas de tendencia central: Moda

De�nición (Moda (Mo))

Corresponde al valor o categoría con más alta frecuencia en los datos.

El uso de esta medida es para cualquier tipo de variable.

En el caso de variables cuantitativas, los datos pueden ser agrupadosen clases y la moda se de�ne como la marca de clase que tiene lamayor frecuencia.

Puede existir más de una moda en un conjunto de datos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 32 / 98

Medidas de posición: Los percentiles

De�nición (Percentil α)

Los percentiles cumplen con la condición de superar a no más del(1− α)100% de los datos y de ser superado, a los más por el porcentajecomplementario de las observaciones.

Considere los siguientes datos ordenados de menor a mayorx(1), x(2), ..., x(n). Entonces,

Pα = (1− d) · x(e) + d · x(e+1).

Donde,

i = α(n+ 1),

e = parte entera de i,

d = i− e.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 33 / 98

Medidas de posición: Cuartiles

De�nición (Cuartiles)

Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igualtamaño:

El cuartil 1 (Q1) marca la parte alta del primer cuarto de los datos,corresponde al P0,25.

El cuartil 3 (Q3) marca la parte baja del último cuarto de los datos,corresponde al P0,75.

El cuartil 2 (Q2) corresponde a la P0,50 =Me.

Metodología para el cálculo aproximado de Q1 y Q3

Paso 1: Ordene los datos de menor a mayor y encuentre la Me.

Paso 2: Divida los datos en 2 mitades, por encima y por debajo de laMe. Si n es impar incluya la mediana en ambas mitades.

Paso 3: Encuentre la mediana en ambas mitades, estas son Q1 y Q3.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 34 / 98

Medidas de dispersión

Las segundas medidas estadísticas de resumen, las de dispersión, nosentregan el grado de dispersión, variabilidad u homogeneidad que poseenlos datos dentro del conjunto, generalmente respecto de una medida detendencia central, entre las que se encuentran:

El rango o desviación máxima

El rango intercuartil.

La varianza.

La desviación estándar o típica.

El coe�ciente de variación.

Entre otras.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 35 / 98

Medidas de dispersión: Rango y rango intercuartil

De�nición (Rango)

Corresponde a la diferencia entre el mayor y menor de los datos.

R = Máx−Mín

De�nición (Rango Intercuartil)

Esta medida de variabilidad es resistente a valores atípicos y se concentraen el 50% de los datos. También llamado �Amplitud Intercuartil�.

RI = Q3 −Q1

El uso de R y RI no es para variables nominales.

R es afectado por la existencia de datos atípicos.

RI no es afectado por la existencia de datos atípicos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 36 / 98

Medidas de dispersión: Varianza

De�nición (Varianza)

La varianza de las observaciones x1, x2, ..., xn es

s2 =1

n− 1

n∑i=1

(xi − x)2.

Esta mide las variaciones promedio que existen en los datos con respecto ala media de la muestra.

Su calculo es afectado por la existencia de datos atípicos.

El uso de esta medida es exclusivamente para variables cuantitativas.

Esta medida no se puede interpreta, pues tiene unidades de medida alcuadrado.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 37 / 98

Medidas de dispersión: Desviación estándar

De�nición (Desviación estándar)

Se de�ne la desviación estándar (típica) como

s =√s2 =

√√√√ 1

n− 1

n∑i=1

(xi − x)2.

Su calculo es afectado por la existencia de datos atípicos.

El uso de esta medida es exclusivamente para variables cuantitativas.

Se interpreta como la cantidad de desviaciones promedio de los datoscon respecto a la media.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 38 / 98

Medidas de Dispersión: Coe�ciente de variación

De�nición (Coe�ciente de variación)

Corresponde a una medida de dispersión relativa a la media. Esta dada por

CV =s

x100%

No depende de la unidad de medida.

x > 0.

Útil para comparar variabilidad entre grupos.

Mientras más pequeño es el valor del CV más homogéneos (parecidosentre si) son los datos.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 39 / 98

Relación entre el promedio y la desviación estándar

De�nición (Regla empírica )

Para un conjunto de datos (ngrande) que tienen un histogramasimétrico, con forma de campana,los intervalos, que se presenta acontinuación, contienenaproximadamente los siguientesporcentajes de los datos.

Intervalo Porcentaje[x− s;x+ s] 68, 27%

[x− 2s;x+ 2s] 95, 45%

[x− 3s;x+ 3s] 99, 73%

Normal

3210-1-2-3

Fre

cuen

cia

1.250

1.000

750

500

250

0

Regla empíricaMedia = 0 y Desviación Estándar =1.

Página 1

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 40 / 98

Intervalo de con�anza del 95% para la verdadera mediapoblacional µ (para muestras grandes)

De�nición (Intervalo de Con�anza para µ)

Intervalo de Con�anza del 95% para la verdadera media poblacional µ(para muestras grandes), se de�ne como[

x− 1, 96 · s√n;x+ 1, 96 · s√

n

]Se recomienda utilizar este intervalo para n ≥ 30.

1, 96 · s√n

es llamado error de estimación.

s√n

es llamado error típico de la media.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 41 / 98

Medida de forma: sesgo

De�nición (Sesgo)

Índice que expresa el grado de asimetría de la distribución de los datos(histograma). La asimetría positiva indica que los valores más extremos seencuentran por encima de la media. La asimetría negativa indica que losvalores más extremos se encuentran por debajo de la media. Su formula es

sk =

[n

(n− 1)(n− 2)

]n∑i=1

(xi − x)3

s3

.

Si sk = 0, entonces la distribución es simétrica.Si sk < 0, entonces la distribución es asimétrica negativa.Si sk > 0, entonces la distribución es asimétrica positiva.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 42 / 98

Medida de forma: Relación Entre Promedio y la Mediana

Distribución Simétrica (No Sesgada):x =Me

Distribución Asimétrica Positiva, :Me < x

Distribución Asimétrica Negativa:x < Me

Una distribución es simétrica si la mitad izquierda de su distribución esla imagen de su mitad derecha.

La asimetría es positiva o negativa en función de a qué lado seencuentra la cola de la distribución.

La media tiende a desplazarse hacia las valores extremos (colas).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 43 / 98

Medida de forma: Error típico del sesgo

De�nición (Error típico del sesgo)

Es la desviación típica de la distribución muestral del índice de asimetría, elcual permite tipi�car el valor del índice de asimetría e interpretarlo comouna puntuación z. Índices tipi�cados mayores que 1,96 en valor absolutopermiten a�rmar que existe asimetría (positiva o negativa, dependiendo delsigno del índice). Su formula es

esk =

√6n(n− 1)

(n− 2)(n+ 1)(n+ 3).

Si,

∣∣∣∣ skesk∣∣∣∣ ≤ 1, 96, entonces la distribución de los datos es simétrica.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 44 / 98

Coe�cientes de apuntamiento: Curtosis

De�nición (Curtosis)

Índice que expresa el grado en que una distribución acumula casos en suscolas en comparación con los casos acumulados en las colas de unadistribución normal con la misma varianza. Su formula es

k =

[n(n+ 1)

(n− 1)(n− 2)(n− 3)

]n∑i=1

(xi − x)4

s4

−[

n(n− 1)2

(n− 2)(n− 3)

]

.

Si k > 0, entonces la distribución es más puntiagudas (Leptocurtica)..Si k = 0, (proximos a cero) entonces indican semejanza con la curvanormal.Si k < 0, entonces la distribución es más aplanada (Mesocurtica).

.mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 45 / 98

Coe�cientes de apuntamiento: Error típico de la curtosis

De�nición (Error típico de la curtosis)

El error típico del índice de curtosis, el cual puede utilizarse para tipi�car elvalor del índice de curtosis y poder interpretarlo como una puntuación z..Índices mayores que 1,96 en valor absoluto permiten a�rmar que ladistribución se aleja de la distribución normal. Su formula es

ek =

√24n(n− 1)2

(n− 3)(n− 2)(n+ 3)(n+ 5).

Si,

∣∣∣∣ kek∣∣∣∣ ≤ 1, 96, entonces la distribución de los datos es como la normal.

Dependiendo del signo de k, se identi�ca si es platicurtica o mecocurtica.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 46 / 98

Identi�cación de datos atípicos: Método de la puntuación z

De�nición (Método de la puntuación z:)

Si consideramos la regla empírica, sabemos que aproximadamente el 100%de los datos está en el intervalo [x− 3s;x+3s]. Es muy improbable que undato esté fuera de este intervalo, y en caso que fuese, éste se llamaría undato atípico. Es decir, un dato es no atípico si

xi ∈ [x− 3s;x+ 3s]⇔ xi − xs∈ [−3; 3]⇔

∣∣∣∣xi − xs

∣∣∣∣ ≤ 3

∴ Si consideramos la transformación zi =xi−xs , entonces un dato xi es

atípico si |zi| > 3.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 47 / 98

Identi�cación de datos atípicos: Método de Tukey

De�nición (Método de Tukey:)

Considere las siguientes barreras (bisagras),

Barrera Interior Inferior: BII = Q1 − 1, 5RI

Barrera Interior Superior: BIS = Q3 + 1, 5RI

Barrera Exterior Inferior: BEI = Q1 − 3RI

Barrera Exterior Superior: BES = Q3 + 3RI

Identi�que los datos en este diagrama

· · · · · · [︸ ︷︷ ︸Potencial

[BEI · · · · · · [︸ ︷︷ ︸Posible

No atípico︷ ︸︸ ︷[BII · · · · · ·BIS] ] · · · · · ·BES]︸ ︷︷ ︸

Posible

] · · · · · ·︸ ︷︷ ︸Potencial

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 48 / 98

Identi�cación de datos atípicos: Diagrama de caja

De�nición (Diagrama de caja)

El diagrama de caja, entrega información sobre

centralidad, dispersión y la forma de la distribución de los datos,

identi�ca valores atípicos

y es útil para comparar dos distribuciones.

(Procedimiento para realizar esta grá�ca)

Paso 1: Los bordes de la caja se representan por Q1 y Q3, se debetrazar una linea vertical que atraviese la caja en la Me.

Paso 2: Trazar líneas desde los bordes de la caja hasta los valoresadyacentes (el menor y mayor de los datos no atípicos).

Paso 3: Marque los posibles valores atípicos con o y los potencialescon ∗.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 49 / 98

Identi�cación de datos atípicos: Diagrama de caja

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 50 / 98

Ejemplo de un análisis descriptivo en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 51 / 98

Ejemplo de un análisis descriptivo en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 52 / 98

Ejemplo de un análisis descriptivo en SPSS

El DAC promedio es de 2,2815 mm, con un 95% de con�anza se espera queel intervalo (2,2589; 2,3061) contenga al verdadero valor del DAC promedio.Si no se considera al 5% de las plantas con el DAC más pequeño ni al 5%con el DAC más grande, el DAC promedio sería de 2,2750. El 50% de lasplantas tiene un DAC inferior 2,25. Existe una desviación de 0,51329 mmcon respecto al DAC promedio.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 53 / 98

Ejemplo de un análisis descriptivo en SPSS

El DAC mínimo es de 1,04 y elmáximo es de 4,71. Existencuatro datos atípicos que son el85, 180, 242 y el 796. Ladistribución del DAC es asimétrica(0,230/0,060 = 3,83>1,96), estaúltima a�rmación no concuerdacon los expuesto grá�camente,esto ocurre, por la existencia delos datos atípicos. Con respecto ala curtosis, sería como la de lanormal (0,124/0,119 = 1,042 <1,96).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 54 / 98

Ejemplo Introductorio de prueba de hipótesis

Un distribuidor cree que más del 80% desus semillas están sanas. Se selecciona unamuestra aleatoria de 30 semillas y 25 deellas están sanas. Proporciona esta muestrasu�ciente evidencia para creer eldistribuidor tiene razón.

Se de�ne la variable aleatoria:X = número de semillas sanas de las 30 semillas seleccionadas.Bajo el supuesto de que la proporción de semillas sanas en la población esp = 0.80, la variable aleatoria X es una binomial con n = 30 y p = 0.80.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 55 / 98

Ejemplo Introductorio de prueba de hipótesis

En otras palabras, bajo este supuesto (p = 0.80),

la distribución de probabilidadsería,

pX(x) =

(30

x

)0, 80x0, 2030−x,

si x = 0, 1, ..., 30

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 56 / 98

Ejemplo Introductorio de prueba de hipótesis

La probabilidad de que el número de semillas sanas sea superior o igual a 25,cuando la proporción se semillas sanas es de un 80% es de

P(X ≥ 25) =

30∑x=25

(30

x

)0, 80x0, 2030−x = 0, 427512438,

Por otro lado, la probabilidad de que el número de semillas sanas sea superioro igual a 28, es de

P(X ≥ 28) =

30∑x=28

(30

x

)0, 80x0, 2030−x = 0, 044178985,

Fíjese que esta última probabilidad es muy pequeña y su hubiese ocurridoeste escenario, no dudaría en darle la razón al distribuidor.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 57 / 98

Introducción a la inferencia estadística

De�nición (Métodos Inferenciales)

Son los encargados de llevar adecuadamente los resultados de una muestraaleatoria hacia la población objetivo.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 58 / 98

Método para obtener muestras aleatorias

(Método para obtener muestras aleatorias)

1 Asigne la secuencia de números de 1 a N (tamaño de la población) alas unidades experimentales (UE).

2 Genere un número aleatorio U entre 0 y 1. Calcule X = U(N −1)+1.

3 Repita este proceso n (tamaño de la muestra) veces y obtendrá unapermutación aleatoria de los números 1 al n.

4 Los números obtenidos son las UE a considerar en la muestra.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 59 / 98

Método para obtener muestras aleatorias

Ejemplo (Método para obtener muestras aleatorias)

Suponga que en un estudio existen 16 manzanas que constituyen unapoblación, se desea medir el grado de dulzor de la manzana (se mide en unaescala de 1 a 7, donde 1=muy poco dulce y 7=muy dulce). Como tamañode muestra se ha considerado a 4 manzanas. Seleccione la muestra.

UE1 UE2 UE3 UE4

UE5 UE6 UE7 UE8

UE9 UE10 UE11 UE12

UE13 UE14 UE15 UE16

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 60 / 98

Ejemplo para obtener muestras aleatorias

Considere los siguientes n◦ aleatorios, generados con el computador, enExcel, =aleatorio().

0,776 0,989 0,591 0,123

Realice la siguiente tranformación X = 15U + 1 y redondear al entero.

13 16 10 3

Entonces, debería medir los frutos 13, 16, 10 y 3.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 61 / 98

Estudios por muestreo v/s estudios censales

Ejemplo

Considere el ejemplo anterior, recuerde que se desea medir el grado dedulzor.

Suponga que se realiza un censo (todas las manzanas) y en cada una de las16 manzanas se va a aplicar la evaluación y se mide el grado de dulzor y losdatos son.

Uno de los objetivos del estudioes identi�car el grado de dulzor(parámetro) de los frutos.

UE1= 5 UE2= 1 UE3= 2 UE4= 2UE5= 4 UE6= 3 UE7= 2 UE8= 3UE9= 2 UE10= 4 UE11= 4 UE12= 2UE13= 2 UE14= 1 UE15= 1 UE16= 1

Como esta es información poblacional lo identi�caremos con la letra µ. Eneste caso, µ = (5 + 1 + 2 + · · ·+ 1)/16 = 2, 438.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 62 / 98

Estudios por muestreo v/s estudios censales

Ahora, si consideremos, la muestra aleatoria, encontrada anteriormente,sólo deberíamos evaluar los frutos 13, 16, 10 y 3. Entonces, tendríamos lossiguientes datos.

UE13= 2 UE16= 1 UE10=4 UE3=2

Dada la información de la muestra, podríamos tener una estimación delgrado de dulzor (estadístico). Como esta es información muestral loidenti�caremos con la letra x. En este caso,x = (2 + 1 + 4 + 2)/4 = 2, 250. Fíjese que x no es exactamente igual a µ.Esta discrepancia, se debe al error de muestreo.

Nota: Si a cada individuo es remunerado con 5.000 pesos, adicionales, porcada experimento, en el censo, gastaríamos 80.000 pesos y en el muestreo20.000 pesos. La diferencia es grande, pero no hay mucha diferencia en losresultados (µ = 2, 438 y x = 2, 250.).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 63 / 98

Hipótesis Estadísticas

De�nición (Hipótesis Estadísticas)

Conjetura acerca de los parámetros de una población. Es decir, es unasupocisión acerca de la distribución de los datos en la población.

Una prueba de hipótesis consiste en tener un procedimiento que decida, apartir de la muestra, cuál de dos hipótesis es más razonable para la poblaciónen estudio.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 64 / 98

Tipos de Hipótesis

H0 → Hipótesis nula: Hipótesis que supone que los datos obtenidosen la muestra provienen de una población con una distribuciónconocida por el investigador.

H1 → Hipótesis alternativa (o hipótesis del investigador): Es lahipótesis contraria a la hipótesis nula, por lo que se acepta cuando H0

es rechazada.

Observación

El objetivo de una prueba de hipótesis es elegir entre H0 o H1,mediante información muestral.

La hipótesis nula no se rechaza a menos que los datos proporcionenevidencias convincentes de que es falsa.

Esta es la razón por la que tampoco se puede considerar como ciertasi es que no se rechaza.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 65 / 98

Tipos de errores, nivel de signi�cación y valor−p

De�nición (Error tipo I)

Es rechazar H0, cuando H0 es verdadera.

De�nición (Error tipo II)

Es no rechazar H0, cuando H0 es falsa.

De�nición (Nivel de signi�cación α)

Se de�ne como la máxima probabilidad de cometer el error tipo I.

De�nición (valor−p)El valor−p, es el mínimo valor de α que lleva al rechazo de H0. Es tambiénllamado signi�cancia (sig.).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 66 / 98

Pasos para una prueba de hipótesis

1 Formular las hipótesis: Luego de plantear las hipótesis deinvestigación (basadas en los objetivos), se plantean las hipótesisestadísticas, H0 y H1.

2 Elegir y calcular el estadístico de prueba: Dependiendo de lashipótesis planteadas en el punto anterior, se propone una metodologíaestadística, que tiene asociada un estadístico de prueba.

3 Determinar región de rechazo y valor−p:1 Fijar el nivel de signi�cación α (comúnmente se �ja en α = 0, 05) y

determinar la región de rechazo de H0.2 Calcular el valor−p. Regla: Rechace H0 si el valor−p es menor que α.

4 Concluir estadísticamente y tomar la decisión: Dependiendo delresultado del paso anterior, se concluye si se rechaza o no H0. Sedeben responder las preguntas de investigación o veri�car si secumplen la hipótesis. Basado en esta conclusión se debe tomar unadecisión acorde al área de investigación.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 67 / 98

Ejemplo de Prueba de hipótesis

Recuerde el problema del distribuidor que cree que más del 80% de sussemillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y25 de ellas están sanas.

(Hipótesis)

H0 : p ≤ 0, 80 v/s H1 : p > 0, 80

La hipótesis nula es que la muestra de n = 30 semillas fue extraída de unapoblación con p ≤ 0, 80. Luego, bajo H0 cierta, la distribución de lamuestra que más favorece a H1 es una distribución binomial conparámetros (n = 30, p = 0, 80) que es una distribución conocida por elinvestigador.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 68 / 98

Ejemplo de Prueba de hipótesis

(Estadístico de Prueba)

El estadístico de prueba es la variable aleatoria X que cuenta la cantidadde semillas sanas en la muestra de tamaño 30, y su distribución cuando H0

es cierta es conocida, es una binomial de parámetros (n = 30, p = 0, 80).Para este caso el estadístico de prueba observado es X = 25.

(Región de rechazo)

Consideremos α = 0, 05 y las siguientes probabilidades

P(X ≥ 22) = 0, 871349246 P(X ≥ 25) = 0, 427512438 P(X ≥ 28) = 0, 044178985P(X ≥ 23) = 0, 760790619 P(X ≥ 26) = 0, 255233255 P(X ≥ 29) = 0, 010522490P(X ≥ 24) = 0, 606969924 P(X ≥ 27) = 0, 122710806 P(X ≥ 30) = 0, 001237940

Entonces la región de rechazo sería: Rechace H0 si X ≥ 28.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 69 / 98

Ejemplo de Prueba de hipótesis

(Valor−p)valor−p=P(X ≥ 25) = 0, 427512438

(Conclusión)

Como el estadístico de prueba no pertenece a la región de rechazo ( oequivalentemente el valor−p > 0,05), no debería rechazarse H0. Es decir,basándose en la muestra observada y con α = 0, 05, no existen evidenciassu�cientes que demuestren los dichos del distribuidor.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 70 / 98

Prueba Z para la media de una población

Se supone que la variable aleatoria X es continua y la muestra es aleatoriay grande (n ≥ 30).

(Prueba Z para la media de una población)

Estadística de prueba (calculado): zc =x− µoσ/√n

Hip. Nula Hip. Alternativa Rechace H0 si Valor pH0 : µ = µ0 H1 : µ 6= µ0 |zc| > z1−α/2 2[1− P(Z < |zc|)]H0 : µ ≤ µ0 H1 : µ > µ0 zc > z1−α 1− P(Z < |zc|)H0 : µ ≥ µ0 H1 : µ < µ0 zc < −z1−α 1− P(Z < |zc|)

Donde µ es la media de la población en estudio, µ0 es un valor conocido quese de�ne a partir del problema práctico, es el valor numérico con el cuál secompara la media poblacional y σ es la desviación estándar de la población(se asume conocida por el investigador). Además Z ∼ N(0, 1).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 71 / 98

Ejemplo de una prueba Z para la media de una población

Ejemplo

Un Ingeniero Agrónomo de una empresa desea saber si la producción mediade trigo (diaria) es superior a los a 400 kg. Una muestra aleatoria de 172días reveló que la producción media de la muestra era 407 kg. Se sabe deestudios anteriores que la desviación estandar es 38 kg.¾El ingeniero debe llegar a la conclusión de que la media de su produccióndiaria es mayor a 400 kg, o es razonable que la diferencia existente se debaa la casualidad?

Hipótesis: H0 : µ ≤ 400 v/s H1 : µ > 400

Estadístico de prueba: zc = 407−40038/√172

= 2, 42

Región de Rechazo: Si α = 0, 05. Entonces rechace H0, sizc > z0,95 = 1, 645.

Descargue las tablas estadísticas desde http://bit.ly/tablas_est.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 72 / 98

Ejemplo de una prueba Z para la media de una población

Valor-p: valor-p = 1− P(Z < |2, 42|) = 1− 0.992240 = 0, 00776.Este valor-p es usualmente considerado pequeño, ya que0, 00776 < α = 0, 05.Conclusión: Se rechaza la hipótesis nula H0 (zc > 1, 96 oequivalentemente, valor-p < 0, 05.) y el ingeniero puede llegar a laconclusión de que la producción media diaria es mayor a 400 kg.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 73 / 98

Intervalo de Con�anza del (1− α)100% para µ

De�nición (Intervalo de Con�anza para µ)

Bajo las mismas condiciones del caso anterior. Se de�ne el intervalo decon�anza del (1−α)100% para la verdadera media poblacional µ, mediante[

x− z1−α/2 ·σ√n;x+ z1−α/2 ·

σ√n

]

ee = z1−α/2 ·σ√n

es llamado error de estimación.

σ√n

es llamado error típico de la media o error estándar.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 74 / 98

Tamaño de muestra para la estimación de µ

Suponiendo que n es grande, el tamaño de la muestra sería,

n >z21−α/2 · σ

2

ee2.

Además, si se conoce el tamaño de la población (N), el tamaño demuestra �nal (corrección para poblaciones �nitas) sería

nf >n

1 + n/N.

Ejemplo

1 Considere el ejemplo anterior, encuentre un IC del 95% para µ. ¾Tienesentido este intervalo?

2 Estime el tamaño de muestra para µ, con una con�anza del 95%, unerror de estimación inferior a 5 kg.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 75 / 98

Prueba T para una muestra

Se supone que la muestra es aleatoria proveniente de una distribución X ∼N(µ, σ2).

(Prueba T para una muestra)

Estadística de prueba (calculada): tc =x− µos/√n

Hip. Nula Hip. Alternativa Rechace H0 si Valor pH0 : µ = µ0 H1 : µ 6= µ0 |tc| > t1−α/2(n− 1) 2[1− P(T < |tc|)]H0 : µ ≤ µ0 H1 : µ > µ0 tc > t1−α(n− 1) 1− P(T < |tc|)H0 : µ ≥ µ0 H1 : µ < µ0 tc < −t1−α(n− 1) 1− P(T < |tc|)

Donde µ es la media de la población en estudio, µ0 es un valor conocido quese de�ne a partir del problema y σ es la desviación estándar de la población(se asume desconocida por el investigador). Además T ∼ t(n− 1). Cuandon ≥ 30, se puede aproximar tα(n) ≈ zα.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 76 / 98

Intervalo de Con�anza del (1− α)100% para µ

De�nición (Intervalo de Con�anza para µ)

Intervalo de Con�anza del (1− α)100% para la verdadera mediapoblacional µ, (cuando σ es desconocido) se de�ne como[

x− t1−α/2(n− 1) · s√n;x+ t1−α/2(n− 1) · s√

n

]Ejemplo

Recuerde el experimento experimento en el cual 30 lotes de una mismavariedad, se hicieron crecer en un mismo ambiente. La altura de planta fuela variable que se registró. Considerando la muestra, la altura promedio fuede x = 11, 67 cm y la desviación estándar fue de s = 1, 76. El ingenierocree que la altura es signi�cativamente diferente de 12 cm.

Pruebe esta hipótesis, con α = 0, 05.

Encuentre un intervalo de con�anza del 95% para la altura media.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 77 / 98

Prueba Z para la proporción

(Prueba Z para la proporción)

Suponga que los datos proviene de una distribución que puede tomar doscategorías. Entonces,

Estadística de prueba (calculada): zc =π̂ − π0√

π0(1− π0)/n

Hip. Nula Hip. Alternativa Rechace H0 si Valor pH0 : π = π0 H1 : π 6= π0 |zc| > z1−α/2 2[1− P(Z < |z|)]H0 : π ≤ π0 H1 : π > π0 zc > z1−α 1− P(Z < |z|)H0 : π ≥ π0 H1 : π < π0 zc < −z1−α 1− P(Z < |z|)

Para que esta prueba se cumple se debe veri�car que nπ0 ≥ 5 y n(1−π0) ≥ 5.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 78 / 98

Ejemplo de prueba Z para proporciones

Ejemplo

Recuerde el problema en que distribuidor cree que más del 80% de sussemillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y25 de ellas están sanas. Proporciona esta muestra su�ciente evidencia paracreer que el distribuidor tiene razón.Este problema fue resuelto mediante pruebas de hipótesis usando ladistribución binomial,

Resuélvalo utilizando la prueba Z para proporciones. Pruebe lahipótesis con α = 0, 05 y compare con los resultados obtenidosanteriormente.

¾Que ocurre con el valor-p, si bajo las mismas condiciones, utilizamos300 semillas y 250 de ellas están sanas? Compare con el valor-pobtenido mediante la prueba de hipótesis utilizando la binomial (useexcel para ayudarse en la sumas).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 79 / 98

Comparación de medias: Prueba T para muestrasrelacionadas

La prueba que veremos ahora también se utiliza cuando queremos compararlas medias de dos poblaciones. Una de las característica de esta prueba esque las dos muestras serán relacionadas (apareadas).Esto se puede hacer de dos formas distintas:

1 Haciendo mediciones a la misma unidad de análisis con instrumentosde medición distinto.

2 Hacer mediciones a una unidad de análisis, luego aplicar untratamiento y �nalmente volver a hacer las mediciones sobre la mismaunidad de análisis.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 80 / 98

Comparación de medias: Prueba T para muestrasrelacionadas

Ejemplo

Un suelo agrícola productivo requiere cierto nivel de ventilación paramantener activo el crecimiento de la raíz de la planta y la actividad de losmicrobios de suelo. La actividad microbiana, medida como el aumento deCO2, se usó como medida del nivel de oxigenación del suelo. La evoluciónCO2/kg suelo/día en cada contenedor se midió 2 días distintos de iniciadoel periodo de incubación. La actividad microbiana en cada muestra desuelo se registró como el porcentaje de incremento en el CO2 producido porencima del nivel atmosférico. Los datos se muestran a continuación.

Muestra de suelo 1 2 3 4 5 6 7Día 1 0,43 0,68 0,68 0,45 0,72 0,70 0,56Día 2 0,56 0,72 0,69 0,55 0,82 0,69 0,54

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 81 / 98

Comparación de medias: Prueba T para muestrasrelacionadas

Una de las hipótesis es identi�car si exis-te un efecto, atribuible a las fechas, enlos porcentajes de incremento en el CO2.Podríamos plantear la siguiente hipótesisH1 : µ1 < µ2. Considere los siguientesestadísticos,

Estadístico Día 1 Día 2Promedio 0,6029 0,6529Desv. Estándar 0,12257 0,10579

Fíjese que los promedios muestrales noson tan diferentes.

¾Porqué la grá�ca no muestra la poca diferencia que se ve en los promedios?Respuesta: No se deben comparar los promedios, sino la diferencia en lasdistintas fechas.mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 82 / 98

Comparación de medias: Prueba T para muestrasrelacionadas

(Prueba T para muestras relacionadas)

Suponga que se tiene datos bivariados. Considerando d = x1 − x2, d =promedio de las diferencias, sd = desviación estándar de las diferencias,n = tamaño de las muestra y µd = media poblacional de las diferencias.Entonces,

Estadística de prueba: tc =d

sd/√n

Hip. Nula Hip. Alternativa Rechace H0 si Valor pH0 : µd = 0 H1 : µd 6= 0 |tc| > t1−α/2(n− 1) 2[1− P(T < |tc|)]H0 : µd ≤ 0 H1 : µd > 0 tc > t1−α(n− 1) 1− P(T < |tc|)H0 : µd ≥ 0 H1 : µd < 0 tc < −t1−α(n− 1) 1− P(T < |tc|)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 83 / 98

Comparación de medias: Prueba T para muestrasrelacionadas

Ejemplo (Prueba T para muestras relacionadas)

Basándose en el ejemplo anterior y considere d = x1 − x2. Pruebe lahipótesis de que porcentaje de incremento en el CO2 ha aumentado(µ1 < µ2 o µd < 0). Entonces, las diferencias serían

Muestra de suelo 1 2 3 4 5 6 7d -0,13 -0,04 -0,01 -0,10 -0,10 0,01 0,02

Fíjese que está prueba es igual a una prueba T para una muestra, para lasdiferencias.

Hipótesis: H0 : µd ≥ 0 v/s H1 : µd < 0

Estadístico de prueba: tc =−0,05

0,06/√7= −2, 205

Región de Rechazo: Si α = 0, 05. Entonces rechace H0, sitc < −t0,95(6) = −1, 943.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 84 / 98

Comparación de medias: Prueba T para muestrasrelacionadas

Ejemplo (Prueba T para muestras relacionadas)

Signi�cancia: valor−p = 1− P(T < | − 2, 205|) = 1− P(T < 2, 205).Donde, T ∼ t(6).

1− 0, 975 < valor− p < 1− 0, 950

0, 025 < valor− p < 0, 05

Conclusión: Como tc = −2, 205 < −1, 943 o equivalentementevalor−p <0,05. Entonces, existe su�ciente evidencia muestral paraa�rmar que se ha producido un aumento promedio signi�cativo en día2 en comparación con el día 1.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 85 / 98

Prueba T para muestras relacionadas en SPSS

Ingrese los datos en SPSS como indica la imagen. Descargue los datos desdehttp://bit.ly/eje_relacionadas

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 86 / 98

Prueba T para muestras relacionadas en SPSS

Seleccione el menú de Análisis y siga la misma ruta.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 87 / 98

Prueba T para muestras relacionadas en SPSS

En el lado izquierdo debe seleccionar ambas variables y trasladarlas al ladoderecho. Luego haga click en Aceptar.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 88 / 98

Prueba T para muestras relacionadas en SPSS

El valor−p de la salida, es bilateral, para que coincida con el unilateral hayque dividirlo por 2. Entonces, valor−p = 0, 035.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 89 / 98

Comparación de medias: Prueba T para muestrasindependientes

(Prueba T para muestras independientes)

Suponga que tiene dos muestras independientes y cada una con distribuciónnormal, donde µ1 y µ2 son las medias de las poblaciones, y σ1 y σ2 son lasdesviaciones estándar de las poblaciones (se suponen iguales). Entonces,

Estadística de prueba: tc =x1 − x2

sp

√1n1

+ 1n2

Hip. Nula Hip. Alternativa Rechace H0 si Valor pH0 : µ1 = µ2 H1 : µ1 6= µ2 |tc| > t1−α/2(n1 + n2 − 2) 2[1− P(T < |tc|)]H0 : µ1 ≤ µ2 H1 : µ1 > µ2 tc > t1−α(n1 + n2 − 2) 1− P(T < |tc|)H0 : µ1 ≥ µ2 H1 : µ1 < µ2 tc < −t1−α(n1 + n2 − 2) 1− P(T < |tc|)

donde sp =√

(n1−1)s21+(n2−1)s22n1+n2−2 .

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 90 / 98

Comparación de medias: Prueba T para muestrasindependientes

Ejemplo

Considere un problema de crecimiento bacterial. A cada conjunto decondiciones de empaque, se le asignaron, al azar, 5 cortes de carne. Seasume que los cortes forman un grupo homogéneo. Se mide el número debacterias por centímetro cuadrado.

Condiciones de empaqueAl vacio (T1) 100% CO2 (T2)

620 550640 500680 440630 510670 550

Con α = 0, 05, pruebe la hipótesis de que existe efecto atribuible a lascondiciones de empaque.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 91 / 98

Comparación de medias: Prueba T para muestrasindependientes

Considere los siguientes estadísticos,

Estadístico Al vacío 100% CO2

Promedio x1 = 648 x2 = 510

Desv. Estándar s1 = 25, 884 s2 = 45, 277

Tamaño de muestra n1 = 5 n2 = 5

Fíjese que según el diagrama se veun efecto atribuible al empaque (lascarnes tratadas con 100% CO2 tien-den a diferir en la cantidad de bacte-rias, en comparación con las carnestratadas al vacío).

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 92 / 98

Comparación de medias: Prueba T para muestrasindependientes

Hipótesis: H0 : µ1 = µ2 v/s H1 : µ1 6= µ2

Estadístico de prueba: tc =648− 510

36, 878√

15 + 1

5

= 5, 917

Región de Rechazo: Si α = 0, 05. Entonces rechace H0, si|tc| > t0,975(8) = 2, 306.

Signi�cancia: valor−p = 2[1− P(T < |5, 917|)] = 2[1− P(T <5, 917)] < 2[1− 0, 9995] = 0, 001Donde, T ∼ t(8).Conclusión: Como |tc| = 5, 917 > 2, 306 o equivalentemente valor−p<0,05. Entonces, existe su�ciente evidencia muestral para a�rmar queexiste un efecto, en la cantidad de bacterias promedio, atribuibles a lostipos de empaque.

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 93 / 98

Prueba T para muestras independientes en SPSS

Ingrese los datos en SPSS como indica la imagen. Descargue los datos desdehttp://bit.ly/carne_indep

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 94 / 98

Prueba T para muestras independientes en SPSS

Siga la misma ruta,

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 95 / 98

Prueba T para muestras independientes en SPSS

Seleccione la variable a contrastar (numero de bacterias) , la variable deagrupación (empaques) y de�na los grupos (1= Al vacio y 2=100% CO2.)

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 96 / 98

Prueba T para muestras independientes en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 97 / 98

Prueba T para muestras independientes en SPSS

mrodriguez@ucm.cl (UCM) Introducción 14/03/2011 98 / 98