Diseno Completamente Randomizado o Al Azar

27
DISEÑO COMPLETAMENTE RANDOMIZADO O AL AZAR Este diseño experimental es el más simple de todos los diseños experimentales y útil cuando las unidades experimentales son esencialmente homogéneas; es decir cuando la variación entre ellas es pequeña que al agruparlas en bloques la ganancia en precisión sería insignificante. En este diseño los tratamientos se asignan aleatoriamente a las unidades experimentales sin imponer restricción. Es decir, cada unidad experimental tiene la misma oportunidad o probabilidad de recibir un tratamiento. Esto puede realizarse mediante el uso de números aleatorios. Ejemplo Se desea comparar los rendimientos de tres variedades de un cultivar: A, B y C. Suponga que se cuenta con 15 parcelas(numeradas del 1 al 15) y se decide usar 5 repeticiones por tratamiento. Entonces en la tabla de número aleatorio dada en el libro de Steel y Torrie (tabla A1) se eligió aleatoriamente un punto de partida (puede ser eligiendo un número aleatoria para página, otra para fila y otro para columna) de este punto de partida se elige verticalmente y en forma consecutiva 15 números aleatorios de tres dígitos, luego se rankea estos números asignando el número 1 al menor, el número 2 al siguiente y así sucesivamente hasta llegar asignar el número 15 al mayor de todo. Los 5 primeros números aleatorios da origen a las parcelas (de acuerdo al rango asignado) las parcelas que se le aplicarán el tratamiento A, los 5 siguiente el tratamiento B y los 5 últimos las parcelas que se le aplicarán el tratamiento C. Suponga se obtuvo los siguientes números aleatorios: Número aleatorio 118 701 789 965 688 Rango (Tratamiento A) 1 8 9 15 7 Número aleatorio 638 901 841 396 802 Rango (Tratamiento B) 5 13 11 4 10 Número aleatorio 687 938 377 392 848 Rango (Tratamiento C) 6 14 2 3 12 Con el R > runif(15) [1] 0.88531918 0.67671878 0.33055180 0.78807129 0.99752578 0.84816566 [7] 0.72926011 0.74283935 0.28981326 0.88392633 0.60864244 0.99716336 [13] 0.49769922 0.80065374 0.08644736 0.88531918 0.67671878 0.33055180 0.78807129 0.99752578 13 6 3 9 14 Tratamiento A 0.84816566 0.72926011 0.74283935 0.28981326 0.88392633 11 7 8 2 12 Tratamiento B 0.60864244 0.99716336 0.49769922 0.80065374 0.08644736 5 15 4 10 1 Tratamiento C Ventajas 1) Este diseño es flexible en cuanto a que el número de tratamiento y repeticiones sólo está limitado por el número de unidades experimentales. 2) El número de repeticiones puede variar de un tratamiento a otro, aunque generalmente lo ideal es tener el mismo número de repeticiones por cada tratamiento

description

DISEÑOS

Transcript of Diseno Completamente Randomizado o Al Azar

  • DISEO COMPLETAMENTE RANDOMIZADO O AL AZAR

    Este diseo experimental es el ms simple de todos los diseos experimentales y til cuando

    las unidades experimentales son esencialmente homogneas; es decir cuando la variacin

    entre ellas es pequea que al agruparlas en bloques la ganancia en precisin sera

    insignificante. En este diseo los tratamientos se asignan aleatoriamente a las unidades

    experimentales sin imponer restriccin. Es decir, cada unidad experimental tiene la misma

    oportunidad o probabilidad de recibir un tratamiento. Esto puede realizarse mediante el uso de

    nmeros aleatorios.

    Ejemplo Se desea comparar los rendimientos de tres variedades de un cultivar: A, B y C.

    Suponga que se cuenta con 15 parcelas(numeradas del 1 al 15) y se decide usar 5 repeticiones

    por tratamiento. Entonces en la tabla de nmero aleatorio dada en el libro de Steel y Torrie

    (tabla A1) se eligi aleatoriamente un punto de partida (puede ser eligiendo un nmero

    aleatoria para pgina, otra para fila y otro para columna) de este punto de partida se elige

    verticalmente y en forma consecutiva 15 nmeros aleatorios de tres dgitos, luego se rankea

    estos nmeros asignando el nmero 1 al menor, el nmero 2 al siguiente y as sucesivamente

    hasta llegar asignar el nmero 15 al mayor de todo. Los 5 primeros nmeros aleatorios da

    origen a las parcelas (de acuerdo al rango asignado) las parcelas que se le aplicarn el

    tratamiento A, los 5 siguiente el tratamiento B y los 5 ltimos las parcelas que se le aplicarn

    el tratamiento C. Suponga se obtuvo los siguientes nmeros aleatorios:

    Nmero aleatorio 118 701 789 965 688

    Rango (Tratamiento A) 1 8 9 15 7

    Nmero aleatorio 638 901 841 396 802

    Rango (Tratamiento B) 5 13 11 4 10

    Nmero aleatorio 687 938 377 392 848

    Rango (Tratamiento C) 6 14 2 3 12

    Con el R

    > runif(15)

    [1] 0.88531918 0.67671878 0.33055180 0.78807129 0.99752578 0.84816566

    [7] 0.72926011 0.74283935 0.28981326 0.88392633 0.60864244 0.99716336

    [13] 0.49769922 0.80065374 0.08644736

    0.88531918 0.67671878 0.33055180 0.78807129 0.99752578

    13 6 3 9 14 Tratamiento A

    0.84816566 0.72926011 0.74283935 0.28981326 0.88392633

    11 7 8 2 12 Tratamiento B

    0.60864244 0.99716336 0.49769922 0.80065374 0.08644736

    5 15 4 10 1 Tratamiento C

    Ventajas

    1) Este diseo es flexible en cuanto a que el nmero de tratamiento y repeticiones slo est limitado por el nmero de unidades experimentales.

    2) El nmero de repeticiones puede variar de un tratamiento a otro, aunque generalmente lo ideal es tener el mismo nmero de repeticiones por cada tratamiento

  • 3) El anlisis estadstico es simple, aun cuando se pierde unidades experimentales o tratamientos completos, el diseo se mantiene es decir sigue siendo un diseo completamente

    al azar

    4) El nmero de grados de libertad para estimar el error experimental es mximo, esto mejora la precisin del experimento, lo cual toma mayor importancia con experimento

    pequeo (en aquellos cuyos grados de libertad para el error es menor a 20).

    Desventaja

    Su principal desventaja es su ineficiencia, debido a que el error incluye toda la variacin entre

    las unidades experimentales excepto a la debida a los tratamientos.

    Diseo completamente Randomizado con una observacin por unidad experimental

    Cuadro de datos: Suponga que se desea comparar t tratamientos. El tratamiento i cuenta con

    in repeticiones y de cada unidad experimental se obtiene una observacin. Luego, se obtiene

    el siguiente cuadro de datos:

    Totales N de

    observaciones

    Media

    Tratamiento

    1 11Y 12Y 11nY 1.Y 1n 1.Y

    2 21Y 22Y 22nY 2.Y 2n 2.Y

    t

    1tY 2tY ttnY .tY tn .tY

    Totales ..

    1 1

    int

    ij

    i j

    Y Y

    .1

    t

    i

    i

    n n

    .....

    YY

    n

    Donde: .1

    in

    i ij

    j

    Y Y

    , .. iii

    YY

    n , para 1, 2, ,i t

    Modelo aditivo lineal

    ij i ijY para 1, 2, ,i t

    1, 2, , ij n

    donde:

    ijY = Es la observacin o respuesta que se obtiene de la unidad experimental que

    constituye la j-sima repeticin del tratamiento i .

    = Es el parmetro comn para todos los tratamientos llamado media comn.

    i = Es el parmetro que representa el efecto verdadero del i -simo tratamiento.

    ij = Es un componente aleatorio que representa el efecto verdadero de la

  • j -sima unidad experimental sujeta al tratamiento i, llamado comnmente error.

    Para las pruebas de hiptesis se asume que ij es una variable independiente distribuida

    normalmente con media cero y variancia comn 2 (esto es, 2~ 0,ij N ).

    En un diseo experimental de acuerdo con el tipo de efecto que se desea analizar se presenta

    dos tipos de modelo:

    Modelo de efectos fijos (modelo I) Ocurre cuando los niveles del factor son especificado o

    fijado por el investigador.

    Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son elegidos al

    azar de una poblacin grande.

    Anlisis de modelos de efectos fijos

    En un modelo de efectos fijos, los efectos de los tratamientos son definidos como

    desviaciones con respecto a la media comn, de manera tal que:

    1 1

    0int

    i

    i j

    Estimacin de parmetros: Para realizar la estimacin de parmetros se usar el mtodo de

    los mnimos cuadrados, el cual consiste en encontrar los valores de y i ( 1, 2,i t ) que

    minimiza la suma de cuadrados de los errores:

    2

    2

    1 1 1 1

    i in nt t

    ij ij i

    i j i j

    Q Y

    Estos valores sern denotados por y i ( 1, 2,i t ).

    Aplicando este mtodo se tiene:

    1 1 ,

    2 0i

    i

    nt

    ij i

    i j

    QY

    1 ,

    2 0i

    i

    n

    ij i

    ii

    QY

    , para 1, 2,i t

    Lo cual es equivalente a:

    . ..1

    int

    i

    i j

    n Y

    . i i i in n Y para 1, 2,i t

  • Al sistema de ecuaciones dado anteriormente se le llama sistema de ecuaciones normales, la

    cual tiene mltiples soluciones. Para obtener una solucin se aplica restricciones:

    1

    0t

    i i

    i

    n

    Con esta restriccin el sistema se reduce a:

    . ..n Y

    . i i i in n Y para 1, 2,i t

    Resolviendo se tiene la siguiente solucin:

    ....

    .

    Y

    Yn

    ...

    ii

    i

    YY

    n

    ..i iY Y para 1, 2,i t

    Al valor

    ij iY

    .ij iY Y , para 1, 2,i t , 1, 2, ij n

    se le llama valor ajustado o predicho de la j -sima repeticin del tratamiento i .

    De esto se puede obtener los residuos del modelo:

    ij ij ije Y Y

    .ij ij ie Y Y , para 1, 2,i t , 1, 2, ij n

    Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulacin

    de animales sometidos a 4 dietas diferentes: A, B, C y D, se realiz un experimento con 24

    animales de caractersticas similares. Las dietas fueron asignadas aleatoriamente entre los

    animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a

    continuacin.

    Tratamientos

    A B C D

    62 63 68 56

    60 67 66 62

    63 71 71 60

    59 64 67 61

    65 68 63

  • 66 68 64

    63

    59

    .iY 244 396 408 488

    in 4 6 6 8

    .iY 61 66 68 61

    Luego, el modelo aditivo lineal est dado por:

    ij i ijY para 1, 2, 3 y 4i

    1, 2, , ij n

    1 2 3 44, 6 y 8n n n n

    donde:

    ijY = Es el tiempo de coagulacin que se obtiene del j-simo animal que recibi la dieta

    i .

    = Es la media del tiempo de coagulacin que se obtiene con estos experimentos

    i = Es el parmetro que representa el efecto verdadero del i -sima dieta.

    ij = Es un componente aleatorio que representa el efecto verdadero del

    j -simo animal sujeta a la dieta i, llamado comnmente error.

    > coag Tiempo dieta ypi ypi

    A B C D

    61 66 68 61

    > ype ype

    [1] 64

    > efectoi efectoi

    A B C D

    -3 2 4 -3

    > mod mod

    Call:

    lm(formula = Tiempo ~ dieta)

    Coefficients:

  • (Intercept) dietaB dietaC dietaD

    6.100e+01 5.000e+00 7.000e+00 -3.333e-15

    Los residuos ( .ij ij ie Y Y ) estn dados por:

    > ei ei

    1 2 3 4 5

    1.000000e+00 -1.000000e+00 2.000000e+00 -2.000000e+00 -3.000000e+00

    6 7 8 9 10

    1.000000e+00 5.000000e+00 -2.000000e+00 -1.000000e+00 1.402687e-16

    11 12 13 14 15

    1.125131e-16 -2.000000e+00 3.000000e+00 -1.000000e+00 1.125131e-16

    16 17 18 19 20

    1.125131e-16 -5.000000e+00 1.000000e+00 -1.000000e+00 2.924635e-17

    21 22 23 24

    2.000000e+00 3.000000e+00 2.000000e+00 -2.000000e+00

    Los valores ajustados o predichos ( .ij iY Y ) estn dados por:

    > yest yest

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

    61 61 61 61 66 66 66 66 66 66 68 68 68 68 68 68 61 61 61 61 61 61 61 61

    Anlisis de Variancia (Modelo I)

    En un modelo de efectos fijos, es de inters en probar la siguiente hiptesis:

    0 1 2: 0tH , contra

    : 0a iH , para al menos un i .

    Si hacemos

    i i , para 1, 2,i t

    entonces un estimador de i est dado por .i iY y las hiptesis dados anteriormente puede

    ser expresado como:

    0 1 2: tH , contra

    :aH al menos dos i son diferentes

    El procedimiento de prueba adecuado para probar estas hiptesis es el Anlisis de Variancia,

    el cual consiste en descomponer la variabilidad total en sus fuentes. Esto es,

    2 22

    .. . .. .

    1 1 1 1 1

    i in nt t t

    ij i i ij i

    i j i i j

    Y Y n Y Y Y Y

    donde:

  • 2

    22 ..

    ..

    1 1 1 1 .

    i in nt t

    ij ij

    i j i j

    YSCTotal Y Y Y

    n = Medida de la variacin total

    2 2

    2. ..

    . ..

    1 1 .

    t ti

    i i

    i i i

    Y YSCTrat n Y Y

    n n = Medida de la variacin que existe entre los

    tratamientos.

    2

    22 .

    .

    1 1 1 1 1

    i in nt t ti

    ij i ij

    i j i j i i

    YSCE Y Y Y

    n = Medida de la variacin que existe dentro de

    cada tratamiento.

    Se puede observar que:

    SCE SCTotal SCTrat

    Adems al trmino:

    2

    ..

    .

    YTC

    n

    Cuadrados Medios y sus Valores Esperados: Los cuadrados medios se define como el

    cociente entre la suma de cuadrados y sus respectivos grados de libertad. Para un DCA se

    tiene:

    / 1CMTrat SCTrat t

    ./CME SCE n t Se puede demostrar que para modelo de efectos fijo (modelo I):

    2

    2 1

    1

    t

    i i

    i

    n

    E CMTratt

    2E CME

    Para modelo de efectos aleatorio (modelo II)

    2 2dE CMTrat r , siendo

    2

    1

    i

    i

    i

    d

    nn

    nr

    t

    2E CME

    Se puede observar el CME es un estimador insesgado de la variancia comn 2

    Luego, esto puede ser representado en el siguiente cuadro llamado cuadro de ANVA

  • Fuente de

    Variacin

    Suma de

    Cuadrados

    Grados de

    Libertad

    Cuadrados Medios cF

    Entre

    Tratamiento SCTrat 1t / 1CMTrat SCTrat t CMTrat

    CME

    Dentro de

    Tratamiento SCE

    .n t ./CME SCE n t

    Total SCTotal . 1n

    Entonces, bajo la asuncin de que los errores son variables aleatorias independientes

    distribuidas normalmente con media cero y variancia comn y bajo la 0H se puede demostrar

    que

    .1,~

    t n t

    CMTratF F

    CME

    Luego para probar 0H se puede usar esta Estadstica de Prueba, se rechaza 0H si

    .1 ; 1,c t n tF F

    .

    Coeficiente de Variabilidad: Una medida que permite medir cuan homogneo el conjunto de

    unidades experimentales usadas est dado por el coeficiente de variabilidad, el cual se define:

    ..

    100CME

    cvY

    En experimentos agrcolas se considera un coeficiente aceptable si 25%cv .

    Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulacin

    de animales sometidos a 4 dietas diferentes: A, B, C y D, se realiz un experimento con 24

    animales de caractersticas similares. Las dietas fueron asignadas aleatoriamente entre los

    animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a

    continuacin.

    Tratamientos

    A B C D

    62 63 68 56

    60 67 66 62

    63 71 71 60

    59 64 67 61

    65 68 63

    66 68 64

    63

    59

    .iY 244 396 408 488

    in 4 6 6 8

    .iY 61 66 68 61

  • 4..

    1 1

    62 60 59 1536in

    ij

    i j

    Y Y

    , 4

    2 2 2 2

    1 1

    62 60 59 98644in

    ij

    i j

    Y

    ,

    22

    ..

    .

    153698304

    24

    YTC

    n ,

    2 2 2 2 24.

    1

    244 396 408 48898532

    4 6 6 8

    i

    i i

    Y

    n

    24.

    1

    98532 98304 228i

    i i

    YSCTrat TC

    n ,

    42

    1 1

    98644 98304 340in

    ij

    i j

    SCTotal Y TC

    340 228 112SCE SCTotal SCTrat

    Fuente de Variacin SC GL CM F

    Entre Dietas (tratamientos) 228 3 76 13.57

    Dentro de dietas (residual) 112 20 5.6

    Total 340 23

    1 2 3 4: 0pH

    aH : Al menos un 0i

    7613.57

    5.6c

    CMTratF

    CME

    0.95,3,20 3.10F , 0.99,3,20) 4.94F , Se rechaza 0H

    Diagnstico de cumplimiento de Supuestos

    1.- Introduccin

    Las suposiciones que se hacen sobre el modelo para realizar estimacin por intervalo y

    pruebas de hiptesis sobre los parmetros son:

    1.- modelo aditivo lineal

    2.- El trmino de error tiene media cero.

    3.- El trmino de error tiene variancia constante 2 . 4.- Los errores no estn correlacionados.

    5.- Los errores se distribuyen normalmente.

    Las suposiciones 4 y 5 implican que los errores son variables aleatorias independientes.

    Violaciones de estos supuestos, sobretodo de los supuestos 3, 4 y 5, le resta validez a la

    prueba de hiptesis realizada en el ANVA y a las pruebas de comparaciones mltiples.

    En este captulo, se presenta varios mtodos tiles para realizar el diagnstico y tratamiento

    de las violaciones de las suposiciones bsicas en el anlisis de variancia

  • 2.- Definicin de Residuos

    Un residuo se define:

    ij ij ije Y Y , 1,2, , ij n y 1,2, ,i t

    donde:

    ijY es una observacin y ijY el valor ajustado correspondiente. Esto es

    .. . .. . ij i i iY Y Y Y Y

    Desde que el residuo es una desviacin entre el valor observado y el ajustado, entonces es una

    medida de variabilidad no explicada por el modelo. De esta manera, cualquier violacin de

    las suposiciones del modelo debe ser mostrada por el residual. Tambin puede pensarse que

    los residuos son valores observado de los errores.

    Propiedades de los residuos

    1) La media de los residuos es igual a cero. 2) La variancia promedio aproximada es:

    2

    1 1

    1 1

    int

    ij

    i j

    t t

    i i

    i i

    eSCE

    CME

    n t n t

    3) Los residuos no son independientes. Esta dependencia de los residuos tiene un pequeo

    efecto sobre su uso para investigar la calidad del modelo mientras 1

    t

    i

    i

    n

    no sea pequeo.

    Residuo Estandarizado

    Muchas veces es til trabajar con los residuos estandarizados, los cuales se define:

    ,1ij

    ij

    i i

    ed

    CMError h

    , 1, 2, , ij n y 1, 2, ,i t

    Siendo el elemento i de la diagonal de la siguiente matriz hat -

    H X X X X donde

    1 1 1 1

    2 2 2 2

    1 1 1 1

    1 1 1 1

    1 1 1 1t t t t

    n n n n

    n n n n

    n n n n

    1 1 0 0

    1 0 1 0X

    1 0 0 1

    , -

    X X es la inversa generalizada de X X

    El residuo estandarizado tiene media cero y una variancia aproximadamente igual a la unidad.

  • Los residuos estandarizados son tambin tiles para detectar violaciones al supuesto de

    normalidad. Si los errores estn distribuido normalmente, entonces aproximadamente el 68%

    de los residuales podran caer entre 1 y +1, y aproximadamente el 95% podran caer entre 2 y +2 desviaciones sustanciales de estos lmites indican violacin potencial de la suposicin de

    normalidad. Si n es pequeo, se reemplaza los lmite 1 y 2 con los correspondiente

    valores de la distribucin de GLEt . El examen de los residuales estandarizados hecho de esta

    manera es tambin til para identificar valores extremos.

    Chequeo de supuestos de Normalidad

    1) Para chequear este supuestos se debe realizar el grfico en papel de probabilidad normal de los residuales estandarizado y tener la observacin del prrafo anterior.

    2) Realizar la prueba de normalidad de Shapiro Wild, o de Anderson Darling

    Chequeo de Homogeneidad de variancia

    1) Grfico de Caja, este grfico no slo permite visualizar si existe homogeneidad de varianza, sino si existe valores extremos. Adems permite tambin realizar una

    comparacin grfica entre tratamientos. (solo para DCA)

    2) Grfico de los residuales versus los valores ajustados. Aparte de chequear homogeneidad de varianza, permite detectar valores extremos y falta de ajuste del

    modelo. Todos los residuales debe distribuirse uniformemente en una banda de ancho

    del mismo ancho

    3) Grfico de los valores ajustados versus la raz cuadrada de los valores absolutos de los residuales estandarizados: el paquete R proporciona este grfico ms la curva estimada

    de la regresin Lowes que se obtiene con estos valores. El Lowes no debe tener una

    tendencia marcada. (dado en la pizarra en clase)

    Grfico de residuos versus valores estimados y

    Este grfico es til para detectar varios tipos comunes de modelos inadecuados, y puede ser

    de las siguientes formas: (dado en la pizarra en clase)

    Los residuos caen dentro de una banda, el modelo es adecuado

    4) Pruebas de Homogeneidad de variancia. Prueba de Bartlett o de Levene (solo para DCA)

    a) Prueba de Bartlett para homogeneidad de Variancia en DCA

    2 2 2

    0 1 2: tH

    :aH Al menos dos 2

    i son diferentes

    la estadstica de prueba est dado por

    2 2 2

    11 1

    1ln 1 ln ~

    t t a

    c i i i ti i

    n t CME n SC

    / 0H es verdadera

  • donde:

    2

    .

    12

    1

    in

    ij i

    j

    i

    i

    Y Y

    Sn

    , siendo

    1

    in

    ij

    j

    i

    i

    Y

    Yn

    , para 1, 2, ,i t ,

    22 1

    1 1

    1t

    i i

    ipt t

    i i

    i i

    n SSCE

    CME S

    n t n t

    y

    11

    1 1 11

    3 1 11

    t

    ti i

    i

    i

    Ct n

    n

    Se rechaza 0H a un nivel de significacin , si

    2 2

    1 , 1c t

    .

    Ejemplo: Con los datos de tiempo de Coagulacin

    Tratamientos

    A B C D

    62 63 68 56

    60 67 66 62

    63 71 71 60

    59 64 67 61

    65 68 63

    66 68 64

    63

    59

    .iY 244 396 408 488

    in 4 6 6 8

    .iY 61 66 68 61

    2

    1

    in

    ij

    j

    Y

    14894 26176 27758 29816

    2

    iS 3.333333 8 2.8 6.857143

    2 2 2 2

    0 : A B C DH

    :aH Al menos dos 2

    i son diferentes

    1 1 1 1 1 1

    1 ( ) 1.0917993* 4 1 3 5 5 7 3 5 5 7

    C

    21

    20ln 5.6 3ln 3.333333 5ln 8 5ln 2.8 7ln 6.8571431.091799

    c

    2 1.667956c

    2

    0.95,37.815 , se acepta 0H

    > coag coag

    Tiempo dieta aleatorizacion

    1 62 A 4

    2 60 A 15

    3 63 A 24

    4 59 A 9

  • 5 63 B 12

    6 67 B 18

    7 71 B 22

    8 64 B 17

    9 65 B 8

    10 66 B 5

    11 68 C 2

    12 66 C 19

    13 71 C 13

    14 67 C 7

    15 68 C 23

    16 68 C 20

    17 56 D 1

    18 62 D 14

    19 60 D 3

    20 61 D 6

    21 63 D 10

    22 64 D 11

    23 63 D 16

    24 59 D 21

    > mod summary(aov(mod))

    Df Sum Sq Mean Sq F value Pr(>F)

    dieta 3 228 76.0 13.57 4.66e-05 ***

    Residuals 20 112 5.6

    ---

    Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    > par(mfrow=c(2,2))

    > plot(mod)

  • 61 63 65 67

    -6-2

    02

    46

    Fitted values

    Resid

    uals

    Residuals vs Fitted

    7

    17

    5

    -2 -1 0 1 2

    -2-1

    01

    2

    Theoretical Quantiles

    Sta

    ndard

    ized r

    esid

    uals

    Normal Q-Q

    7

    17

    5

    61 63 65 67

    0.0

    0.5

    1.0

    1.5

    Fitted values

    Sta

    ndard

    ized r

    esid

    uals

    Scale-Location717

    5

    0.00 0.10 0.20

    -2-1

    01

    2

    Leverage

    Sta

    ndard

    ized r

    esid

    uals

    Cook's distance 0.5

    0.5

    Residuals vs Leverage

    7

    17

    5

    > ri sort(ri)

    17 5 4 12 8 24 2

    -2.2587698 -1.3887301 -0.9759001 -0.9258201 -0.9258201 -0.9035079 -0.4879500

    14 9 19 10 11 15 16

    -0.4629100 -0.4629100 -0.4517540 0.0000000 0.0000000 0.0000000 0.0000000

    20 18 6 1 21 23 3

    0.0000000 0.4517540 0.4629100 0.4879500 0.9035079 0.9035079 0.9759001

    22 13 7

    1.3552619 1.3887301 2.3145502

    > shapiro.test(ri)

    Shapiro-Wilk normality test

    data: ri

    W = 0.9822, p-value = 0.9322

    > ad.test(ri)

    Anderson-Darling normality test

    data: ri

    A = 0.2598, p-value = 0.6814

    > bartlett.test(Tiempo~dieta,coag)

    Bartlett test of homogeneity of variances

  • data: Tiempo by dieta

    Bartlett's K-squared = 1.668, df = 3, p-value = 0.6441

    b) Prueba de Levene para Homogeneidad de Variancia DCA

    La prueba de Levene es una alternativa a la prueba de Bartlett. Es menos sensitivo que la

    prueba de Bartlett al incumplimiento del supuesto de normalidad. Si Se tiene una fuerte

    evidencia que sus datos provienen de una distribucin normal o casi normal, entonces la

    prueba de Bartlett es mejor.

    Para realizar la prueba de Levene se sigue el siguiente procedimiento:

    2 2 2

    0 1 2: tH

    :aH Al menos dos 2

    i son diferentes

    Estadstico de prueba

    Se extrado k muestra aleatoria, la i -sima muestra es de tamao in , en cada muestra se ha

    observado una caracterstica Y . Luego, el estadstico de prueba de Levene se define:

    2

    1

    2

    1 1

    1i

    k

    i i

    i

    nk

    ij i

    i j

    n k n Z Z

    W

    k Z Z

    donde ijZ puede ser:

    1.- ij ij iZ Y Y , siendo iY es la media de las observaciones obtenida de la muestra i

    2.- ij ij iZ Y Y , siendo iY es la mediana de las observaciones obtenida de la muestra i .

    3.- ij ij iZ Y Y , siendo iY es la media truncada del 10% de las observaciones obtenida de la

    muestra i .

    La media truncada del 10% calcula la media de los datos comprendido entre el 5to percentil y

    el percentil 95.

    En (1), (2) y (3) ijY es la j-sima observacin sobre la variable Y obtenida de la muestra i . La

    seleccin de cul de los ijZ determina la robustez y poder de la prueba de Levine. Por

    robustez se entiende la habilidad de la prueba de no detectar falsamente variancias desiguales

    cuando los datos no se distribuyen normalmente y las variancias son iguales. Por poder de

    prueba se entiende a la habilidad de la prueba detectar variancias desiguales cuando de hecho

    estas son desiguales.

    El artculo original de Levene propuso la prueba usando solamente la media. Brown y

    Forsythe (1974) extendieron la prueba usando la mediana y la media truncada. Ellos mediante

    estudios realizados con el mtodo de Monte Carlos llegaron a la conclusin de que el uso de

    la media truncada tiene mejor comportamiento cuando los datos siguen una distribucin de

    Cauchy y la mediana cuando los datos siguen una distribucin Chi cuadrado con 4 grados de

  • libertad (esto es para distribuciones sesgada). En cambio el uso de la media proporciona mejor

    poder para distribuciones simtricas de cola moderada.

    Aunque la eleccin ptima depende de la distribucin subyacente, la definicin sobre la base

    de la mediana se recomienda como la opcin que ofrece buena robustez frente a muchos tipos

    de datos no normales, manteniendo una buena potencia. Si usted tiene conocimiento de la

    distribucin subyacente de los datos, esto puede indicar mediante una de las otras opciones.

    En la prueba de Levene se rechaza la hiptesis que la variancia son iguales si

    1 , 1,k N kW F

  • > leveneTest(Tiempo~dieta,coag)

    Levene's Test for Homogeneity of Variance (center = median)

    Df F value Pr(>F)

    group 3 0.6492 0.5926

    20

    c) Prueba de Score para variancia del error no constante

    Breusch y Pagan (1979), y Cook y Weisberg (1983) sugiere una prueba de puntaje (score) para

    la variancia de los errores no constante en un modelo lineal, basado sobre la relacin:

    0 1 1var i i p ipg z z Aqu los iz son predictores de la variancia del error y la funcin g de los predictores

    lineales 0 1 1i p ipz z no se necesita ser conocido. En aplicaciones tpicas son los mismo

    predictores del modelo lineal (esto es los x s), o slo hay un z , el valor ajustado y desde el

    modelo lineal, en tal caso se realiza una prueba de dependencia de la dispersin con los niveles.

    Esta prueba ha sido implementada en la librera car del paquete R mediante la funcin ncvTest

    para probar la dependencia sobre los niveles. En este caso la hiptesis planteada est dado por:

    0 : La variancia del error es constanteH

    Contra la alternativa

    1 : La variancia del error no es constanteH

    > library(car)

    > ncvTest(mod)

    Non-constant Variance Score Test

    Variance formula: ~ fitted.values

    Chisquare = 0.1454082 Df = 1 p = 0.7029627

    Chequeo de independencia

    Grfico de los residuales versus aleatorizacin o orden de observacin.

    a) Los residuales versus la secuencia en que fueron recolectados o orden de aleatorizacin:

  • Figura No 1, autocorrelacin positiva

    5 10 15 20

    -4-2

    02

    4

    tiempo

    resid

    ua

    les

    Figura No 2, autocorrelacin negativa

    5 10 15 20

    -6-4

    -20

    24

    6

    tiempo

    resid

    ua

    les

  • 24222018161412108642

    5.0

    2.5

    0.0

    -2.5

    -5.0

    Orden de observacin

    Re

    sid

    uo

    vs. orden(la respuesta es Tiempo)

    > mod ei data.frame(coag,ei)

    Tiempo dieta aleatorizacion ei

    1 62 A 4 1.000000e+00

    2 60 A 15 -1.000000e+00

    3 63 A 24 2.000000e+00

    4 59 A 9 -2.000000e+00

    5 63 B 12 -3.000000e+00

    6 67 B 18 1.000000e+00

    7 71 B 22 5.000000e+00

    8 64 B 17 -2.000000e+00

    9 65 B 8 -1.000000e+00

    10 66 B 5 1.402687e-16

    11 68 C 2 1.125131e-16

    12 66 C 19 -2.000000e+00

    13 71 C 13 3.000000e+00

    14 67 C 7 -1.000000e+00

    15 68 C 23 1.125131e-16

    16 68 C 20 1.125131e-16

    17 56 D 1 -5.000000e+00

    18 62 D 14 1.000000e+00

    19 60 D 3 -1.000000e+00

    20 61 D 6 2.924635e-17

    21 63 D 10 2.000000e+00

    22 64 D 11 3.000000e+00

    23 63 D 16 2.000000e+00

    24 59 D 21 -2.000000e+00

    Para construir el siguiente archivo: aleat.txt copiar el conjunto de datos obtenidos con el

    comando data.frame y pegar en la hoja de trabajo del Minitab desplazar los nombres a una casilla

    a la derecha e eliminar la columna de numeracin de los datos copiar los datos obtenidos en una

    hoja de excel y ordenar el conjunto de datos de acuerdo a la columna de aleatorizacin de menor

    a mayor, luego copiar el conjunto de datos obtenidos en block de notas grave este archivo con

  • un nobre diferente a coag.txt, por ejemplo aleat.txt.

    > aleat aleat

    Tiempo dieta aleatorizacion ei

    1 56 D 1 -5

    2 68 C 2 0

    3 60 D 3 -1

    4 62 A 4 1

    5 66 B 5 0

    6 61 D 6 0

    7 67 C 7 -1

    8 65 B 8 -1

    9 59 A 9 -2

    10 63 D 10 2

    11 64 D 11 3

    12 63 B 12 -3

    13 71 C 13 3

    14 62 D 14 1

    15 60 A 15 -1

    16 63 D 16 2

    17 64 B 17 -2

    18 67 B 18 1

    19 66 C 19 -2

    20 68 C 20 0

    21 59 D 21 -2

    22 71 B 22 5

    23 68 C 23 0

    24 63 A 24 2

    > plot(ei~aleatorizacion,ty="l",aleat)

    5 10 15 20

    -4-2

    02

    4

    aleatorizacion

    RE

    SID

    1

    > mod1 library(zoo)

    > library(lmtest)

    > dwtest(mod1,alternative="two.sided")

    Durbin-Watson test

  • data: mod1

    DW = 2.3125, p-value = 0.396

    alternative hypothesis: true autocorrelation is not 0

    > dwtest(mod1,alternative="less")

    Durbin-Watson test

    data: mod1

    DW = 2.3125, p-value = 0.198

    alternative hypothesis: true autocorrelation is less than 0

    > dwtest(mod1,alternative="greater")

    Durbin-Watson test

    data: mod1

    DW = 2.3125, p-value = 0.802

    alternative hypothesis: true autocorrelation is greater than 0

    Grfico de leverage vs residuales estandarizados

    Permite detectar valores extremos y leverages y corresponde al cuarto grfico que

    presenta el comando plot(mod).

    Estimacin del Nmero de Rplicas para la prueba de F en el ANVA en un DCA

    Para probar la 0 1 2: 0tH se usa la estadstica

    0

    CMTratF

    CME

    Esta estadstica tiene una distribucin F central con 1 1v t y 2 1v r t grados de

    libertad si 0H es verdadera.

    Dentro de una prueba de hiptesis se puede cometer dos tipos de errores. Error tipo I y

    error tipo II. Generalmente una prueba de hiptesis el investigador fija la probabilidad

    de cometer error tipo I (el nivel de significacin ) pero no la probabilidad de cometer error tipo II, . La potencia de prueba es la probabilidad de rechazar la hiptesis nula

    cuando esta es falsa; esto es 1 2 01 , ,1 es falsa

    v vP F F H

    , esta variable F tiene

    una distribucin F no central con 1 1v t , 2 1v r t grados de libertad y parmetro

    de no centralidad

    2

    2

    ir

    . Los valores de los efectos de los tratamientos y de 2 ,

    pueden ser reemplazados por sus estimados basados de un experimento similar o

    preliminar, as como el valor de la variancia comn por el CME. Luego fijando los

    valores de y , se puede hacer un programa en lenguaje R como l se muestra a

    continuacin:

    nrepdca

  • trat1
  • 2 2var ijy

    En este caso el parmetro de inters es la variancia de los efectos 2 . Si 2 0 todos

    los efectos de los tratamientos son iguales, si 2 0 existe variabilidad entre estos

    efectos. En este caso, el inters del investigador es probar si existe una variabilidad

    significativa los efectos de los tratamientos. Esto es

    2

    0 : 0H 2

    1 : 0H

    Se puede demostrar que bajos estas suposiciones ( 2~ 0,ij NID y 2~ 0,i NID ), en el cuadro de ANVA se cumple:

    2 2dE CMTrat r , siendo

    2

    1

    i

    i

    i

    d

    nn

    nr

    t

    2E CME

    Luego, para probar 20 : 0H contra la alternativa 2

    1 : 0H , se puede usar la

    siguiente estadstica de prueba:

    01,~c t n tCMTrat

    F F HCME

    es verdadera

    Se rechaza 20 : 0H a un nivel de significacin si 1 , 1,c t n tF F

    De los esperados cuadrados medios, se puede observar que los estimadores insesgados de 2 y 2 est dado por

    2 CME y 2d

    CMTrat CME

    r

    ,

    respectivamente. Si 1 2 tn n n r , entonces

    2CMTrat CME

    r

    Ejemplo: Una compaa textil que confecciona un tipo de fibra posee un nmero muy

    grande de telares. En la produccin de fibra es importante que produzca fibra con

    resistencia uniforme. Se sospecha, que adicionalmente a la variacin usual en la

    resistencia de las fibras producidas por un telar, existen variaciones en la resistencia de

    fibras producidas entre los telares. Para investigar esto, se selecciona 5 telares al azar y se

    realiza 4 determinaciones por cada telar. Este experimento fue conducido bajo un diseo

    completamente azar. Realice el ANVA y pruebe la hiptesis respectiva.

  • Telares

    T1 T2 T3 T4 T5 42 48 50 55 44

    45 47 52 54 45

    43 49 53 53 46

    44 47 51 54 43

    > telares modte2 modte2

    Call:

    lm(formula = resist ~ telares, data = telares)

    Coefficients:

    (Intercept) telaresb telaresc telaresd telarese

    43.50 4.25 8.00 10.50 1.00

    > summary(aov(modte2)) Df Sum Sq Mean Sq F value Pr(>F)

    telares 4 322.0 80.50 61.14 4.17e-09 ***

    Residuals 15 19.8 1.32

    ---

    Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    2

    0 : 0H 2: 0aH

    En este caso la prueba result altamente significativo ya que

    61.139cCMTrat

    FCME

    con un P-value=0.000000004175.

    Luego los componentes de variancia estimados estn dado por:

    2 1.32CME y 280.5 1.32

    19.7954

    CMTrat CME

    r

    Para ver si esta prueba es vlida se debe realizar un anlisis de residuales

    > par(mfrow=c(2,2))

    > plot(modte2)

  • 44 46 48 50 52 54

    -1.5

    -0.5

    0.5

    1.5

    Fitted values

    Resid

    uals

    Residuals vs Fitted

    1

    2

    9

    -2 -1 0 1 2

    -1.5

    -0.5

    0.5

    1.5

    Theoretical QuantilesS

    tandard

    ized r

    esid

    uals

    Normal Q-Q

    1

    2

    9

    44 46 48 50 52 54

    0.0

    0.4

    0.8

    1.2

    Fitted values

    Sta

    ndard

    ized r

    esid

    uals

    Scale-Location12 9

    -1.5

    -0.5

    0.5

    1.5

    Factor Level Combinations

    Sta

    ndard

    ized r

    esid

    uals

    a c d e btelares :

    Constant Leverage:

    Residuals vs Factor Levels

    1

    2

    9

    > ri shapiro.test(ri)

    Shapiro-Wilk normality test

    data: ri

    W = 0.9308, p-value = 0.1601

    > library(car)

    Loading required package: MASS

    Loading required package: nnet

    > ncvTest(modte2)

    Non-constant Variance Score Test

    Variance formula: ~ fitted.values

    Chisquare = 0.4140372 Df = 1 p = 0.5199275

    > summary(aov(modte2))

    Df Sum Sq Mean Sq F value Pr(>F)

    telares 4 322.0 80.50 61.14 4.17e-09 ***

    Residuals 15 19.8 1.32

    ---

  • Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    > resistencia telar ypi ypi

    a b c d e

    43.50 47.75 51.50 54.00 44.50

    > yp efectoest efectoest

    a b c d e

    -4.75 -0.50 3.25 5.75 -3.75

    > qqnorm(efectoest)

    > qqline(efectoest)

    -1.0 -0.5 0.0 0.5 1.0

    -4-2

    02

    46

    Normal Q-Q Plot

    Theoretical Quantiles

    Sa

    mp

    le Q

    ua

    ntile

    s

    > shapiro.test(efectoest)

    Shapiro-Wilk normality test

    data: efectos1

    W = 0.9334, p-value = 0.6197