ex_j07

12
EXAMEN DE ESTADISTICA Junio 2007 Apellidos: DNI Nombre: GRUPO: 1. Grupos A, B, C, D y E Describa los siguientes histogramas en t´ erminos de centralidad, dispersi´on yasimetr´ ıa. Sit´ ue sobre la gr´afica, y de forma cualitativa, la media, la moda y la mediana. As´ ı mismo, indique a qu´ e funci´on de densidad continua de las estudiadas durante el curso se podr´ ıan ajustar los datos. (1 punto) Respuesta: Histograma de la izquierda : se trata de un histograma bastante sim´ etrico, con un mismo valor de media, moda y mediana. La dispersi´on de los datos es sim´ etrica en torno a la media y si tuvi´ eramos que ajustarlo a una funci´on continua que nosdiera la funci´on de densidad, se ajustar´ ıa a una Normal o a una t de Student. Histograma de la derecha : se trata de un histograma bastante asim´ etrico, con una valor de media mayor que la mediana, y esta ´ ultima a su vez mayor que la moda. La dispersi´on de los datos es hacia la derecha y se trata de un histograma con asimetr´ ıa hacia la derecha. Si tuvi´ eramos que ajustarlo a una funci´on continua que nos diera la funci´on de densidad, se ajustar´ ıa a una χ 2 o a una F de Fisher. 1

description

estadistica

Transcript of ex_j07

  • EXAMEN DE ESTADISTICA Junio 2007

    Apellidos: DNI

    Nombre: GRUPO:

    1. Grupos A, B, C, D y EDescriba los siguientes histogramas en terminos de centralidad, dispersion y asimetra.Situe sobre la grafica, y de forma cualitativa, la media, la moda y la mediana. Asmismo, indique a que funcion de densidad continua de las estudiadas durante el cursose podran ajustar los datos.

    (1 punto)

    Respuesta:

    Histograma de la izquierda: se trata de un histograma bastante simetrico, con unmismo valor de media, moda y mediana. La dispersion de los datos es simetrica entorno a la media y si tuvieramos que ajustarlo a una funcion continua que nos diera lafuncion de densidad, se ajustara a una Normal o a una t de Student.

    Histograma de la derecha: se trata de un histograma bastante asimetrico, con unavalor de media mayor que la mediana, y esta ultima a su vez mayor que la moda. Ladispersion de los datos es hacia la derecha y se trata de un histograma con asimetrahacia la derecha. Si tuvieramos que ajustarlo a una funcion continua que nos diera lafuncion de densidad, se ajustara a una 2 o a una F de Fisher.

    1

  • 2. Grupos A, B, C, D y EQue representa la region de aceptacion cuando hablamos de un contraste de hipotesis?Indique su relacion con el concepto de nivel de confianza. Adjuntese un grafico ilus-trativo.

    (1 punto)

    Respuesta:

    Son todos los valores del estadstico de prueba que llevan a la aceptacion de la hipotesisnula.

    Dado que el estadstico de prueba sigue una determinada distribucion muestral (cono-cida bajo la hipotesis de que H0 es cierta), la region de aceptacion se establece asumien-do un nivel de confianza, o probabilidad de haber aceptado H0 siendo esta correcta.

    En lugar de nivel de confianza, tpicamente se habla de su complementario, el nivelde significacion , o probabilidad de rechazar H0 cuando esta es correcta. Con estanotacion, el nivel de confianza suele expresarse como (1 ), o en tanto por cientocomo 100(1 )%.Otra forma de decir lo mismo es considerar que si se repite un gran numero de veces uncontraste de hipotesis y H0 fuera verdadera, en el 100(1)% de los casos el estadsticode prueba cae en la region de aceptacion y se dice entonces que la hipotesis nula no serechaza con un nivel de confianza (1 ).

    2

  • 3. Grupos A, B, C, D y EUna centralita recibe unas 300 llamadas por hora. Si se sabe que dicha centralita nopuede establecer mas de 12 conexiones por minuto, calcular:

    a) La probabilidad de que reciba una sola llamada en un minuto dado.

    b) La probabilidad de que la capacidad de la centralita quede rebasada en un minutodado.

    (1 punto)

    Respuesta:

    a) Se sigue una distribucion de Poisson, cuya funcion de densidad viene dada por

    p(x;) =x

    x!e.

    El numero promedio de llamadas por minuto sera

    =300 llamadas

    60 minutos= 5 llamadas por minuto.

    La probabilidad que nos piden es

    P (X = 1) = p(1; 5) = 5e5 = 0.0337.

    b) En este caso la probabilidad que nos piden es

    P (X > 12) = 1 P (X 12) = 112

    r=0

    p(r; 15) = 1 0.998 = 0.002.

    3

  • 4. Grupos A, B, C, D y ESe tiene una muestra de 100 datos representados en un histograma con 10 marcas declase. Se establece la hipotesis nula de que la funcion de densidad teorica a la que seajustaran dichos datos es una normal y se aplica un test de bondad del ajuste paracomprobar dicha hipotesis. Los parametros poblacionales de la distribucion se estimana partir de los 100 datos de la muestra. El estadstico de contraste da un valor de15.04. Discutir los niveles de significacion para los cuales se aceptara o rechazara lahipotesis nula.

    (1 punto)

    Respuesta:

    La hipotesis nula se acepta si 2 < 2, , donde el numero de grados de libertad es

    = k p 1 con k = 10 (intervalos), p = 2 (dos parametros poblacionales estimadosa partir de la misma muestra), es decir, = 10 2 1 = 7.Si acudimos a la tabla de la 2 con = 7 vemos

    20.050,7 = 14.067 y

    2

    0.025,7 = 16.013,

    por lo que el valor umbral de estara comprendido entre 0.025 y 0.050. De hecho, eldato del enunciado, 15.04, es justo la media aritmetica de los dos valores anteriores,por lo que una interpolacion lineal nos dara que para < (0.025 + 0.050)/2 = 0.0375aceptaramos la hipotesis nula, y que para > 0.0375 la rechazaramos.

    Nota: usando disttool de MATLAB se obtiene que el valor exacto es

    = 1 chi2cdf(15.04,7)=0.0355.

    4

  • 5. Grupos A, B, C, D y ELa calificacion media de un examen final en un grupo numeroso de alumnos fue de 72puntos, con una varianza de 9. El 10% superior de los alumnos obtuvo un sobresaliente,y el 27% inferior un suspenso. Hallar:

    a) La calificacion mnima del sobresaliente.

    b) La calificacion maxima del suspenso.

    Adjuntar un grafico ilustrativo.

    (1 punto)

    Respuesta:

    a) Sabemos que P (X > SBmin) = 0.10, donde X sigue una distribucion N(72,3).Tipificando la variable se obtiene

    P(

    z >SBmin 72

    3

    )

    = 0.10.

    Mirando en las tablas vemos que la abcisa de la normal tipificada que deja a su derechaun area de 0.10 es aproximadamente 1.28. Por tanto,

    SBmin 723

    1.28 SBmin = 75.84.

    b) De forma similar tenemos P (X < SSmax) = 0.27, que tipificando escribimos como

    P(

    z 72 SSmax

    3

    )

    .

    Recorriendo de nuevo la tabla de la normal tipificada encontramos que dicha probabi-lidad se obtiene para una abcisa de 0.61, por lo que podemos escribir

    72 SSmax3

    0.61 SSmax = 70.17.

    5

  • 6. Grupos A, B y ESupongamos que el coeficiente de correlacion en la regresion lineal simple entre lasvariables X e Y es 0.50.

    a) Que tanto por ciento de variacion total de la variable Y no explica la recta deregresion Y sobre X (es decir, Y = a+ bX)?

    b) Cuando aumenta el valor de la variable X, en promedio, aumenta, disminuye o semantiene constante el valor de la variable Y ?

    (1 punto)

    Respuesta:

    a) El coeficiente de determinacion relaciona la variacion explica con la variacion totalmediante

    r2 = 0.25 =VE

    VT=

    VT VNEVT

    = 1 VNEVT

    VNEVT

    = 1 r2 = 0.75,

    es decir, un 75%.

    b) Como r < 0, la pendiente de Y sobre X es negativa y, por tanto, la relacion entreX e Y es inversa. Cuando X aumenta, en promedio Y disminuye.

    6

  • 7. Grupos C y DHallar la probabilidad de que entre 100000 cifras escogidas al azar entre 0 y 9 (inclu-sives), el numero 6 salga menos de 9971 veces.

    (1 punto)

    Respuesta:

    Tenemos una distribucion binomial con probabilidad de exito p = 1/10 = 0.1. Comoel numero de ensayos es enorme, la unica opcion es aproximar por una distribucionnormal. En este caso se verifican ampliamente las condiciones para tal aproximacion

    = np = 105 0.1 = 104 > 5

    =npq =

    105 0.1 0.9 =

    9000 = 94.87 > 5

    Podemos entonces calcular la probabilidad requerida mediante

    P (x < 9971) = P (x 9970) = P (x < 9970.5) = P(

    z 0.31) = 0.378

    7

  • 8. Grupos A, B, C, D y EUn examen de oposicion consiste en la extraccion de 3 bolas de un total de 34, corres-pondientes a los 34 posibles temas del examen. Un opositor se ha preparado x temas.

    a) Indique la formula generica de la probabilidad de que al menos uno de los temaspreparados caiga en el examen.

    b) Aplique la expresion anterior para 5, 10, 15, 20, 25 y 30 temas preparados.

    c) Realice una representacion grafica de la probabilidad frente al numero de temaspreparados.

    (2 puntos)

    Respuesta:

    a) Sea el suceso A = {saberse al menos un tema del examen}. La probabilidad quenos piden es precisamente

    P (A) = 1 P (A).Si llamamos x al numero de temas preparados por el opositor, y teniendo en cuentaque la extraccion de las bolas ha de realizarse necesariamente sin reemplazamiento,podemos calcular

    P (A) =34 x34

    33 x33

    32 x32

    ,

    Por lo que finalmente podemos escribir

    P (A) = 1 34 x34

    33 x33

    32 x32

    .

    b)

    x 5 10 15 20 25 30P (A) 0.3894 0.6618 0.8381 0.9392 0.9860 0.9993

    c)

    8

  • 9. Grupos A, B, C, D y ESe quiere saber si la temperatura de la superficie del mar en el Atlantico y en elPacfico tropical ha variado desde 1970 a 2006, en comparacion con el perodo entre1950 y 1969. Se toman dos series temporales caractersticas de la temperatura en elAtlantico y en el Pacfico, llamadas respectivamente ATL-3 y NINO-3. En la siguientetabla aparecen los datos correspondientes a ambos ndices de temperatura. Se trata dedatos mensuales, con un total de 240 datos en el primer perodo, y 444 en el segundo.

    ATL-3 NINO-319501969 x = 26.0066 oC x = 25.8661 oC

    s = 0.3387 oC s = 0.7341 oC19702006 x = 26.2236 oC x = 25.9876 oC

    s = 0.3488 oC s = 0.9594 oC

    a) Para cada cuenca, establezca un intervalo para la diferencia de medias entre ambosperodos (con un nivel de confianza del 95%).

    b) Analice, con un nivel de confianza del 95%, en cual de las dos cuencas se ha pro-ducido un cambio significativo en la media, si es que lo ha habido.

    c) En las cuencas en las que no se haya producido un cambio en la media, analice silos dos periodos temporales pertenecen a la misma poblacion.

    (2 puntos)

    Respuesta:

    a) Como el numero de datos es grande, el intervalo de confianza para la diferencia demedias puede calcularse como (distribuciones normales con varianzas desconocidas)

    I =

    (X1 X2) z/2

    S21n1

    +S22n2

    ,

    que con los datos del enunciado conduce a

    IATL-3 =

    (26.0066 26.2236) 1.96

    0.33872

    240+

    0.34882

    444

    =

    = [0.2170 0.0537] (0.2707,0.1633)

    ININO-3

    =

    (25.8661 25.9876) 1.96

    0.73412

    240+

    0.95942

    444

    =

    = [0.1215 0.1288] (0.2503,+0.0073)

    b) Planteamos las siguientes hipotesis

    {

    H0 : 1 = 2 (no ha habido cambio significativo de temperatura)H1 : 1 6= 2

    Se acepta H0 si

    z =|x1 x2|

    s21

    n1+

    s22

    n2

    z/2.

    9

  • En nuestro caso, como = 0.05 y z/2 = 1.960, tenemos

    zATL-3 =0.2170

    0.0274= 7.92 se rechaza H0

    zNINO-3

    =0.1215

    0.0657= 1.85 se acepta H0

    c) La unica cuenca en la que no puede demostrarse que se haya producido un cambiode temperatura es en la del Pacfico. Por tanto, es en ella en la que realizamos elcontraste de igualdad de varianzas

    {

    H0 : 21= 2

    2

    H1 : 21 6= 22

    Se acepta H0 si

    F =s21

    s22

    [

    F1/2,n11,n21, F/2,n11,n21]

    .

    Con los datos de la tabla podemos calcular

    F =0.73412

    0.95942= 0.5855,

    mientras que de la consulta de las tablas se obtiene

    F0.975,239,443 =1

    F0.025,443,239 1

    F0.025,,=

    1

    1.1= 0.909

    F0.025,239,443 F0.025,, 1.1Como el valor de F no esta contenido en el intervalo [0.909, 1.100], rechazamos H0.

    10

  • 10. Grupos A, B y ELa temperatura media anual local en el pasado puede inferirse a partir de la concen-tracion del isotopo de 18O de la precipitacion. Dada la siguiente tabla de valoresmedidos de ambas cantidades en la actualidad

    Localizacion 18O (%0) Temperatura (C)

    A 8 10B 14 0C 21 11D 26 23E 30 29F 36 40G 45 50

    a) Representar graficamente la recta de regresion correspondiente.

    b) Determinar si la correlacion es significativa. Razonar el resultado.

    (2 puntos)

    Respuesta:

    a)

    b =s2xys2x

    =1631.9

    969.4286= 1.6833

    a = y bx = 20.4286 1.6833 (25.7143) = 22.8568

    b)

    r =s2xysxsy

    =1631.9

    31.1356 52.6281 = 0.9959

    t =r

    (n 2)1 r2 = 24.5552 = t5,/2 = 2 8.9 10

    5 0

    Este valor no viene en la tabla. Se trata de que viendo que el estadstico t es muygrande sepan identificar que la correlacion es altamente significativa. Alternativamente,pueden considerar un valor de dado y deducir que es altamente significativa.

    11

  • 11. Grupos C y DEn una determinada ciudad europea se ha estudiado la distribucion en los tipos demultas antes y despues de la introduccion del carnet por puntos, obteniendose lossiguientes resultados

    multas multas multaspor exceso por exceso por malde velocidad de alcohol aparcamiento

    antes del carnet por puntos 120 39 492tras la introducciondel carnet por puntos

    87 33 320

    Existe independencia entre el tipo de multa y el uso o no del carnet por puntos usandocomo niveles de significacion = 0.05 y = 0.01?

    (2 puntos)

    Respuesta:

    Hay que realizar un contraste de independencia de caracteres. La hipotesis nula

    H0 : los dos caracteres son independientes

    se acepta si

    2 =2

    i=1

    3

    j=1

    o2ijeij

    n ,2

    Las frecuencias esperadas se determinan a partir de las frecuencias marginales mediante

    eij =oxi oyj

    n

    Estos valores son los que se muestran en la tabla de contingencia entre parentesis

    multas multas multaspor exceso por exceso por malde velocidad de alcohol aparcamiento oxi

    antes del carnet por puntos 120 (123.52) 39 (42.96) 492 (484.52) 651tras la introducciondel carnet por puntos

    87 (83.48) 33 (29.04) 320 (327.48) 440

    oyj 207 72 812 1091

    Con estos datos finalmente se calcula

    2 =2

    i=1

    3

    j=1

    o2ijeij

    n = 1092.44 1091 = 1.44

    mientras que para los dos niveles de significacion indicados se tiene

    20.05,2 = 5.99 y

    2

    0.01,2 = 9.21

    En ambos casos vemos que se verifica la desigualdad de mas arriba, por lo que nopodemos rechazar la hipotesis nula. Es decir, existe independencia entre el tipo demulta y el uso o no del carnet por puntos.

    Firma:

    12