Estadistica Unidad V

14
  INSTITUTO TECNOLOGICO DE TUXTLA GUTIERREZ INGENIERIA EN SISTEMAS COMPUTACIONALES PROBABILIDAD Y ESTADÍSTICA Ricardo Alfonso Castellanos Unidad V Estadística Aplicada  Aguilar Gómez Darvin de Jesús  Gutiérrez Gómez Mario  Pérez Gonzales Marco Antonio  Pérez Trujillo Carlos Adrian Tuxtla Gutiérrez Chiapas a 5 de Diciembre del 2011

Transcript of Estadistica Unidad V

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 1/14

 

INSTITUTO TECNOLOGICO

DE TUXTLA GUTIERREZ

INGENIERIA EN SISTEMAS COMPUTACIONALES

PROBABILIDAD Y ESTADÍSTICA

Ricardo Alfonso Castellanos

Unidad V

Estadística Aplicada

 Aguilar Gómez Darvin de Jesús

  Gutiérrez Gómez Mario

  Pérez Gonzales Marco Antonio

  Pérez Trujillo Carlos Adrian

Tuxtla Gutiérrez Chiapas a 5 de Diciembre del 2011

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 2/14

INFERENCIA ESTADISTICA

Comprende las técnicas con base únicamente en una muestra sometida aobservación, se toma decisiones sobre una población o proceso estadístico. Dadoestas decisiones se toma en condiciones de incertidumbres, suponiendo el

concepto de probabilidad. Las características de medidas de una muestra se lesllaman estadística muestral, a las características de medidas de una poblaciónestadística se les llama parámetros de población.

El procedimiento para la medición de las características de todos los miembros deuna población definida se llama censo. Cuando la inferencia estadística se usa enel control de procesos, al muestreo le interesa en particular el descubrimiento ycontrol de las fuentes de variación en la calidad de producción.

Ejemplo:

1.- Para estimar el voltaje requerido para provocar fallas en un dispositivoeléctrico, una muestra de estos dispositivos puede someterse a voltajes crecienteshasta que falle cada uno de ellos. Con base en estos resultados muéstrales puedeestimarse la probabilidad de falla a varios niveles de voltaje de los demásdispositivos de la población muestreada.

2.- indique cuál de los siguientes términos y operaciones se refieren a una muestrao muestreo (M) y cuales a una población (P):

a). medidas grupales llamadas parámetros.

b). uso de estadística inferencial.

c).realizar un censo.

d). juicio sobre la calidad de un embarque de fruta recién recibido mediante lainspección de varios de los huacales del gran número de ellos incluidos en elembarque.

Muestreo: b) y d).

Población: a) y c).

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 3/14

PRUEBA DE HIPOTESIS 

El propósito de la prueba de hipótesis es determinar si el valor supuesto de unparámetro poblacional, como la media de una población, debe aceptarse comoverosímil con base en evidencias muéstrales.

Pasos básicos de la prueba de hipótesis con el método de valor crítico.

Paso 1: formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0)es el valor paramétrico hipotético que se compara con el resultado muestral. Lahipótesis alternativa (H1) se acepta solo si la hipótesis nula es rechazada.

Paso 2: especifique el nivel de significancia por aplicar. El nivel de significancia esel estándar estadístico que se especifica para rechazar la hipótesis nula.

Paso 3: seleccione les estadística de prueba. La estadística de prueba será ya sea

la estadística muéstralo una versión estandarizada de la estadística muestral.Paso 4: establezca el valor o valores críticos de la estadística de prueba.Habiendo establecido todo delo anterior entonces se establece los valores críticosde la estadística de prueba.

Paso 5: determine el valor de estadística de prueba.

Paso 6: tome la decisión.

Prueba de una hipótesis referente a la media usándola distribución normal.

La distribución normal de probabilidad puede usarse para probar un valorhipotético de la media de la población.

si n ≥ 30, por efecto al teorema central del límite.

Cuando n < 30 pero la población tiene una distribución normal y σ es conocida. 

Una prueba bilateral se aplica cuando nos interesa una posible desviación encualquier dirección respecto del valor hipotético de la media. La fórmula se empleapara los valores críticos de la media muestral. Es similar a la fórmula para

determinar los límites de confianza para la estimación de la media dela población,acepto que el valor hipotético de la media poblacional µ 0 es en este caso el puntode referencia, en lugar de la media muestral.

Los valores críticos de la media muestral para una prueba de dos extremos, deacuewrdo9con el hecho de si σ se conoce o no, son:

CR = µ0 ± zσ o CR = µ0 ± zs

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 4/14

Ejemplo:

El representante de un grupo comunitario le informa al posible desarrollador de uncentro comercial que el ingreso promedio por hogar en la zona es de $45 000.Supongamos que puede asumirse que, para el tipo de zona de que se trata, el

ingreso del hogar tiene una distribución aproximadamente normal y que puedeaceptarse que la desviación estándar es igual a σ=$2 000, con base a un estudio

anterior. A partir de una muestra aleatoria de n=15 hogares, se determina que elingreso domestico es =$44 000. Pruebe la hipótesis nula de que µ=$45 000estableciendo los limites críticos de la media muestral en términos de dólares ycon un nivel de significancia de 5%.

Dado que H0: µ=$45 000 y H1 : µ≠$45 000, los limites críticos de (α=0.05) son

CR =µ0±zσ =µ0z (

)= 45 000 ±1,96(

) = 45 000 ± 1.96(

) =

45 000 ±1.96 (516.80) = $43 987 y $ 46 013.

Puesto que la media muestral de = $44 000 se halla entre los dos limites críticosy en la región de aceptación de la hipótesis nula, el argumento del representantecomunidad no puede rechazar al nivel de significancia de 5%.

Estimulación:

El proceso de estimulación en inferencia estadística puede ser descrito como elproceso de estimular un parámetro a partir del estadístico correspondiente, tal

como usar una media muestral (Estadístico) para estimular la media poblacional,(parámetro).

La estimulación de parámetro puede ser:

Puntual o por punto.

Por intervalo.

Estimulación Puntual

Objetivo: dar un valor numérico que se aproxime en forma muy cercana alparámetro poblacional.

La poblacional puntual de un parámetro de una población es un solo valornumérico de un estadístico que corresponde a este parámetro.

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 5/14

Estimulación sin sesgo

Si la media de las distribuciones de muestreo de un estadístico es igual que la delcorrespondiente parámetro de la población, el estadístico se llama un estimuladorsin sesgo del parámetro; si no, se llama un estimulador sesgado.

Ejemplo: La media de las distribuciones de muestreo de medias µ e µ, la media

de la población. Por tanto, la media es una estimulación sin sesgo de la mediade la población µ.

Estimulación EficienteSi las distribuciones de muestreo de dos estadístico tienen la misma media(oesperanza), el de menor varianza se llama un estimulador eficiente de la media.Mientras que el otro se llama un estimulador ineficiente. Los valorescorrespondientes de los estadísticos se llaman estimulación eficiente eestimulación ineficiente.

ESTIMACIÓN PUNTUAL

A partir de las observaciones de una muestra se calcula un solo valor como

estimación de un parámetro de la población desconocido, el procedimiento sedenomina estimación puntual.

Un estimador puntual T de un parámetro es cualquier estadística que nospermita a partir de los datos muéstrales obtener valores aproximados del

parámetro .Para indicar que T es un estimador del parámetro escribimos =T.Es muy probable que haya error cuando un parámetro es estimado.

Es cierto que si el número de observaciones al azar se hace suficientementegrande, éstas proporcionarían un valor que casi sería semejante al parámetro;

pero a menudo hay limitaciones de tiempo y de recursos y se tendrá que trabajarcon unas cuántas observaciones. Para poder utilizar la información que se tengade la mejor forma posible, se necesita identificar las estadísticas que sean“buenos” estimadores. Hay cuatro criterios que se suelen aplicar para determinar 

si una estadística es un buen estimador: Insesgamiento (cuando su esperanzamatemática coincide con el valor real del parámetro a estimar θ, en caso de que

no coincidan a la diferencia entre la esperanza del estimador y el valor real delparámetro se le llama sesgo T-θ), eficiencia, consistencia y suficiencia.

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 6/14

PROPIEDADES:

Existe una propiedad que comprende conjuntamente las propiedades deanegamiento y eficiencia. Se trata del error cuadrático medio. Sea T un estimador

del parámetro . El error cuadrático medio de T, denotado ECM(T), se define

como el valor esperado de (T- )2 .

ECM (T) = E[(T- )2]

Teorema:

Si T es un estimador del parámetro , ECM (T) = V [T] – [ -E (T)]2 

La diferencia -E (T) se llama sesgo del estimador.

Se dice que una estadística T es un estimador insesgado de , si se cumple que E(T)= para cualquier valor de .  También podemos decir que un estimador 

insesgado es aquel que tiene sesgo igual a cero. 

Teorema:

Sea X1, X2,..., Xn una muestra aleatoria de cierta distribución de media y

varianza . Entonces:

a) T1= es un estimador insesgado de .

b) T2=S2 es un estimador insesgado de .

La propiedad de Insesgamiento nos garantiza que las estimaciones que hagamoscon el estimador se encuentran alrededor del parámetro en cuestión.

Los siguientes gráficos ilustran el significado de estimador insesgado y estimadorsesgado

Los estimadores de mayor uso como la media muestral, la varianza muestral y laproporción muestral son buenos estimadores.

El error estándar

Un mismo estimador ofrece distintos valores para distintas muestras del mismotamaño extraídas de la misma población. Por lo tanto deberíamos tener unamedida de la variabilidad del estimador respecto del parámetro que se trata deestimar. Esta variabilidad se mide en términos de la desviación estándar delestimador, la cual recibe el nombre de error estándar.

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 7/14

El error estándar de un estimador T de un parámetro es la desviación estándardel estimador. Error de estimación es el valor absoluto de la diferencia entre una 

estimación particular y el valor del parámetro. Así por ejemplo, si tomamos

como estimador de , entonces el error estándar está dado por .

Ejemplo:

Un grupo de investigadores de Ecología midieron la concentración de células rojasen la sangre de 29 lagartos (Sceloporis occidentales ) capturados en el campo.También observaron si los lagartos estaban infectados por el parásito de MalariaPlasmodium . Los recuentos de células rojas proporcionaron los siguientes valores.

Animales infectados: 131n   1,972

1 X    1,2451 s  

Animales no infectados: 162n   4,843

2 X    2,2512

s  

Construye un intervalo de confianza al 99% para la diferencia entre laconcentración media de células rojas en la sangre de animales infectados y noinfectados (se supone normalidad).

¿Se podría afirmar que la malaria reduce el número de células rojas? Razona larespuesta.

Solución:

Se trata de comparar dos poblaciones: P1, lagartos infectados con el parásito, yP2, lagartos no infectados. Concretamente, nos interesa comparar las medias

poblacionales. En consecuencia, buscamos21

    I  .

Asumimos que las varianzas poblacionales NO son conocidas. Para verificar sipueden considerarse iguales o no, como

12 ss , calculamos

205,1

1,245

2,2512

2

2

1

2

2

s

sPor lo tanto, consideramos que 2

2

2

1    (caso b1).

7,1284,8431,97221 X  X   

Como 16,13 21 nn   y %1  (0,01 en tanto por uno), 771,227,005,02,2 /  21

t t 

nn   

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 8/14

Finalmente

2

11

21

2

22

2

112

nn

snsns p ; operando se tiene 507,248 ps  

Sustituyendo en la fórmula del intervalo de confianza, obtenemos

)82'385,424'128(   I   

Si el intervalo contuviera sólo números negativos, estaríamos diciendo que ladiferencia entre el número medio de células rojas de P1 y P2 es negativa, oequivalentemente que el número medio de células rojas de P1 (lagartos infectadoscon malaria) es inferior al de P2 (lagartos no infectados). En ese caso, se podríaafirmar que la malaria reduce el número de células rojas. Pero vemos que elintervalo contiene tanto números negativos como positivos, con lo cual tanaceptables es que sea mayor la media de los infectados, como la de los noinfectados. En consecuencia, no se puede afirmar que la malaria reduzca el

número de células rojas.

Estimulación por intervalos

Consiste en la obtención de un intervalo dentro del cual estará el valor delparámetro estimado con una cierta probabilidad. En la estimación por intervalos seusan los siguientes conceptos:

Intervalo de confianza El intervalo de confianza es una expresión del tipo [θ1, θ2] ó

θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza.

Variabilidad del parámetro Si no se conoce, puede obtenerse una aproximación enlos datos aportados por la literatura científica o en un estudio piloto. También haymétodos para calcular el tamaño de la muestra que prescinden de este aspecto.Habitualmente se usa como medida de esta variabilidad la desviación típicapoblacional y se denota σ.

Error de la estimación Es una medida de su precisión que se corresponde con laamplitud del intervalo de confianza. Cuanta más precisión se desee en laestimación de un parámetro, más estrecho deberá ser el intervalo de confianza y,

por tanto, menor el error, y más sujetos deberán incluirse en la muestra estudiada.Llamaremos a esta precisión E, según la fórmula E = θ2 - θ1.

Nivel de confianza Es la probabilidad de que el verdadero valor del parámetroestimado en la población se sitúe en el intervalo de confianza obtenido. El nivel deconfianza se denota por (1-α), aunque habitualmente suele expresarse con unporcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o un

99%, que se corresponden con valores α de 0,05 y 0,01, respectivamente.

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 9/14

Intervalo de Confianza

Se llama intervalo de confianza a un par de números entre los cuales se estimaque estará cierto valor desconocido con una determinada probabilidad de acierto.Formalmente, estos números determinan un intervalo, que se calcula a partir de

datos de una muestra, y el valor desconocido es un parámetro poblacional. Laprobabilidad de éxito en la estimación se representa con 1 - α y se denomina nivelde confianza. En estas circunstancias, α es el llamado error aleatorio o nivel designificación, esto es, una medida de las posibilidades de fallar en la estimaciónmediante tal intervalo.

Intervalo de confianza para la media de una población

De una población de media μ y desviación típica σ se pueden tomar  muestras de nelementos. Cada una de estas muestras tiene a su vez una media ( ). Se puededemostrar que la media de todas las medias muéstrales coincide con la mediapoblacional:2 

Pero además, si el tamaño de las muestras es lo suficientemente grande,3  la

distribución de medias muéstrales es, prácticamente, una distribución normal (ogaussiana) con media μ y una desviación típica dada por la siguiente expresión

. Esto se representa como sigue . Si

estandarizamos, se sigue qué .

Sea desconocida la media poblacional de una cierta variable que deseamosestudiar, sacamos una muestra y se trata de obtener un intervalo (L1, L2) de forma

que tengamos una probabilidad alta (1-alfa)% de que la media poblacional esté enese intervalo. El nivel de confianza del intervalo (1-alfa)% lo fijamos nosotros, esdecir, con la probabilidad de 0.05,0.01 o 0.1.

Si se cumple una de las siguientes hipótesis:

El tamaño de la muestra es mayor de 30 y la variable sigue un modelonormal.

El tamaño de la muestra es mayor de 100.

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 10/14

El intervalo de confianza para la media poblacional es:

Donde z es el valor que en la distribución N(0,1) deja a su derecha un área dealfa/2, es la media en la muestra, s la casi desviación típica (raíz cuadrada de lacasi varianza) o la desviación típica y n el tamaño de la muestra.

Estimulación por intervalos de confianza para la proporción

Sea p desconocida la proporción de elementos en la población pertenecientes a unacategoría C, sacamos una muestra y se trata de obtener un intervalo (L1,L2) de formaque tengamos una probabilidad alta (1-alfa)% de que la proporción esté en ese intervalo.

Si se cumple una de las siguientes hipótesis, y que habrá de comprobarlas en todos losproblemas son:

 

 

En estas condiciones se obtienen los siguientes intervalos según el tamaño de la muestra:

El tamaño de la muestra es mayor de 30 y menor o igual de 100.

El tamaño de la muestra es mayor de 100.

Donde , z es el valor que en ladistribución N(0,1) deja a su derecha un área de alfa/2, n el tamaño de la muestra.

Las técnicas de regresión y correlación cuantifican la asociación estadística entredos o más variables. La regresión lineal simple expresa la relación entre unavariable dependiente Y y una variable independiente X, en términos de lapendiente y la intersección de la línea que mejor se ajuste a las variables.  

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 11/14

La correlación simple expresa el grado o la cercanía de la relación entre las dosvariables en términos de un coeficiente de correlación que proporciona unamedida indirecta de la variabilidad de los puntos alrededor de la mejor línea deajuste- Ni la regresión ni la correlación dan pruebas de relaciones causa – efecto.

Regresión: El modelo de regresión lineal simple toma la forma

Y = a + bx,

Dónde:

y = variable dependiente

x = variable independiente.

Los valores de la pendiente b y la intersección a se obtienen usando lasecuaciones normales escritas en la forma conveniente.

22 X n x

 XY n xyb  

 xbY a  

Regresión

La regresión como una técnica estadística, una de ellas la regresión lineal simple yla regresión multifactorial, analiza la relación de dos o mas variables continuas,cuando analiza las dos variables a esta se el conoce como variable bivariantesque pueden corresponder a variables cualitativas, la regresión nos permite elcambio en una de las variables llamadas respuesta y que corresponde a otraconocida como variable explicativa, la regresión es una técnica utilizada parainferir datos a partir de otros y hallar una respuesta de lo que puede suceder.

Siendo así la regresión una técnica estadística, por lo tanto para interpretarsituaciones reales, pero a veces se manipula de mala manera por lo que esnecesario realizar una selección adecuada de las variables que van a construir lasformulas matemática, que representen a la regresión, por eso hay que tomar encuenta variables que tiene relación, de lo contraria se estaría matematizando ungalimatías.

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 12/14

Se pueden encontrar varios tipos de regresión, por ejemplo:

Regresión lineal simple Regresión múltiple ( varias variables) Simple b) Múltiple, etc. Regresión logística

La regresión lineal técnica que usa variables aleatorias, continuas se diferencia delotro método analítica que es la correlación, por que esta última no distingue entrelas variables respuesta y la variable explicativa por que las trata en formasimétrica.

La mate matización nos da ecuaciones para manipular los datos, como porejemplo medir la circunferencia de los niños y niñas y que parece incrementarseentre las edades de 2 meses y 18 años, aquí podemos inferir o predecir que las

circunferencias del cráneo cambiara con la edad, en este ejercicio lacircunferencia de la cabeza es la respuesta y la edad la variable explicativa.

En la regresión tenemos ecuaciones que nos representan las diferentes clases deregresión:

Regresión Lineal: y = A + Bx

Regresión Logarítmica: y = A + BLn(x)

Regresión Exponencial: y = Ac (bx)

Regresión Cuadrática: y = A + Bx +Cx2

Desviación estándar de la regresión

Una línea de regresión describe la relación entre un valor dado de la variableindependiente X y la media µy.x de la distribución de probabilidad correspondientede la variable dependiente Y. El punto estimado, o pronóstico, es la media de ladistribución para un valor dado X.

La desviación estándar de la regresión S y.x es una medida de la dispersión de los

datos alrededor de la línea de regresión.

2

2

.

n

 XY bY aY S  X  y  

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 13/14

Estimación de intervalo

Se puede establecer una predicción de intervalo para un valor pronosticadoindividual de YC usando la expresión:

Intervalo de predicción = YC ± t SIND Donde t = valor de la tabla de la distribución t para el nivel de confianzaespecificado, y

2

2

.)(

)(11

 X  X 

 X  X 

nSS  x y IND  

Para muestras grandes (n≥100), la ecuación anterior puede ser aproximada.

Usando la distribución normal (Z) más que la , en la forma de YC ± ZSY.X Tambiénla significancia de la pendiente de la línea de regresión (b) puede ser probadausando la siguiente expresión.

b

calcS

bt   

2.)(

1

 X  X SS  X Y b  

Dónde: Si el valor de t calc de la tabla t, la relación entre X y Y es estadísticamentesignificativa.

5/11/2018 Estadistica Unidad V - slidepdf.com

http://slidepdf.com/reader/full/estadistica-unidad-v 14/14

Correlación

El coeficiente de correlación lineal simple r es un número entre -1 y 1 que indicaqué tan bien describe la ecuación lineal la relación entre las dos variables. Comose muestra en la siguiente figura, r se designa como positiva si Y se incrementa

cuando lo hace X, y negativa si Y decrece al incrementarse X. Una r de cero indicauna ausencia de relación entre las dos variables.

Para obtener un modelo de regresión es suficiente establecer la regresión paraeso se hace uso del coeficiente de correlación: R.

R = Coeficiente de correlación, este método mide el grado de relación existenteentre dos variables, el valor de R varía de -1 a 1, pero en la práctica se traba conun valor absoluto de R.

El valor del coeficiente de relación se interpreta de modo que a media que R se

aproxima a 1, es más grande la relación entre los datos, por lo tanto R (coeficientede correlación) mide la aproximación entre las variables.

El coeficiente de correlación se puede clasificar de la siguiente manera:

CORRELACIÒN VALOR O RANGO

Perfecta 1) R = 1 Excelente 2) R = 0.9 < = R < 1 Buena 3) R = 0.8 < = R < 0.9 Regular 4) R = 0.5 < = R < 0.8 Mala 5) R < 0.5