Post on 03-Nov-2018
2012
Teoría del 2do Parcial
Folleto de Estadísticas
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Variables aleatorias conjuntas continuas: Sean X y Y dos variables aleatorias continuas con ellas se
asocia una función denominada función de densidad conjunta entre X y Y la misma que
cumple con:
1)
2)
3)
4)
Distribuciones Marginales: Sean X y Y dos variables aleatorias conjuntas continuas con función de
densidad conjunta . La densidad marginal se define como:
Marginal de X
Marginal de Y
X y Y son independientes si y solo si
Valor esperado: Sean X y Y dos variables aleatorias conjuntas continuas con función de densidad
conjunta . El valor esperado de es:
Teorema: Sean n variables aleatorias y m variables aleatorias, si decimos
que
entonces:
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Método de acumulada: Si entonces la distribución acumulada de es:
Derivando con respecto a se obtiene
Método de la función generadora de momentos: Si X es una variable aleatoria y su
generadora de momentos, y decimos que entonces:
Si son n variables aleatorias independientes y
entonces la generadora de momentos de Y es:
Si son n variables aleatorias independientes e idénticamente distribuidas con
media y varianza entonces:
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Población infinita
Población finita
; se debe multiplicar por el factor de corrección
Estadístico muestral: Una función definida en términos de las varibales aleatorias
que componen una muestra se denomina estadístico muestral si y solo si T no
depende de algún parámetro poblacional.
Estimador muestral: Se llama estimador muestral a un estadístico muestral si la razón para
construir dicha función es estimar un parámetro muestral.
Estimador incesgado: Sea un parámetro poblacional que deseamos estimar utilizando el
estimador muestral , diremos que es un estimador incesgado de si y solo si
Error cuadrático medio:
Si es un estimador incesgado de ( ) entonces se puede concluir que:
Eficiencia de un estimador: Sean y
dos estimadores de un parámetro poblacional , es
más eficiente que si y solo si ECM (
) ECM ( )
Convergencia en distribución: (Vamos a considerar una sucesión de variables aleatorias tales
como representadas sintéticamente como { } donde el subíndice n es un parámetro
entero positivo y deseamos conocer el comportamiento de la sucesión cuando n es grande,
formalmente ). Diremos que la sucesión de variables aleatorias { } cuya sucesión de
distribuciones acumuladas es { } converge en distribución a la variable aleatoria X si y solo si:
Para todo x donde es continua.
Ó
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Teorema de continuidad: Sea { } una sucesión de variables aleatorias cuya correspondiente
sucesión de funciones generadoras de momentos es { } suponiendo que { } existe para
un intervalo , entonces si existe una variable aleatoria X con función generadora de
momentos la cual existe para y además entonces
decimos que
.
Teorema del límite central: Sea { } una sucesión de variables aleatorias que son independientes
e idénticamente distribuidas, cuyas funciones generadoras de momentos existen para todo
i en un intervalo que incluye t=0, como consecuencia de lo anterior y
existen y se exige que ambas sean finitas. Defínase también
y
bajo
estas condiciones
. Z es una normal estándar.
Si se desea realizar una estimación con un error máximo admitido de a con b% de
confianza se interpreta como siendo , de esto se obtiene
que
para poblaciones infinitas, para población finita se tiene que:
y
Sean Z y variables aleatorias independientes con distribución normal estándar y Ji- Cuadrado
con grados de libertad respectivamente. Se define la distribución de Student con grados de
libertad como:
Cuando
Sean ,
variables aleatorias independientes cada una con distribución Ji-Cuadrado con
grados de libertad respectivamente, se define la distribución de Fisher con grados de libertad
en el numerador y grados de libertad en el denominador como:
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Teorema: Sea una muestra aleatoria de tamaño n tomada de una población normal
con media y varianza y sean y la media y varianza de la muestra respectivamente, bajo
estas condiciones:
1.
2.
Distribución para diferencias de medias para muestras tomadas de poblaciones independientes
CASO 1: , conocidos;
CASO 2: Muestra tomada de población normal independiente con , desconocidos pero iguales
CASO 3: Muestra tomada de población normal independiente con , desconocidos pero
diferentes
Distribución para razón de varianzas para muestras tomadas de poblaciones independientes
Distribución para la proporción
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Distribución para diferencia de medias para muestras tomadas de poblaciones dependientes
(con observaciones pareadas)
Estimación por intervalos de confianza
Estimación por intervalos: Es una estimación de parámetros poblacionales en la que utilizando
una muestra aleatoria se infiere acerca de pero en lugar de un solo punto se
define un conjunto de puntos cuyas cotas superior e inferior vienen dadas en términos de la
información contenida en la muestra.
Intervalos de confianza: lo más común es denominar al intervalo de estimación para
conjuntamente con el valor de su medida de confianza como un intervalo de
confianza para .
Intervalos con de confianza para la MEDIA
CASO 1: bajo condiciones del límite central
CASO 2: Muestra tomada de población normal y desconocido
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Intervalo de confianza para la VARIANZA para muestras tomadas de poblaciones normales
Intervalo de confianza para la PROPORCIÓN
Intervalo de confianza para DIFERENCIAS DE MEDIAS para muestras tomadas de POBLACIONES
INDEPENDIENTES
CASO 1: conocidos y
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
CASO 2: Muestra tomada de población normal independiente con desconocidos e iguales.
CASO 3: Muestra tomada de población normal independiente con desconocidos y diferentes
Intervalo de confianza para DIFERENCIAS DE MEDIAS para muestras tomadas de POBLACIÓN
DEPENDIENTE (CON OBSERVACIONES PAREADAS)
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Fundamentos de pruebas de hipótesis
Hipótesis: Es un supuesto o conjetura que se plantea tratando de explicar un proceso o fenómeno.
Hipótesis científica: Es un supuesto respecto al resultado de un experimento y una hipótesis
estadística es un supuesto que se plantea respecto a los parámetros o respecto a la distribución de
probabilidades de una población.
Prueba o ensayo de hipótesis: La idea central de la técnica de inferencia estadística que estamos
denominando prueba o ensayo o hipótesis es decidir en base a la información obtenida de la
muestra aleatoria , cual de 2 hipótesis estadísticas, que no pueden cumplirse simultáneamente
debe ser rechazada a favor de la otra.
Donde , siendo un espacio de parámetros y no es conjunto vacío
además está constituido por al menos 2 elementos.
Hipótesis nula: Se denomina hipótesis nula a una hipótesis estadística que postula que ,
siendo y además debe cumplirse que . La hipótesis nula se denota .
Hipótesis alterna: Es el supuesto que proclama que se denota .
Contraste de hipótesis: La contraposición de la hipótesis nula con la hipótesis alterna la
llamaremos contraste de hipótesis. Bajo las condiciones que se han planteado solo es posible
tomar dos decisiones.
1. es verdadera
2. es verdadera
Región crítica de la prueba: Dado un contraste de hipótesis , para efectos de decidir si la
hipótesis nula debe ser o no rechazada, es necesario particionar al subconjunto A no vacío de
en dos regiones. Una C a la que llamaremos región critica de la prueba definida como:
C( )={( ) debe ser rechazada} y otra que es el complemento de C en A que
llamaremos región de aceptación de la prueba.
Estadístico de prueba: Denotado por T es un estadístico cuya regla de correspondencia permite
decidir si debe ser rechazada o no.
Error tipo I: Dado un contraste de hipótesis se denomina error tipo I al evento en que se rechaza
siendo verdadero.
Error tipo II: Dado un contraste de hipótesis se denomina error tipo II al evento en que no se
rechaza siendo falso.
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Probabilidad de error tipo I: Se denota por y es igual a
Probabilidad de error tipo II: Se denota por y es igual a
Potencia de prueba: La función cuya definición es es
definida como la función potencia de la prueba.
Valor P: El valor P o de la prueba es un estadístico de prueba que es igual al más pequeño nivel de
significancia a partir del cual un investigador que está utilizando el estadístico de prueba T
rechaza basado en los datos de la muestra observada X.
Valor p 0.05 0.5<Valor p<0.1 Valor p 0.1
Se elige la opción más cercana. Pero lo ideal sería tomar otra muestra.
Pruebas de hipótesis para la MEDIA
CASO 1: conocido; (bajo el teorema de limite central)
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
CASO 2: desconocido; Muestra tomada de población normal.
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
Prueba de hipótesis para la VARIANZA
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
Prueba de hipótesis para DIFERENCIAS DE MEDIAS para muestras tomadas de POBLACIÓN
INDEPENDIENTE
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
CASO 1: , conocidos;
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
CASO 2 : , desconocidos pero iguales. Muestra tomada de población normal
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
CASO 3: , desconocidos y diferentes. Muestra tomada de población normal
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Prueba de hipótesis para RAZÓN DE VARIANZAS
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
Prueba de hipótesis para DIFERENCIA DE MEDIA tomada de población DEPENDIENTE CON
OBSERVACIONES PAREADAS
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
Prueba de hipótesis para la PROPORCIÓN
Con ( ) % de confianza rechace a favor de si:
Valor p=
Valor p=
Valor p=
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Bondad de ajuste
1. Método de Kolmogorov-Smirnov
Con ( ) % de confianza rechace a favor de si:
;
2. Método de la Ji-Cuadrado
Clases Oi Ei
=
Oi: Número de observaciones en la clase i.
Ei: Número de observaciones esperadas en la clase i si es verdadero
Con ( ) % de confianza rechace a favor de si:
K: Número de clases.
P: Número de parámetros que se estiman
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Tablas de contingencia o pruebas de independencia
X\Y Nivel 1 Nivel 2 Nivel c
Nivel 1
=
Nivel 2
=
Nivel r
=
= =
=
n
; ; Por lo tanto se necesitan mínimo 20 observaciones
: Número de observaciones en el i-esimo nivel de X y j-esimo nivel de Y
: Número de observaciones esperadas en el el i-esimo nivel de X y j-esimo nivel de Y si es
verdadero.
Con ( ) % de confianza rechace a favor de si:
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Desigualdad de Markov: Sea una función que toma valores no negativos y que esta
definida en términos de la variable aleatoria X cuya densidad o dist. De probabilidades es
. Si el existe entonces para cualquier constante positiva se cumple que:
Teorema de Chebyshev: Sea X una variable aleatoria con media y varianza ambas finitas. Sea
k > 1 entonces:
ó
Normal Bivariada
Si entonces:
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Regresión lineal
Suma cuadrática del error
Regresión lineal simple
Datos para para la función
es constante
;
; para minimizar el error
;
Datos para el estimador de la funcion
; son estimadores propios de
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Ecuaciones normales:
son estimadores incesgados de (Demuestre).
=
+
Suma cuadrática total
Suma cuadrática de regresión
Suma cuadrática del error
Coeficiente de correlación del modelo:
Poder de explicación del modelo: (100%)
Solamente en regresión lineal simple
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Regresión lineal múltiple
Autor: Edición y Mejora: Leonardo Hernández Mendoza Kevin Lucas Marcillo Jefferson Cunalata Soledispa Jonathan Vela Fajardo
Tabla Anova
Fuente de Variación
Grados de libertad
Sumas cuadráticas Medias
Cuadráticas F
Regresión p-1 SCR MCR=SCR/p-1
Error n-p SCE MCE=SCE/n-p
Total n-1 SCT
p: # de estimadores (en el caso matricial es el # de empleados para formar la regresion)
Con ( ) % de confianza rechace a favor de si:
Valor p=
Con ( ) % de confianza rechace a favor de si: