Estadística simple simple

40
ESTADÍSTICA!

Transcript of Estadística simple simple

ESTADÍSTICA!

POBLACIONES

• Las poblaciones pueden ser:1. Cerradas: n fijo, no entradas, si salidas.2. Dinámicas, subtipos: derecho, hecho,

flotante, transeúnte.3. Dinámicas en estado estacionario: siempre el

mismo n, entradas=salidas

Estadística descriptiva e inferencial

• Decriptiva: Procedimientos para organizar y resumir datos de forma cuantitativa.

• Inferencial: técnica para averiguar datos de la población mediante una muestra.

Instrumentos de medida

• Sensibilidad: Poder medir valores muy peques• Fidelidad: Siempre el mismo valor.• Precisión: El valor medido cercano al real.

LA PRECISIÓN AUMENTA SI DISMINUYE EL ERROR ALEATORIO.

Variables

• Cuantitativas: continúas o discretas.• Cualitativa: nominal u ordinal.• Categorización de las variables cualitativas,

siguen siendo cualitativas.

ESCALAS

• Nominal: No números.• Ordinal: Se sigue un orden, pero no tienen un

significado numérico.• De intervalo: Las razones no tienen sentido, 0

arbitrario, las diferencias si tienen sentido.• De razón: 0 absoluto, tanto las razones como

las diferencias tienen sentido.

Variables-- Representación

• Discretas Se representan mediante diagramas de sectores y de barras.

• Continuas 1. Diagrama tronco hojas: Frecuencia, mínimo y máximo.2. Histograma: altura barra=frecuencia.3. Polígono de frecuencia: Se unen las marcas de clase. Mismo

área que el histograma.4. Ojiva: Se crea mediante las frecuencias acumuladas.5. Diagrama de cajas: P25, P50=MEDIANA, P75, 50% datos,

bigotes 1,5 , máximos y mínimos.

Estadísticos

• Posición: Media, moda, mediana, quantil (ALFA), percentiles P50= mediana (segundo cuartil) , cuartiles.

• Dispersión: Varianza, desviación típica, rango, rango intercuartílico, coeficiente de variación.

• Sesgo o asimetría, kurtosis.

• Nota: Varianza stata summary details

• CV

• Media ponderada, recortada y winsorizada.

CA-- PEARSON>0 Asimétrica positiva media mayor que la moda.=0 Simétrica.<0 Asimétrica negativa media menor que la moda.

También se puede comparar con la mediana.

KURTOSIS!!G2>3 Leptocúrtica.G2=3 Mesocúrtica.G2>3 Platicúrtica.

PROBABILIDAD

Axiomas de Kolmogorov:

• La probabilidad de un espacio muestral es 1.• La probabilidad de un suceso del espacio es

siempre mayor o igual que 0.• La probabilidad de un subconjunto de sucesos

mutuamente excluyentes es la suma de la probabilidad de cada uno de los sucesos que lo forman.

Sistemas de probabilización:

• Subjetiva o personal: Creencia.• Ley de Laplace: para sucesos equiprobables.

No muy útil en medicina debido a eso.• Frecuentista: Medicina, número de

experimentos con un resultado R entre el número total de experimentos realizados. **Experimentos que puedan repetirse.

• UNIÓN: P(A) + P(B) – LA INTERSECCION!!!• Criterio de independencia: La probabilidad de

la intersección de E y F es igual a la multiplicación de la PE * PF. Al multiplicar la frecuencia relativa de dos marginales nos da como resultado la de la conjunta.

• O si P(A/B)=P(A).

• Valor predictivo positivo: P(E/T).• Valor predictivo negativo: P(E-/T-).• Sensibilidad: P(T+/E+).• Especificidad: P(T-/E-).• La PREVALENCIA influye sobre los valores

predictivos.• Falsos positivos y falsos negativos.

TEOREMA DE BAYES

DISTRIBUCIONES TEÓRICAS DE LA PROBABILIDAD

• Función de densidad de probabilidad f(x): Para variables cualitativas= función de cuantía. P[X=x].

• Función de distribución de probabilidad F(x): representación ojiva a saltos ascendente.

• Función de supervivencia S(x): 1-F(x), representar con ojiva a saltos descendente (Igual para cuanti y cuali).

PARA VARIABLES CUALITATIVAS!

PARA CUANTITATIVAS

• Condiciones:

MODELOS TEÓRICOS DE PROBABILIDAD

• Bernoulli: Dos sucesos, necesidad de reemplazamiento o poblaciones muy grandes.

• Normal: Simétrica, mesocúrtica y asintótica. Normal estándar (0,1)

• Binomial: Depende de n y p, q=1-p.• Poisson (lambda) Sucesos raros. Lambda es

n*p.

APROXIMACIONES

• Binomial a Poisson: Si n∞, p=0 o p<o= a 0,1.Bi(n,p) Po (lambda=n*p).• Poisson a la Normal: Si lambda es mayor que 10

(también si es mayor que 5). Lambda es igual a mu y la raíz cuadrada es la desviación típica.

• Binomial a Normal: Si n>30, n*p>5 y n*p*q>5.La media de la normal es n*p y la desviación la

raíz de n*p*q.

• DISTRIBUCIÓN NORMAL!!• El 68% se encuentra bajo el P16 y el P84.• El 95% entre el P2,5 y el P97,5.• El 99% entre el P0,5 y el P99,5.

ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS NUMÉRICAS

Dos métodos:• Estudio gráfico: diagramas de dispersión

(nube de puntos).

• Estudio analítico: crear medias y trazar las líneas (corte=centro de gravedad). Covarianza S(x,y) calcular el área de los rectángulos de todos los puntos, sumar y dividir entre el número de puntos.

CIRCULAR= ASOCIACIÓN NULA!!!

NUBE ALARGADA PENSIENTE + = POSITIVA!!

NUBE ALARGADA PENDIENTE -= NEGATIVA!!!

Covarianza

COVARIANZA=0 NO ASOCIACIÓN!!!!

ASOCIACIÓN SIGNIFICATIVA A PARTIR DE +/- 0,8

Modelos de regresión lineal

COMANDOS STATA• Grafico de dispersión: Graphics/Twoway graphs.. create

basic plots dcha Scatter (Y=dependiente, X=independiente).• Intensidad de la relación lineal: Summ..Summary…

Correlations and covariances. Correlación de 1 perfecta positiva, -1 la inversa y 0 nada.

• Recta de regresión lineal simple: Graphics/Twoway graphs.. Create (primero basic plots) luego fit plots, lineal prediction.

• Regress peso semana (las variables)Coef numero de abajo a y el de encima b(coeficiente de regresión/pendiente) . Coeficiente de determinación dcha– Adj. R-adjusted.

ESTADÍSTICA INFERENCIAL

• El hacer inferencia muestra población implica un ERROR ALEATORIO. Controlado por el análisis estadístico.

• ERROR SISTEMÁTICO/SESGO en la muestra.– Sesgo o error sistemático: Si P=0.– Sesgo de información: No recoger info.

Identicamente.

Población en estudio Cuando hay sesgo.

INTERVALOS DE CONFIANZA

• Al 90%, entonces el valor fijo de la izquierda será -1,64 porque en el centro quiero dejar el 90%, para que sea así el valor de la izquierda tiene que ser -1,64 y el de la derecha +1,64.

• Al 95% quiere decir que queremos dejar en el centro el 95% de la probabilidad entonces entre las dos olas dejarás el 5% (0,025 por un lado y 0,025 por el otro). Entonces los valores fijos en este caso serán a la izquierda -1,96 y a la derecha +1,96.

• Si lo quieres al 99% la probabilidad es del 0,99 los valores de los lados serán en este caso a la izquierda -2,58 y a la derecha +2,58.

Sacar el error aleatorio

CONTRASTE DE HIPÓTESIS

Nivel de significación de los datos P-valor (Pr)-->probabilidad de encontrarnos el resultado

muestral asumiendo como cierta H0.

H0: Hipótesis nula.

H1: Hipótesis alternativa. Podemos crear contrastes con dos colas, hacia la izda. O hacia la dcha.

Tipos de errores

• Error de tipo 1: Rechazar H0 cuando es cierta. -α nivel de significación del test. (0.05, si el

contraste es de dos colas se divide a la mitad).• Error de tipo II: Aceptar H0 cuando es falsa.

-в probabilidad de cometer un error de tipo II.• Nivel de confianza (1-α) no rechazo H0 y es

cierta.• Potencia de un test (1-в) rechazo H0 y es falsa.

• Para reducir в : Se puede aumentar α o aumentar el tamaño muestral.

• Si p< α : El valor de la media muestral pertenece a la zona de rechazo. El contraste es estadísticamente significativo. rechazamos H0

• Si p > α : El valor del estadístico de contraste pertenece a la región de aceptación. Los datos no contienen suficiente evidencia para rechazar H0, con lo cual no es estadísticamente significativo.