Bioestadística. U. Málaga.Tema 2: Estadísticos 1 Bioestadística Tema 2: Estadísticos.
Bioestadística · i. Construya el diagrama de dispersión de los datos. ii. Construya la tabla de...
Transcript of Bioestadística · i. Construya el diagrama de dispersión de los datos. ii. Construya la tabla de...
Bioestadística
PrácticadeOrdenadores3
1
Bioestadística– GradoEnfermeríaUA-DepartamentodeEnfermería
¿Quévamoshacer?
• Ejercicio1.19(15minutos)RepasoP02• Ejercicio1.7-Profe• Ejercicio1.15(+regresiónlineal)-Profe• Ejercicio1.23(+regresiónlineal)-Clase• Opcional/casa:ejercicio1.6
2
Ejercicio1.19ApartirdelabasededatosLITIABIS.savi. calculelosestadísticosdescriptivosde
tendenciacentral,dispersiónyformaparalasvariablesEDAD,TALLA,PESOyTRIGLICERIDOS.Interpretalosresultados.
ii. Calculelospercentiles5,25,75y95.Interpretadelosresultados.
3
Ejercicio1.7Sedeterminóelpeso(enKg)yelnivelde glucosa en la sangre (en mg/100ml)de18hombresy18mujeresquetrabajaban en una fábrica debombones. Los resultados obtenidosfueronlossiguientes:
4
Ejercicio1.7HOMBRESPESO75.062.580.076.068.560.061.568.570.072.074.076.565.564.567.082.075.072.5GLUCOSA9087108958985951001051001041079810010511010299MUJERESPESO55.049.570.060.058.550.051.558.559.062.052.066.555.557.547.072.065.061.5GLUCOSA10097118105999510211011510310811798105109115102107 5
Ejercicio1.7Construya el diagrama de dispersión para lasvariablesPesoyGlucosatantoparahombrescomoparamujeres.(Sesugiererepresentarambossexossobre el mismo diagrama de dispersióndistinguiendomediantedistintoscolores).Interpretelosresultados.
6
DiagramasdedispersiónconSPSS
10
En este caso genera un gráfico para hombres y mujeres conjuntamente.
Ejercicio1.15Basándoseen losdatosdelejercicio1.7,calcule lacorrelación lineal entre las variables peso yglucosa.• i.Parahombresymujeresconjuntamente• ii.Parahombresymujeresporseparado• iii.Comparelosresultados• iv.Construyaunmodeloderegresiónlineal
11
CorrelaciónlinealSPSS–Otraforma
14
Introducimos las variables. En este caso, calcula el coeficiente de correlación conjunto. En el caso que quieras calcular por sexo, hay que seleccionar los casos.
Modeloderegresiónlineal-SPSS
18 Variable de selección: aquí seleccionamos el sexo = 1 o 2 Hay que pulsar en Regla.
Correlación-RegresiónDiferentesformasdedescribirlarelaciónentredosvariables(estadísticadescriptivabivariante)cuandoestassonnuméricas(cuantitativas).• Estudiarsihayrelaciónentrelaalturayelpeso• Estudiarsihayrelaciónentreelniveldecolesterolylaedad.
• Estudiar si hay relación entre el peso y el nivel deglucosaensangre.
20
Correlación-RegresiónObjetivo:• Intentar reconocer a partir de un diagrama dedispersión si hay relación entre las variables aestudio.
• Tipoderelación.• Predecir,siesposible,elvalordeunadeellasenfuncióndelaotra.
• Medirelgradodeintensidaddeesarelación.
21
EstudioconjuntodedosvariablesPosibleformaderecogerlosdatos.Encadafilatenemoslosdatosdeunindividuo.Yencadacolumnalosvaloresquetomacadavariable.Losdatos se representaranmedianteun diagrama de dispersión. Cadaindiv iduo es un punto cuyasordenadas son los valores de lasvariables.
Glucosa Peso en
Kg. 87 61
108 60
95 78
89 62
85 66
95 60
100 54
105 84
100 68
... ...
22
Diagramadedispersión
23 Tenemos el nivel de glucosa y los pesos de 18 hombres y 18 mujeres representados en un diagrama de dispersión.
Pesa 65 kg.
Nivel glucosa 100 mg/100ml
CoeficientedecorrelaciónlinealdePearson
25
r =x i − x( ) y i − y( )
i =1
n
∑
x i − x( )2
y i − y( )2
i
n
∑i =1
n
∑=
n x i y i − x i y ii =1
n
∑i =1
n
∑i =1
n
∑
n x i2 − x i
i =1
n
∑⎛
⎝⎜⎜
⎞
⎠⎟⎟
i =1
n
∑2
n y i2 − y i
i =1
n
∑⎛
⎝⎜⎜
⎞
⎠⎟⎟
i =1
n
∑2
-1 +1 0
Relación lineal inversa Relación lineal
directa
Ausencia de relación lineal
La coeficiente de correlación lineal de Pearson de dos variables nos indica si los puntos tienen una tendencia a disponerse alineadamente
Formasderelaciónentrevariables
26
130 80
30
330 280 230 180
140 190 200
60 40 20 0
80
140
150
70 180 190
200
r = 0
100
90
80
70
60
50
40
30 140 150 160 170 180
Relación lineal directa.
190 200
r > 0 r < 0
160 1 Relación lineal inversa.
150 160 170 180
Ausencia de relación lineal.
Ejemplos.Correlacionespositivas
r=0,130
80
130
180
230
280
330
140 150 160 170 180 190 200
27
r=0,430405060708090100110120130
140 150 160 170 180 190 200
r=0,830
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,9930
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Ejemplos.Correlacionesnegativas
r=-0,50102030405060708090
140 150 160 170 180 190 200
28
r=-0,7010203040
50607080
140 150 160 170 180 190 200
r=-0,95010203040
50607080
140 150 160 170 180 190 200
r=-0,999010203040
50607080
140 150 160 170 180 190 200
Magnituddelacorrelación‘r’
29 200
0,00 0,25 0,50 0,75 1,00
Baja Moderada Buena Muy Buena
r =
* Esta interpretación es similar cuando se tiene una correlación negativa.
Algunaspropiedadesder
30 200
• Es adimensional
• Sólo toma valores entre -1 y 1
• Variables incorreladas ór=0
• Relación lineal perfecta entre dos variables ó r=+1 o r=-1
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. • Siempre que no existan observaciones anómalas.
Otroscoeficientesdecorrelación
31 200
• En el caso de variables ordinales, es posible analizar la correlación entre ellas: • Ro de Spearman • Tau de Kendall
RegresiónLinealSimple
32 200
• Sirve para predecir una medida en función de otra (o varias). Y= Variables dependiente (respuesta) X = Variable independiente (explicativa)
• La idea es encontrar una función que nos permita aproximar Y en función de X.
ŷ = α + βx
α = ordenada en el origen (constante) β = pendiente de la recta
RegresiónLinealSimple
33 200
ŷ = α + βx
α = ordenada en el origen (constante)à Es lo que vale y cuando x = 0.
β = pendiente de la recta à es lo que aumenta la y
cuando x aumenta una unidad.
La variable explicativa (dependiente) influye sobre la variable respuesta (independiente).
Por cada aumenta de una unidad de la variable
explicativa, la variable respuesta (independiente) aumenta(o disminuye) en b unidades.
Validacióndelmodelo
34 200
ŷ = α + βx
α = ordenada en el origen (constante)à Es lo que vale y cuando x = 0.
β = pendiente de la recta à es lo que aumenta la y
cuando x aumenta una unidad.
La variable explicativa (dependiente) influye sobre la variable respuesta (independiente).
Por cada aumenta de una unidad de la variable
explicativa, la variable respuesta (independiente) aumenta(o disminuye) en b unidades.
400 300 200 0 100
VAR EXPLICATIVA
100
80
60
40
20
0
• Es preciso realizar una validación del modelo
Validación
Siempre hay una diferencia entre el valor real de la variable respuesta y la estimación a partir de la ecuación de regresión: el residuo
Validacióndelmodelo
La relación entre variables no es exacta. ?? Cuál es la mejor recta que sirve para predecir los valores de Y en función de X. ?? Que error cometemos con la aproximación
PropiedadesdelCoeficienteR2
ü La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2
ü Cuando un ajuste es bueno, R2 será cercano a 1 o 100%.
ü Cuando un ajuste es malo R2 será cercano a cero.
ü A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.
ü R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]
De los 81 pacientes a los que se les ha administrado una medicación. A las 24 horas se determina la concentración sérica.
¿Depende la concentración sérica de la edad del paciente?
Ejemplo:
• El gráfico de dispersión muestra que los niveles son más elevados entre los pacientes de mayor edad
• La relación es de tipo lineal, por lo que una Regresión Lineal Simple será apropiada para modelizar la cuestión
• Por cada año adicional de edad, la concentración en sangre aumenta 2,8 ml
• La edad explica el 92% de la varianza de los niveles. El ajuste es muy bueno.
nivel Z = 114.8 + 2.8 edad Análisis / x|y / Regresión Lineal Simple
Ejemplo:estimacióndecoeficientes
Ejercicio1.23ApartirdelabasededatosLITIABIS.sav• Calcule e interprete los coeficientes decorrelación lineal de Pearson entre las variablesEDAD,TALLA,PESO,yOBESIDAD.
• Construya un modelo de regresión lineal enfuncióndelosresultadosdelapartadoanterior.
41
Opcional:Ej1.6EnlaEscueladeEnfermeríaserealizóunaencuestaa 15 estudiantes en la que hacían constar elnúmero de horas diarias dedicadas al estudio y lacalificaciónobtenidaenelúltimoexamen.Losresultadosaparecenenlatablaadjunta:
43
Opcional:Ej1.6i.Construyaeldiagramadedispersióndelosdatos.ii.Construyalatabladedistribucióndefrecuenciasconjuntasparalasvariablesnúmerodehorasdeestudio,categorizadaenmenosdetresymásoigualatres,ycalificación,categorizadaenmenosde5ymásoiguala5.iii.Calculelosporcentajesporfilasycolumnasdelatabla.Interpretelosresultados.¿Cuálessonlosporcentajesdeaprobadosentrelosalumnosqueestudianmásoigualatreshoras?.¿Yentrelosquelohacenmenosde3horas?.Construyagráficosparaladistribuciónconjuntadeambasvariablesquelepermitanvisualizarlosporcentajesporfilasyporcolumnas
44