Bioestadística · i. Construya el diagrama de dispersión de los datos. ii. Construya la tabla de...

44
Bioestadística Práctica de Ordenadores 3 1 José Aurelio Pina Romero [email protected] Bioestadística Grado Enfermería UA- Departamento de Enfermería

Transcript of Bioestadística · i. Construya el diagrama de dispersión de los datos. ii. Construya la tabla de...

Bioestadística

PrácticadeOrdenadores3

1

José[email protected]

Bioestadística– GradoEnfermeríaUA-DepartamentodeEnfermería

¿Quévamoshacer?

• Ejercicio1.19(15minutos)RepasoP02• Ejercicio1.7-Profe• Ejercicio1.15(+regresiónlineal)-Profe• Ejercicio1.23(+regresiónlineal)-Clase• Opcional/casa:ejercicio1.6

2

Ejercicio1.19ApartirdelabasededatosLITIABIS.savi.  calculelosestadísticosdescriptivosde

tendenciacentral,dispersiónyformaparalasvariablesEDAD,TALLA,PESOyTRIGLICERIDOS.Interpretalosresultados.

ii.  Calculelospercentiles5,25,75y95.Interpretadelosresultados.

3

Ejercicio1.7Sedeterminóelpeso(enKg)yelnivelde glucosa en la sangre (en mg/100ml)de18hombresy18mujeresquetrabajaban en una fábrica debombones. Los resultados obtenidosfueronlossiguientes:

4

Ejercicio1.7HOMBRESPESO75.062.580.076.068.560.061.568.570.072.074.076.565.564.567.082.075.072.5GLUCOSA9087108958985951001051001041079810010511010299MUJERESPESO55.049.570.060.058.550.051.558.559.062.052.066.555.557.547.072.065.061.5GLUCOSA10097118105999510211011510310811798105109115102107 5

Ejercicio1.7Construya el diagrama de dispersión para lasvariablesPesoyGlucosatantoparahombrescomoparamujeres.(Sesugiererepresentarambossexossobre el mismo diagrama de dispersióndistinguiendomediantedistintoscolores).Interpretelosresultados.

6

DiagramasdedispersiónconSPSS

7

DiagramasdedispersiónconSPSS

8

En este caso se incluye hombres y mujeres en el mismo gráfico

DiagramasdedispersiónconSPSS

9

En este caso genera un gráfico para hombres y uno para mujeres

DiagramasdedispersiónconSPSS

10

En este caso genera un gráfico para hombres y mujeres conjuntamente.

Ejercicio1.15Basándoseen losdatosdelejercicio1.7,calcule lacorrelación lineal entre las variables peso yglucosa.•  i.Parahombresymujeresconjuntamente•  ii.Parahombresymujeresporseparado•  iii.Comparelosresultados•  iv.Construyaunmodeloderegresiónlineal

11

CorrelaciónlinealSPSS

12

Filas: Peso Columnas: Glucosa Capa: Sexo

CorrelaciónlinealSPSS

13

Pulsar en Estadísticos

CorrelaciónlinealSPSS–Otraforma

14

Introducimos las variables. En este caso, calcula el coeficiente de correlación conjunto. En el caso que quieras calcular por sexo, hay que seleccionar los casos.

CorrelaciónlinealSPSS–Otraforma

15

Pulsar en “ Si se satisface la condición”

CorrelaciónlinealSPSS–Otraforma

16

Incluir sexo = 1 para hombres sexo = 2 para mujeres

Modeloderegresiónlineal-SPSS

17

Modeloderegresiónlineal-SPSS

18 Variable de selección: aquí seleccionamos el sexo = 1 o 2 Hay que pulsar en Regla.

TEORÍA

19

Correlación-RegresiónDiferentesformasdedescribirlarelaciónentredosvariables(estadísticadescriptivabivariante)cuandoestassonnuméricas(cuantitativas).•  Estudiarsihayrelaciónentrelaalturayelpeso•  Estudiarsihayrelaciónentreelniveldecolesterolylaedad.

•  Estudiar si hay relación entre el peso y el nivel deglucosaensangre.

20

Correlación-RegresiónObjetivo:•  Intentar reconocer a partir de un diagrama dedispersión si hay relación entre las variables aestudio.

•  Tipoderelación.• Predecir,siesposible,elvalordeunadeellasenfuncióndelaotra.

• Medirelgradodeintensidaddeesarelación.

21

EstudioconjuntodedosvariablesPosibleformaderecogerlosdatos.Encadafilatenemoslosdatosdeunindividuo.Yencadacolumnalosvaloresquetomacadavariable.Losdatos se representaranmedianteun diagrama de dispersión. Cadaindiv iduo es un punto cuyasordenadas son los valores de lasvariables.

Glucosa Peso en

Kg. 87 61

108 60

95 78

89 62

85 66

95 60

100 54

105 84

100 68

... ...

22

Diagramadedispersión

23 Tenemos el nivel de glucosa y los pesos de 18 hombres y 18 mujeres representados en un diagrama de dispersión.

Pesa 65 kg.

Nivel glucosa 100 mg/100ml

Diagramadedispersión

24 Parece que el nivel de glucosa aumenta con el peso

CoeficientedecorrelaciónlinealdePearson

25

r =x i − x( ) y i − y( )

i =1

n

x i − x( )2

y i − y( )2

i

n

∑i =1

n

∑=

n x i y i − x i y ii =1

n

∑i =1

n

∑i =1

n

n x i2 − x i

i =1

n

∑⎛

⎝⎜⎜

⎠⎟⎟

i =1

n

∑2

n y i2 − y i

i =1

n

∑⎛

⎝⎜⎜

⎠⎟⎟

i =1

n

∑2

-1 +1 0

Relación lineal inversa Relación lineal

directa

Ausencia de relación lineal

La coeficiente de correlación lineal de Pearson de dos variables nos indica si los puntos tienen una tendencia a disponerse alineadamente

Formasderelaciónentrevariables

26

130 80

30

330 280 230 180

140 190 200

60 40 20 0

80

140

150

70 180 190

200

r = 0

100

90

80

70

60

50

40

30 140 150 160 170 180

Relación lineal directa.

190 200

r > 0 r < 0

160 1 Relación lineal inversa.

150 160 170 180

Ausencia de relación lineal.

Ejemplos.Correlacionespositivas

r=0,130

80

130

180

230

280

330

140 150 160 170 180 190 200

27

r=0,430405060708090100110120130

140 150 160 170 180 190 200

r=0,830

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,9930

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Ejemplos.Correlacionesnegativas

r=-0,50102030405060708090

140 150 160 170 180 190 200

28

r=-0,7010203040

50607080

140 150 160 170 180 190 200

r=-0,95010203040

50607080

140 150 160 170 180 190 200

r=-0,999010203040

50607080

140 150 160 170 180 190 200

Magnituddelacorrelación‘r’

29 200

0,00 0,25 0,50 0,75 1,00

Baja Moderada Buena Muy Buena

r =

* Esta interpretación es similar cuando se tiene una correlación negativa.

Algunaspropiedadesder

30 200

•  Es adimensional

•  Sólo toma valores entre -1 y 1

•  Variables incorreladas ór=0

•  Relación lineal perfecta entre dos variables ó r=+1 o r=-1

•  Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. •  Siempre que no existan observaciones anómalas.

Otroscoeficientesdecorrelación

31 200

•  En el caso de variables ordinales, es posible analizar la correlación entre ellas: •  Ro de Spearman •  Tau de Kendall

RegresiónLinealSimple

32 200

•  Sirve para predecir una medida en función de otra (o varias). Y= Variables dependiente (respuesta) X = Variable independiente (explicativa)

•  La idea es encontrar una función que nos permita aproximar Y en función de X.

ŷ = α + βx

α = ordenada en el origen (constante) β = pendiente de la recta

RegresiónLinealSimple

33 200

ŷ = α + βx

α = ordenada en el origen (constante)à Es lo que vale y cuando x = 0.

β = pendiente de la recta à es lo que aumenta la y

cuando x aumenta una unidad.

La variable explicativa (dependiente) influye sobre la variable respuesta (independiente).

Por cada aumenta de una unidad de la variable

explicativa, la variable respuesta (independiente) aumenta(o disminuye) en b unidades.

Validacióndelmodelo

34 200

ŷ = α + βx

α = ordenada en el origen (constante)à Es lo que vale y cuando x = 0.

β = pendiente de la recta à es lo que aumenta la y

cuando x aumenta una unidad.

La variable explicativa (dependiente) influye sobre la variable respuesta (independiente).

Por cada aumenta de una unidad de la variable

explicativa, la variable respuesta (independiente) aumenta(o disminuye) en b unidades.

400 300 200 0 100

VAR EXPLICATIVA

100

80

60

40

20

0

• Es preciso realizar una validación del modelo

Validación

Siempre hay una diferencia entre el valor real de la variable respuesta y la estimación a partir de la ecuación de regresión: el residuo

Validacióndelmodelo

La relación entre variables no es exacta. ?? Cuál es la mejor recta que sirve para predecir los valores de Y en función de X. ?? Que error cometemos con la aproximación

RectadeRegresiónlinealsimpleAjustedelmodelo-CoeficienteR2

Y

R =1−Se

2

SY2

PropiedadesdelCoeficienteR2

ü  La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2

ü  Cuando un ajuste es bueno, R2 será cercano a 1 o 100%.

ü  Cuando un ajuste es malo R2 será cercano a cero.

ü  A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.

ü  R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

De los 81 pacientes a los que se les ha administrado una medicación. A las 24 horas se determina la concentración sérica.

¿Depende la concentración sérica de la edad del paciente?

Ejemplo:

• El gráfico de dispersión muestra que los niveles son más elevados entre los pacientes de mayor edad

• La relación es de tipo lineal, por lo que una Regresión Lineal Simple será apropiada para modelizar la cuestión

• Por cada año adicional de edad, la concentración en sangre aumenta 2,8 ml

• La edad explica el 92% de la varianza de los niveles. El ajuste es muy bueno.

nivel Z = 114.8 + 2.8 edad Análisis / x|y / Regresión Lineal Simple

Ejemplo:estimacióndecoeficientes

CoeficientesderyR2ydiagramadedispersión

40

Ejercicio1.23ApartirdelabasededatosLITIABIS.sav•  Calcule e interprete los coeficientes decorrelación lineal de Pearson entre las variablesEDAD,TALLA,PESO,yOBESIDAD.

• Construya un modelo de regresión lineal enfuncióndelosresultadosdelapartadoanterior.

41

REPASO:descriptiva,gráficos,etc...

42

Opcional:Ej1.6EnlaEscueladeEnfermeríaserealizóunaencuestaa 15 estudiantes en la que hacían constar elnúmero de horas diarias dedicadas al estudio y lacalificaciónobtenidaenelúltimoexamen.Losresultadosaparecenenlatablaadjunta:

43

Opcional:Ej1.6i.Construyaeldiagramadedispersióndelosdatos.ii.Construyalatabladedistribucióndefrecuenciasconjuntasparalasvariablesnúmerodehorasdeestudio,categorizadaenmenosdetresymásoigualatres,ycalificación,categorizadaenmenosde5ymásoiguala5.iii.Calculelosporcentajesporfilasycolumnasdelatabla.Interpretelosresultados.¿Cuálessonlosporcentajesdeaprobadosentrelosalumnosqueestudianmásoigualatreshoras?.¿Yentrelosquelohacenmenosde3horas?.Construyagráficosparaladistribuciónconjuntadeambasvariablesquelepermitanvisualizarlosporcentajesporfilasyporcolumnas

44