Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca...
Transcript of Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca...
Estadıstica y Metodologıa de la Investigacion. Curso 2012-2013
Grado en Enfermerıa
Tema 1. Estadıstica descriptiva
Pedro Faraldo Roca, Beatriz Pateiro Lopez
1 IntroduccionConceptos generales
2 Tablas de frecuencias
3 Representaciones graficasVariables cualitativasVariables cuantitativas discretasVariables cuantitativas continuas
4 Medidas caracterısticasMedidas de posicion de tendencia centralMedidas de posicion de tendencia no centralMedidas de dispersion absolutasMedidas de dispersion relativaMedidas de formaRepresentacion de medidas: Diagramas de caja (Boxplot)
5 Recta de regresion
IntroduccionConceptos generales
Ejemplo. Con objeto de hacer un estudio sobre la salud de los habitantes deuna ciudad con edades entre 18 y 60 anos, se recogen en un centro medico datossobre analisis realizados a 100 pacientes mayores de 18 anos y menores de 60 queaparentemente no presentan problemas de salud graves.
De los analisis realizados se obtienen: el sexo del paciente, el antıgeno del gruposanguıneo (A, B, AB o 0), el pH de la sangre y el acido urico, ademas de la edad.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
IntroduccionConceptos generales
Poblacion
Colectivo de individuos sobre los que se quiere extraer alguna conclusion.
Individuo
Cada uno de los elementos de la poblacion (unidad estadıstica).
Muestra
Subconjunto (representativo) de la poblacion, que seleccionamos con el objetivode extraer informacion.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
IntroduccionConceptos generales
En el ejemplo, la poblacion esta formada por los habitantes de la ciudad quetienen entre 18 y 60 anos. Cada uno de ellos es un individuo de la poblacion. Los100 pacientes sobre los que se recoge la informacion forman la muestra.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
IntroduccionConceptos generales
Estadıstica descriptiva
Tecnicas para describir y analizar un grupo de datos, utilizando metodos numeri-cos y graficos, sin extraer conclusiones (inferencias) sobre la poblacion a la quepertenecen.
Estadıstica inferencial
Es la parte de la Estadıstica que trata las condiciones bajo las cuales las inferenciasextraıdas a partir de una muestra son validas.
Variable estadıstica
Cada una de las caracterısticas consideradas con el proposito de describir a cadaindividuo de la muestra.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
IntroduccionConceptos generales
Tipo Clases Ejemplo
Cualitativa Nominal Sexo, raza, color de ojos,...Ordinal Grado de contaminacion, calificacion,...
Cuantitativa Discreta No de hermanos, no de materias, ...Continua Peso, altura, ...
Cuadro: Tipos de variables estadısticas.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
IntroduccionConceptos generales
Clasificamos las variables del ejemplo de tema.
- El sexo y el antıgeno del grupo sanguıneo son variables estadısticas cualitativas(nominales).
- El pH en sangre y el acido urico son variables cuantitativas continuas y la edades cuantitativa discreta.
- La edad como puede presentar muchos valores (desde 18 a 60, si se mide enanos), por lo que para su tratamiento podrıan utilizarse tecnicas propias de lasvariables cuantitativas continuas.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Tablas de frecuencias
Tablas de frecuencias
Las tablas de frecuencias se utilizan para representar la informacion contenida enuna muestra de tamano n extraida de una poblacion, (x1, . . . , xn).
Modalidades
Cada uno de los valores que puede tomar una variable (cualitativa o cuantitativadiscreta). Se denotan como: ci , i = 1, . . . , k. El numero de individuos de la muestraen cada modalidad ci se denota por ni .
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Tablas de frecuencias
Modalidad Frecuencia Frecuencia Fr. abs. Fr. rel.absoluta relativa acumulada acumulada
c1 n1 f1 N1 F1
c2 n2 f2 N2 F2
......
......
...ci ni fi Ni Fi
......
......
...ck nk fk Nk = n Fk = 1
TOTAL n 1
Cuadro: Ejemplo de tabla de frecuencias.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Tablas de frecuencias
Frecuencia absoluta:para cada modalidad ci , la frecuencia absoluta es ni , i = 1, . . . , k.
Frecuencia relativa:para cada modalidad ci , la frecuencia relativa esfi = ni/n, i = 1, . . . , k.
Frecuencia absoluta acumulada:la frecuencia absoluta acumulada de una modalidad ci esNi =
∑i
j=1 nj = n1 + . . .+ ni , i = 1, . . . , k.
Frecuencia relativa acumulada:la frecuencia relativa acumulada de una modalidad ci esFi =
∑i
j=1 fj = f1 + . . .+ fi =Ni
n, i = 1, . . . , k.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Tablas de frecuencias
Propiedades de las frecuencias
1. Las frecuencias absolutas: 0 ≤ ni ≤ n, i = 1, . . . , k.
2. Las frecuencias relativas: 0 ≤ fi ≤ 1, i = 1, . . . , k.
3. Las frecuencias absolutas acumuladas: Nk =∑k
j=1 nj = n1 + . . .+ nk = n.
4. Las frecuencias relativas acumuladas: Fk =∑k
j=1 fj = f1 + . . .+ fk = 1
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Tablas de frecuencias
Para un grupo de 21 pacientes de la muestra, se tienen los siguientes datos sobreel antıgeno del grupo sanguıneo.
Paciente 1 2 3 4 5 6 7 8 9 10 11Grupo AB 0 A B 0 0 B A B 0 B
Paciente 12 13 14 15 16 17 18 19 20 21Grupo A 0 0 A B B 0 0 0 AB
Para estos datos, podemos construir una tabla de frecuencias, calculando frecuenciasabsolutas y relativas, ası como las respectivas acumuladas. ¿Cual es la proporcion deindividuos con grupo A en la muestra? ¿Y con grupo A o B?
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Tablas de frecuencias
Intervalos de clase: para variables cuantitativas continuas, se agrupan los distintosvalores obtenidos en la muestra en intervalos. Cada intervalo representara una mo-dalidad en el caso de variables cuantitativas continuas.
1. Denotamos por e0 < e1 < . . . < ek los extremos de los k intervalos de clase.Ejemplo de intervalo: (ei−1, ei ).
2. Amplitud del intervalo: ai = ei − ei−1.
3. Marca de clase: ci =ei−1 + ei
2.
4. Algunas cuestiones sobre los intervalos de clase: ¿Cuantos intervalos podemosconstruir? ¿Siempre de la misma amplitud? ¿Donde empezamos?
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficas
Metodos graficos para variables cualitativas
- Diagrama de barras
- Diagrama de sectores
Metodos graficos para variables cuantitativas discretas
- Diagrama de barras
- Diagrama acumulativo de frecuencias
Metodos graficos para variables cuantitativas continuas
- Histograma
- Diagrama de tallo y hojas
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficasVariables cualitativas
Tuenti Facebook Twitter MySpace Otros
010
2030
4050
6070
Figura: Ejemplo de diagrama de barras.
- Eje horizontal: modalidades ci- Eje vertical: barras con altura ni o fi
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficasVariables cualitativas
Tuenti
MySpace
Otros
Figura: Ejemplo de diagrama de sectores.
- Se representa un cırculo- Sectores proporcionales a ni o fi
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficasVariables cuantitativas discretas
0 1 2 3 4 5
010
2030
−1 0 1 2 3 4 5 60
2040
6080
100
Nº de hijos
Figura: Diagrama de barras y diagrama acumulativo de frecuencias para el numero de hijosde una familia.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficasVariables cuantitativas discretas
−1 0 1 2 3 4 5 6
020
4060
8010
0
Nº de hijos
Figura: Diagrama acumulativo defrecuencias para el numero de hijos deuna familia.
- Eje horizontal: modalidades ci- Se representan los puntos (ci ,Ni ) o
(ci ,Fi )- Se unen escalonadamente
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficasVariables cuantitativas continuas
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Figura: Ejemplo de histograma.
- Eje horizontal: intervalos de clase- Barras contiguas- Altura hi = ni/ai o hi = fi/ai
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficasVariables cuantitativas continuas
Figura: Ejemplo de diagrama de tallo yhojas.
- Tallo: seleccionamos cifras significativas- Hojas: se escribe la siguiente cifra
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Representaciones graficasVariables cuantitativas continuas
Para representar las observaciones de las variables del ejemplo debemos tener encuenta si son cualitativas o cuantitativas.
- El sexo y el antıgeno del grupo sanguıneo pueden representarse utilizando undiagrama de barras o un diagrama de sectores.
- Para el pH en sangre y el acido urico se puede utilizar un histograma o undiagrama de tallo y hojas.
- La edad, cuantitativa discreta, puede representarse con un diagrama de barrassi no toma muchos valores distintos.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de posicion de tendencia central
Media aritmetica
x =x1 + . . .+ xn
n=
∑n
i=1 xi
n
Propiedades de la media:
1 Entre el mınimo y el maximo:
mın{x1, . . . , xn} ≤ x ≤ max{x1, . . . , xn}
2 Linealidad.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de posicion de tendencia central
Mediana
Si los datos estan ordenados de menor a mayor, la mediana es el valor hasta el cualse encuentran el 50% de los casos.
- Si n es impar, la mediana sera el dato central.- Si n es par, entonces se tomara como mediana la media de los dos datos
centrales.
La mediana, a diferencia de la media, es una medida robusta ya que su valor se vepoco afectado por la presencia de datos atıpicos
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de posicion de tendencia central
Moda
Para variables discretas o cualitativas, la moda es el valor o valores que mas serepiten.
- La moda no tiene porque ser unica.- Si los datos se encuentran agrupados, se puede obtener el intervalo modal
como aquel que tiene una mayor frecuencia.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de posicion de tendencia no central
Cuartiles: los cuartiles Q1, Q2 y Q3 dividen la muestra en cuatro partes iguales.
Deciles: d1, . . . , d9 dividen la muestra el 10 partes iguales (intervalos del10%).
Percentiles: p1, . . . , p99 dividen la muestra el 100 partes iguales (intervalos del1%)
Cuantiles: en general, para cualquier 0 < p < 1.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de posicion de tendencia no central
De los datos de pH para 10 pacientes,
pH 7.29 7.36 7.40 7.41 7.347.36 7.36 7.40 7.46 7.43
obten medidas de centralizacion.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion absolutas
Varianza y desviacion tıpica
s2 =(x1 − x)2 + . . .+ (xn − x)2
n=
1
n
n∑
i=1
(xi − x)2
s =
√
(x1 − x)2 + . . .+ (xn − x)2
n=
√
√
√
√
1
n
n∑
i=1
(xi − x)2
Propiedades de la varianza:
1 Valores no negativos
2 No linealidad
3 Otra forma de calcular:
s2 =1
n
n∑
i=1
x2i − x2
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion absolutas
Otras medidas de dispersion absolutas
Rango muestral: max{xi} − mın{xi}
Rango intercuartılico: Q3 − Q1
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion absolutas
De los datos de pH para 10 pacientes,
pH 7.29 7.36 7.40 7.41 7.347.36 7.36 7.40 7.46 7.43
obten medidas de dispersion.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion relativa
Coeficiente de variacion
El coeficiente de variacion es una medida de dispersion relativa (no depende de lasunidades de los datos):
CV =s
x
Resulta adecuada para comparar variables o mediciones de una variable en distintosgrupos.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion relativa
En un grupo de varones mayores de 65 anos, el acido urico medio es de 6.5mg/dly la varianza 9.2(mg2/dl2). Para un grupo de mujeres de esa edad, la media es de4.5mg/dl, con varianza 4.3 (mg2/dl2). ¿Cual de los grupos presenta una mayorvariacion?
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion relativa
Un matrimonio coincide en el estudio. Para el se registra una concentracion de acidourico de 7.2mg/dl, mientras que para ella es de 6.2mg/dl. ¿Cual de ellos presenta unvalor mas alto, dentro de su grupo?
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion relativa
Tipificacion de datos
Si tenemos una muestra x1, . . . , xn con media x y varianza s2, los datos tipificadosse construyen como:
zi =xi − x
s
La muestra resultante z1, . . . , zn tendra media 0 y varianza 1. La tipificacion dedatos permite comparar la posicion relativa de las observaciones dentro de cadagrupo.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de dispersion relativa
En el grupo de los varones registrabamos una media de 6.5mg/dl con unadesviacion tıpica de 3.03mg/dl. ¿Entre que dos valores tenemos, al menos, el 75%de los individuos?
Desigualdad de Tchebychev
En el intervalo(x − ks, x + ks)
tenemos, al menos, el 100(1− 1/k2)% de los datos.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de forma
Medidas de forma
- Referencia: campana de Gauss- Asimetrıa y curtosis
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de forma
Coeficiente de asimetrıa de Fisher
Toma valor 0 cuando la distribucion de los datos es simetrica con respecto a lamedia.
γF =1
s3(x1 − x)3 + . . .+ (xn − x)3
n=
1
s31
n
n∑
i=1
(xi − x)3.
- Valores positivos: asimetrıa positiva- Valores negativos: asimetrıa negativa
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasMedidas de forma
Coeficiente de curtosis
El coeficiente de curtosis mide el grado de apuntamiento de la distribucion.
γC =1
s4(x1 − x)4 + . . .+ (xn − x)4
n=
1
s41
n
n∑
i=1
(xi − x)4
- Valores > 3: distribucion leptocurtica (apuntada)- Valores < 3: distribucion platicurtica (achatada)
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasRepresentacion de medidas: Diagramas de caja (Boxplot)
El diagrama de caja se construye a partir de las siguientes medidas:
- El primer y el tercer cuartil, Q1 y Q3, que delimitan la caja central. La longitudde la caja viene dada por el RIC , que es una medida de dispersion absoluta.
- Los lımites inferior y superior se calculan como:
LI = max{mın{xi},Q1 − 1.5(Q3 − Q1)},
LS = mın{max{xi},Q3 + 1.5(Q3 − Q1)}.
- La mediana (Q2) se representa con una lınea horizontal en la caja central.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Medidas caracterısticasRepresentacion de medidas: Diagramas de caja (Boxplot)
−2
−1
01
23
−2 −1 0 1 2 30.
00.
10.
20.
30.
40.
5
Figura: Ejemplo de diagrama de caja e histograma correspondiente.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Ejemplo. Un grupo de cientıficos pretende estudiar el efecto de cierto antibioticosobre una especie de bacterias. Su objetivo final es describir el tiempo de super-vivencia de una colonia en funcion de la concentracion de antibiotico administrado(mg/l). Se probaron cinco concentraciones diferentes, midiendo despues el tiempo desupervivencia de las bacterias (min).
Concentracion Tiempo
7 1312 915 1018 825 6
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
¿Como describimos los datos del ejemplo?
i) Una representacion grafica.
ii) Un analisis descriptivo de cada variable.
¿Como cumplimos el objetivo?
i) Estudiando la relacion entre las variables.
ii) Construyendo una recta de regresion.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Las parejas de datos datos (xi , yi ) con i = 1, . . . , n, de las dos variables (X ,Y )(tambien llamada variable bidimensional), se pueden representar a partir de unanube de puntos o diagrama de dispersion.
10 15 20 25
67
89
1011
1213
Diagrama de dispersión
Concentración (mg/l)
Tie
mpo
(m
in)
¿Que podemos observar en el grafico?
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Para cada variable tenemos una muestra de n = 5 datos:
x =
∑n
i=1 xi
n=
7 + 12 + 15 + 18 + 25
5= 15.4 mg/l , y = 9.2 min
Tambien calculamos la varianza de cada una:
s2x =
∑n
i=1 x2i
n− x2 = 273.4− 15.42 = 36.24, s2y = 5.36
Las desviaciones tıpicas valen:
sx = 6.02 mg/l , sy = 2.32 min
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Covarianza
La covarianza entre dos variables Sxy es una medida que indica la variabilidadconjunta de X e Y y calcula como:
Sxy =1
n
n∑
i=1
(xi − x)(yi − y) =1
n
n∑
i=1
xiyi − x · y
En nuestro ejemplo:Sxy = −13.08 mg/l ·min
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
−3 −2 −1 0 1 2 3
−8
−6
−4
−2
02
46
Relación directa
−3 −2 −1 0 1 2 3−
8−
6−
4−
20
24
6
Relación inversa
Figura: Ejemplo de diagramas de dispersion. Relaciones directa e inversa.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Relacion entre variables y signo de la covarianza
a) Si la relacion entre las variables es directa, entonces Sxy > 0.
b) Si la relacion entre las variables es inversa, entonces Sxy < 0.
c) Si no hay relacion lineal entre las variables, entonces Sxy = 0.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Coeficiente de correlacion lineal
A partir de una muestra de datos {(xi , yi )}ni=1, el coeficiente de correlacion lineal
se calcula como:
r =Sxy
sxsy,
donde Sxy es la covarianza muestral y sx , sy son las respectivas desviaciones tıpicasmuestrales.
- No tiene dimensiones- Toma valores en [−1, 1]- Si no existe relacion lineal entre las variables, r = 0
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
En nuestro ejemplo:
r =−13.08
6.02 · 2.32= −0.94
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Recta de regresion
La recta de regresion de Y sobre X tendra la siguiente expresion:
y = a+ bx ,
donde a representa la ordenada en el origen o intercepto y b es la pendiente. Xse denomina variable explicativa o independiente e Y sera la variable respuesta, ovariable dependiente.
En nuestro ejemplo, vamos a buscar una formula que nos permita calcular eltiempo de supervivencia a partir de la concentracion de antibiotico:
Tiempo = a + b · Conc ⇔ y = a+ bx
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
10 15 20 25
67
89
1011
1213
¿Recta?
Concentración (mg/l)
Tie
mpo
(m
in)
Figura: ¿Que recta escogerıas?
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
10 15 20 25
67
89
1011
1213
¿Recta?
Concentración (mg/l)
Tie
mpo
(m
in)
10 15 20 256
78
910
1112
13
¿Recta?
Concentración (mg/l)
Tie
mpo
(m
in)
Figura: Recta ajustada.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
10 15 20 25
67
89
1011
1213
Residuos
Concentración (mg/l)
Tie
mpo
(m
in)
Figura: Recta ajustada y residuos.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Idea
En la practica, a partir de los datos {(xi , yi )}ni=1 podremos calcular los valores de
a y b. El objetivo sera obtener los valores a y b que nos proporcionen los residuosmas pequenos.
Residuos
Los residuos son las diferencias entre los valores observados de la variable respuestayi y los valores que proporciona el ajuste yi = a + bxi y vienen dados por:
ei = yi − yi = yi − a − bxi , i = 1, . . . , n
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Metodo de Mınimos Cuadrados
Consiste en minimizar la suma de los cuadrados de los residuos, por lo que sebuscan los valores a y b que minimizan:
n∑
i=1
e2i =n
∑
i=1
(yi − a− bxi )2
A partir del Metodo de Mınimos Cuadrados, se obtienen los valores para a y b:
b =Sxy
s2x, a = y − bx
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
En nuestro ejemplo:
b =−13.08
36.24= −0.36, a = 9.2− 0.36 · 15.4 = 14.76
Entonces, la recta ajustada sera:
Tiempo = 14.76− 0.36 · Conc ⇔ y = 14.76− 0.36x
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Coeficiente de regresion
Se denomina coeficiente de regresion a la pendiente (parametro b) de la recta deregresion de Y sobre X .
a) Si b > 0, al aumentar los valores de X tambien aumentan los valores de Y .
b) Si b < 0, al aumentar X , los valores de Y disminuyen.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
¿Que podemos decir del ejemplo?
a) Covarianza: Sxy = −13.08 mg/l ·min. Tenemos una relacion inversa entrelas variables.
b) Correlacion lineal: r = −0.94. Existe una relacion lineal inversa.
c) La recta ajustada es:y = 14.76− 0.36x
d) Coeficiente de regresion: b = −0.36. Al aumentar la concentracion,disminuye el tiempo de supervivencia de las bacterias.
e) ¿Y el ajuste es bueno?
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Coeficiente de determinacion
Una medida para el ajuste del modelo es el coeficiente de determinacion (r 2) quemide la proporcion de variabilidad de Y que explica X a traves de la recta deregresion.
Es el cuadrado del coeficiente de correlacion.
Toma valores entre 0 y 1.
Valores cercanos a 1 indican un buen ajuste.
En nuestro ejemplo:r 2 = 0.88.
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
¿Para que podemos utilizarlo?
Concentracion 7 12 15 18 25Tiempo 13 9 10 8 6
i) ¿Podemos pensar, a partir de los resultados anteriores, que el tiempo desupervivencia de las bacterias disminuye al aumentar la concentracion deantibiotico?
ii) Si repetimos el experimento con una concentracion de 20 mg/l,¿que prediccion podemos hacer sobre el tiempo de supervivencia?Respuesta: y = 14.76− 0.36 · 20 = 7.54 min
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva
Recta de regresion
Recta de regresion de X sobre Y
La recta de regresion de X sobre Y se calcula como:
X = c + dY , d =Sxy
s2y, c = x − dy
- Si conocemos el valor de Y , para hacer predicciones sobre X utilizamos estarecta.
- La variabilidad explicada (r 2) es la misma para ambas rectas.- Pasa por el vector de medias (y , x).
Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva