BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

38
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 1 BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL 1. Generalidades Estadística: Conjunto de teorías y técnicas para la recopilación, el análisis, la interpretación y la presentación de conjuntos de datos Etapas en un estudio estadístico: Recogida de datos, incluyendo el diseño de cómo se ha de realizar dicha recogida Ordenación y representación de los datos obtenidos Descripción de las características más importantes Análisis estadístico formal de dichos datos, que permitirá extraer conclusiones así como tomar decisiones Estadística Descriptiva: Parte de la Estadística que tiene por objeto el estudio de conjuntos numerosos de datos con el fin de dar una descripción numérica, ordenación y simplificación de la información recogida en los datos Algunos conceptos básicos de la Estadística Descriptiva Población: conjunto de individuos o elementos sobre el que recaen las observaciones y objeto de nuestro estudio Muestra: subconjunto representativo de toda la población. Se suele considerar una muestra de la población porque no siempre es posible estudiar exhaustivamente la población por motivos de tiempo, coste excesivo u otro tipo de dificultad Carácter: propiedad que deseamos observar sobre los elementos de la población Modalidad: cada uno de los estados diferentes que puede presentar un carácter. Las modalidades de un carácter deben ser exhaustivas e incompatibles. Cada elemento debe pertenecer a una y solamente a una modalidad

Transcript of BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Page 1: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 1

BLOQUE I: ESTADÍSTICA DESCRIPTIVA

TEMA 1. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL 1. Generalidades Estadística: Conjunto de teorías y técnicas para la recopilación, el análisis, la interpretación y la presentación de conjuntos de datos Etapas en un estudio estadístico:

• Recogida de datos, incluyendo el diseño de cómo se ha de realizar dicha recogida

• Ordenación y representación de los datos obtenidos • Descripción de las características más importantes • Análisis estadístico formal de dichos datos, que permitirá

extraer conclusiones así como tomar decisiones Estadística Descriptiva: Parte de la Estadística que tiene por objeto el estudio de conjuntos numerosos de datos con el fin de dar una descripción numérica, ordenación y simplificación de la información recogida en los datos Algunos conceptos básicos de la Estadística Descriptiva Población: conjunto de individuos o elementos sobre el que recaen las observaciones y objeto de nuestro estudio Muestra: subconjunto representativo de toda la población. Se suele considerar una muestra de la población porque no siempre es posible estudiar exhaustivamente la población por motivos de tiempo, coste excesivo u otro tipo de dificultad Carácter: propiedad que deseamos observar sobre los elementos de la población Modalidad: cada uno de los estados diferentes que puede presentar un carácter. Las modalidades de un carácter deben ser exhaustivas e incompatibles. Cada elemento debe pertenecer a una y solamente a una modalidad

Page 2: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 2

M1

M2

…Mk

P

jiMMMMMP

ji

k

≠==

,21

φI

UKUU

Atendiendo a sus modalidades, los caracteres se pueden clasificar en

• Caracteres cuantitativos: sus distintas modalidades son medibles

• Caracteres cualitativos: sus modalidades no están sujetas a medida Los caracteres cualitativos se denominan también atributos Los caracteres cuantitativos se denominan también variables estadísticas y se dividen en

• Variables estadísticas discretas: número finito o infinito numerable de modalidades

• Variables estadísticas continuas: número de modalidades no

numerable A veces la distinción entre variables estadísticas discretas y continuas es arbitraria. Variables discretas con un gran número de valores se pueden aproximar por continuas y, a su vez, variables continuas pueden tratarse como discretas debido, por ejemplo, a la imprecisión de los instrumentos de medida Ejemplos. Para los habitantes de un cierto municipio se pueden estudiar los siguientes caracteres: sexo, estado civil, profesión, número de hermanos, edad, estatura,...

Page 3: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 3

Distribución de frecuencias

Población: P Número de individuos observados: n Carácter: C Modalidades: M1,M2,...,Mk

Frecuencia absoluta de la modalidad Mi, ni: número de individuos observados que presentan dicha modalidad Y se cumple que

n1+...+nk=n

Frecuencia relativa de la modalidad Mi, fi: proporción de individuos observados que presentan dicha modalidad, se obtiene como

nnf i

i =

Y se verifica que

f1+...+fk=1 Distribución de frecuencias: conjunto de modalidades que presenta un carácter junto con sus frecuencias (relativas o absolutas)

Distribución de frecuencias absolutas: {(Mi,ni): i=1,..., k)} Distribución de frecuencias relativas: {(Mi,fi): i=1,..., k)}

Page 4: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 4

2. Tabla de frecuencias Los datos se representan en una tabla como sigue

CarácterC

Frecuencias absolutasni

Frecuencias relativas fi

M1 n1 f1 M2 n2 f2 . . . . . . . . .

Mk nk fk n 1

Ejemplo. Clasificación de los empleados de una empresa según su nivel de estudios (atributo)

Nivel de estudios Mi

Frecuencias absolutasni

Frecuencias relativasfi

Sin Estudios Estudios Primarios

Grado Medio Grado Superior

15 25 21 9

0.2143 0.3571 0.3000 0.1286

70 1 Ejemplo. Clasificación de los alumnos de un Facultad de Ciencias por secciones (atributo)

Secciones Mi

Frecuencias absolutasni

Frecuencias relativasfi

Químicas Matemáticas

Físicas Biológicas Geológicas

1500 750

1000 500 250

0.3750 0.1875 0.2500 0.1250 0.0625

4000 1

Page 5: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 5

Para variables estadísticas se definen las frecuencias absolutas acumuladas y las frecuencias relativas acumuladas, respectivamente, como

Ni=n1+...+ni Fi=f1+...+fi Variables estadísticas discretas → X: x1, x2,..., xk, donde x1 <x2<...<xk

Frecuencias absolutas

Frecuencias relativas

Valor xi

ni Ni fi Fi x1 n1 N1 f1 F1 x2 n2 N2 f2 F2 . . . . . . . . . . . . . . .

xk nk Nk fk Fk n 1

Ejemplo. Número de piezas defectuosas producidas diariamente en una fábrica (variable estadística discreta)

Frecuencias absolutas

Frecuencias relativas

Valor xi

ni Ni fi Fi 0 1 2 3 4 5

6 o más

40 26 14 6 3 0 1

40 66 80 86 89 89 90

0.444 0.289 0.156 0.067 0.033 0.000 0.011

0.444 0.733 0.889 0.956 0.989 0.989

1 90 1

Page 6: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 6

Variables estadísticas continuas → X: [e0,e1], (e1,e2],..., (ek-1,ek], con e0<...<ek (ei-1,ei]: clase i-ésima

ei-1, ei: extremo inferior y extremo superior respectivamente de la clase i-ésima

ai= ei - ei-1: amplitud de la clase i-ésima xi=( ei-1 + ei)/2: marca de la clase i-ésima

hi=ni/ai: densidad de frecuencia para la clase i-ésima (número de observaciones por unidad de intervalo)

Frecuencias absolutas

Frecuencias relativas

Intervalo (ei-1,ei]

ni Ni fi Fi [e0,e1] n1 N1 f1 F1 (e1,e2] n2 N2 f2 F2

. . . . .

. . . . .

. . . . . (ek-1,ek] nk Nk fk Fk

n 1 Ejemplo. Tiempo de vida en horas de unas determinadas componentes de una máquina (variable estadística continua)

Frecuencias absolutas

Frecuencias relativas

Intervalo (ei-1,ei]

Marcas de clase

xi ni Ni fi Fi [0,20]

(20,100] (100,150] (150,250] (250,400]

10 60 125 200 325

7 15 22 19 7

7 22 44 63 70

0.1 0.214 0.314 0.271

0.1

0.1 0.314 0.628 0.899

1 70 1

Page 7: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 7

3. Representación gráfica • Las representaciones gráficas tiene por objeto proporcionar una síntesis

visual de la distribución de frecuencias • Todas las representaciones gráficas se basan en el principio de hacer

proporcional las frecuencias a alguna magnitud de la figura representada, generalmente el área encerrada

• Atendiendo a la naturaleza del carácter en estudio se utilizan diferentes tipos

de representación Caracteres cualitativos

• Diagrama de

rectángulos • Diagrama de sectores

Variables estadísticas discretas

• Diagrama de barras • Polígono de

frecuencias • Curva acumulativa o

de distribución

Caracteres cuantitativos

Variables estadísticas continuas

• Histograma • Polígono de

frecuencias • Curva acumulativa o

de distribución

Page 8: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 8

Caracteres cualitativos • Diagrama de rectángulos: En el eje de abscisas se asocia a cada modalidad

un rectángulo de base constante y altura proporcional a la frecuencia correspondiente

n4

n2 n1 n3 M1 M2 M3 M4 • Diagrama de sectores: Un círculo cualquiera se divide en tantos sectores

circulares como modalidades diferentes tenga el carácter, de manera que la amplitud de cada sector circular sea proporcional a la frecuencia correspondiente. Para su construcción, el ángulo que define cada sector queda determinado por

αi=2 π fi (si el ángulo se expresa en radianes) αi=360º fi (si el ángulo se expresa en grados sexagesimales)

M1 M4

M2 M3

Page 9: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 9

Caracteres cuantitativos Se define la función de distribución de una variable estadística X de la siguiente forma:

F(x)=proporción de individuos con valor de la variable menor o igual a x Variables estadísticas discretas • Diagrama de barras: En un sistema de ejes cartesianos se representa el

conjunto de puntos {(xi,ni): i=1,...,k} ó {(xi,fi): i=1,...,k}, y posteriormente se unen con el eje de abscisas mediante segmentos verticales n5

n2 n1 n3 n4 x1 x2 x3 x4 x5

• Polígono de frecuencias: Se construye uniendo con segmentos los extremos

superiores de los segmentos verticales en el diagrama de barras

n5 n2 n1 n3 n4 x1 x2 x3 x4 x5

Page 10: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 10

• Curva acumulativa o de distribución: Consiste en la representación gráfica de la función de distribución

⎪⎪⎪⎪

⎪⎪⎪⎪

≥<≤

<≤<≤

<

=

−−

k

k1k1k

322

211

1

xxsi1xxxsiF

.........xxxsiFxxxsiF

xxsi0

F(x)

Propiedades: • Se mantiene constante entre cada par de valores de la variable • Función no decreciente en toda la recta real • Función continua en todo punto de la recta real que no sea un valor de la

variable • Función continua a la derecha en los valores de la variable • 1 F(x) lim 0 F(x) lim

x- x==

+∞→∞→

F5=1

F4 F3 F2 F1 x1 x2 x3 x4 x5

Page 11: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 11

Variables estadísticas continuas • Histograma: Se representan sobre el eje de abscisas los extremos de los

intervalos de clase de la variable y sobre cada uno de ellos se construye un rectángulo cuya área sea proporcional a su frecuencia absoluta (con el mismo factor de proporcionalidad para todas las clases); por tanto, su altura será igual a su densidad de frecuencia hi

h2 h3 h4 h1 h5 e0 e1 e2 e3 e4 e5 • Polígono de frecuencias: Se construye uniendo con segmentos los puntos

medios de los lados superiores de los rectángulos que forman el histograma

h2 h3 h4 h1 h5 e0 e1 e2 e3 e4 e5

Page 12: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 12

• Curva acumulativa o de distribución: Consiste en la representación gráfica de la función de distribución. En este caso, se conoce la función de distribución para los extremos de los intervalos (ei-1,ei]

⎪⎪⎪

⎪⎪⎪

≥=

==<

=

−−

k

1k1k

22

11

0

exsi1exsiF

.........exsiFexsiFexsi0

F(x)

Como no se conocen los valores de F(x) supondremos que esta función aumenta de forma lineal entre los extremos de los intervalos

Propiedades: • Función no decreciente en toda la recta real • Función continua en todo punto de la recta real • 1 F(x) lim 0 F(x) lim

x- x==

+∞→∞→

F5=1 F4 F3 F2 F1 e0 e1 e2 e3 e4 e5

Page 13: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 13

4. Síntesis numérica de una variable estadística unidimensional Nos centraremos a partir de ahora en el estudio de variables estadísticas A continuación definimos cantidades numéricas, denominadas características o medidas, que representan o sintetizan determinados aspectos de la distribución de la variable estadística. Éstas se clasifican en

• Medidas de posición o localización: describen cómo se comportan globalmente los datos observados y localizan la distribución de frecuencias

• Medidas de dispersión: miden la desviación o variabilidad de las

observaciones entre sí o en relación con un valor de referencia, generalmente con respecto a una medida de posición central informando sobre la representatividad de dicha medida

• Medidas de forma: resumen características relativas a la forma de la

distribución. Cuantifican aspectos sobre la posible simetría de la distribución (medidas de asimetría) y sobre la concentración de las observaciones más centrales con respecto a una distribución de referencia (medidas de curtosis o apuntamiento)

• Medidas de posición

• Medidas de posición central

Media aritmética: Suma de los datos observados ponderados por sus frecuencias relativas

i

k

1iii

k

1ii nx

n1fxx ∑∑

==

==

Moda: Valor de la variable que se presenta con mayor frecuencia Para variables estadísticas discretas el cálculo de la moda es inmediato. No tiene por qué ser única

Para variables estadísticas continuas se define el intervalo modal como el intervalo que presenta mayor densidad de frecuencia. Para obtener un valor concreto del intervalo como moda se tienen en cuenta las densidades de frecuencia de los intervalos adyacentes a dicho intervalo

Page 14: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 14

Un procedimiento gráfico para su cálculo se ilustra en la siguiente figura: hi hi+1 hi-1

ei-2 ei-1 Mo ei ei+1

1ii

i

1ii

1i

hhMoe

hheMo

+−

−−

=−−

La moda tenderá a aproximarse al intervalo contiguo con mayor densidad de frecuencia

Mediana: La mediana como medida de tendencia central es el valor que divide al conjunto de todas las observaciones (supuestas ordenadas en orden creciente o decreciente) en dos subconjuntos con el mismo número de observaciones cada uno, de manera que uno está formado por todas las observaciones menores o iguales que la mediana y el otro por las mayores Se define como el valor de la variable estadística, Me, tal que la ordenada en la función de distribución vale 0.5, es decir, la solución de la ecuación

F(Me)=0.5

Cálculo de la mediana:

Para variables estadísticas discretas, la mediana es el valor de la variable que verifica xMe=Me ⇒ F(xMe-1) < 0.5 y F(xMe) ≥ 0.5

Page 15: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 15

(Me,0.5)

Para su cálculo se consideran las frecuencias relativas acumuladas Fi (o las frecuencias absolutas acumuladas, Ni) 1. Si existe alguna frecuencia relativa acumulada Fi que coincida con 0.5,

Fi = 0.5 (ó Ni = n /2),

Me = (xi + xi+1)/2 2. En otro caso, se considera la frecuencia relativa acumulada que por

primera vez supera a 0.5, Fi (o la frecuencia absoluta acumulada que por primera vez supera a n/2, Ni), y

Me = xi

Para variables estadísticas continuas, se determina la mediana de forma gráfica como

F(x) 1

F(ei)=Fi 0.5

F(ei-1)=Fi-1 0 ei-1 Me ei

1ii

1ii

1i

1i

FFee

F0.5eMe

−−

=−−

O, equivalentemente,

1ii

1ii

1i

1i

NNee

Nn/2eMe

−−

=−−

Page 16: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 16

• Medidas de posición no central

Cuantiles. Se define el cuantil de orden α (0<α<1) como el valor de la variable xα tal que su ordenada en la función de distribución vale α, es decir, la solución de la ecuación

F(xα)=α

Casos particulares de cuantiles para valores concretos de α: Cuartiles: Q1, Q2 y Q3, para α=0.25, 0.5 y 0.75, respectivamente

F(Q1)=0.25, F(Q2)=0.5 y F(Q3)=0.75

Deciles: D1, D2, ..., D9, para α=0.1, 0.2 ,..., y 0.9, respectivamente

F(D1)=0.1, F(D2)=0.2,..., y F(D9)=0.9 Percentiles: P1, P2, ..., P99, para α=0.01, 0.02 , ..., y 0.99, respectivamente

F(P1)=0.01, F(P2)=0.02,..., y F(P99)=0.99 Cálculo de cuantiles

Caso discreto:

Se consideran las frecuencias relativas acumuladas Fi (o las frecuencias absolutas acumuladas, Ni)

1. Si existe alguna frecuencia relativa acumulada Fi que coincida con α, Fi = α (ó Ni = n α), entonces

xα = (xi + xi+1)/2

2. En otro caso, se considera la frecuencia relativa acumulada que

por primera vez supera a α, Fi (o la frecuencia absoluta acumulada que por primera vez supera a nα, Ni), y

xα= xi

Page 17: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 17

(x α , α)=( x α , F(x α))

Caso continuo:

Se consideran las frecuencias relativas acumuladas Fi (o las frecuencias absolutas acumuladas, Ni)

1. Si existe alguna frecuencia relativa acumulada Fi que coincida con α, Fi = α (ó Ni = n α),

xα = ei

2. En otro caso, se considera la frecuencia relativa acumulada que por primera vez supera a α, Fi (o la frecuencia absoluta acumulada que por primera vez supera a nα, Ni), y

xα ∈ (ei-1, ei]

Para el cálculo práctico se generaliza el procedimiento introducido para la mediana

F(x) 1

F(ei)=Fi

α

F(ei-1)=Fi-1 0 ei-1 xα ei

1ii

1ii

1i

1iα

FFee

Fαex

−−

=−−

O equivalentemente,

1ii

1ii

1i

1iα

NNee

Nnαex

−−

=−−

Page 18: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 18

• Medidas de dispersión

• Medidas de dispersión absoluta. Miden la dispersión o variabilidad en las mismas unidades que la variable en estudio. No sirven para comparar la variabilidad o dispersión de distribuciones distintas Rango: Amplitud del intervalo donde se encuentran distribuidas todas las observaciones

R = Max xi – Min xi Rango intercuartílico: Amplitud del intervalo donde se encuentran distribuidas el 50% de las observaciones centrales

RI = Q3 - Q1 Desviación absoluta media respecto a un valor ‘a’: Media aritmética de las desviaciones en valor absoluto entre los valores observados y ‘a’

i

k

1iii

k

1iia n |x|

n1 f |x| D ∑∑

==

−=−= aa

Desviación cuadrática media respecto a un valor ‘a’: Media aritmética de los cuadrados de las desviaciones entre los valores observados y ‘a’

i

k

1i

2ii

k

1i

2ia n a) x(

n1 f a) x( Q ∑∑

==

−=−=

Caso particular: desviación cuadrática media respecto a la media aritmética, denominada varianza (denotada por σ2 o por Var X)

i

k

1i

2ii

k

1i

2i n ) x x(

n1 f )x x( XVar ∑∑

==

−=−=

A la raíz cuadrada positiva de la varianza se le denomina desviación típica (denotada por σ)

Nota: La varianza se puede descomponer como la media de los cuadrados de los valores menos el cuadrado de la media.

2 i

k

1i

2i i

k

1i

2i xf x f )x x( XVar −=−= ∑∑

==

Page 19: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 19

• Medidas de dispersión relativa. Son medidas adimensionales que

permiten comparar la variabilidad de distintas distribuciones y la representatividad de sus promedios

Coeficiente de variación de Pearson: Cociente entre la desviación típica y la media aritmética

xσ Cv =

Interpretación: mide la representatividad de la media como medida que resume toda la información de la variable al comparar distintas distribuciones de frecuencias. Cuanto menor sea el valor de dicho coeficiente mayor representatividad de la media, más agrupados están los valores observados en torno a su valor medio

• Medidas de forma

• Medidas de asimetría: Miden el grado de asimetría de la distribución de frecuencias Una distribución de frecuencias es simétrica si su correspondiente representación gráfica (diagrama de barras o histograma, según sea la variable discreta o continua, respectivamente) es simétrica respecto a un eje vertical

Page 20: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 20

Distribución asimétrica a la derecha o asimétrica positiva si las observaciones están desplazadas hacia la derecha Distribución asimétrica a la izquierda o asimétrica negativa si las observaciones están desplazadas hacia la izquierda Sesgo a la izquierda Sesgo a la derecha

Coeficientes de asimetría de Pearson:

σMo - xa'

σMe) - x( 3 a PP ==

Coeficiente de asimetría de Fisher:

3

31

σmg = if )x x(m

k

1i

3 i3 ∑

=

−=

Interpretación del signo de los coeficientes:

Signo positivo ⇒ Asimetría a la derecha o positiva Signo negativo ⇒ Asimetría a la izquierda o negativa

Page 21: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 21

• Medidas de curtosis o apuntamiento: Se aplican a distribuciones

unimodales y simétricas o levemente asimétricas para estudiar la mayor o menor concentración de los valores en torno a la media y cómo se comportan las colas, comparándose con la distribución de probabilidad normal o curva de Gauss

Coeficiente de curtosis de Fisher:

3σmg 4

42 −= if)x x(m

k

1i

4 i4 ∑

=

−=

Coeficiente nulo ⇒ Igual de apuntada que la distribución normal Interpretación del signo del coeficiente:

Signo positivo ⇒ Más apuntada que la distribución normal Signo negativo ⇒ Menos apuntada que la distribución normal

Page 22: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 22

Gráfico Box-Whisker Representación gráfica de una distribución en la que intervienen las siguientes medidas: mediana (Me), primer y tercer cuartil (Q1 y Q3), mínimo y máximo (min y max) • Sobre una escala se dibuja una caja que se extiende desde el primer cuartil

hasta el tercer cuartil • Se divide la caja en la posición que ocupa la mediana • Se consideran aquellos valores que distan de la caja 1.5 veces el recorrido

intercuartílico (RI=Q3-Q1), denominados valores anómalos o atípicos

Se traza un segmento desde el primer cuartil hasta el menor valor observado que no sea anómalo y otro segmento desde el tercer cuartil hasta el mayor valor observado que no sea anómalo Los valores anómalos se añaden a la representación como puntos aislados

Ejemplo. Representar con un diagrama Box-Whisker los siguientes datos:

15, 15, 17, 18, 19, 19, 19, 20, 20, 20, 23, 24, 25, 30, 32, 32, 38, 41, 61, 63, 64, 67, 80, 99, 132, 137, 140

n=27 Me=30 Q1=19 Q3=64 RI = Q3 - Q1 = 64 - 19 = 45 1.5 RI=67.5 Q1 - 1.5 RI = 19 - 67.5 = - 48.5 Q3 + 1.5 RI = 64 + 67.5 = 131.5 Valores anómalos: 132, 137, 140

Page 23: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 23

TEMA 2. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL 1. Concepto de variable estadística bidimensional Se está interesado en el estudio conjunto de dos caracteres sobre cada uno de los individuos que forman la población. Estos dos caracteres se denotan por X e Y. La variable que representa estos dos caracteres se denota por (X,Y) y se denomina variable estadística bidimensional

X: x1, x2, ..., xk Y: y1, y2, ..., yp

Cada individuo de la población presentará un valor xi de X y un valor yj de Y, que se denotará por el par (xi,yj) Distribución conjunta Se consideran n individuos sobre los que se observan las variables X e Y Frecuencia absoluta conjunta del par (xi,yj), nij: número de individuos observados que presentan el valor xi de X y el valor yj de Y

n nnp

1j

k

1iij

k

1i

p

1jij ∑∑∑∑

= == =

==

Frecuencia relativa conjunta del par (xi,yj), fij: proporción de individuos observados que presentan el valor xi de X y el valor yj de Y

∑∑∑∑= == =

===p

1j

k

1iij

k

1i

p

1jij

ijij 1 ff

nn

f

Distribución de frecuencias:

{(xi,yj),nij): i=1,...,k, j=1,...,p} {(xi,yj),fij): i=1,...,k, j=1,...,p} Ejemplo. Peso y altura, edad y salario,...

Page 24: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 24

Tabla de correlación: Representación numérica de los datos en una tabla de doble entrada

X/Y y1 y2 . . . yp ni. x1 n11 n12 . . . n1p n1. x2 n21 n22 . . . n2p n2. . . . . . . . . . . . . . . . . . . . . . . . .

xk nk1 nk2 . . . nkp nk. n.j n.1 n.2 . . . n.p n

=

=

=

=

k

1i

j ij j

p

1ji iji.

Y de y valor elpresentan que individuos de númeron n.

X de valor xelpresentan que individuos de númeron n

Ejemplo. Se han estudiado los pesos y las tallas de un grupo de individuos, obteniendo la siguiente información:

X/Y 159-161 161-163 163-165 165-167 167-169 169-171 ni. 48 3 2 2 1 0 0 8 51 2 3 4 2 2 1 14 54 1 3 6 8 5 1 24 57 0 0 1 2 8 3 14 60 0 0 0 2 4 4 10 n.j 6 8 13 15 19 9 70

X: Peso (en Kg.) Y: Talla (en cm.)

Distribución del peso Distribución de la talla

X ni. Y n.j 48 8 159-161 6 51 14 161-163 8 54 24 163-165 13 57 14 165-167 15 60 10 167-169 19

70 169-171 9 70

Page 25: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 25

2. Distribuciones marginales y condicionadas Distribuciones marginales: Distribuciones unidimensionales correspondientes a las variables X e Y

• La distribución marginal de X expresa cómo se distribuye la variable X independientemente de los valores presentados por la variable Y

• La distribución marginal de Y expresa cómo se distribuye la variable

Y independientemente de los valores presentados por la variable X

Distribución marginal de X Distribución marginal de Y

X ni. fi. Y n.j f.j x1 n1. f1. y1 n.1 f.1 . . . . . . . . . . . . . . . . . .

xk nk. fk. yp n.p f.p

n 1 n 1

Distribuciones condicionadas: Las distribuciones condicionadas expresan cómo se distribuyen, según una de las dos variables, el conjunto de individuos que cumplen una condición, ésta expresada por un valor o un conjunto de valores que presenta la otra variable Distribución de X condicionada a Y=yj Distribución de Y condicionada a X=xi

X/Y=yj ni|j fi|j Y/X=xi nj|i fj|i x1 n1j f1|j y1 ni1 f1|i . . . . . . . . . . . . . . . . . .

xk nkj fk|j yp nip fp|i

n.j 1 ni. 1

.j

ij

.j

j|ij|iijj|i n

nnn

f nn ===

i.

ij

i.

j|ii|jijj|i n

nnn

f nn ===

Page 26: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 26

3. Dependencia e independencia estadística Dependencia funcional

• Se dice que Y depende funcionalmente de X si para cada valor de X se observa un único valor de Y

• Se dice que X depende funcionalmente de Y si para cada valor de Y

se observa un único valor de X

• La dependencia funcional no es una propiedad recíproca Independencia estadística: X e Y son estadísticamente independientes si se verifica la condición

.ji.ij.ji.

ij fff ó nnn

n == para todo i, j

O equivalentemente,

ji, ,ff i.j|i ∀= O equivalentemente,

ji, ,ff .ji|j ∀=

Page 27: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 27

TEMA 3. REGRESION Y CORRELACION

• Objetivo de la Teoría de Regresión: Encontrar una función que exprese lo mejor posible el tipo de relación entre dos o más variables

• Objetivo de la Teoría de Correlación: Estudiar el grado de dependencia

entre las variables 1. Planteamiento del problema de regresión

Y: variable dependiente X: variable independiente

Formalmente, se pretende expresar la variable Y en términos de la función X mediante una expresión de la forma

Y = f (X)

utilizando la mejor función f que relaciona a X e Y Si dos variables presentan una dependencia estadística, gráficamente no es posible encontrar una curva que pase por todos los puntos del diagrama de dispersión. El objetivo de la regresión consistirá en seleccionar una función tal que su gráfica, aunque no pase por todos los puntos observados, esté lo más próxima posible a dichos puntos Y X

Page 28: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 28

Criterio de mínimos cuadrados Y Error cometido eij = yj - f(xi) yj eij f(xi ) xi X Predicción para y cuando x=xi: ŷx=xi=f(xi) Criterio: Encontrar la función f que minimice la media de los cuadrados de los errores cometidos

f ))f(x-(y fe ijji,

2ij

fij

ji,

2ij

fminmin ∑∑ →

Esta formulación es muy general y en la práctica nos restringimos a familias paramétricas de funciones como, por ejemplo,

f(x) = a + b x f(x) = a + b x + c x2

f(x) = a bx f(x) = a xb

donde a y b son constantes denominadas parámetros. Cuando representamos los datos en un diagrama de dispersión decidimos qué función ajustarle

Page 29: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 29

2. Regresión lineal mínimo-cuadrática • Recta de regresión de Y sobre X: y = a + b x ŷx=xi = a + b xi

Criterio de mínimos cuadrados:

f ))bx(a-(y ijji,

2ij

b a,min∑ +

Valores óptimos para a y b:

x b - y a XVar

Y)Cov(X,b ==

Recta mínimo-cuadrática:

)x(xXVar

Y)Cov(X,yy −=−

• Recta de regresión de X sobre Y: x = a’ + b’ y x y=yj = a’ + b’ yj

Criterio de mínimos cuadrados:

f ))yb'(a'-(x ijji,

2ji

b' ,a'min∑ +

Valores óptimos para a’ y b’:

y b' - x a' Var Y

Y)Cov(X,b' ==

Recta mínimo-cuadrática:

)y(y

Var YY)Cov(X,xx −=−

donde y xfyx f )y(y )x(x Y)Cov(X, ijj

ji,

iijjji,

i ⋅−=−−= ∑∑ es una medida conjunta del

grado de relación entre las variables X e Y, denominada covarianza entre X e Y.

Page 30: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 30

• Interpretación del signo de la covarianza Signo positivo ⇒ Relación directa entre las variables, las dos variables varían en el mismo sentido Signo negativo ⇒ Relación inversa entre las variables, las dos variables varían en sentido contrario

3. Varianza residual y Coeficiente de correlación lineal El criterio de mínimos cuadrados utiliza como medida del error que se comete cuando se ajusta una curva a unos datos la media de los cuadrados de los residuos, denominada varianza residual. En el caso en que se desee predecir la variable Y a partir de valores de X utilizando la función f, la varianza residual se calcula como

n en1feS ij

ji,

2ijij

ji,

2ij

2ry ∑∑ ==

donde eij = yj - f(xi).

• Cuando 0S2ry = la curva ajustada pasa por todos los puntos observados y el

ajuste será perfecto • Cuanto menor sea la varianza residual menores serán los residuos y mejor

será el ajuste de la curva a la nube de puntos Problema que presenta esta medida: no se sabe a partir de qué valor S2

ry es suficientemente pequeña o suficientemente grande para poder concluir que el ajuste realizado sea un buen o un mal ajuste Bondad del ajuste de la recta: coeficiente de correlación lineal Se define el coeficiente de correlación lineal como

Var Y XVar

Y)Cov(X,r =

Page 31: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 31

Propiedades: • El coeficiente de correlación es una medida adimensional que toma

valores entre –1 y 1 • Mide el grado de dependencia lineal entre las variables

• Interpretación del signo de r

Signo positivo ⇒ Relación directa entre las variables, las dos variables varían en el mismo sentido Signo negativo ⇒ Relación inversa entre las variables, las dos variables varían en sentido contrario

• Se verifica la relación

YVar

S1r VarY )r(1S

2ry(recta)222

ry(recta) −=⇒−=

XVar

S1r VarX )r(1S

2rx(recta)222

rx(recta) −=⇒−=

Interpretación de los valores de r2

• Si r2=0 ⇒ No existe dependencia lineal entre las variables

Recta de regresión de Y/X:

yy =

Recta de regresión de X/Y:

xx = Las rectas de regresión son perpendiculares

• Si r2=1 ⇒ Las rectas de regresión pasan por todos los valores observados, el ajuste lineal es perfecto. Las dos rectas de regresión coinciden

• Cuanto más se aproxime r2 a 1 mejor ajuste lineal

Page 32: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 32

Ejemplo. La siguiente tabla muestra las ventas y devoluciones en millones de pts de 7 empresas

Ventas (X) 17 23 40 21 19 20 10 Devoluciones (Y) 3 5 11 5 4 4 1

a) Representar los datos gráficamente mediante un diagrama de dispersión b) Calcular la recta de mínimos cuadrados para predecir las devoluciones en

función de las ventas. Representar gráficamente esta recta c) Obtener una predicción lineal de las devoluciones en pts para una empresa

con 22 millones de ventas d) ¿Es fiable la predicción obtenida? Dar una medida de la bondad del ajuste e) Obtener la varianza residual para la recta ajustada. Solución a) Representación de los datos:

b) Recta de regresión de Y/X: )x(x

XVar Y)Cov(X,yy −=−

Cálculo de medias, varianzas y covarianza:

xi yi xi yi xi2 yi

2 17 3 51 289 9 23 5 115 529 25 40 11 440 1600 12121 5 105 441 25 19 4 76 361 16 20 4 80 400 16 10 1 10 100 1 150 33 877 3720 213

Page 33: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 33

2437.724286.217

3720 XVar 21.42867

150x 2 =−===

2049.87143.47

213 Var Y 7143.4733y 2 =−===

24.26484.71434286.21

7877 Y)(X, Cov =⋅−=

Recta de regresión de Y/X:

0.3359x2.4836 y 21.4286)(x

72.243724.26484.7143y +−=⇒−=−

Representación gráfica:

c) Predicción para x=22:

4.9062 22 . 0.3359 2.4836 - y 22x =+==

d) Cálculo de r2:

9933.02049.82437.72

2648.24 22 =

⋅=r

El valor de r2 es próximo a 1 y el valor 22 está dentro del rango de valores observados de la variable x ⇒ Buen ajuste lineal y predicciones fiables

Page 34: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 34

e) Utilizando la relación

VarY )r(1S 22ry(recta) −=

se tiene que

0.05497 8.2049 ) 0.9933 - 1 ( VarY )r(1S 22ry(recta) =⋅=−=

O bien, se calcula directamente como

∑=

=−=7

1

22ry(recta) )ˆ(

n1S

ixxi i

yy

xi yi ixxy =ˆ 2)ˆ(ixxi yy =−

17 3 3.2267 0.05139 23 5 5.2421 0.05861 40 11 10.9524 0.00226 21 5 4.5703 0.18464 19 4 3.8985 0.01030 20 4 4.2344 0.05494 10 1 0.8754 0.01552 0.37766

Con lo cual,

05497.07

37766.0)ˆ(n1S

7

1

22ry(recta) ≅=−= ∑

==

ixxi i

yy

Page 35: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 35

4. Otros tipos de ajuste Hipérbola equilátera:

xbay +=

1. Se realiza el cambio de variable

x1z =

2. Se obtiene la recta de regresión de Y/Z, y=A+Bz, donde A=a y B=b

3. Se deshace el cambio considerando a = A y b = B

Función exponencial: xba y =

1. Se realiza la siguiente transformación

b logx a log y log +=

2. Se realiza el cambio de variable ylogz = 3. Se obtiene la recta de regresión de Z/X, z = A+B x,

donde A=log a y B=log b

4. Se deshace el cambio considerando a = antilog A y b =antilog B

Función potencial: bxa y =

1. Se realiza la siguiente transformación

x log ba log y log +=

2. Se realizan los cambios de variable

ylogz = x logt =

3. Se obtiene la recta de regresión de Z/T, z = A+B t,

donde A=log a y B=b

4. Se deshace el cambio considerando a = antilog A y b = B

Page 36: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 36

Ejemplo. La siguiente tabla muestra la evolución de la concentración de una determinada componente cuando se disuelve en un medio ácido:

Tiempo (en segundos)

Concentración

3 5 10 15 20 30 40 50 60 75

25.82 23.36 18.19 14.17 11.03 6.69 4.05 2.46 1.49 0.7

a) Representar los datos gráficamente mediante un diagrama de dispersión.

¿Qué función parece ajustarse a estos datos? b) Realizar una transformación logarítmica a los datos de la concentración y

representar los datos gráficamente. ¿Qué tipo de relación existe entre dichos datos?

c) Calcular la recta de mínimos cuadrados para predecir el logaritmo de la concentración en función del tiempo. Representar gráficamente esta recta

d) ¿Qué función utilizamos para predecir la concentración en función del tiempo?

f) Obtener una predicción de la concentración cuando hayan transcurrido 45 segundos

Solución a) Representación de los datos:

Parece adecuado un ajuste exponencial

Page 37: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 37

b) Tiempo

(en segundos)Concentración

y z=Ln(y)

3 5 10 15 20 30 40 50 60 75

25.82 23.36 18.19 14.17 11.03 6.69 4.05 2.46 1.49 0.7

3.2511 3.1510 2.9008 2.6511 2.4006 1.9006 1.3987 0.9001 0.3987 -0.3566

Representación de los datos:

Parece adecuado un ajuste lineal c) Recta de regresión de Z/X: )x(x

XVar Z)Cov(X,zz −=−

549.7481 XVar 8.30x == 1.3787 Var Z 8596.1z == 5321.27Z)(X, Cov −= Recta de regresión de Z/X:

0.05008x4021.3z )8.30(x

549.748127.53218596.1z −=⇒−=−

Page 38: BLOQUE I: ESTADÍSTICA DESCRIPTIVA TEMA 1. ESTADISTICA ...

Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 38

Representación gráfica:

d) 0.05008x -3.4021ey 0.05008x 4021.3Ln(y) 0.05008x 4021.3z =⇒−=⇒−=

-0.05008x-0.05008x3.4021 30.027eeey ==⇒

e) Predicción para x=45:

1534.330.027ey 45 -0.0500845x == ⋅

=