Apuntes 1 Estadistica Descriptiva ssd

16
  Estadística Descriptiva  H. Alvarado – L. Retamal  ESTADISTICA DESCRIPTIVA La estadística descriptiva  es un procedimiento estadístico en el cual podemos recolectar, organizar, resumir, analizar y presentar  datos relativos a un conjunto de observaciones y que nos per miten extraer conclusiones válidas y efectuar decisiones basadas en dichos análisis. Los pasos en el diseño de tratamiento de datos consideran: La definición de objetivos y población de estudio, búsqueda de la información disponible (listado de condiciones y medios), elaboración de instrumentos de medición, definir las variables y el diseño de muestreo, recolección de los datos, procesamiento estadístico de los datos: tablas, gráficos, medidas estadísticas, e interpretación de los resultados y redacción del informe del estudio. El objetivo de la estadística descriptiva en una variable es analizar y sintetizar la información contenida en los datos estadísticos mediante: Tablas (distribuciones de frecuencias absolutas y relativas) Gráficos (de Barra, de sectores circulares, Histograma, Box plot,...)  Resúmenes numéricos (índices de posición y de dispersión). Conceptos básicos asociados son los siguientes: Población: Conjuntos de individuos o elementos que cumplen ciertas propiedades comunes. Censo: Colección de datos de cada uno de los miembros de la población. Muestra: Subconjunto representativo de la población. Parámetro: Medición numérica que describe algunas características de una población. Estadístico: Medición numérica que describe algunas características de un a muestra. Unidad Observable: Cualquier elemento que podamos extraerle información. Variable: Característica o propiedad asociada a una unidad observable de la población. Tipos de Variables Variables Cualitativas o Categóricas: Son las que presentan una característica observada de un atributo o cualidad, y tienen por valores cantidades no numéricas. Se clasifican en ordinal (el orden de las categorías es importante, ej: nivel de estudios, rendimiento académico,..) y nominal (los nombre o etiquetas de la categoría no denota jerarquía, ej: color de ojos, religión,..). Para variables cualitativas se pueden elaborar tablas de distribución de frecuencias en categorías con frecuencias absolutas y relativas, añadiendo gráficos de barras y circular. Variables Cuantitativas: Son las que tienen por valores cantidades numéricas a cada característica de una unidad de observación. Se clasifican en discretas (si los valores es un conjunto finito o infinito numerable, ej: número de fallas de una máquina, cantidad de sillas en el aula,.. ) y continuas (los valores que la componen es un subconjunto de la recta real, ej: tiempo de vida de una ampolleta, largo de una mesa,..). Para variables cuantitativas se  pueden elaborar tablas de distribución de frecuencias para datos a grupados en intervalos de clase; complementadas con representaciones gráficas de histograma, box plot, polígono de frecuencias, entre otros, y la utilización de las medidas de tendencia central, de posición y de dispersión.

Transcript of Apuntes 1 Estadistica Descriptiva ssd

Page 1: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 1/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

ESTADISTICA DESCRIPTIVA

La estadística descriptiva es un procedimiento estadístico en el cual podemos recolectar,organizar, resumir, analizar y presentar  datos relativos a un conjunto de observaciones yque nos permiten extraer conclusiones válidas y efectuar decisiones basadas en dichosanálisis. Los pasos en el diseño de tratamiento de datos consideran:La definición de objetivos y población de estudio, búsqueda de la información disponible(listado de condiciones y medios), elaboración de instrumentos de medición, definir lasvariables y el diseño de muestreo, recolección de los datos, procesamiento estadístico de losdatos: tablas, gráficos, medidas estadísticas, e interpretación de los resultados y redaccióndel informe del estudio.El objetivo de la estadística descriptiva en una variable es analizar y sintetizar lainformación contenida en los datos estadísticos mediante:

Tablas  (distribuciones de frecuencias absolutas y relativas)Gráficos  (de Barra, de sectores circulares, Histograma, Box plot,...) Resúmenes numéricos  (índices de posición y de dispersión).

Conceptos básicos asociados son los siguientes:Población: Conjuntos de individuos o elementos que cumplen ciertas propiedadescomunes.Censo: Colección de datos de cada uno de los miembros de la población.Muestra: Subconjunto representativo de la población.Parámetro: Medición numérica que describe algunas características de una población.Estadístico: Medición numérica que describe algunas características de una muestra.Unidad Observable: Cualquier elemento que podamos extraerle información.Variable: Característica o propiedad asociada a una unidad observable de la población.

Tipos de VariablesVariables Cualitativas o Categóricas: Son las que presentan una característica observada deun atributo o cualidad, y tienen por valores cantidades no numéricas. Se clasifican enordinal (el orden de las categorías es importante, ej: nivel de estudios, rendimientoacadémico,..) y nominal (los nombre o etiquetas de la categoría no denota jerarquía, ej:color de ojos, religión,..). Para variables cualitativas se pueden elaborar tablas dedistribución de frecuencias en categorías con frecuencias absolutas y relativas, añadiendográficos de barras y circular.

Variables Cuantitativas: Son las que tienen por valores cantidades numéricas a cadacaracterística de una unidad de observación. Se clasifican en discretas (si los valores es un

conjunto finito o infinito numerable, ej: número de fallas de una máquina, cantidad de sillasen el aula,.. ) y continuas (los valores que la componen es un subconjunto de la recta real,ej: tiempo de vida de una ampolleta, largo de una mesa,..). Para variables cuantitativas se pueden elaborar tablas de distribución de frecuencias para datos agrupados en intervalos declase; complementadas con representaciones gráficas de histograma, box plot, polígono defrecuencias, entre otros, y la utilización de las medidas de tendencia central, de posición yde dispersión.

Page 2: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 2/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

 Escala de Medición: Son cuatro los niveles de medición: nominal, ordinal, de intervalo yde razón. El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedadadicional de que la diferencia entre los valores de datos cualesquiera tiene un significado ylas razones no tienen un significado. Sin embargo, los datos en este nivel no tienen un punto de partida inherente (natural) desde cero (donde nada de la cantidad está presente).

El nivel de medición de razón  tiene las mismas propiedades de las escalas de intervalos, pero las razones, diferencias si tienen sentido. Tiene un punto de partida o cero inherente(donde cero indica que nada de la cantidad está presente)

Distribución de frecuenciasUna vez definida la variable de interés es necesario clasificar y ordenar los elementos de la población. Así, una distribución de frecuencias lista valores de datos u observaciones, yasea de manera individual o por grupos de intervalos, junto con sus frecuenciascorrespondientes.

Primero a cada valor de la variable se le identifica por i x   siendo el i-ésimo resultado

 perteneciendo a una clase. Los resultados agrupados en cada una de estas clases se

resumen en una tabla de frecuencias, la cual contiene la siguiente información:

in   : Frecuencia absoluta de la clase i (número de elementos de cada clase).

i f    : Frecuencia relativa (cuociente entre frec. absoluta y N total de la población)

i N    : Frecuencia acumulada (suma de las frec. absolutas de la clase i y las anteriores)

i F   : Frecuencia acumulada relativa (cuociente entre i

 N   y N ).

Se cumple que la1

n

i

i

n N =

=∑   ; ii

n f   =  ;

1

1n

i

i

 f =

=∑  

Debe tener presente en las variables Cuantitativas que si el número de datos poblacionalesdistintos entre sí es grande podemos obtener un gran número de clases con frecuenciaabsoluta igual a 1 que estadísticamente no resulta relevante; en tal situación podemosagrupar las clases en intervalos. Se recomienda entre 5 y 20 intervalos de clase o utilizar laregla de Sturge. Los elementos que conforman la elaboración de la distribución defrecuencias por intervalos son los siguientes:

 X  R   : Recorrido de la variable X   (diferencia entre el mayor y la menor observación)

Clases : Son subintervalos, generalmente de igual longitud, del conjunto de datos.Límites: Inferior y superior de un intervalo i son los extremos del intervalo.

ia   : Amplitud del intervalo i  (longitud del intervalo i).Si los k  intervalos de clase tienen la misma longitud entonces k  Ra

 X i  =  

Con k = 1 + 3.3 log N  ( Regla de Sturge).Como criterio para facilitar la interpretación, la amplitud   debe presentarse con la mismacantidad de decimales que los datos originales, por tanto ésta debe aproximarse hacia arribade acuerdo a la naturaleza de los datos.

Page 3: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 3/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

im   : Marca de clase del intervalo i  (punto medio del intervalo i), en cálculos

estadísticos es considerada como el valor más representativo de las clases.Fronteras: Es el punto medio entre el límite superior de la clase de un intervalo y el límiteinferior del intervalo siguiente.

Ejemplo 1: Tabulación de 40 datos de valores distintosVariable: Contenidos denicotina, en miligramos, decigarrillos de la marca pucho

Tipo: var. cuantitativa continua

Pasos para construir unadistribución de frecuencias enintervalos de clase:

Recorrido de la variable

 Número K de clases :(entre 5 y 20) .Regla de Sturge

Amplitud A del intervalo

Elegir el extremo inferior de la primera clase

Establecer la frontera inferiorde la primera clase

La frontera superior de la primera clase se obtienesumando la amplitud de laclase 0.31, a la frontera inferior

Fórmulas:

 R = .máx X   - .mín X   = 2.55 – 0.72 = 1.83

 K  = 1 + 3.3 * log N .Como  N  = 40, entonces  K  = 1 + 3.3* log 40 = 6.286 ≈  6.3 clases. Así, deberíamos tener 6 ó 7 clases.

 A = K 

 R =

6

83.1  = 0.305 ≈  0.31

Dado que el valor mínimo es 0.72, el extremo debe ser0.72 o menos; se considerará 0.72.

Recordando que la frontera se expresan con una cifradecimal más, se considerará 0.715.

FS = FI + A = 0.715 + 0.31 = 1.025En consecuencia, el límite aparente superior del primerintervalo de clase es 1.02.

Tabla de Distribución de Frecuencias

Límite Fronterasin   i f   

im   i N    i F   ii mn   ⋅   2ii mn   ⋅  

0.72 – 1.02 0.715 – 1.025 2 0.05 0.87 2 0.05 1.74 1.5138

1.03 – 1.33 1.025 – 1.335 2 0.05 1.18 4 0.10 2.36 2.78481.34 – 1.64 1.335 – 1.645 8 0.20 1.49 12 0.30 11.92 17.7608

1.65 – 1.95 1.645 – 1.955 17 0.425 1.80 29 0.725 30.6 55.08

1.96 – 2.26 1.955 – 2.265 6 0.15 2.11 35 0.875 12.66 26.7126

2.27 – 2.57 2.265 – 2.575 5 0.125 2.42 40 1 12.1 29.282

 N = 40 1 71.38 133.134

Page 4: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 4/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

En resumen, para construir tablas de distribución de frecuencias para variables continuasdebemos seguir los siguientes pasos:

1.  Identificar la variable de estudio y la unidad de observación.2.  Determinar el números de clases ( K )3.  Obtener la amplitud ( A)

4. 

Escribir los intervalos de clases comenzando por el valor mínimo.5.  Contar cuantas observaciones pertenecen en cada clase ( ni )

Ejercicio 1: Un Ingeniero Civil visita 15 condominios en una ciudad y en cada una registróel número de casas que han sufrido daños ocasionados por un aluvión el invierno recién pasado. Se obtuvo la siguiente información:

15 15 18 16 17 18 18 1817 19 16 17 17 16 19

a)  Defina la unidad de observación, la variable de estudio y su clasificación. b)  Elabore una tabla de distribución de frecuencias adecuada a este conjunto de datos.c)  ¿Cuántos condominios tienen a lo más 16 casas que han sufrido daños?d)  ¿Qué proporción de condominios tienen por lo menos 17 casas con daños?e)  ¿Qué proporción de condominios tienen 18 casas que han sufrido daños?f)  Obtenga un gráfico adecuado para sus datos e intérprete.

Representaciones gráficas de las distribuciones de frecuencias

La representación gráfica permite visualizar el comportamiento de un conjunto de datos,como también conocer características especiales de la distribución a la cual pertenecen. Lautilización adecuada de un gráfico, al igual que la distribución de frecuencias, depende deltipo de variable. En los siguientes capítulos mostraremos la utilidad de los gráficos para laobtención de un modelo probabilístico al cual se pueden ajustar los datos.

Gráfico de BarraEs usado en observaciones cualitativas ocuantitativas discretas. Sobre cada clase selevanta una barra de altura igual a lafrecuencia de la clase. Eje horizontal: se representan las clases

 Eje vertical: las frecuencias absolutas

in (ó

i f ) 

0

5

10

15

20

25

   N   °  a   l  u  m  n  o  s

51 52 53 54

Unidad Académica

 

Page 5: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 5/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

 Histograma

Se utiliza en variables cuantitativas cuyasobservaciones han sido divididas en intervalosde clases. Consiste en un conjunto derectángulos cada uno de los cuales representa

un intervalo de agrupación o clase. Sus basesson iguales a la amplitud del intervalo y laaltura se determinan de manera que su áreasea proporcional a la frecuencia de cada clase. Eje horizontal: intervalo de frontera FI-FS

 Eje vertical: frecuencias absolutas

0

2

4

6

8

EDAD

1 a 5

5 a 15

15 a 33

33 a 50

50 a 60

60 a 72

 

 Polígono de Frecuencias

El tipo de representación es un gráfico delínea. Se construye uniendo con segmentos derecta los puntos medios (marca de clase) delos intervalos adyacentes. Se utiliza para

determinar la forma que sigue la distribuciónde frecuencias de las observaciones con el propósito de ajustarle alguna función probabilística determinada.

 Eje horizontal: marcas de clases im

 Eje vertical: frecuencias absolutas

0

5

10

15

20

25

1 3 4 6 7Notas

   N

   °  a   l  u  m  n  o  s

 

Ojiva

Es un polígono de frecuencias acumulativas,comienza en cero y termina en 100%. Es un polígono que parte de la frontera inferior del primer intervalo de clase y en cada frontera

superior va indicando su frecuenciaacumulada. Eje horizontal: intervalo de frontera FI-FS

 Eje vertical: frec. acumuladas i N (ó i F  ) 

0

5

1015

20

25

30

1 5 15 33 50 60

Edades

   N   °  p  e  r  s  o  n  a  s

 Gráfico CircularPermite representar las frecuencias absolutaso frecuencias relativas porcentuales en uncírculo. Se debe determinar la cantidad degrados del círculo correspondiente a cadafrecuencia absoluta mediante la proporción

 N 

n X  i⋅°

=° 360  

N°alumnos por U. A.

51

3%

52

5%

53

38%

54

54%

 Gráfico de Tallo y HojaEs un procedimiento semi-gráfico paravariables cuantitativas. Los dígitos se separanen dos partes, el Tallo  que corresponde a uncierto número de dígitos de una clasecontados de izquierda a derecha, y la Hoja que

Edades de un grupo de 31 personas

Page 6: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 6/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

define la frecuencia absoluta de la clase ycorresponde al siguiente dígito desechando losrestantes, si existen. La representación de losdatos se realiza usando una columna para lostallos, ordenados en forma ascendente y sin

repetir y otra para las correspondientes hojas.

Tallo Hoja0 4 51 0 0 1 32 2 5 7 7 9 93 0 1 1 1 4 6 8 9 95 1 1 3 6 76 0 0 67  1 1 

Gráfico Box PlotUn gráfico de cajas con patillas muestra las posiciones relativas de los cuartiles, porcióncentral y valores extremos de una distribuciónde frecuencias. Esta gráfica encierra el rango

intercuartil 13 qq   −   de los datos en una caja

que tiene la mediana dibujada dentro.Además, podemos identificar el tipo deasimetría de una distribución de frecuencias.

Será simétrica si la posición de la mediana seencuentra en la mitad de la caja y las antenastienen la misma distribución.

Max = 6,500000Min = 2,000000

75% = 5,00000025% = 3,500000

Median value:Med = 4,750000

Box & Whisker Plot

1,5

2,5

3,5

4,5

5,5

6,5

7,5

NOTAS  

Medidas Estadísticas

En una distribución descriptiva de una población o muestra, es necesario recurrir a ciertosvalores numéricos que permiten cuantificar ciertas características de la distribución. Estasson llamadas “Medidas estadísticas o Estadígrafos”, y dentro de las más comunes seencuentran las medidas de posición o de tendencia central.

 Medidas de Tendencia Central  Permite determinar un valor característico de una distribución de frecuencias ubicado haciael centro de la distribución. Estas medidas son las siguientes:

Media Aritmética : es un promedio, se denota por :  x , y se calcula según la forma de ladistribución de frecuencia.

i) Para N  datos Individuales N 

 x x x ,.....,,21  se tiene  x  =

 N 

 x N 

ii∑

=1

 

ii) Para datos agrupados en k   clases individuales con frecuencias absolutas respectivas

k nnn ,.....,, 21 , entonces =

 N 

n xk 

iii∑

=

1

 

Page 7: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 7/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

iii) Para datos agrupados en intervalos de clase: Seak 

mmm ,.....,, 21  las marcas de clase y

k nnn ,.....,,21 las frecuencias absolutas de una distribución de frecuencias, entonces

= N 

nmk 

iii∑

=

1

 

 Propiedades de la Media Aritmética

i)  A la diferencia i x   -  x   se le llama “desviación” del i-ésimo dato con respecto de la

media aritmética. Se cumple que: )(1

 x x N 

ii  −∑

=

= 0.

ii)  Si cada valor i x  se multiplica por una constante c y se calcula la media aritmética de

estos nuevos valores el resultado es igual al producto de la constante por la media

aritmética de los datos originales, es decir,  xc  = c  x .

iii) Si cada valori

 x  se le suma o resta una constante c y se calcula la media aritmética de

estos nuevos valores el resultado es igual al promedio original más o menos la constante c,

es decir, c±  = ±  c.

La Mediana: La media aritmética no resulta ser adecuado cuando existe una concentraciónde valores en algunos de los extremos. En este caso es preferible utilizar la mediana comoestadígrafo de posición, este valor divide a la distribución de frecuencia en dos partesiguales cada una conteniendo el 50% de los datos. Se denota por Me.Geométricamente la mediana es el valor de X  (abscisa) que corresponde a la recta verticalque divide un histograma en dos partes de áreas similares.

i)  Para datos individuales los datos son ordenados en forma creciente o decreciente.Si el número de datos N  es impar, la mediana corresponde al valor que ocupa el centro de laordenación. Si el número de datos  N  es par, la mediana corresponde a la media aritméticade los dos valores que ocupan el centro de la ordenación. Es decir, la mediana de un

conjunto de números ordenados en magnitud ( ) ( ) ( ) N  X  X  X    ≤≤≤ ......21  es o el valor central

( )

( )

+= 

  

 +

+

 par es Nsi2

X

impar es Nsi

12

2 N

2

1

 N 

 N 

 X 

 X 

 Me  

ii) Para datos en intervalos de clases: Primero se debe identificar el intervalo donde se

encuentra y enseguida aproximar el valor de la mediana a este intervalo llamado “IntervaloMediano” cuya frecuencia acumulada supere o sea igual al cuociente  N /2. La mediana seobtiene después de la siguiente expresión.

Me = i FI    +  An

 N  N 

i

i⋅

 

 

 

 − −1

2  

i FI    Frontera inferior del intervalo mediano

Page 8: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 8/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

1−i N    Frecuencia absoluta acumulada de la clase anterior al intervalo mediano

ni  Frecuencia absoluta del intervalo mediano A Amplitud del intervalo

La Moda: Para  datos  aislados, la moda es el valor (o valores) que tiene la mayor

frecuencia relativa en una muestra extraída de cierta población.  Se utiliza cuando ladistribución de frecuencias presenta una alta inestabilidad; existen agrupaciones de datos enciertas clases. Se define como el valor más común o más frecuente de todo el conjunto dedatos. Es posible que una población tenga dos o más modas. En esos casos se suelen llamardistribuciones bimodales o multimodales.

Para datos agrupados en intervalos de clases: Mo =i

 FI    +  Ann

n

ii

i⋅

 

  

 

+ +−

+

11

1  

1−in : Frecuencia absoluta de la clase anterior al intervalo modal.

1+in : Frecuencia absoluta de la clase posterior al intervalo modal.

Las medidas de tendencia central nos proporcionan una idea de la forma de la distribución.Una distribución de datos está sesgada si no es simétrica y se extiende más hacia un ladoque hacia el otro. Una distribución de datos es simétrica  si la mitad izquierda de suhistograma es aproximadamente una imagen en espejo de su mitad derecha.a) Sesgada a la izquierda (sesgo negativo): La media y la mediana están a la izquierda de lamoda. b) Simétrica (sesgo cero): La media, la moda y la mediana son iguales.c) Sesgada a la derecha (sesgo positivo): La media y la Me están a la derecha de la Mo.

 Medidas de Dispersión

La media aritmética es la más representativa como medida de tendencia central endistribuciones simétrica, sin embargo no es suficiente si queremos comparar dosdistribuciones. Las medidas estadísticas de variabilidad cuantifican la dispersión de losdatos en torno al centro de los datos. Mide cuán esparcidos se encuentran éstos o qué tanheterogéneos son. Las más usuales son: el recorrido, el rango intercuartílico, la varianza,desviación estándar y el coeficiente de variación.

Varianza: es la de mayor utilidad en aplicaciones estadísticas y se define según laagrupación de los datos.

i)  Para datos individuales: ( )∑   −=  N  x x X V  i /)(2

 

ii)  Para datos agrupados en clases individuales: ( )∑   ⋅−=  N n x x X V  ii /)(2

 

iii)  Para datos en intervalos de clases: ( ) 21

2

/)(2

 X  N 

nm

 N n xm X V 

 K 

iii

ii   −

=⋅−=

∑∑   =  

 Nota: También utilizaremos la cuasi varianza que se diferencia en el denominador por n-1.

Page 9: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 9/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

Desviación estándar: se define como la raíz cuadrada positiva de la varianza (desviación

 promedio de los datos originales con respecto a su media aritmética).Si la distribución de frecuencias tiene forma de campana, o aproximadamente esta forma, se cumplela siguiente propiedad de la desviación estándar y la media aritmética:

* σ ± x   contiene aproximadamente el 68% de las observaciones.

* σ 2± x   “ el 95% “

* σ 3± x   “ el 100% “

Coeficiente de Variación: entrega el grado o % de variabilidad de los datos y se utiliza para comparar dos distribuciones en que pueden tener distinta unidad de medida.

%100..   •= x

V C   σ 

 

Regla empírica, si el C.V. ≤   35% el conjunto es homogéneo, en caso contrario se diceheterogéneo.

Coeficiente de Sesgo: Se entiende por “sesgo” el grado de asimetría o falta de simetría deuna distribución de frecuencias.Si el coef. sesgo es + entonces el sesgo de la distribución es positivo.Si el coef. sesgo es - entonces el sesgo de la distribución es negativo.Si el coef. sesgo es cero, entonces la distribución es simétrica.

Para datos individuales, el coeficiente de sesgo[ ]

3

3

σ  N 

 X  X  N 

ii∑

=

1

 

; donde 3σ  = [ ]3)( X V   

Para datos agrupados, el coeficiente de sesgo( )

3σ  N 

n X mk 

iii∑

=

1

3

 

Curtosis: Mide el grado de apuntamiento de una distribución de frecuencias en relación auna distribución simétrica. Para una distribución simétrica se cumple que el coeficiente decurtosis es igual a 3. Luego  K   = Coeficiente de curtosis – 3. Se pueden presentar lossiguientes casos:Si K > 0, entonces la distribución es leptocúrtica ( tiene un pico alto)Si K < 0, entonces la distribución es platicúrtica (está aplastada)Si K = 0, entonces la distribución es mesocúrtica (tiene distribución de campana).

Para datos individuales, el Coeficiente de curtosis es[ ]

41

σ  N 

 X  X  N 

ii∑

=

 ; donde 4σ  = [ ]2)( X V   

Para datos agrupados, el Coeficiente de curtosis es( )

41

4

σ  N 

n X mk 

iii∑

=

 

 Medidas de Posición relativa 

Cuantiles: Particionan el área bajo el polígono de frecuencias en más de dos partes, siendolos usuales en cuatro, diez y cien partes. 

Page 10: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 10/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

Cuartiles: divide la distribución de frecuencias en 4 partes,

iQ : es el punto tal que el 25 i % de las observaciones son ≤   a este valor. i = 1,2, 3.

 Deciles: divide la distribución de frecuencias en 10 partes iguales,

i D : es el punto tal que el 10 i % de las observaciones es ≤  a este valor. i = 1 a 9

 Percentiles: divide la distribución de frecuencias en 100 partes iguales, donde:

i P : Es el punto tal que el i % de las observaciones es ≤  a este valor. i = 1 a 99.

Observe que: Q1 = P 25 ; Q2 = M e = P 50 = D5 ; Q3 = P 75

Procedimiento para determinar el valor del k -ésimo percentil (datos no agrupados):1) Ordenar los  N   datos en forma ascendente

2) Calcular i  =100

k  N  ⋅   pregunte si es entero o no. Si es entero obtenga la posición i  del

 percentil mediante i =100

k  N  ⋅ y luego obtenga P k  de acuerdo a  P k = ( ) ( )2

X 1++ ii  X  .

Si no es entero obtenga la posición i como el entero siguiente al número100

k  N  ⋅  y obtenga P k

como P k = ( )iX , es el k-ésimo percentil. Para datos agrupados el cuantil es

C =i

 FI    +  An

 N  N  x

i

i⋅

 

  

    − −1%  

Ejercicio 2: Del ejemplo 1, si se utiliza la tabla de frecuencias anterior compruebe lossiguientes resultados:

 X  = 1.7845 2σ  = 0.1439 Me = 1.79088Mo = 1.7779 1Q  = 1.5675 3Q  = 2.0067

CV = 21.25%, la dispersión es pequeña σ   = 0.3794 se puede afirmar que el conjunto dedatos originales es homogéneo.Coeficiente de sesgo = -0.3138 < 0, la distribución presenta un leve sesgo negativo.Coeficiente de curtosis = 3.1478  K  = 0.147855 > 0, la distribución es leptocúrtica.El intervalo [1.0257, 2.5433] contiene el 95% de las observaciones.Interprete estos resultados y dibuje gráficos adecuados.

ESTADISTICA DESCRIPTIVA BIVARIADA

El propósito es estudiar el comportamiento de dos variables en forma simultánea, porejemplo el estudio del rendimiento de una reacción química y la temperatura a la cual tienelugar. El análisis estadístico consiste en describir su comportamiento como también poderajustarle alguna función matemática, si se prueba estadísticamente que existe algún gradode dependencia entre las variables.

Page 11: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 11/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

Supongamos que existen N  pares de la forma (ii

 y x  ,  ). Además, consideremos r   clases

(o intervalos) i X   de la variable X   y  s  clases (o intervalos)  jY   de la variable Y .

Denotemos por ijn  al número de observaciones (o frec. absoluta) que pertenecen a la clase:

i X  -

 jY    y su frecuencia relativa se define por  N n f 

ijij/=  

Se cumple que  N nr 

i

 s

 j ji   =∑∑   ; 1  =∑∑

i

 s

 j ji f    donde,

nij es la frecuencia absoluta para los individuos que representan la modalidad conjunta  xi

de X   e y j de Y . f ij es la frecuencia relativa para los individuos que representan la modalidad conjunta  xi de X   e y j de Y .Las frecuencias absolutas (o relativas) se resumen en una tabla de frecuencias bidimensional llamada también “Tabla de Contingencia” o tabla de doble entrada. En total

hay  sr ⋅  clases.

Y

 X   1Y    2Y     jY     sY    Totales

 _______________________________________________

1 X    11n   12n    sn1   •1n  

2 X    21n  

i X    ijn   isn   •in  

r  X    1r n   rjn   rsn   •r n  

 _______________________________________________

Totales 1•n    jn•    sn•   N

∑=

•  =

 s

 j

iji nn1

  ; ∑=

•   =r 

iij j nn

Las distribuciones marginales corresponden a las distribuciones de frecuencias de cada unade las variables por separado ignorando el efecto de la otra variable.

)( xni•   y )( yn  j•  

De todos los elementos, podemos estar interesados en un conjunto más pequeño. Lasdistribuciones condicionales consisten en determinar la distribución de frecuencias de unade las variables condicionada a un valor fijo o intervalo. Notación  X  / Y  = y; Y  / X  =  x 

La distribución de frecuencias relativas condicionadas son:

 f i/j  =ijn

n•

  y  f   j/i =ij

i

n

n•

 

Un concepto de interés en estadística es la Covarianza  o variabilidad conjunta de dos

variables y se define por: Cov (x,y) = Y  X Y  X   ⋅−⋅   donde N 

n y x

Y  X 

i

 s

 jij ji∑∑   ⋅⋅

=⋅  

Page 12: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 12/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

Observación:a)  Si las variables son independientes entre sí la covarianza es cero. El inverso no siempre

se cumple. b)  Si la Covarianza es distinto de cero entonces las variables son dependientes.

c) 

Si la Covarianza es positiva la dependencia es directa, es decir el aumento odisminución en una variable provoca el mismo efecto en la otra variable.d)  Si la Covarianza es negativa la dependencia es inversa

Un problema de la covarianza es que depende de las unidades de medida por lo que nologramos cuantificar el grado de relación lineal entre dos variables. Una medidaadimensional del grado de relación lineal entre las variables  X   e Y   es el Coeficiente decorrelación de Pearson dada por : 

[ ]r 

Cov X Y  

V X V Y  =

( , )

( ) ( )1 2

 

El Coeficiente de correlación mide la intensidad de una relación lineal entre dos variables.En general podemos decir: ( para interpretar )

r = 0 no hay correlación lineal (no están relacionadas linealmente)

5.00   ≤< XY r    existe correlación lineal débil

8.05.0   ≤< XY r    hay correlación lineal aceptable

18.0   << XY r    existe correlación lineal fuerte (altamente correlacionadas)

1= XY r    correlación lineal perfecta.

Gráfica de datos para diferentes valores de r :

Page 13: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 13/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

Ejemplo 2: La siguiente distribución de frecuencias muestra el número de sectores de una

determinada comuna según: su superficie X (en km 2 ) y la cantidad de residuos sólidos Y(en toneladas), evacuados mensualmente por los recolectores.

a) Construya un histograma de frecuencias para la cantidad de residuos sólidos evacuadosmensualmente. b) Para la distribución de frecuencias de los sectores, según superficie, calcule la media

aritmética de la distribución condicional de 400350/   ≤≤ Y  X   e interprete su resultado.c) Calcule la superficie (área) promedio, a través de la mediana, de los sectores en que la

cantidad de residuos sólidos evacuados mensualmente fluctúa entre 350 y 450 toneladas.d) La Municipalidad de dicha comuna decide aumentar la dotación de recolectores de basura de modo que, en cada sector se incremente en un 3% la cantidad de residuos sólidosevacuados. Calcule la varianza de la cantidad de residuos evacuados después del aumentode la dotación de recolectores.Solución:a)

Histograma

Cantidad de residuos sólidos

   N  o  s  e  c   t  o  r  e  s   d  e   l  a  c  o

  m  u  n  a

 0,000

 1,000

 2,000

 3,000

 4,000

 5,000

 6,000

 7,000

<= 300 (300|350] (350|400] (400|450] (450|500] > 500

 

 b)

( ) 8.16

8.10

400350/  ==∑   ⋅

=<<= N 

nm

Y  X  X 

ii

 

Interprete Usted:

X Y 300 - 350 350 - 400 400 - 450 450 - 500

0,8 - 1,3 2 1 1 0

1,3 - 1,8 0 2 1 0

1,8 - 2,3 3 2 0 1

2,3 - 2,8 0 1 1 1

2,8 - 3,3 0 0 2 2

 

Xin   im  

0.8 – 1.31.3 – 1.81.8 – 2.32.3 – 2.82.8 – 3.3

12210

1.051.552.052.553.05

6

Page 14: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 14/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

c) 5.52

  =≥ N  N i  

2e km925,15,0

2

55.58.1   =⋅

 

  

    −+= M   

d) 850,2)395(

20

3177500)( 2

=−=Y V   

se pide

( ) ( ) 22 ton0236,3)(03,103,1   == Y V Y V   

Ejercicio 3: ¿Cuál es la relación entre la cantidad gastada por semana en alimentos y eltamaño de una familia?, ¿Las familias grandes gastan más en alimentos? Una muestra de 10

familias en el área de Oregon reveló los siguientes tamaños de familia e importe en dinerogastado en alimento, en cierto período.

Tamaño de familia 3 6 5 6 6 3 4 4 5 3

Gastos en alimentos US$ 99 104 151 129 142 111 74 91 119 91

a) Construir una tabla de doble entrada. Considere la variable cantidad gastada en alimentosdividida en tres intervalos de clases. b)  Interprete los valores de n21  , f 12 , n. 2 y n3. c) Calcular e interpretar el coeficiente de variación de gastos en alimentos.d) Obtener la distribución condicional de los gastos en alimentos dado que el tamañofamiliar lo componen cuatro personas.e)  Calcular e interpretar el promedio de los gastos en alimentos dado que el tamaño

familiar lo componen cinco personas.f)  Determinar la varianza del tamaño familiar dada la cantidad gastada en alimentos.g)  Determine si existe relación entre la cantidad gastada por semana en alimentos y el

tamaño de una familia.

Xin    Ni

0.8 – 1.31.3 – 1.8

1.8 – 2.32.3 – 2.82.8 – 3.3

23

222

25

7911

11

Yi

m  i

n  

300 – 350350 – 400400 – 450450 – 500

325375425475

5654

20

Page 15: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 15/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

REGRESIÓN LINEAL SIMPLE

El análisis de regresión consiste en métodos gráficos y analíticos que permiten determinarla mejor función que puede ser ajustada a un conjunto de variables. El modelo contiene dostipos de elementos: los parámetros o constantes que son desconocidas y hay que estimarlasen base a los datos, y las variables. Las variables se pueden dividir en variables predictoras (independientes) y variables respuesta (dependiente).Con el propósito de decidir gráficamente el tipo de relación funcional entre  X  e Y  se dibuja

un Diagrama de Dispersión de pares ( ) x yi i, en un plano cartesiano.

Supongamos que la relación entre una variable predictora  X   y una variable respuesta Y   puede ser descrita por el siguiente modelo lineal:

Y X = + + β β ε 0 1  

Se pretende encontrar la mejor recta de regresión que es posible ajustar a los datosmuestrales. Para ello debemos determinar los mejores valores de los parámetros medianteel método de mínimos cuadrados, obteniendo:

σ  β 

21),(

 X 

Y  X Cov=

 22

 x N 

 x

 y x N 

 xy

i−

⋅−

=

  ;  x y 10

∧∧

−=   β  β   

Esto da origen a la recta ajustada (o estimada)  X Y  10

∧∧∧

+=   β  β   

Para ( ) x yi i, obtendremos el par estimado

 

 

 

    ∧

ii  y x , , donde ni x y ii ,1 ; 10   =+=

∧∧∧

 β  β   

Ejercicio 4. Se desea determinar si existe relación lineal entre el tiempo utilizado enensamblar cierta unidad de una maquinaria y el tiempo de reemplazo de esta unidad en lamaquinaria. Se consideró un grupo de 8 de esta máquina y se obtuvieron los siguientesdatos:

Tiempo Utilizado en ensamblar (hrs) 2,1 2,0 2,8 2,6 2,1 2,5 2,7 2,4

Tiempo transcurrido hasta el reemplazo (años) 3,5 3,2 5,2 4,3 3,3 3,8 3,0 3,8

a)  Reconozca variable dependiente e independiente. b)  Dibuje el diagrama de dispersión. ¿Qué observa?c)  Realice un ajuste de regresión vía mínimos cuadrados.

d)  Interprete los coeficientes de regresión estimados.e)  Calcule una medida de asociación y calidad del ajuste.f)  Estime el tiempo medio de reemplazo para una maquinaria ensamblada en 2,53 hrs.g)  ¿Qué tiempo de garantía ofrecería Ud. Como gerente de la Industria?

Page 16: Apuntes 1 Estadistica Descriptiva ssd

7/21/2019 Apuntes 1 Estadistica Descriptiva ssd

http://slidepdf.com/reader/full/apuntes-1-estadistica-descriptiva-ssd 16/16

 Estadística Descriptiva   H. Alvarado – L. Retamal  

Ejercicio 5. Se ha comprobado que las aleaciones amorfas tienen una excelente resistenciaa la corrosión. Se informó de la resistividad de una aleación amorfa de hierro, boro y siliciodespués de la cristalización. Se reconocieron cinco especimenes de la aleación a 700 ºC,cada uno durante un intervalo de tiempo distinto. Después se midió el potencial de pasivación- una medida de la resistividad de la aleación cristalizada – para cada espécimen:

Tiempo de recocidox, minutos

Potencial de pasivacióny, mV

10 -408

20 -400

45 -392

90 -379

120 -385

a)  Construya un diagrama de dispersión para los datos. b)  Suponiendo que la mejor forma de describir la relación entre las variables es con

una línea recta, utilice el método de mínimos cuadrados para estimar la ordenada alorigen y la pendiente de la línea.c)  Según la línea de mínimos cuadrados, ¿cuál es el potencial de pasivación esperado

y, cuando el tiempo de recocido es de x = 30 minutos?d)  Verifique que la suma de los errores es cero.e)  Mediante planilla excel obtenga el modelo ajustado y los valores de los errores.