Borrador Trabajo Colab 2

30
TRABAJO COLABORATIVO UNIDAD No. 2 CARLOS ARTURO PACHON 80439789 EDWIN MANUEL SÁNCHEZ LARA 80432962 OSCAR JULIO SUÁREZ MILLÁN UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

Transcript of Borrador Trabajo Colab 2

Page 1: Borrador Trabajo Colab 2

TRABAJO COLABORATIVO UNIDAD No. 2

CARLOS ARTURO PACHON 80439789

EDWIN MANUEL SÁNCHEZ LARA 80432962

OSCAR JULIO SUÁREZ MILLÁN

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESCUELA DE CIENCIAS BÁSICAS

ESTADÍSTICA DESCRIPTIVA

09 DE NOVIEMBRE DE 2012

Page 2: Borrador Trabajo Colab 2

Introducción

Este trabajo tiene como propósito ejemplificar métodos para medir e interpretar el

comportamiento de un conjunto de datos dados. Los datos extremos pueden estar bastante

alejados de una tendencia central. Medir esa variación respecto a los promedios es un cálculo

importante en el tratamiento estadístico de datos, medidas a las que se les denomina de

dispersión o de variación.

La varianza se define como la media aritmética de los cuadrados de las desviaciones respecto a

la media aritmética. Se simboliza s2 para la varianza muestral y σ2 para la varianza poblacional.

La desviación típica, se obtiene extrayendo la raíz cuadrada de la varianza, tomando siempre el

valor positivo. Se simboliza por s en la muestra y σ en la población. Para efectuar

comparaciones entre series de observaciones distintas, en estadística se usa el coeficiente de

variación y así se puede determinar cuál serie tiene mayor o menor variabilidad relativa.

En las distribuciones asimétricas la media se corre en el sentido del alargamiento o sesgo por

efecto de las frecuencias y de los valores extremos de la variable; con el fin de determinar si

existe alguna relación entre las variables, que bien pudieran ser ambas discretas o continuas, o

también una de ellas discreta y la otra continua, se utilizan las medidas estadísticas

bivariantes. Un diagrama de dispersión es un plano cartesiano, ubicando en el eje horizontal o

abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada, los

valores de la segunda variable, Y. De manera pues que se grafican tantas parejas ordenadas

como observaciones hayan de las variables. La regresión examina la relación entre dos

variables restringiendo una de ellas respecto a la otra, con el objeto de estudiar las variaciones

de la primera cuando la otra permanece constante.

El error estándar del estimado consiste en medir el grado de confiabilidad de la ecuación de la

recta estimada. Regresión múltiple consiste en el mismo procedimiento de una regresión lineal

simple: describir la ecuación de regresión, determinar el error de estimación y analizar la

correlación entre las variables.

Los números índice son cifras relativas expresadas en términos porcentuales, que sirven para

indicar las variaciones que sufre una serie de valores respecto a una de ellas, tomada como

punto de referencia y a la cual se le denomina base.

Page 3: Borrador Trabajo Colab 2

Objetivos

a) Desarrollar un taller de ejercicios sobre los contenidos de la Unidad 2 del curso de Estadística Descriptiva, los cuales les permitirán profundizar en los temas tratados.

b) Analizar algunos de los datos obtenidos en el CENSO 2005 realizado por el

DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA, DANE.

Page 4: Borrador Trabajo Colab 2

TRABAJO COLABORATIVO UNIDAD No. 2

1. MENTEFACTO CONCEPTUAL

MENTEFACTO DE MEDIDAS DE DISPERSION

Trata de la diferencia entre el límite superior y el límite inferior de un conjunto de datos

MEDIDAS ESTADISTICAS

Compara las medidas de dispersión

Medidas de Longitud de Arco

MEDIDAS DE DISPERSION

Manejar los conceptos de dispersión

Curva normal o campana de Gauss

Curvas asimétricas

MEDIDAS DE ASIMETRIA Y

APUNTAMIENTO

RANGO O VARIANZA Y DESVIACION COEFICIENTE DE VARIACION PUNTAJE TIPICO RECORRIDO ESTANDAR Y DESVIACION MEDIA O ESTANDARIZADO

Page 5: Borrador Trabajo Colab 2

2. Las estaturas en centímetros de los socios de un club juvenil de Bogotá, son las siguientes:

153 123 129 132 147 138 137 134 131 147138 128 134 148 125 139 146 145 148 135152 128 146 143 138 138 122 146 137 151145 124 132 138 144 141 137 146 138 146152 156 160 159 157 168 178 142 113 130

Realizar una tabla de distribución de frecuencias para datos agrupados dado que la variable es estatura (cuantitativa continua), Calcular varianza, desviación estándar y coeficiente de variación. Interprete los resultados.

1 1132 1223 1234 1245 1256 1287 1288 1299 130

10 131

11 13212 13213 13414 13415 13516 13717 13718 13719 13820 13821 13822 13823 13824 13825 13926 14127 14228 14329 14430 14531 145

Page 6: Borrador Trabajo Colab 2

32 14633 14634 14635 14636 14637 14738 14739 14840 14841 15142 15243 15244 15345 15646 15747 15948 16049 16850 178

Rango17

8 - 113 = 65Número de clases. Aplicando la Regla de Sturges:

K = 1 + 3,322 Log 50 = 11,29 ---- 12Amplitud de los intervalos de clase.

A = 65 = 5,417 --- 612

Como se ha redondeado, debe hallarse el nuevo rango:

R = 6 * 12 = 72Existe exceso de 1, [66 – 65 = 1]. Este exceso debe distribuirsesumado 1 al superior por agruparse mas los datos

178 + 1 = 179113 = 113

Intervalos de clase. Se agrega A-1= 6-1= 5 al límite inferior de cada clase,Iniciando por el límite inferior del rango. Así:

A - 1 = 6 - 1 = 5

Page 7: Borrador Trabajo Colab 2

113 + 5 = 118

119 + 5 = 124

125 + 5 = 130

131 + 5 = 136

137 + 5 = 142

143 + 5 = 148

149 + 5 = 154

155 + 5 = 160

161 + 5 = 166

167 + 5 = 172

173 + 5 = 178

179 + 5 = 184

Limites reales

112 + 113 = 225 = 112,5

2 2

118 + 119 = 237 = 118,5

2 2

124 + 125 = 249 = 124,5

2 2

130 + 131 = 261 = 130,5

2 2

Page 8: Borrador Trabajo Colab 2

136 + 137 = 273 = 136,5

2 2

142 + 143 = 285 = 142,5

2 2

148 + 149 = 297 = 148,5

2 2

154 + 155 = 309 = 154,5

2 2

160 + 161 = 321 = 160,5

2 2

166 + 167 = 333 = 166,5

2 2

172 + 173 = 345 = 172,5

2 2

178 + 179 = 357 = 178,5

2 2

Tabla de frecuencias

INTERVALOS DE CLASE FRECUENCIA

Page 9: Borrador Trabajo Colab 2

Estatura en CmNo de

personas

112,5 - 118,5 1

118,5 - 124,5 3

124,5 - 130,5 5

130,5 - 136,5 6

136,5 - 142,5 12

142,5 - 148,5 13

148,5 - 154,5 4

154,5 - 160,5 4

160,5 - 166,5 0

166,5 172,5 1

172,5 178,5 1

TOTAL 50

a) VarianzaPara datos agrupados:

INTERVALOS DE CLASEFRECUENCI

A Punto Medio Fx * X0

Estatura en CmNo de

personas X Fx x

112,5 -118,

5 1 115,5 115,5 665,6

4

118,5 -124,

5 3 121,5 364,5 1.176,12

124,5 -130,

5 5 127,5 637,5 952,2

0

130,5 -136,

5 6 133,5 801 365,0

4

136,5 -142,

5 12 139,5 1674 38,88

142,5 -148,

5 13 145,5 1891,5 229,3

2

148,5 -154,

5 4 151,5 606 416,1

6

154,5 -160,

5 4 157,5 630 1.049,76

Page 10: Borrador Trabajo Colab 2

160,5 -166,

5 0 163,5 0 -

166,5 -172,

5 1 169,5 169,5 795,2

4

172,5 -178,

5 1 175,5 175,5 1.169,64

total 5

0,00 1.600,50 7.065,00 6.858,00

X = 1.600,50 50,00

-

x = 141,3

varianza 6.858,00 50,00

varianza 137,16

INTERVALOS DE CLASE FRECUENCIAPunto Medio

Ʃfx2

Estatura en Cm No de personas X Fx

113 - 119 1 115,5 115,5 13.340,2

5

119 - 125 3 121,5 364,5 44.286,7

5

125 - 131 5 127,5 637,5 81.281,2

5 131 - 137 6 133,5 801 106.933,50 137 - 143 12 139,5 1674 233.523,00 143 - 149 13 145,5 1891,5 275.213,25

149 - 155 4 151,5 606 91.809,0

0

155 - 161 4 157,5 630 99.225,0

0 161 - 167 0 163,5 0 -

Page 11: Borrador Trabajo Colab 2

167 - 173 1 169,5 169,5 28.730,2

5

173 - 179 1 175,5 175,5 30.800,2

5

TOTAL 50 7065 1.005.142,5

0

b) Desviación Estándar

(Ʃfx)2

S = Ʃfx2 - n n - 1

6.858,0

S = 49

S = 139,96

S = 11,83

c) Coeficiente de variación

CV= s x 100

x

CV= 11,83 x 100141,3

Page 12: Borrador Trabajo Colab 2

CV= 8,37%

3. Un empleado de la empresa de Acueducto de la ciudad de Cartagena, realiza un estudio sobre los reclamos realizados en los 2 últimos años, para ello elige una muestra de 60 Personas, con los siguientes resultados:

No. reclamaciones

0 1 2 3 4 5 6 7

No. usuarios 26 10 8 6 4 3 2 1

Promedio

No de Reclamaciones

No de Usuarios

x2

0 26 676,00

1 10 100,00

2 8 64,00

3 6 36,00

4 4 16,00

5 3 9,00

6 2 4,00

7 1 1,00

Page 13: Borrador Trabajo Colab 2

28 60 906

promedio 2,14

Varianza

S2 = Ʃfx2

- xW2

n

S2 = 906 - 4,5928

S2 =27,7

7

Desviación Típica

S = Ѵ27,77

S = 5,27

Coeficiente de Variación

CV = S X 100xW

CV= 5,27 x2,14

CV= 245,90%

Se concluye que los datos son heterogéneos, hay diferencias significativas entre ellos, así es que el promedio es poco representativo, hay una variación notable en las reclamaciones por

Page 14: Borrador Trabajo Colab 2

usuario, ya que varían gradualmente respecto a la media en: 27.77 hubo mayor estabilidad en las reclamaciones alrededor de su media: 2.14. Hay una variación relativa entre las reclamaciones y el número de usuarios.

4. En un examen final de Estadística la puntuación media de un grupo de 150 estudiantes fue de 78 y la varianza 64. En álgebra, sin embargo, la media final del grupo fue de 73 y la desviación tipica7,6. En que asignatura hubo mayor:

a. Dispersión absoluta

b. Dispersión relativac. Si el estudiante consiguió 75 en estadística y 71 en álgebra. ¿En qué asignatura fue su puntuación relativa superior?

Media Varianza Desviación típica

Estadística 7,8 6,4

Algebra 7,3 7,6

a. Dispersión absoluta

Estadística S2 = 64S= Ѵ 64 = 8

Desviación típica:

Estadística 8,0Algebra 7,6

Por lo tanto en estadística hubo mayor dispersión absoluta, que en algebra, ya que 8>7,6.

b. Dispersión relativa

EstadísticaCV = 8,0

X 10078

CV = 10,2%

AlgebraCV = 7,6

X 10073

Page 15: Borrador Trabajo Colab 2

CV = 10,4%

Hay Mayor Dispersión Relativa en Algebra, ya que 10,4>10,2.

c. Si el estudiante consiguió 75 en estadística y 71 en álgebra. ¿En qué asignatura fue su puntuación relativa superior?

Estadística 7,5Algebra 7,1

EstadísticaZ= X - X\ = 7,5 - 7,8 = -0,0375

S 8,0

AlgebraZ= X - X\ = 7,1 - 7,3 = -0,026

S 7,6

Dado que Algebra con -0,026, esta más cerca de cero, entonces la puntuación relativa es superior que la de estadística.

5. Ingresar al blog de Estadística Descriptiva que se encuentra en la página principal del curso en el TOPICO DE CONTENIDOS, posteriormente buscar el LABORATORIO (RERESIÓN Y CORRELACIÓN LINEAL –EXCELL) y realizar el ejercicio número 1 que se encuentra al final del laboratorio

Ejercicio 1. Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se le administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después

x (sal) y ( Presión)1,8 100

2,2 983,5 1054 110

4,3 1125 120

a) Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.

Page 16: Borrador Trabajo Colab 2

x (sal) y ( Presión) xy x^21,8 100 180 3,242,2 98 215,6 4,843,5 105 367,5 12,254 110 440 16

4,3 112 481,6 18,495 120 600 25

20,8 645 2284,7 79,82

1.5 2 2.5 3 3.5 4 4.5 5 5.50

20

40

60

80

100

120

140

f(x) = 6.31374243733794 x + 85.6123595505618R² = 0.916480645896744

Diagrama de Dispersion

Dosis de Sal

Tens

ion

Arte

rial

Para conocer el tipo de relación que puede existir entre estas dos variables, el primer paso es determinar es si el diagrama de dispersión efectivamente insinúa una tendencia lineal, como se observa en la grafica anterior, se procede ahora a determinar la ecuación de la recta que más se ajusta. Para ello se hace uso del método de los mínimos cuadrados.

Ŷ = a + bX Donde

b = nƩxy - ƩxƩy

nƩx2 - (Ʃx)2

b =

6

* 2.284,7 - 20,8

* 645,0

6

* 79,8 - 432,6

b = 13.708,2 -

13.416,0

Page 17: Borrador Trabajo Colab 2

478,9 - 432,6

b = 292,2 46,3

b = 6,31

Donde a = Ʃy -bƩx n

a = 645,0 - 6,31 * 20,8

6

a = 645,0 - 131,3

6

a = 513,7 6

a = 85,61

b) Encuentre el modelo matemático que permita predecir el efecto de una variable sobre la otra. ¿Es Confiable?

La ecuación de la recta ajustada está dada por: Ŷ = 6,31 x + 85,61

c) Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables

Grado de relaciónError estándar

Ʃy2 - a Ʃy - b Ʃxy Se = n -2

Se = 69.673 - (85,61 * 645,0)

- 6,31 *

2.284,70

Page 18: Borrador Trabajo Colab 2

6 - 2

Se = 69.673 - 55.218,5 -

14.425,01

4

Se = 29,5

4

4

Se = 7,38

6

Se = 2,7

2

Ahora, se calcula así, el coeficiente de determinación y el coeficiente de correlación lineal, para elle se determina la varianza de la variable dependiente Y.

S2Y

S2Y = ƩY2 - Y\2

n

S2Y = 69.673,0 -

11.556,3

6,0

S2Y =

55,92

R2 = 1,0

- Se2

Page 19: Borrador Trabajo Colab 2

S2Y

R2 =

1,0 - 7,39

55,92

R2 =

1,0 - 0,13

R2 = 0,87 86,8%

r = R2

r = 0,8

7

r = 0,9

3 93,2%

d) Si a un paciente se le administra una dosis de sal de 6,5. ¿Cuál es la tensión arterial esperada?

De modo que la ecuación de la recta ajustada está dada por:

Ŷ = 6,31 x + 85,61

Ŷ = 6,31 * 6,5 + 85,6

Ŷ = 41,0 + 85,6

Page 20: Borrador Trabajo Colab 2

Ŷ = 126,7 ---- 127

De tensión esperada

6 - A continuación Se presentan las ventas nacionales de móviles nuevos de 1992 a 2004 en la siguiente tabla. Obtenga un índice simple para las ventas nacionales utilizando una base variable.

AÑO Ventas (millones $)

1992 8,8

1993 9,71994 7,3

1995 6,7

1996 8,5

1997 9,2

1998 9,2

1999 8,4

2000 6,4

2001 6,2

2002 5,0

2003 6,7

2004 7,6

I 1992 9,7 X 100 = 110,23%

1993 8,8

I1993 7,3

X 100 = 75,26%1994 9,7

I1994 6,7

X 100 = 91,78%1995 7,3

Page 21: Borrador Trabajo Colab 2

I1995 8,5

X 100 = 126,87%1996 6,7

I1996 9,2

X 100 = 108,24%1997 8,5

I1997 9,2 X 100 = 100,00%1998 9,2

I1998 8,4

X 100 = 91,30%1999 9,2

I1999 6,4

X 100 = 76,19%2000 8,4

I2000 6,2

X 100 = 96,88%2001 6,4

I2001 5,0

X 100 = 80,65%2002 6,2

I2002 6,7

X 100 = 134,00%2003 5,0

I2003 7,6

X 100 = 113,43%2004 6,7

II-ACTIVIDAD DE INVESTIGACIÓN

Realizar un recorrido a través de los resultados del Censo General 2005, ingresando a la página Web del DANE: http://www.dane.gov.co

ACTIVIDAD A REALIZAR:

En este segundo trabajo colaborativo, deberán escoger previo acuerdo entre los integrantes del grupo, una tabla de distribución de frecuencias que presente una variable cuantitativa para la cuales se pide calcular: -Media o Promedio aritmético. -Medidas de dispersión

Page 22: Borrador Trabajo Colab 2

2.- Interpretar los resultados obtenidos

Varianza Para datos agrupados:

edad 2011 Punto Medio Fx * X0

X Fx x

5 - 11 5.902 8 47.216 - 5,49 177.67

8

12 - 15 3.257 13,5 43.970 0,01

1

16 - 17 1.397 16,5 23.051 3,01 12.68

4

18 - 25 1.793 21,5 38.550 8,01 115.13

1

26 y 30 939

28 26.292 14,51 197.78

5 -

total 13.288 87,50 179.078

20,07 503.279,36

X = 87,50

13.288,00

-

x = 13,48

varianza 503.279,36

Page 23: Borrador Trabajo Colab 2

13.288,00

varianza 37,87

Coeficiente de variación

CV= s x 100

x

CV= 141,88 x 13,48

CV= 1053%

edad 2011 Punto MedioX Fx

5 - 11 5.902 8 47216 377.728,0

0

12 - 15 3.257 13,5 43969,5 593.588,2

5

16 - 17 1.397 16,5 23050,5 380.333,2

5

18 - 25 1.793 21,5 38549,5 828.814,2

5

26 y 30

939 28 26292

736.176,00

TOTAL 13288 87,5 179077,5 2.916.639,75

Desviación estándar

(Ʃfx)2

S = Ʃfx2 - n

Page 24: Borrador Trabajo Colab 2

n - 1

503.278,0

S = 25

S = 20131,12

S = 141,88

Rango

30 - 5 = 25

Número de clases. Aplicando la Regla de Sturges:

K = 1 +3,32

2Log

25 =

6,64

---- 7

Conclusiones

a) Con la realización de estos ejercicios, se aprendió de manera mas profunda los temas vistos en la unidad dos.

b) Se aprendió que el comportamiento de un conjunto de datos puede variar de forma significativa con respecto al promedio.

c) Se realizó un análisis teórico acerca de las medidas estadísticas, comprendiendo así la importancia de conceptos que no estaban familiarizados.

d) Se adquirió conocimiento con respecto a los temas tratados en un campo real como lo es el DANE, en cuanto a la calidad de vida en Colombia en el transcurso del año 2011.

Page 25: Borrador Trabajo Colab 2

Referencias Bibliográficas

Material didáctico contenido para descargar, curso estadística descriptiva.