Trabajo Colaborativo 2 G 204040 8

19
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSIÓN Y ESTADÍSTICAS BIVARIANTES FANNY OMERIS HERNANDEZ Código: 32.896.685 JAVIER EDUARDO AREVALO Código: 79.778.015 JONNATHAN ALEXANDER CELY AMAYA Código: 1.057.587.286 SANDRA PATRICIA BOHORQUEZ Código: 35.422.126 WILSON GAVIRIA BERNAL Código: 11.259.139 Grupo: 204040-8 Tutor (a): ALBERTO GARCIA UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD 2015

Transcript of Trabajo Colaborativo 2 G 204040 8

Page 1: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

ESTADISTICA DESCRIPTIVA

MEDIDAS DE DISPERSIÓN Y ESTADÍSTICAS BIVARIANTES

FANNY OMERIS HERNANDEZ Código: 32.896.685

JAVIER EDUARDO AREVALO Código: 79.778.015

JONNATHAN ALEXANDER CELY AMAYA Código: 1.057.587.286

SANDRA PATRICIA BOHORQUEZ Código: 35.422.126

WILSON GAVIRIA BERNAL Código: 11.259.139

Grupo: 204040-8

Tutor (a): ALBERTO GARCIA

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD

2015

Page 2: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

TABLA DE CONTENIDO

INTRODUCCIÓN .......................................................................................................... 3

JUSTIFICACION ........................................................................................................... 4

OBJETIVOS ................................................................................................................... 5

OBJETIVO GENERAL. .............................................................................................. 5

OBJETIVOS ESPECIFICOS. ...................................................................................... 5

Page 3: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

INTRODUCCIÓN

Una vez que se ha localizado el “centro” con las medidas de tendencia central, la

investigación en busca de información a partir de conjunto de datos se dirige ahora a las

medidas de dispersión. Las medidas de dispersión incluyen el rango, la varianza y la

desviación estándar. Estos valore numéricos describen la cantidad de dispersión, o

variabilidad, que se encuentra entre los datos: datos bastante agrupados poseen valores

relativamente pequeños, y datos más dispersos tienen valores más grandes. El

agrupamiento más estrecho ocurre cuando los datos carecen de dispersión (todos los datos

tienen el mismo valor), para los cuales la medida de dispersión es cero. No hay límite

respecto a cuán dispersos pueden ser los datos; en consecuencia, las medidas de dispersión

pueden ser muy grandes.

En el campo de la estadística hay muchos problemas que requieren un análisis de

una o dos variables. En administración, en educación, en psicología y en muchas otras

materias, a menudo es necesario contestar preguntas como las siguientes: “¿Están

relacionadas estas dos variables? En caso afirmativo, ¿de qué manera? ¿Existe una

correlación entre las variables?”. Las relaciones bajo análisis son de tipo matemático que

permiten predecir el comportamiento de una variable con base en el conocimiento que se

tiene sobre otra.

En este documento encontrara los ejercicios desarrollados por los integrantes del

grupo 204040_8, sobre medidas de dispersión y regresión, y correlación lineal con base a

los datos del Hospital Federico Lleras Acosta, de la ciudad de Ibagué; que gracias al trabajo

en equipo se logró desarrollar lo propuesto en la guía de actividades del trabajo

colaborativo dos (2).

Page 4: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

JUSTIFICACION

Page 5: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

OBJETIVOS

OBJETIVO GENERAL.

OBJETIVOS ESPECIFICOS.

Calcular e interpretar adecuadamente las medidas estadísticas univariantes y asociar

sus resultados con posibles alternativas de solución al problema.

Determinar la relación entre dos o más variables inscritas en una situación específica a

partir del análisis de regresión lineal simple

Page 6: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Cálculo e interpretación de las medidas univariantes de dispersión para la variable

discreta

Población: Edad

Muestra: 120

Variable: Cuantitativa

Tipo de variable: Discreta

0 0 0 0 0 1 1 1 2 2 3 3 3 4 4 5 5

5 5 7 8 13 16 16 17 17 17 17 18 19 19 19 19 19

20 20 20 21 21 21 22 22 23 23 23 23 23 23 23 24 24

24 24 24 25 25 25 26 26 26 26 31 31 33 33 34 34 35

36 37 37 39 39 39 40 40 42 43 44 44 45 47 48 48 49

50 51 51 52 52 53 54 54 54 54 55 55 55 56 57 58 59

59 60 61 62 64 65 68 68 71 73 73 75 75 81 82 85 87

94

Representación de tallo y hojas

0 0 0 0 0 0 1 1 1 2 2 3

3 3 4 4 5 5 5 5 7 8

1 3 6 6 7 7 7 7 8 9 9 9

9 9

2

0 0 0 1 1 1 2 2 3 3 3

3 3 3 3 4 4 4 4 4 5 5

5 6 6 6 6

3 1 1 3 3 4 4 5 6 7 7 9

9 9

4 0 0 2 3 4 4 5 7 8 8 9

5 0 1 1 2 2 3 4 4 4 4 5

5 5 6 7 8 9 9

6 0 1 2 4 5 8 8

7 1 3 3 5 5

8 1 2 5 7

9 4

Page 7: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Paso 1 Xmáximo 94 Xmínimo 0 94

Paso 2 120 8

94

8

Paso 4 12 8 96

Paso 5 96 94 2

Paso 6 Xmínimo 0 1 -1

Paso 7 Xmáximo 94 1 95

Paso 8 -1

Paso 9 11

144000

Segundo término del intervalo

Frecuencia relativa (%)

Paso 3

Rango=Xmáximo - Xmínimo

Intervalo de clase

Rango

Exceso

Ancho de amplitud 12

Nuevo Rango

Nuevo valor menor

Nuevo valor mayor

Primer término del intervalo Nuevo valor menor

=

=

1 -1 11 21 5 105 525 21

2 11 23 21 17 357 6069 21

3 23 35 25 29 725 21025 25

4 35 47 14 41 574 23534 14

5 47 59 20 53 1060 56180 20

6 59 71 9 65 585 38025 9

7 71 83 7 77 539 41503 7

8 83 95 3 89 267 23763 3

120 4212 210624

[35 a 47)

Intervalos

[-1 a 11)

[11 a 23)

[23 a 35)

TABLA DE FRECUENCIAS PARA DATOS AGRUPADOS

[47 a 59)

Intervalos

[83 a 95)

[59 a 71)

[71 a 83)

Page 8: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Rango: 𝑅 𝑥𝑚𝑎𝑥 𝑥𝑚𝑖𝑛

𝑅 94 0

𝑅 94

Media: �̅� ∑𝑥𝑓

∑ 𝑓

4.212

120 𝟓

Varianza: 𝑠2

∑𝑥2𝑓 ∑𝑥𝑓 2

∑𝑓

∑𝑓 1

210.624 4.212 2

120120 1

𝟓 𝟕 𝟓𝟗

Desviación estándar: 𝑠 √𝑠2 √527 59 𝟗𝟕

Coeficiente de

variación: 𝐶𝑉

𝑠

�̅�× 100%

22 97

35 10× 100%

65,44%

Las medidas de dispersión representan una alta variabilidad de los datos con respecto a la media

obtenida, representado en un 22,97 la desviación estándar de los datos de la variable de la edad con respecto a la media de 35,10 años. Igualmente el coeficiente de variación para esta variable

es de un 65,44% lo cual es una variación alta de los datos reales con respecto al promedio identificado.

Población: Número de visitas del último trimestre

Muestra: 120

Variable: Cuantitativa

Tipo de variable: Discreta

1 86 86 86

2 26 52 104

3 8 24 72

𝟔 𝟔

Page 9: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Rango: 𝑅 𝑥𝑚𝑎𝑥 𝑥𝑚𝑖𝑛

𝑅 3 1

𝑅 2

Media: �̅� ∑𝑥𝑓

∑ 𝑓

162

120 𝟓

Varianza: 𝑠2

∑𝑥2𝑓 ∑𝑥𝑓 2

∑𝑓

∑𝑓 1

262 162 2

120120 1

𝟔 𝟗

Desviación estándar: 𝑠 √𝑠2 √0 369 𝟔

Coeficiente de

variación: 𝐶𝑉

𝑠

�̅�× 100%

0 61

1 35× 100%

45,19%

Page 10: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Cálculo e interpretación de las medidas univariantes de dispersión para la variable

continua

Población: Peso

Muestra: 120

Variable: Cuantitativa

Tipo de variable: Continua

2,6 3,1 3,1 3,4 3,9 5,2 8,9 9,4 9,7 11,9 12,5 14,2 15,3 15,9 16,5 16,7 16,9

18,3 19,7 23,0 24,5 30,5 45,0 45,2 45,8 45,8 45,9 50,2 52,6 52,7 52,9 53,8 54,0 54,9

55,0 55,2 55,9 56,0 56,8 56,9 57,3 57,6 57,8 57,9 58,0 58,2 58,2 58,3 58,6 58,8 58,9

60,0 60,0 60,0 60,2 60,3 60,5 60,5 60,6 60,8 60,8 60,8 61,6 62,3 62,7 62,9 62,9 63,2

63,8 64,3 64,3 65,0 65,2 65,2 65,4 65,6 65,7 65,7 65,8 65,9 67,2 67,2 67,2 67,2 67,5

67,9 67,9 68,9 70,0 70,0 70,0 70,2 70,8 72,0 72,5 72,9 72,9 72,9 73,8 75,3 78,0 78,1

78,4 78,5 78,5 78,5 78,6 78,6 78,6 78,9 79,5 80,9 85,0 85,0 85,0 85,8 85,8 85,9 87,2

87,5

Representación de tallo y hojas

0 2,6 3,1 3,1 3,4 3,9 5,2 8,9 9,4 9,7

1 1,9 2,5 4,2 5,3 5,9 6,5 6,7 6,9 8,3 9,7

2 3,0 4,5

3 0,5

4 5,0 5,2 5,8 5,8 5,9

5

0,2 2,6 2,7 2,9 3,8 4,0 4,9 5,0 5,2 5,9 6,0

6,8 6,9 7,3 7,6 7,8 7,9 8,0 8,2 8,2 8,3 8,6

8,8 8,9

6

0,0 0,0 0,0 0,2 0,3 0,5 0,5 0,6 0,8 0,8 0,8

1,6 2,3 2,7 2,9 2,9 3,2 3,8 4,3 4,3 5,0 5,2

5,2 5,4 5,6 5,7 5,7 5,8 5,9 7,2 7,2 7,2 7,2

7,5 7,9 7,9 8,9

7

0,0 0,0 0,0 0,2 0,8 2,0 2,5 2,9 2,9 2,9 3,8

5,3 8,0 8,1 8,4 8,5 8,5 8,5 8,6 8,6 8,6 8,9

9,5

8 0,9 5,0 5,0 5,0 5,8 5,8 5,9 7,2 7,5

Page 11: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Paso 1 Xmáximo 87,5 Xmínimo 2,6 84,9

Paso 2 120 8

84,9

8

Paso 4 11 8 88

Paso 5 88 85 3

Paso 6 Xmínimo 2,6 1,6 1

Paso 7 Xmáximo 87,5 1,6 89

Paso 8 1

Paso 9 12

132000

Rango

Paso 3 Ancho de amplitud 11

Nuevo Rango

Exceso

Frecuencia relativa (%)

Nuevo valor mayor

Primer término del intervalo Nuevo valor menor

Segundo término del intervalo

Nuevo valor menor

Rango=Xmáximo - Xmínimo

Intervalo de clase

=

=

1 1,1 12,1 10 6,6 65,5 429,0 1,1 12,1 10

2 12,1 23,1 10 17,6 175,5 3080,0 12,1 23,1 10

3 23,1 34,1 2 28,6 57,1 1630,2 23,1 34,1 2

4 34,1 45,1 1 39,6 39,6 1564,2 34,1 45,1 1

5 45,1 56,1 15 50,6 758,3 38329,5 45,1 56,1 15

6 56,1 67,1 42 61,6 2585,1 159112,9 56,1 67,1 42

7 67,1 78,1 21 72,6 1523,6 110533,6 67,1 78,1 21

8 78,1 89,1 19 83,6 1587,5 132631,4 78,1 89,1 19

120 6792,0 447310,9

Intervalos

TABLA DE FRECUENCIAS PARA DATOS AGRUPADOS

Intervalos

Page 12: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Rango: 𝑅 𝑥𝑚𝑎𝑥 𝑥𝑚𝑖𝑛

𝑅 87 5 2 6

𝑅 84 9

Media: �̅� ∑𝑥𝑓

∑ 𝑓

6.792 0

120 𝟓𝟔 𝟔

Varianza: 𝑠2

∑𝑥2𝑓 ∑𝑥𝑓 2

∑𝑓

∑𝑓 1

447.311 6.792 0 2

120120 1

𝟓 𝟖 𝟒

Desviación estándar: 𝑠 √𝑠2 √528 43 𝟗𝟗

Coeficiente de

variación: 𝐶𝑉

𝑠

�̅�× 100%

22 99

56 60× 100%

40,62%

Población: Estatura

Muestra: 120

Variable: Cuantitativa

Tipo de variable: Discreta

0,45 0,47 0,53 0,57 0,57 0,65 0,73 0,76 0,82 0,85 0,86 0,96 0,96 0,98 1,00 1,03 1,03

1,06 1,10 1,16 1,18 1,40 1,50 1,51 1,51 1,52 1,52 1,53 1,53 1,55 1,55 1,56 1,56 1,56

1,56 1,57 1,58 1,58 1,58 1,58 1,58 1,58 1,59 1,59 1,59 1,59 1,59 1,60 1,60 1,61 1,61

1,61 1,62 1,62 1,62 1,62 1,62 1,62 1,63 1,63 1,63 1,63 1,63 1,63 1,64 1,64 1,64 1,65

1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,66 1,67 1,67 1,67 1,67 1,67 1,67 1,68 1,68

1,68 1,68 1,68 1,68 1,69 1,70 1,70 1,70 1,71 1,71 1,72 1,72 1,72 1,72 1,72 1,72 1,73

1,74 1,75 1,75 1,75 1,75 1,76 1,76 1,78 1,78 1,78 1,79 1,79 1,80 1,80 1,80 1,81 1,86

1,86

Page 13: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Paso 1 Xmáximo 1,86 Xmínimo 0,45 1,41

Paso 2 120 8

1,4

8

Paso 4 0,18 8 1,41

Paso 5 1,41 1,41 0

Paso 6 Xmínimo 0,5 0,00 0

Paso 7 Xmáximo 1,9 0,00 2

Paso 8 0

Paso 9 1

2115Frecuencia relativa (%)

Nuevo valor mayor

Primer término del intervalo Nuevo valor menor

Segundo término del intervalo

0,18

Nuevo Rango

Exceso

Nuevo valor menor

Paso 3 Ancho de amplitud

Rango Rango=Xmáximo - Xmínimo

Intervalo de clase

=

=

1 0,45 0,63 5 0,54 2,7 1,4

2 0,63 0,80 3 0,71 2,1 1,5

3 0,80 0,98 5 0,89 4,5 4,0

4 0,98 1,16 6 1,07 6,4 6,8

5 1,16 1,33 2 1,24 2,5 3,1

6 1,33 1,51 2 1,42 2,8 4,0

7 1,51 1,68 60 1,60 95,7 152,8

8 1,68 1,86 37 1,77 65,6 116,2

120 182,3 289,8

TABLA DE FRECUENCIAS PARA DATOS AGRUPADOS

Intervalos

Page 14: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Rango: 𝑅 𝑥𝑚𝑎𝑥 𝑥𝑚𝑖𝑛

𝑅 1 86 0 45

𝑅 1 41

Media: �̅� ∑𝑥𝑓

∑ 𝑓

182 31

120 𝟓

Varianza: 𝑠2

∑𝑥2𝑓 ∑𝑥𝑓 2

∑𝑓

∑𝑓 1

289 82 182 31 2

120120 1

𝟕𝟗

Desviación estándar: 𝑠 √𝑠2 √0 1079 𝟖𝟓

Coeficiente de

variación: 𝐶𝑉

𝑠

�̅�× 100%

0 3285

1 52× 100%

21,62%

Los resultados utilizando Excel son

Varianza 0,11064 Desviación estándar: 0,33263

Solución del laboratorio de regresión y correlación lineal.

1. Se requiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de

voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. Los resultados son los siguientes:

1,8 100

2,2 98

3,5 105

4,0 110

4,3 112

5,0 120

𝒚 .

Page 15: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

La ecuación del diagrama de dispersión presenta una pendiente positiva por lo tanto podemos decir que a mayor consumo de sal, mayor aumento en la tensión arterial, eso nos indica

que las dos variables tienen una relación directamente proporcional.

El modelo matemático para las variables sal y tensión arterial está dada por la ecuación:

donde x (sal) es la variable independiente y y (tensión arterial) la variable dependiente.

Con los resultados obtenidos se puede asegurar que la ecuación de la recta es una muy buena estimación de la relación entre las dos variables sal vs presión. El R2 afirma además que el

modelo explica el 91,65% de la información y el valor de r (coeficiente de correlación lineal) confirma además el grado de relación (95,73%) entre las variables: sal y presión.

Al administrar una dosis de 6,5 de sal; la tensión arterial del paciente debe ser aproximadamente de 126,6745

y = 6,3137x + 85,612R² = 0,9165

0

10

20

30

40

50

60

70

80

90

100

110

120

130

1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0

Y (T

ENSI

ÓN

AR

TER

IAL)

)

X (SAL)

Diagrama de Dispersión

𝒚 𝟔 𝟕 𝟖𝟓 𝟔

Page 16: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

2. En un nuevo proceso artesanal de fabricación de cierto artículo que está implantando, se ha

considerado que era importante ir anotando periódicamente el tiempo medio (medido en minutos) que se utiliza para realizar una pieza y el número de días desde que empezó dicho

proceso de fabricación. Con ello, se pretende analizar como los operarios van adaptándose al nuevo proceso mejorando paulatinamente su proceso de producción. Los siguientes datos

representan dicha situación.

10 35

20 28

30 23

40 20

50 18

60 15

70 13

La ecuación del diagrama de dispersión presenta una pendiente negativa por lo tanto podemos

decir que a mayor cantidad de días del proceso de fabricación, los operarios gastan menor cantidad de minutos en la elaboración del artículo, eso nos indica que las dos variables tienen una

y = -0,3464x + 35,571R² = 0,9454

0

5

10

15

20

25

30

35

40

0 10 20 30 40 50 60 70

Y (

MIN

UTO

S)

X (DÍAS)

DIAGRAMA DE DISPERSIÓN

𝒚

Page 17: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

relación inversamente proporcional.

El modelo matemático para las variables x (días) y y (minutos) está dada por la ecuación:

donde x (días) es la variable independiente y y (minutos) la variable dependiente.

Con los resultados obtenidos se puede asegurar que los operarios a medida que avanzan los días van mejorando su proceso de producción, es decir a mayor días menos minutos en la fabricación

del artículo. El R2 afirma además que el modelo explica el 94,54% de la información y el valor de r (coeficiente de correlación lineal) confirma además el grado de relación (97,23%) entre las

variables: días y minutos.

Un operario en el día 100 debe tardar aproximadamente en la elaboración de un artículo 0,931

minutos

3. Una nutricionista de un hogar infantil desea encontrar un modelo matemático que permita determinar la relación entre el peso y la estatura de sus estudiantes. Para ello selecciona 10

niños y realiza las mediciones respectivas. A continuación se presentan los resultados.

103 15

108 19

109 18

110 20

111 19

114 20

115 21

118 24

121 25

123 22

𝑬 𝑷 𝒌

Page 18: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

La ecuación del diagrama de dispersión presenta una pendiente positiva por lo tanto podemos

decir que a mayor estatura, mayor peso, lo otro que nos indica es que por cada centímetro la relación de cambio es de 0,4212. Las dos variables tienen una relación directamente

proporcional.

El modelo matemático para las variables x (cm) y y (kg) está dada por la ecuación:

donde x (cm) es la variable independiente y y (kg) la variable dependiente.

Con los resultados obtenidos se puede asegurar que a medida que los niños aumentan su estatura, también su peso aumentara. El R2 afirma además que el modelo explica el 81,02% de la

información y el valor de r (coeficiente de correlación lineal) confirma además el grado de relación (90,01%) entre las variables: centímetros y kilogramos.

y = 0,4212x - 27,377R² = 0,8102

0

3

6

9

12

15

18

21

24

27

1 0 0 1 0 2 1 0 4 1 0 6 1 0 8 1 1 0 1 1 2 1 1 4 1 1 6 1 1 8 1 2 0 1 2 2 1 2 4

Pe

so (k

g)

Estatura (cm)

DIAGRAMA DE DISPERSIÓN

Page 19: Trabajo Colaborativo 2 G 204040 8

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD

Un estudiante que mida 130 cm debe tener un peso aproximado de 27,379 kg