Modulo de estadistica i

167
___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ 0 ESTADÍSTICA I APLICADA A LA ADMINISTRACIÓN DE EMPRESAS 0 5 10 15 20 25 30 Comidas Transporte Alojamiento Ene Feb Mar Abr May Jun ALBERTO QUINTO JIMÉNEZ Especialista en Matemática Avanzada. Universidad Nacional de Colombia. FACULTAD DE HUMANIDADES PROGRAMA DE ADMINISTRACIÓN DE EMPRESAS UNIVERSIDAD TECNOLÓGICA DEL CHOCO “DIEGO LUIS CORDOBA” 2005

Transcript of Modulo de estadistica i

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

0

ESTADÍSTICA I APLICADA A LA ADMINISTRACIÓN DE EMPRESAS

0

5

10

15

20

25

30

Comidas Transporte Alojamiento

Ene

Feb

Mar

Abr

May

Jun

ALBERTO QUINTO JIMÉNEZ Especialista en Matemática Avanzada.

Universidad Nacional de Colombia.

FACULTAD DE HUMANIDADES PROGRAMA DE ADMINISTRACIÓN DE EMPRESAS

UNIVERSIDAD TECNOLÓGICA DEL CHOCO “DIEGO LUIS CORDOBA”

2005

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

1

OFRENDA

A mi abuela MIGUELINA MOSQUERA de QUINTO, a mis hijos, a

todos y cada uno de mis actuales y futuros alumnos promesas del

mañana, dedico.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

2

INDICE

PAGINA

Ofrenda

Prologo

UNIDAD 1.0

LA ESTADÍSTICA Y SU HISTORIA 6

1.1 Historia 6

1.2 Definición de Estadística 8

1.3 Términos de uso corriente en Estadística 8

1.4 División de la Estadística 11

1.5 Aplicación de la Estadística 11

1.6 Importancia de la Estadística 12

1.7 Fenómeno que abarca y no abarca la Estadística 13

1.8 La investigación Estadística 13

1.9 Clases de investigación 14

1.10 Etapas de la investigación 15

Evaluación de la unidad 23

UNIDAD 2.0

REPRESENTACIÓN DE DATOS 31

2.1 Distribución de frecuencia 32

2.2 Distribución de frecuencia simple 33

2.3 Distribución de frecuencia por intervalo 37

2.4 Gráficos Estadísticos 42

Evaluación de la unidad 54

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

3

UNIDAD 3.0

MEDIDAS DE POSICIÓN O TENDENCIA CENTRAL 62

3.1 Media Aritmética 63

3.1.1 Propiedades 67

3.1.2 Ventajas y desventajas 68

3.2 Mediana 69

3.2.1 Ventajas y desventajas 74

3.3 Moda 75

3.3.1 Ventajas y desventajas 80

3.4 Características principales de los promedios anteriores 80

3.5 Relación entre la Media, Mediana y Moda 82

3.6 Media Geométrica 83

3.6.1 Propiedades 86

3.6.2 Ventajas y desventajas 87

3.6.3 Características 88

3.7 Media Armónica 89

3.7.1 Característica 90

3.8 Relación entre Media Aritmética, Geométrica y Armónica 91

3.9 Cuartiles, Decíles y Percentiles 91

Evaluación de la unidad 97

UNIDAD 4.0

MEDIDAS DE DISPERSIÓN 107

4.1 Varianza 108

4.1.1 Propiedades 110

4.1.2 Corrección de Shepard 110

4.2 Rango o recorrido 111

4.2.1 Características 111

4.3 Desviación Típica o Estándar 114

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

4

4.3.1 Propiedades 114

4.4 Coeficiente de variación 118

4.4.1 Característica 118

4.5 Puntaje Típico o Stándarizado 120

4.6 Recorrido intercuartilico 122

4.7 Desviación Mediana 124

4.8 Desviación Media 125

Evaluación de la unidad. 129

UNIDAD 5.0

REGRESIÓN Y CORRELACION 133

5.1 Introducción a la bidimensionalidad 134

5.2 Relación entre dos variables 134

5.3 Regresión 138

5.4 Teoría de la correlación 141

5.5 Error típico de la estima 144

5.6 Variación explicada y no explicada 146

5.7 Coeficiente de correlación 146

5.8 Correlación gradual 151

Evaluación de la unidad. 161

UNIDAD 6.0

INTRODUCCIÓN A LAS COMPUTADORAS 165

6.1 La computadora en la Estadística 166

6.2 Introducción a Microsoft Excel 167

6.2.1 Grafica en Excel 168

6.3 Manejo del Statgraphics 169

BIBLIOGRAFÍA.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

5

INTRODUCCIÓN

El uso de la Estadística se ha generalizado en los últimos años no sólo como herramienta de análisis de problemas de economía, sino como auxiliar en el estudio y valoración de cualquier investigación. El propósito de este módulo es proporcionar a los estudiantes de administración de empresas, el material básico exigido en su curso de Estadística I, incluyendo algunas de sus aplicaciones. Se ha hecho un esfuerzo para lograr que el módulo sea útil a la mayor cantidad posible de profesionales dedicados a las ciencias económicas, porque existe la necesidad de un modulo de Estadística que aborde tópicos que exceden estas áreas de las ciencias. En un esfuerzo por llenar este vacío, he incluido ejemplos y ejercicios que no sólo interesan al estudiante de administración de empresas, sino también al contador, al Educador y, a muchos otros profesionales dedicados a las ciencias económicas. Por la forma en que está estructurado el módulo, es poca la preparación matemática que se requiere para usarla. Aquellos que hayan tomado un curso de álgebra, no tendrán dificultad alguna para seguir la manipulación matemática. Tengo fe en que el estudiante, o el lector común, llegará a darse cuenta que en la estadística hay más que las meras matemáticas; que la Estadística, primero que todo, es una filosofía, una manera de pensar. Si el estudiante puede desarrollar los conceptos, verá las matemáticas simplemente como el vehículo para su expresión y comunicación. Aspiro, en consecuencia, prestar un nuevo servicio a los educadores Colombianos; porque considero que todo lo que se hace en beneficio de los futuros ciudadanos ha de estar inspirado en un elevado anhelo de engrandecimiento patrio, y ello sólo se logra con la dedicación y el sacrificio constante de cada uno de nosotros, pues como lo expresa claramente CHARLES SUMMER, “ la verdadera grandeza de las naciones está en aquellas cualidades que constituyen la grandeza del individuo”.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

6

UNIDAD 1.0

LA ESTADÍSTICA Y SU HISTORIA

OBJETIVO

DE LA UNIDAD: describir la importancia y el uso de la Estadística y su relación con otras ciencias; dar un concepto general de la metodología de la

investigación Estadística.

CONTENIDOS: 1.1 Historia

1.2 Definición de Estadística

1.3 Términos de uso corriente en Estadística

1.4 División de la Estadística

1.5 Aplicación de la Estadística

1.6 Importancia de la Estadística

1.7 Fenómeno que abarca y no abarca la Estadística

1.8 La investigación Estadística

1.9 Clases de investigación

1.10 Etapas de la investigación

Evaluación de la unidad

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

7

1.1 HISTORIA. El estudio de la estadística ha sufrido cambios substanciales desde su comienzo. Merecen mención especial dos fuentes de tendencia de desarrollo. Primeramente, el de origen de la estadística puede advertirse ya en la necesidad de datos numéricos en los estados que surgían de la sociedad medieval en la Europa Occidental. Al transformarse la sociedad medieval en el estado político, el nuevo gobierno necesitaba información sobre los recursos del país para poder tener éxito. Así pues era obligado para los nuevos gobernantes el obtener descripciones numéricas, tales como : el número de ciudadanos de las diversas unidades políticas bajo su jurisdicción, ciudades, condados y provincias. El término estadística, se deriva del latín status, que significa estado en el sentido político, se empleó entonces para referirse a la recolección y descripción de tales datos del estado. La necesidad de acopiar y analizar datos numéricos impulsó a desarrollar métodos para facilitar la labor, que era lo que constituía lo más considerable de la estadística hasta la era moderna. No es necesario enumerar todos los que contribuyeron al desarrollo de los métodos estadísticos; pero ha de mencionarse sin embargo al Belga ADOLPH QUETELET (1796 - 1874), que fue el primero en aplicar métodos modernos a conjuntos de datos. Suele llamarse a QUETELET “ Padre de la estadística moderna”, por su continua insistencia en la importancia de aplicar métodos estadísticos. Sus distinguidas contribuciones a la practica y a la metodología estadísticas cubrieron muchos campos de la estadística oficial, tales como los censos, el desarrollo de la uniformidad y compatibilidad de estadísticos entre las naciones, y la organización de la primera conferencia estadística, internacional. La comisión central de estadística, que QUETELET fundó, fue el modelo para instituciones similares en otros países. Otra fuente de la estadística se encuentra en la atención prestada al juego de azar en el siglo XVII, que organizaba la nobleza de Inglaterra y Francia para

la recreación, tales como dados y cartas; cosa que sin proponérselo, llevó al desarrollo de la Teoría de las probabilidades. Al mismo tiempo los estudios de probabilidades requerían el tratamiento de los errores en las mediciones, de lo que resulto la distribución de tales errores. Ya desde el siglo XVIII se había observado que las medidas de cierto objeto o fenómeno daban lugar a una configuración en la distribución de los errores que tenía la forma de una curva acampanada.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

8

A propósito de la evaluación de los errores de observación en Astronomía, se hizo un descubrimiento de mayor importancia para la estadística. La distribución de errores resultante con su forma de campana y su simetría se llama Curva Normal de Errores . También se dice Distribución Gaussiana de errores, por el nombre de su descubridor Karl Friedrich Gauss (1777 - 1855). Entre los contemporáneos de QUETELET Y GAUSS que contribuyeron al avance de la estadística como ciencia, estaban : Florence Nightingale (18820 - 1911). Florence Nightingale creía firmemente en los métodos estadísticos.

Sostenía que todo Director debería guiarse por el conocimiento estadístico si quería tener éxito y que los políticos y los legisladores fracasaban frecuentemente por la insuficiencia de sus conocimientos estadísticos. Galton, como su primo Charles Darwin, se interesó profundamente en el estudio de la herencia, a la cual aplico métodos estadísticos. Entre sus principales contribuciones se encuentra, el haber desarrollado métodos tan fundamentales como la Regresión y la Correlación.

La obra de Galton fue estímulo para una serie de investigaciones de Karl Pearson ( 1857-1936 ), el cuál inició la publicación del periódico Biométrica, que ha influido profundamente en el desarrollo de la Estadística, uno de los métodos más importante, descubierto por Pearson es la Distribución Ji-cuadrado, que encontró en 1900.

En el siglo XX, quienes han contribuido de manera más sobresaliente al estudio de la Estadística, han sido Willian S. Gosset ( 1876 - 1967 ) y Sir Ronald Fisher ( 1890 - 1962 ) Gosset, que escribía bajo el seudónimo “ Student “ , dedujo la distribución “ t “ y su contribución especial fue en el campo de la teoría de pequeñas muestras. Fisher halló la conocida distribución “ F “ y aportó contribuciones

continuamente hasta 1962 ; muchas de ellas han tenido grandes influencias en los modernos procedimientos Estadísticos. Si bien su trabajo era sobre todo en los campos de la Biología, Genética y la Agricultura, su impacto ha llegado a todas las aplicaciones de la Estadística.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

9

1.2 DEFINICIÓN DE LA ESTADÍSTICA En términos generales, la palabra estadística se refiere a un sistema o método científico usado en la recolección, organización, análisis, interpretación numérica de la información. También se puede decir que la estadística está ligada con los métodos científicos en la toma, organización, recopilación, presentación y análisis de datos, tanto para la deducción de conclusiones, como para tomar decisiones razonables de acuerdo con tales análisis. El término se utiliza para denotar datos o número, por ejemplo, estadística de empleo, accidente, producción, etc.

1.3 TÉRMINOS DE USO CORRIENTE EN ESTADÍSTICA

1.3.1. POBLACIÓN O UNIVERSO. Es el conjuntos de individuos, medidas u

objetos que poseen alguna característica común observable como son : altura, peso de estudiantes de un colegio, el número de camisas defectuosas o no defectuosas producidas por una fábrica de un día determinado, el nivel de glucosas en la sangre extraída a 50 niños en determinada hora del día.

Una población puede ser finita o infinita. La población consistente en todas las camisas producidas por una fábrica en un día es FINITA, y la población formada por todos los posibles sucesos ( cara o sello) en tirada sucesiva de una moneda es INFINITA. 1.3.2.MUESTRA. Una muestra puede definirse simplemente como una parte de una población. Supongamos que una población consiste en los pesos de todo los estudiantes de un colegio, si se reúnen para el análisis los pesos de sólo un nivel o grado del total de niños del colegio, sólo se tiene una parte de la población de pesos, es decir se tiene una muestra. 1.3.3 PARÁMETRO. Cualquier característica de una población que sea medible, por ejemplo, la proporción de niños de un país que entran a estudiar. 1.3.4.VARIABLE. Rasgo, característica o propiedades que poseen los elementos de una población o de una muestra. 1.3.5.VARIABLE DISCRETA. Son aquellas que sólo admiten valores enteros,

por ejemplo el número de hijos de una familia, ya que no se puede decir que una familia tiene dos hijos y medio.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

10

1.3.6.VARIABLE CONTINUA. Son aquellas que admiten valores fraccionarios por ejemplo, la estatura de una persona, su peso, etc.

1.3.7.VARIABLE CUANTITATIVA. Es aquella que puede medirse, por ejemplo se puede obtener mediciones de los adultos del sexo masculino, los pesos de los niños en edad preescolar y las edades de los pacientes que se ven en una clínica dental.

1.3.8. VARIABLE CUALITATIVA. Algunas características pueden no ser medidas, en el sentido en que se miden las estaturas, el peso, la edad ; muchas características sólo pueden catalogarse, como por ejemplo cundo a una persona enferma se le da un diagnostico médico, cuando a una persona se le designa dentro de un grupo socioeconómico.

Las variables cualitativas dan origen a los atributos, como por ejemplo, profesión, sexo, estado civil.

1.3.9.ESCALA. Es un patrón o conjunto de criterios claramente definidos que permite asignar, sin ambigüedades, valor a una variable. El concepto de valor incluye, además de números, letras, letras y números, palabras, etc.

1.3.9.1.ESCALA NOMINAL. Sirven únicamente para identificar, como el criterio para asignar el número de la cédula a un individuo o el código para saber el color del pelo de una persona.

1.3.9.2.ESCALA ORDINAL. Que permite asignar valor a una variable que sirve sólo para ordenar, como el puesto que ocupa un atleta en una carrera.

1.3.9.3 ESCALA DE RAZÓN. Asigna un valor numérico, a una variable usando una unidad determinada inicialmente como 1. En este caso están las unidades físicas como peso, volumen, longitud, área, resistencia etc.

En una escala el cero ( 0 ) no necesariamente representa la ausencia

absoluta de la variable, sino que se toma en referencia a un valor no nulo y se tiene una escala conocida como intervalo. Por ejemplo en la temperatura, los grados Kelvin usan una escala de razón mientras que los grados centígrados usan una escala de intervalo, en la aeronáutica la altura sobre Bogotá usa una escala de intervalo, mientras que la altura sobre el nivel del mar es de razón.

En síntesis se tiene que, una variable puede clasificarse según el diagrama.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

11

NOMINAL

CUALITATIVA DISCRETA

ORDINAL

VARIABLE

ORDINAL

DISCRETA CUANTITATIVA DE RAZÓN

CONTINUA DE RAZÓN

1.3.10 BIOESTADISTICA. Es la rama de la Estadística que trata de los seres vivientes desde un punto de vista biológico.

1.3.11 ESTADIGRAFOS. Cálculos realizados con los datos de la muestra.

1.3.12.FRECUENCIA. Repetición de un dato en una muestra.

1.3.13.PARÁMETROS. Cálculo realizado con los datos de la población.

1.4. DIVISIÓN DE LA ESTADÍSTICA.

Prácticamente todos los autores están de acuerdo en clasificar la Estadística en dos tipos: Estadística Deductiva o Descriptiva y la Estadística Inductiva o de Inferencia.

1.4.1 ESTADÍSTICA DEDUCTIVA O DESCRIPTIVA: Esta fase sólo se limita a la descripción y análisis de una serie de datos sin llegar a conclusiones o generalizar con respecto a un grupo mayor.

1.4.2 ESTADÍSTICA INDUCTIVA O DE INFERENCIA: Trata de llegar a conclusiones a cerca de un grupo mayor basado en la información de un grupo menor o muestra.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

12

1.5. APLICACIONES DE LA ESTADÍSTICA.

La Estadística o métodos estadísticos como a veces se le llama está desempeñando un importante papel ascendente en casi todas las facetas del progreso humano.

Anteriormente sólo era aplicada a los asuntos del Estado, de donde viene su nombre ; pero ahora la influencia de la Estadística se extiende a la agricultura, biología, negocio, ciencias políticas, sicología, sociología y otros muchos campos de ciencia e ingeniería.

1.5.1. EN LA EMPRESA: Una compañía de fábrica de harina, empaqueta la harina en bolsa de papel, cada una de las cuales se supone contener 25 libras. Si el proceso de empaque está bajo control, el peso medio de las bolsas será de 25 libras. Supóngase que se toma periódicamente una muestra de bolsas para comprobar la bondad del proceso de empaquetado.

Si una muestra de 50 bolsas da una media muestra de 24 libras y 12 onzas, se puede aplicar el método de la inferencia estadística para determinar si el proceso está bajo control.

1.5.2. EN QUÍMICA Y BIOLOGÍA: Considérese una nueva vacuna contra el

resfriado que ha sido desarrollado por una compañía farmacéutica. Dicha compañía afirma que la nueva vacuna es eficaz en un 95 % o sea que de cada 100 personas que la han utilizado, 95 pasaron a invierno sin sufrir resfriado, si en una muestra de 30 personas que han sido vacunados, hay 27 que pasaron el invierno sin resfriado: ¿ prueba esto suficientemente las pretensiones de la compañía ?.

1.5.3 EN BIOLOGÍA Y AGRONOMÍA: Para ayudar a determinar los efectos de los tipos de semillas, de los insecticidas y de los fertilizantes en la cosecha. Se ha utilizado para producir ganado de mejor calidad con planos especiales de alimentación y cría.

1.5.4 EN LA PRODUCCIÓN : En la producción de un artículo en grandes

cantidades se hace necesario detectar y eliminar alteraciones sistemáticas de calidad.

1.5.5 EN FINANZAS : En la estimación de la magnitud que tomará cierto aspecto en algún punto futuro del tiempo( corto, mediano o largo plazo), en

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

13

los controles presupuéstales y en el planteamiento de ciertas actividades de carácter financiero. 1.5.6 EN CONTABILIDAD : De gran importancia en la auditoria, ya que mediante la aplicación de ciertos métodos se seleccionan algunas facturas, cuentas o documentos de cobro, sin recurrir a la totalidad y con base en el examen de ellas, se puede obtener conclusiones sobre la situación actual de cartera. 1.5.7 EN PERSONAL : El control sobre el número de horas laboradas, tiempo dejado de laborar, accidentes de trabajos, clasificación del personal ( por antigüedad, sueldo, estudios, etc),información estadística necesarias en una empresa, para toma de decisiones en las políticas empresariales. 1.5.8 EN MERCADO : Las encuestas estadísticas son indispensables para

determinar la reacción de los consumidores frente a los actuales productos de la empresas y para el lanzamiento de los nuevos. 1.6 IMPORTANCIA DE LA ESTADÍSTICA.

A continuación se precisan algunos aspectos para las cuales la Estadística es de gran importancia:

1.6.1 Conocimiento de la realidad de una observación o un fenómeno. Para

conocer la situación actual de un fenómeno es necesario cuantificarlo o graficarlo.

1.6.2.Determinación de lo típico o normal de una observación. Esto se realiza

mediante el cálculo de promedios representativos de la característica cualificada.

1.6.3.Determinación de los cambios que representa el fenómeno. Estas

variaciones se determinan en el tiempo, lo cual requiere una observación continua.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

14

1.6.4.Establecimiento de la relación entre dos o más fenómenos. Se relacionan las características o variables que determinan los fenómenos.

1.6.5.Determinación de las causas que originan el fenómeno.

1.6.6.Realización de estimaciones e inferencias estadísticas. Los

resultados obtenidos al estudiar una muestra se generalizan como comportamiento de la población entera. En estos casos es necesario precisar el grado de validez y confiabilidad de los análisis efectuados.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

15

1.7. FENÓMENOS QUE ABARCA Y NO ABARCA LA ESTADÍSTICA

Los fenómenos o hechos que continuamente suelen suceder, presentan ciertas características tales como la de ser observables y manifestarse y a un el de poder determinar la intensidad con que se produce el fenómeno.

1.7.1.Los fenómenos que abarca son: 1.7.1.1. Fenómenos colectivos o de grupos 1.7.1.2. Fenómenos de frecuente repetición 1.7.1.3. Fenómenos de distintas frecuencias 1.7.1.4. Fenómenos distantes en el espacio 1.7.1.5. Fenómenos distantes en el tiempo 1.7.1.6. Fenómenos cualitativos que no se pueden cuantificar 1.7.2. Los fenómenos que no abarcan son: 1.7.2.1 Fenómenos individuales 1.7.2.2 Fenómenos que no se exteriorizan 1.7.2.3 Fenómenos accidentales en el tiempo y en el espacio 1.7.2.4 Fenómenos cualitativos que no se pueden cuantificar 1.8. LA INVESTIGACIÓN ESTADÍSTICA La investigación estadística por sencilla que sea, es una operación compleja que requiere atender múltiples aspectos, y que genera muy variadas funciones. El resultado depende en gran parte de la finalidad que se persiga, de la naturaleza de los fenómenos que desean estudiar y de la facilidad que se tenga para observar los elementos. 1.8.1. CARACTERISTICA BASICAS: Toda la investigación debe reunir las siguientes características básicas:

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

16

1.8.1.1. Claridad: En todos sus aspectos debe ser clara y precisa. Conocida

por todas las personas que en ella participan. 1.8.1.2 Sencillez: Es indispensable aunque no debe limitar la presentación completa de la investigación. Es condición esencial de claridad.

1.8.1.3 Utilidad: Toda investigación estadística debe tener alguna aplicación practica que justifique su realización. 1.9. CLASES DE INVESTIGACIÓN

1.9.1 INTERNA. Investiga fenómenos originados dentro de la misma empresa o entidad. Requiere organizar la información de tal manera que permita la aplicación de métodos estadísticos, a fin de lograr las conclusiones válidas deseadas

.1.9.2 EXTERNA. Se realiza con el fin de obtener información que permita comparar fenómenos o entidades, establecer suposiciones relativas, estudiar su comportamiento actual o futuro.

1.9.3 EXHAUSTIVA. Se denomina así a aquella investigación donde se observan todos los elementos: que constituyen la población objetivo.

1.9.4.PARCIAL. Sólo se observa una parte de los elementos o unidades que constituyen la población (muestra), es decir, estudia la población a través de la muestra. Se realiza cuando no se desea o no es posible una investigación exhaustiva.

1.10. ETAPAS DE UNA INVESTIGACIÓN.

Se requiere una investigación de carácter estadístico cuando no se tiene un buen flujo de información que permita que dicha información se organice y; por lo general se encuentre dispersa.

Se puede considerar tres clases de operaciones o etapas en una investigación. Planeamiento, Recolección y Análisis.

Las etapas que requiere una investigación estadística la podemos sintetizar así:

1.10.1 PLANEAMIENTO: Al trazar un plan de inversión, se debe definir y organizar cada una de las actividades necesarias para llevar a cabo el trabajo y poder alcanzar los objetivos propuestos.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

17

Dentro de la etapa del planteamiento se podrán considerar ciertos aspectos que a continuación se presentan, donde el orden y la necesidad de cada uno de ellos dependerá de la misma naturaleza de la investigación.

1.10.1.1 Objeto de la Investigación: ¿Que se investiga?

Es el hecho o fenómeno que se desea estudiar; en una investigación de salarios, será el salario, en una sobre el rendimiento académico de un grupo de estudiantes, será los resultados obtenidos en su período escolar.

Es de gran Importancia definir el objeto de investigación y determinar su naturaleza cualitativa y cuantitativa. Definir además, las posibilidades de investigarlo y limitaciones.

1.10.1.2 Objetivo o Finalidad de la Investigación: ¿Que pretende la investigación?

Identificar con claridad y precisión el fin que se propone, formulando el problema de tal manera que nos permita establecer los objetivos generales y los específicos y, de ser posible una jerarquización de los mismos.

En esta fase se deben contestar los siguientes interrogantes: ¿Que se investiga ?, ¿como se realizará la investigación? (condiciones y medios), ¿cuándo y donde se realizará?

1.10.1.3 Unidad de Investigación: ¿Donde se realiza una investigación?

La unidad es la fuente de información es decir, a quien va dirigida; puede ser a una persona, un grupo familiar, laboral o social, una vivienda, una empresa pública, una explotación agropecuaria, una región. Su selección depende del objeto propuesto.

La unidad debe ser clara en tal forma que sea entendida por todos, además adecuada al tipo de investigación; mensurable, que permita ser medida, y comparable con los resultados obtenidos en investigaciones similares.

Al lado de la unidad principal se pueden establecer unidades secundarias. La fuente de información puede ser directa o indirecta.

ES DIRECTA. Si allí se produce el hecho, ejemplo: Las notarías, para determinar el número de nacimientos.

ES INDIRECTA, cuando se consideran aquellas en las cuales el hecho se refleja, ejemplo: Las rentas departamentales, para determinar el

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

18

consumo de bebidas alcohólicas. Estas se usan, generalmente, como complementarias a las fuentes directas.

1.10.1.4 Examen de la documentación y metodología: ¿ Qué y cómo se ha investigado al respecto?.

Es importante determinar si la investigación ha sido realizada con anterioridad, con el fin de prescindir del estudio; averiguar si se cumplió el objetivo propuesto y si la información estaba actualizada.

En caso contrario se realizará tratando de corregir las diferencias presentadas en anteriores investigaciones, al mismo tiempo que aprovechando sus aspectos positivo.

1.10.1.5 Método de observación: ¿Que características debe reunir la investigación? En qué forma se realiza la toma de dato?

Debe decirse el método que se empleará: Censo o Muestra. Esta elección

depende, entre otros, de los siguientes factores: disponibilidad de tiempo, recursos humanos y financieros, número de unidades que componen la población, caracteres por investigar, el grado de variabilidad, la descripción del objeto.

1.10.1.6 Proceso de Recolección: ¿Qué técnicas empleará para recolectar la información?.

Los datos se pueden recolectar mediante encuesta realizada por correo, entrega personal del cuestionario, entrevista, panel, observación directa, motivación, teléfono, otros.

1.10.1.7 Preparación del Presupuesto: Se cuenta con los recursos económicos suficientes para todo el proceso de la investigación.

Se debe analizar si los recursos económicos son suficientes para los otros costos requeridos en cada etapa, desde el planeamiento hasta la publicación.

1.10.1.8 Calendario de trabajo: Qué tiempo requiere cada etapa ? Es el ordenamiento de la diferencia inicial y final de cada etapa.

En el siguiente cuadro aparece un modelo de calendario.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

19

ETAPAS

FECHAS

INICIAL FINAL

1. Planeamiento

a.) Fase preliminar

I - VI

10 - VI

b.) Preparación de encuestas 8 - VI 20 - VI

c) Preparación de personal 18 - VI 23 - VI

2. Recolección

a.) Pretes

25 - VI

30 - VI

b.) Trabajo de campo 5 - VII

20 - VII

3.Procesamiento y análisis a.) Depuración y clasificación

21 - VII

27 - VII

b.) Tabulación y análisis 26 - VII 5 - VIII

C.) Publicación 3 - VII 20 - VIII

1.10.1.9 Preparación del cuestionario. ¿Qué contiene la encuesta y cómo se resuelve?

Al elaborar un cuestionario se consideran aspectos materiales y aspectos técnicos.

ASPECTOS MATERIALES: Tamaño del formulario, calidad del papel, color de la tinta, tipo de impresión.

ASPECTOS TÉCNICOS: Las preguntas se ordenan gradualmente

según su dificultad. No se deben emplear abreviaturas, las preguntas deben ser claras, precisas y comprensibles.

Las partes que constituyen un formulario son:

ENCABEZAMIENTO : Contiene el nombre de la institución u organismos

que realiza la investigación, nombre o título de la investigación, el título debe llevar implícito el qué, cómo, cuándo y dónde se realiza.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

20

CUERPO: Contiene las preguntas. Si se requiere identificar al informante

será necesario iniciar preguntando nombre, dirección, estado civil, edad, profesión etc.

INSTRUCCIONES: Son explicaciones generales sobre el sentido y forma de

responder el cuestionario, son indispensable en razón de la brevedad y condición de las preguntas.

Puede escribirse al final del cuestionario, al iniciarse o en separata.

OBSERVACIONES : Espacio libre al final del formulario para que el

entrevistador o el entrevistado escriban aclaraciones, opiniones u observaciones complementarias del trabajo realizado.

1.10.1.10 Selección y preparación del personal. ¿Qué requisitos deben reunir los entrevistadores y cuál es su función?.

Para esta selección se tienen en cuenta los siguientes criterios: número de personas acorde al número de formulario o unidades a entrevistar, conocimiento que tenga del interrogatorio y del objetivo de la investigación, cualidades morales que le impidan falsear las respuestas, cualidades de sociabilidad y cortesía, presentación personal correcta y sencilla. El adiestramiento del personal se realiza mediante cursos o seminarios más o menos breves.

1.10.1.11 Preparación y actualización de Informantes. Se confirma la

unidad de investigación; se prepara una lista de todas las unidades que conforman la población objetivo y seleccionan la muestra.

1.10.1.12 Propagandas. La labor de enunciar la investigación, para

disponer el ánimo del público fuente de información, al tiempo que se da a conocer el interés general de los resultados esperados.

1.10.1.13 La encuesta preliminar. Se realiza con el fin de tener un mayor

conocimiento sobre la población objetivo y facilitar así, la prueba del cuestionario. Permite además chequear el cálculo del costo y tiempo y la variabilidad de las características en estudio.

1.10.2 RECOLECCIÓN: Terminada la etapa de planeamiento, se procede a distribuir y a recoger los formulario, controlando el número de formularios entregados y recogidos, al mismo tiempo verificando la calidad de las informaciones obtenidas.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

21

La organización del trabajo de campo de recolección contemplan entre otros siguientes puntos.

- Supervisión

- Control de encuesta

- Revisión de los cuestionarios inconclusos

- calidad y consistencia de las respuestas

- Cumplimiento de los plazos prefijados

- Distribución de los entrevistados

Algunos errores que se pueden presentar en la recolección de los datos se clasifican en:

- Errores de la medición o cuantificación de la característica.

- Errores del entrevistador o influencia negativa del mismo.

- Mal diseño del cuestionario.

- Falta de instrucciones imprecisas.

Pueden presentarse algunos que afectan la recolección de los datos y que deben ser corregidos:

El informante no quiere suministrar los datos, alegando: estar ocupado, motivo político, desconfianza de la investigación no vale la pena etc.

El informante no puede responder por problemas, tales como en enfermedad, incapacidad física, idioma, etc.

La dirección del informante, la familia estaba paseando, hubo demolición del edificio, edificación desocupada, etc.

1.10.3 PROCESAMIENTO Y ANÁLISIS: La información obtenida debe ser depurada, clasificada, resumida y analizada, aplicando para ello adecuadas técnicas estadísticas. Los puntos más importantes en esta etapa son:

1.10.3.1 Codificación: Ya revisadas las respuestas obtenidas, se procede a su codificación: especialmente si se utiliza la tabulación mecánica.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

22

El código es un número que sustituye la respuesta cuando se va a hacer el recuento. Ejemplo:

Numero de piezas producidas : En buen estado === 1

En mal estado ==== 2

Si el número de constelaciones pasa de nueve, se utiliza números de dos dígitos. Ejemplo:

Los establecimientos industriales por departamento: 01 Choco

02 Caquetá

1.10.3.2 Tabulación: puede ser manual o mecánica, dependiendo de la

calidad de los formularios, del número de preguntas, del tiempo y de los recursos disponibles.

En la tabulación mecánica se utiliza tarjetas perforadoras, las cuales alimentan el computador. La más conocida es la llamada HOLLERTH, utilizado en las computadoras IBM.

La tabulación manual se realiza mediante la elaboración de cuadros, - gráficas y esquemas que faciliten el análisis de la información y la inferencia de conclusiones y recomendaciones.

1.10.3.3 Análisis e Interpretación: Esta etapa encierra dos aspectos:

análisis y evaluación estadística de los resultados, análisis y evaluación técnica de acuerdo con la naturaleza de la investigación.

1.10.3.4 Publicación: Se realiza con el fin de hacer llegar a las personas

interesadas el resultado total del estudio. Se hace esencial presentar todos los aspectos considerados en el proceso investigativo, además de la correspondiente validez que merezca las conclusiones.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

23

EVALUACION DE LA PRIMERA UNIDAD

1.1 Qué significa generalmente la palabra “ Estadística” para el hombre de la calle?

1.2 En qué contexto se utiliza la palabra “Estadística” en las finanzas, el mercado, la contabilidad y la Administración?

1.3 Decir brevemente cuáles fueron las contribuciones debidas a los siguientes estadísticos?

a) Adolph Quelet

b) Karl Friedrich gauss

c) Florence Nigh Tingale

d) Franco Galton

e) Karl Pearson

f) William s. Cosset

g) Ronald A. Fisher

1.4 Cuáles son las fuentes de estudio de las estadísticas?

1.5 Explique la diferencia existente entre Estadística deductiva o descriptiva y la estadística inductiva o inferencial.

1.6 Diga cuatro fenómenos que abarca la estadística y dos que no abarcan.

1.7 Diga cuatro finalidades de la Estadística.

1.8 El proceso de proyección y preparación de la investigación se divide en

cinco fases: recolección, planeamiento, análisis e interpretación, elaboración. Ordene estas fases, como crea conveniente y explique brevemente cada fase.

1.9 Se ha hecho un estudio para determinar si las amas de casa de Quibdó,

Chocó prefieren una marca especial de detergente, Entre las 50 amas de casas entrevistadas, 30 dijeron que preferían esta marca.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

24

a) Qué constituye la muestra?

b) Qué constituye la población?

c)cuál es el estadígrafo muestral y cuál es el parámetro de la población?

1.10 Una fábrica de gaseosas, proyecta lanzar al mercado un nuevo sabor.

Se realiza un Test de aceptación de dicho sabor en una muestra de 30 niños utilizando una escala de 10 puntos, para medir el grado de aceptación.

Los puntos obtenidos en los 30 niños fueron los siguientes:

2 6 8 7 4 5 10 6 6 7 6 7 3 8 7

6 8 6 5 4 7 8 5 7 6 7 2 7 2 7

La muestra obtuvo compuesta por igual número de niños de ambos sexos, de 5 a 12 años de edad residentes en el Barrio César Conto de la ciudad de Quibdó.

a. Cual es la población

b. Cuál es la muestra?

c. Es cualitativa o cuantitativa?

d. Cuál es la variable?

e. De que tipo es la variable

f. Qué clase de escala se ha utilizado en la medición de la variable?

1.11 Se realiza un estudio en la ciudad de Istmina- Chocó , a 150 familias de

clase media, para conocer el tipo de aceite ó manteca usado en la cocina; los resultados son los siguientes:

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

25

Maíz 14 Hogares.

Soya 65 Hogares.

Ajonjolí 21 Hogares.

Compran. Aceite al detal sin especificar tipo 17 hogares.

Manteca de cerdo 21 Hogares.

Grasas de origen vegetal 6 Hogares.

Oliva 13 Hogares.

a. cuál es la población?

b. cuál es el tamaño de la muestra

c. Qué carácter tiene la población

d. Cómo se explica que la suma de frecuencia sea superior al número de hogares?

1.12 La siguiente tabla muestra el número de fanegadas de trigo y maíz producidas en la Granja “ La Mazorca “ durante el decenio 1977 a 1987.

AÑOS NÚMERO DE FANEGADAS DE TRIGO

NÚMERO DE FANEGADAS DE

MAÍZ

1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987

200 185 225 250 240 195 210 225 250 230 235

75 90 100 85 80 100 100 105 95 110 100

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

26

Con los datos de la tabla, determinar el año o años en los que:

a. Se produjo el menor número de fanegas de trigo b. Se produjo el mayor número de fanegas de maíz c. Se produjo el mayor decrecimiento en la producción de trigo d. Se produjo un decrecimiento con relación al año anterior e. Se produjo el mismo número de fanegas de trigo f . Se obtuvo la máxima producción entre los dos cereales. 1.13. De tres ejemplos de población finita y tres de población infinita. 1.14 Anotar I o F según sean infinitas o finitas las siguientes poblaciones.

a. Las drogas producidas por una fabrica en un día

b. Resultados obtenidos en sucesivas tiradas de una moneda c. Estudiantes de la Universidad Tecnológica del Chocó d. Acciones vendidas cada día en la bolsa de valores e. Papeletas extraídas de una urna, en extracciones con reemplazamiento. 1.15 Clasificar cada variable en las siguientes distribuciones:

a. Alumnos por mes de nacimiento b. Profesionales por estatura y peso c. Obreros por salarios d. Accidentes por causas e. Fallecimiento por edades.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

27

1.16 Ubicar en estadística descriptiva o estadística inferial cada uno de los siguientes aspecto motivo de estudio estadístico:

a. Describir los grupos en término de promedio de estatura b. Determinar la probabilidad de que muestras de observaciones sean sólo el de variaciones de azar. c. En contar una diferencia consistente entre dos métodos específicos de enseñanza. d. Determinar la vida media de lámparas producidas por determinada Fábrica. e. Analizar la conducta de un grupo de escolares frente a una prueba de lectura. 1.17 Señale con C las series de variables continuas y con D las de variables

discretas. a. Distribución de obreros pos salarios b. Distribución de fallecimiento por edades c. Distribución de alumnos por números de hermanos d. Distribución de alumnos por estatura. 1.19 Contestar (V) verdadero o (F) falso, según el caso.

a. Código es la representación cualitativa de un hecho cualitativo b. Las instrucciones permiten diligenciar mejor el formulario. c. Un formulario se precodifica para agilizar la codificación d. Un formulario debe llevar una sola clase de preguntas. e. L a recolección de datos se puede hace mediante la observación. f. Después de elaborar el formulario se define el objetivo de la investigación g. Al recolectar información por medio de entrevistadores se tiene la ventaja de que éstos pueden observar el sitio de la operación que se

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

28

está llevando a cabo. h. Se conoce como fuente primaria aquella que obtuvo inicialmente la información directamente de la persona o entidad.

i. Al diseñar un cuestionario no es de gran importancia la forma como se hace la pregunta, siempre que ésta sea clara. j . No hay posibilidad alguna de que en una encuesta por correo se interprete mal las preguntas de un cuestionario, siempre y cuando que la persona que reciba sepa leer. k. El examen de la documentación y metodología se efectúa después de tabular la información.

1.20 Se ha dicho que en una investigación se consideran tres etapas, las

que a su vez se subdividen en otras fases. ¿Cuáles son? podría usted reagrupar los titulares de este capítulo en un índice de temas de acuerdo con estas etapas? 1.21 Mencionar algunos aspectos técnicos y materiales que deben tenerse en cuenta en el diseño de un formulario.

1.22 En los siguientes ejemplos, identifique: población, muestra, variable y escala de medición.

Varias veces durante el día un ingeniero de control de calidad, en una fábrica de textil, selecciona diferentes muestras de metros cuadrados de telas, las examina y registra en número de imperfecciones que encuentra.

Un investigador médico examina los efectos de un agente cancerígeno en humanos. Tres meses después de inyectado el agente en una persona, el investigador realiza una operación para extraer y pesar los tumores.

Un gerente desea conocer si aquellos empleados que recibieron 30 días de vacaciones son más productivos durante el año, que los que recibieron sólo 15 días. El gerente selecciona 140 trabajadores y registra su rendimiento.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

29

UNIDAD 2.0

REPRESENTACION DE DATOS.

OBJETIVO

DE LA UNIDAD: Representar correctamente una información estadística en

forma tabular y gráfica, para hacer más fácil su comprensión y analizar una tabla para obtener mayor provecho en su lectura.

CONTENIDOS: 2.1 Distribución de frecuencia

2.2 Distribución de frecuencia simple

2.3 Distribución de frecuencia por intervalo

2.4 Gráficos Estadísticos

Evaluación de la unidad

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

30

REPRESENTACION DE DATOS.

2.1 DISTRIBUCION DE FRECUENCIA

Una distribución de frecuencia es un método para organizar y resumir datos.

También se conoce con el nombre de distribución de frecuencia a una ordenación, tabulación de datos en clases y con la frecuencia correspondiente a cada una.

La toma de datos es la obtención de una colección de los mismo, los cuales no están ordenados numéricamente.

La ordenación es la colocación de los datos numéricos en orden creciente o decreciente de magnitud.

La diferencia entre el mayor y el menor número se llama RECORRIDO o RANGO de los datos,

La construcción de la distribución de los datos facilita la presentación de ellos o de la información y especialmente su análisis.

Para elaborar los cuadros o tablas de la distribución de los datos se debe, antes que todo Identificar las características que se investigaron, ya que esto permite una mejor clasificación de lo observado, estas características pueden ser:

a) Cualitativas o Atributos: Ventas en valor o cantidad, por sucursales,

empleados de una empresa por cargo, marca de droga más aceptada, exportación por puertos, etc.

b) Cuantitativas: Clasificación de empleados por sueldo, tiempo de reacción

de cierta droga, Kilómetros recorridos diariamente por vehículo, clasificación de familias por número de hijos etc.

2.2. DISTRIBUCIÓN DE FRECUENCIA SIMPLE

Antes de pasar a realizar ejercicios que nos de una claridad con respecto a la distribución de frecuencia simple presentaremos la siguiente sismología:

n : Tamaño de la muestra, es el número de observaciones.

Xi : La variable, es cada uno de los diferentes valores que se han

observando.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

31

La variable Xi, toma los X1, X2, ... , Xn valores. También se le llamará marca de clase.

Fi : la frecuencia absoluta o simplemente frecuencia, representa el número de veces que se repite la observación Xi , F2 el número de X2 etc.

Fa : la frecuencia acumulada, se obtiene acumulando la frecuencia absoluta, y siempre nos da un acumulado igual al tamaño de la muestra.

Fr : frecuencia relativa, resulta de dividir cada una de las frecuencias absoluta por el tamaño de la muestra.

Fra: Frecuencia relativa acumulada, resulta de la acumulación de las

frecuencias relativas, esta frecuencia siempre tiende a la unidad.

TABLA Nro1

1-1-2-2-2-3-3-6-4-1-2-3-4-2-7-2-1-1-4-2-0-1-2-5-1-0-1-8-2-6-2-1-3-1

2-0-1-0-0-4-2-1-4-2-3-0-1-2-2-4-0-0-1-2-0-3-2-2-2-3 -

Para hacer la respectiva distribución de dichos datos es conveniente que presentemos las siguientes tablas:

EJEMPLO: Los resultados obtenidos en un encuesta a 60 personas acerca del número de veces que han visitado a su médico para ver el grado de concentración de cierto mineral en el tejido (ppm) fueron los siguiente:

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

32

Encuesta realizada a 60 personas sobre el número de veces que han visitado a su médico para comprobar un ppm (datos ordenados).

TABLA Nº 2 : ORDENACIÓN DE LOS DATOS

0-0--0-0-0-0-0-0-0-1-1-1-1-1-1-1-1-1-1-1-1-1-1-2-2-2-2-2-2-2-2-2

2-2-2-2-2-2-2-2-2-2-3-3-3-3-3-3-3-4-4-4-4-4-4-5-6-6-7-8.

Encuesta realizadas a 60 personas sobre el número de veces que han visitado a su médico por comprobar su PPM (recuento de efectivo).

TABLA No 3 : CONTEO DE DATOS

Nº DE VECES Nº DE PERSONAS (conteo)

VECES QUE SE REPITE

0 1 2 3 4 5 6 7 8

IIII IIII I IIII IIII IIII II IIII IIII IIII IIII III IIII III IIII II I II I I

9 14 19 7 6 1 2 1 1

SUMAS 60

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

33

Distribución de frecuencia de la encuesta realizada a 60 personas sobre el número de veces que han visitado a su médico para comprobar su ppm.

TABLA Nº 4

Xi

Fi

Fa

Fr

Fra

0 9 9 = 9 9/60 = 0.15 0.15 = 0.15

1 14 9 + 14 = 23 14/60 = 0.233 0.15 + 0.233 = 0.383

2 19 23 + 19 = 42 19/60 = 0.316 0.383 + 0.316 = 0.699

3 7 42 + 7 = 49 7/60 = 0.116 0.699 + 0.116 = 0.815

4 6 49 + 6 = 55 6/60 = 0.1 0.815 + 0.1 = 0.915

5 1 55 + 1 = 56 1/60 = 0.016 0.915 + 0.016 = 0.931

6 2 56 + 2 = 58 2/60 = 0.033 0.931 + 0.033 = 0.964

7 1 58 + 1= 59 1/60 = 0.016 0.964 + 0.016 = 0.98

8 1 59 + 1 = 60 1/60 = 0.016 0.98 + 0.016 = 0.996

SUMAS 60

En la práctica, cuando se posee confianza en el ordenamiento y conteo de los datos , no es necesario tantas tablas, se puede pasar de la tabla No 1 directamente a la tabla Nro.5.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

34

Distribución de frecuencia en la encuesta realizada a 60 personas sobre el número de veces que han visitado a su médico para comprobar su ppm.

TABLA Nº 5

Xi Fi Fa Fr Fra

0 9 9 0.15 0.15

1 14 23 0.233 0.383

2 19 42 0.316 0.699

3 7 49 0.116 0.815

4 6 55 0.1 0.915

5 1 56 0.016 0.931

6 2 58 0.033 0.964

7 1 598 0.016 0.98

8 1 60 0.016 0.996

SUMAS n =60

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

35

- Analizando las columnas porcentuales Fr y Fra se puede tener entre otras las siguientes conclusiones:

- El 31.6% de los encuestados ha visitado dos veces a su médico

- El 15% de los encuestados respondió no haber visitado a su médico con ese objetivo.

- Solo el 1.6% lo ha visitado 8 veces.

-El 69.9% o 70% han visitado a su medico entre 0 y 2 veces

2.3 DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS

Como se ha visto, un conjunto de observaciones puede hacerse más comprensible y adquirir mayor significado por medio de un arreglo ordenado; puede lograrse una mayo síntesis, agrupando los datos. Para agrupar a un conjunto de observaciones, se selecciona un conjunto de intervalos, contiguos, que no se traslapen, tales que cada valor en el conjunto de observación puede colocarse en uno, de los intervalos de clase.

Unos de los primeros puntos a considerar, cuando se van agrupar ciertos datos, es cuántos intervalos van a incluirse. Demasiado poco no es conveniente debido a que hay perdida de información. Por otra parte, si se usan demasiados intervalos, no se logra objetivo de la síntesis.

La mejor guía en relación con lo anterior, a sí como para otras decisiones que deben tomarse al agrupar los datos, es el conocimiento que se tenga de ellos. Pueda ser que se hayan tomado con anterioridad, los intervalos de clase de años anteriores con fines de comparación. Una de las formas para obtener el número de intervalos (#i) es aplicando la regla de STURGES, con

la cual se obtiene una aproximación aceptable sobre el número de intervalos necesarios para agruparlos:

#i = 1 + 3.3 Log n

Donde n nos representa el número de valores considerados, esta regla de STURGES no se considera como final, sino sólo como una guía. El número de intervalos especificado por medio de esta regla debe aumentarse o disminuirse según convenga y el beneficio de una presentación clara.

Otra cuestión que hay que aclarar es lo relativo a la amplitud de los intervalos de clase.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

36

Aunque a veces es imposible, por lo general, los intervalos deben ser amplitudes iguales. Puede determinarse esta amplitud (A) dividiendo el recorrido ( R) entre el número de intervalo (#i ):

A = R i

Como regla, este procedimiento proporciona una amplitud que no es conveniente usarla. Una vez más, debe aplicarse el buen juicio y seleccionar una amplitud (por lo común, próxima a la dada por la ecuación) que sea más conveniente.

Consideramos el siguiente Ejemplo:

En un estudio de 50 sujetos entre las edades de 20 y 60 años sobre el valor del rendimiento del electroencefalograma. Se dieron los siguientes datos.

98 75 95 100 64 70 75 95

63 72 82 98 58 56 70 49

55 50 61 60 70 75 71 93

98 100 62 66 50 92 70 58

66 69 73 77 120 104 119 105

99 60 70 102 120 90 71 78

65 56

Antes de elaborar una tabla o cuadro de frecuencia por intervalos se debe tener en cuenta los siguientes pasos:

1. Se determina el valor máximo y mínimo de Xi

Xmin = 49 X máx = 120

2. Sacamos la diferencia entre el valor máximo y el mínimo que denominaremos rango o recorrido. (R):

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

37

R = X máx - X mín = 120 - 49 = 71

3. Se hace necesario determinar el número de intervalo (# i) que se utilizará para agrupar los datos:

#i = 1+3.3 Log n

#i = 1+3.3 Log 50

# i = 1+3.3 (1.69897)

# i = 1+5.60

# i = 6.6

En la práctica el #i se determina atendiendo varios factores, tales como:

finalidad del estudio, grado de variabilidad de los datos , necesidad de efectuar comparaciones. En todo caso, se recomienda que el #i hasta donde

sea posible, no sea menos de 5, ni mayor de 16, en nuestro caso tomaremos 7 intervalo ya que no se puede tener 6.6 intervalos.

4. Una vez determinado el número de intervalos se debe dividir el rango por

el este valor para obtener el valor de la amplitud de cada intervalo, aplicando la formula

A = R i

A = 71 7 = 10.14

Para facilitar los cálculos se aproximará A = 11, por lo tanto se altera el valor del rango de 71 a 77 en 6 unidades.

Cuando éste caso sucede se tendrá un quinto paso, que denominaremos rango ampliado ( Ra ) que es igual rango( R ) más un incremento (a).

R a = R + a

5. A = Ra i = 71 + 6 7 = 77/ 7 = 11

6. El incremento a del rango se debe distribuir equitativamente entre el dato mayor y el dato menor, al dato mayor se le suma a/2 y al dato menor se le resta a/2, con esto no podemos descartar la palabra equitativo

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

38

pues es opcional para cada trabajo que se elabora; en nuestro caso el incremento es de 6 unidades, luego:

Xmáx = 120 + 3 = 123

X mín = 49 – 3 = 46

Por tanto se tendrá un nuevo dato mayor o límite superior de 123 y un límite inferior de 46.

7. Se procede a elaborar los intervalos empezando con el nuevo dato menor y sumándole la amplitud, así:

1° 46 a 57

2° 57 a 68

3° 68 a 79

4° 79 a 90

5° 90 a 101

6º 101 a 112

7º 112 a 123

8. Por último se elabora la tabla de frecuencias con sus respectivos punto medios ( Xi ) o marca de clase, el cual se determina sumando

el límite superior y el limite inferior de cada intervalo dividendo por dos esta suma.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

39

INTERVALOS Xi Fi Fa Fr Fra

46 - 57 51.5 6 6 0.12 0.12

57 - 68 62.5 11 17 0.22 0.34

68 - 79 73.5 15 32 0.30 0.64

79 - 90 84.5 1 33 0.02 0.66

90 - 101 95.5 11 44 0.22 0.88

101 - 112 106.5 3 47 0.06 0.94

112 - 123 117.5 3 50 0.06 1.00

SUMAS 50

Como conclusión podemos decir:

- el 30% de los sujetos poseen un rendimiento de su electroencefalograma. entre 68 y 79, y son 15 sujetos.

- El 2 % lo poseen entre 79 y 90, y es un sujeto.

- Solo el 6% se encuentra en un rendimiento entre 112 a 123, y son 3 sujetos

- El 66 % de los sujetos posee un rendimiento entre 46 y 90 y son 33 sujetos.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

40

2.4 GRÁFICAS.

Un gráfico es un método de presentar datos estadísticos de forma visual.

Hay numerosos tipos de graficas, como lo veremos al utilizar los programas estadísticos en la computadora; por lo general, se clasifican en :

a. Diagramas: de puntos, lineales(rectilíneos y curvilíneos), superficiales(rectangulares-barras-, triangulares, cuadrados y circulares-pastel-).

b. Estereometrías: cúbicas, prismáticas y pirámides.

c. Pictogramas.

d. Cartogramas: mapas estadísticos y cartodiagramas.

2.5 GRÁFICAS LINEALES.

Un gráfico de línea se distingue por el hecho de que las variaciones en los datos se indican por medio de líneas o curvas, cuyas posiciones está determinadas por sus respectivos valores en las escalas X e Y los puntos se unen mediante líneas rectas. Hay diferentes tipos de gráficos lineales:

2.5.1 GRÁFICOS DE SILUETA

Son gráficos de líneas que muestran las desviaciones positivas y negativas respecto a la línea base o cero y la línea de evolución de las, desviaciones, los gráficos de silueta se construyen representando los puntos que indican las desviaciones reales respecto a la línea base.

2.5.2 GRÁFICOS DE BANDAS

Muestran las variaciones de las partes componentes así como total, el gráfico se prepara representando en primer lugar las variaciones de la parte componente mayor. Se sombrea o se raya este segmento. A éste segmento se suma la siguiente parte componente y se representa el resultado. Este proceso acumulativo se prosigue hasta incluir todas las partes componentes.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

41

Las variaciones de la línea superior representan, entonces las del total, las variaciones en el ancho de cualquier segmento indicarán las variaciones de ese componente particular.

2.5.3 GRÁFICOS DE MÁXIMO Y MÍNIMO

Presentan no solo los cambios ocurrido durante el periodo de tiempo, si no también las fluctuaciones de cada periodo (días, semanas, meses etc.) indicando valores máximo del mismo periodo. Este procedimiento se continua hasta el fin del tiempo cubierto por el gráfico.

2.5.4 EL HISTOGRAMA:

Conocido como polígono de frecuencias rectangular para una distribución de frecuencia; se construye de la siguiente forma: Se dibujan rectángulos cuya base es el tamaño del intervalo de clase y cuya altura es la frecuencia de cada intervalo de clase.

2.5.5 GRÁFICAS LOGARÍTMICAS Y SEMILOGARITMICAS

2.5.5.1 CARACTERÍSTICAS:

a. No hay línea base o cero.

b. Los gráficos semilogarítmicos presentan una escala aritmética en el eje

horizontal. Los gráficos logarítmicos presentan escalas logarìtmicas en ambos ejes.

c. Cuando se presenta en un papel logarítmico las progresiones geométricas en X y en Y se disponen según una recta, ya que los logaritmos de una progresión geométrica forman una progresión aritmética.

En un papel semilogarítmico, si los valores de y constituyen una progresión geométrica se dispondrá también según una recta.

d. Aumento ó disminuciones iguales indican cambios porcentuales iguales.

e. Iguales pendiente en un gráfico logarítmico revelan taza de cambios iguales.

2.5.5.2 UTILIZACIÓN DE LOS GRÁFICOS LOGARÍTMICOS:

2.5.5.2.1. Para comparar tasas proporcionales de cambio.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

42

2.5.5.2.2. Mostrar la relación entre 2 ó más series cuyas cantidades difieren ampliamente.

2.5.5.3 PRECAUCIONES AL USAR GRÁFICAS SEMILOGARITMICAS:

Hemos hecho notar que este tipo de presentación gráfica se adapta bien para permitir un análisis de cambios relativos. Existe un peligro de que las personas, antes de adquirir experiencia con las gráficas semilogarítmicas, deseen usarla en cualquier circunstancia.

Una segunda precaución se refiere a la necesidad de comprensión especial de una gráfica semilogarítmica. Algunas personas no saben como interpretar una gráficas semilogarítmica; por esta razón, este tipo de gráficas, no se usan a veces, aún cuando resultaría más apropiado. Sin embargo, tal interpretación de una gráfica semilogarítmica es tan simple que la persona que debe observar una gráfica puede ser entrenada para su interpretación en unos cuantos minutos.

2.5.6 GRÁFICOS CUADRATICOS.

Para la presentación gráfica de datos estadísticos, se recurre en algunos casos a figuras geométricas, tales como cuadros y los triángulos.

Estas gráficas deben ser simples, es decir, no se deben recargar demasiado.

Hay varias formas de hacer la representación gráfica mediante la utilización de cuadros. Con figuras continuas que queremos representar la distribución porcentual de los factores que se deben tener en cuenta en análisis de una empresa.

2.5.7 REGLAS PARA LA CONSTRUCION DE LOS GRÁFICOS.

2.5.7.1.Cada gráfico debe tener un título claro y conciso, que se sitúan

generalmente en la parte superior central del gráfico. El título debe incluir información sobre:

2.5.7.1.1 La naturaleza de los datos

2.5.7.1.2 La situación geográfica

2.5.7.1.3 El período de tiempo cubierto

2.5.7.2 Las líneas coordenadas deberían reducirse al mínimo y las líneas curvas puestas de tal forma que resaltasen sobre el fondo del gráfico.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

43

2.5.7.3 La fuente de los datos debería indicarse debajo del gráfico a la izquierda.

2.5.7.4 Las notas, si la hay, se deberían situar en la parte inferior izquierda del gráfico.

2.5.7.5. Para entender fácilmente el gráfico, se debería reducir en la medida de los posibles el número de líneas curvas, segmentos y otros detalles.

2.5.7.6 Cada escala debe presentar un titulo indicando la unidad utilizada,

2.5.7.6.1 El título correspondiente al eje X debería estar centrado, inmediatamente debajo del eje.

2.5.7.6.2. El título del eje y debería situarse en la parte superior del eje.

2.5.7.7 Se debe indicar el cero de la escala ( eje y) de lo contrario se puede

realizar una comparación errónea. La necesidad de indicar el origen se evidencia en la comparación de los picos de los dos gráficos.

2.5.7.8 En el eje y la escala de valores debería abarcar desde cero (0) desde el valor mas pequeño en la parte inferior del gráfico, al valor mas alto en su parte superior.

2.5.8 ESCALAS.

2.5.8.1 ESCALA ARITMÉTICA: El papel con escalas aritmética presenta distancias iguales entre las líneas coordenadas. Cantidades iguales equivaldrán entonces, a iguales distancias. Así, las distancias entre 1 y 3 será la misma que entre 8 y 10.

2.5.8.2 Los valores de las escalas deben situarse a lo largo de los ejes x e y,

dando así una indicación general del tamaño de las variaciones que representa el gráfico. no es necesario indicar una graduación fina en la escala de valores , ya que no se pretende que se lean las cifras reales en el gráfico. Los valores exactos se pueden obtener de la tabla de datos original que usualmente acompañe el gráfico.

2.5.8.3. Si se utiliza una longitud, en eje X, para indicar un intervalo de

tiempo el punto representativo del valor de cada período debería marcarse el punto central del período. Pero si se desean los períodos pueden hacerse coincidir con líneas coordenadas dadas, trazándose entonces los puntos en ellas.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

44

2.5.8.4 ESCALA LOGARÍTMICA Y SEMILOGARITMICAS: Cuando se desea comparar cambios porcentuales en lugar de absolutos, se utiliza un tipo de escala algo diferente.

Se puede demostrar que cuando hay cambio porcentual constante entre 2 pares de cifras, las diferencias entre los logaritmos de las cifras serán iguales. Así, si el lugar de los valores originales se representan los logaritmos de esos valores, las diferencias constantes equivaldrán a cambios porcentuales constantes.

NUMERO LOGARITMO

2 0.30103

4 0,60206

.

Diferencia 0,30103 100% de aumento

NUMERO LOGARITMO

5 0.69897

10 1.0000

________

Diferencia 0.30103 100% de aumento

2.5.8.5 TIPOS DE ESCALAS:

2.5.8.5.1 UNIFORME: Previamente determina un valor representativo para cada uno de los valores reales del dato que se debe representar.

2.5.8.5.2 LOGARÍTMICAS: Las escalas ó representaciones de valor se hace aplicando el logaritmo.

Las gráficas respectivas se elaboran en papel logarítmico ó semilogarítmico.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

45

2.6. GRÁFICAS ESTADÍSTICAS.

Hay numerosas gráficas estadísticas, especialmente aquellas que son consideradas como las más usuales, teniendo en cuenta que estas deben ser sencillas, explícita y se representa siempre de izquierda a derecha y de abajo hacia arriba.

A continuación daremos algunos conceptos y ejemplos de gráficas más usuales en estadística.

2.6.1. DIAGRAMAS DE BARRA:

Es la representación visual mediante rectángulos de la relación entre las variables.

Las barras utilizadas para representar las características cualitativas y cuantitativa por lo general, son construidas en forma vertical sobre una base horizontal, en el cual se colocan las características o el tiempo,(años, meses, etc) y la altura estará dada por el valor que toma la variable o atributo observado.

También se elabora el diagrama proporcional de barras cuando se trabaja con grupos relativamente pequeños y se desea establecer comparaciones entre dos o más distribuciones proporcionales.

2.6.2.HISTOGRAMA Y POLÍGONO DE FRECUENCIAS.

2.6.2.1 HISTOGRAMA. Son representaciones gráficas de las distribuciones de frecuencias, que consiste en una serie de rectángulos, cada uno de ellos levantados en cada intervalo, de tal manera que la base sería igual a la amplitud y la altura estará dada ya sea por la frecuencia absoluta o por la relativa, si los intervalos son desiguales las alturas de los rectángulos deberán ser calculadas por procedimientos matemáticos, para que en la gráfica, no nos quede una imagen engañosa de la distribución que se quiere presentar.

2.6.2.2 POLÍGONO DE FRECUENCIAS. Se puede representar con la misma información del histograma, mediante la unión de los puntos medios de los techos de los rectángulos en el histograma por medio de una línea prolongada en el primero y último rectángulo. Los polígonos también se pueden dibujar estableciendo los puntos medios del intervalo, denominados marcas de clases, que se colocan en el eje horizontal o abscisa, para cada valor de la variable corresponderá un valor de la frecuencia, señalándose en

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

46

el plano cartesiano por un punto, luego de establecido todos los puntos se unen mediante líneas rectas, las que en conjunto forman el polígono.

2.6.3 OJIVA. Para el trazado de esta gráfica, se emplea también el

polígono, para presentar la frecuencia acumulada y la frecuencia acumulada relativa, se ubican los puntos en el plano cartesiano y se unen mediante segmentos de rectas y el gráfico así obtenido se llama polígono de frecuencia u ojiva.

La ojiva o polígono de frecuencia acumulada tiene la ventaja de que da una

manera cómoda de estimar la mediana y los percentiles de una muestra, otra ventaja que tiene es que se puede averiguar fácilmente el número de partida entre dos valores por ej. el número de partida entre 56.5 y 62.5 es simple la diferencia entre las correspondientes frecuencias acumuladas; o sea entre 3 y 20 es 17 ; Este método opera bien solamente para los valores y puntos que estén efectivamente representados.

El histograma, el polígono y la ojiva, se utilizan para representar la variable continua, y los diagramas de frecuencias para la variable discreta.

2.6.4 DIAGRAMA CIRCULAR: Se utiliza para representar características cualitativas, sirve para notar las diferencias en las proporciones o porcentajes en que está dada la distribución.

Como en total la circunferencia tiene 360º, se calcula a cuantos grados ( sector circular ) equivale la parte que se va a representar. El procesos que sigue en la confección de la gráfica circular o pastel consiste:

En hacer la sumatoria total de las frecuencias, luego para sacar el porcentaje se multiplica cada frecuencia por el 100% y se divide por el total de la frecuencia, pero en este caso no es necesario; ya sacado el porcentaje de todas las frecuencias, se llevan a grados, multiplicando 360º por cada frecuencia en porcentaje dividiéndola por 100.

2.6.5 PICTOGRAMAS O PICTOGRAFOS: Se emplean cuando se trata de llamar la atención al público.

Las figuras empleadas deben explicarse por sí misma. Se acostumbra que el tamaño sea uniforme, en algunos casos, se acostumbra colocar o señalar el valor total del conjunto buscado de esta manera la eliminación del cuadro.

Algunos autores señalan que el tamaño puede variar, y ,la altura de cada objeto estará dada por la frecuencia absoluta o relativa, pero una inmensa mayoría considera que dicha representación puede conducir a errores

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

47

en su interpretación, especialmente cuando los tamaños de la figuras no son proporcionales a la cantidad que se representa.

2.6.6.CARTOGRAMA :Son croquis o mapas que contienen datos estadísticos u otros de carácter no cartográficos, dentro de los cuales se ubican símbolos y en algunos casos gráficas, para indicar tanto la localización geográfica, así como la importancia del valor de la variable observada en la relación con el conjunto.

2.6.7 DIAGRAMA DE LÍNEAS. Es otra de las gráficas muy utilizadas, pero al mismo tiempo, la que presenta mayores dificultades en la visualización de los datos, dando lugar, algunas veces, a imágenes o conclusiones erróneas, debido a la mal confección de las escalas de los ejes.

A los diagramas lineales también se les denomina curvas de sucesión, porque generalmente se refieren a variables observadas durante un periodo. Se denominan series de tiempo o series cronológicas. La variable tiempo se coloca en el eje horizontal y los valores que toman la variable, van al eje vertical.

2.6.8.CUADROS Y TRIÁNGULOS. Para representación gráficas de datos estadísticos, se recurre a la figura geométrica como los cuadros y rectángulos.

Estas gráficas deben ser simples y es aconsejable superponer las figuras en lugar de yuxta - ponerlas.

Hay varias formas de hacer la presentación gráfica mediante la utilización de los cuadros, una la más recomendadas es que, antes que todo, identificar las características que se investigaron, ya que esto permite una mejor clasificación de lo observado, ya que estas características pueden ser cualitativas o atributos y cuantitativas.

En la gráfica mediante la utilización de triángulos se debe buscar una base común y luego localizar la altura, como también son utilizados triángulos donde cada uno de ellos tiene una base diferente.

Otra forma es, determinando zonas proporcionales a las cantidades representadas y tener una clara diferencia entre las zonas demarcadas al igual que anexar los signos convencionales correspondientes.

2.6.9. GRÁFICA DE CANTT. La utilización de estas gráfica se hace con mayor necesidad, en la dirección de empresas, en la cual establecen las diferentes etapas de trabajo por ejecutar y el ejecutado durante un

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

48

determinado período. El campo de aplicación de esta gráfica es muy vasto, siendo imposible en esta investigación la descripción de todas las formas y usos que tiene.

2.6.10 PIRÁMIDES. Las gráficas denominadas pirámides son utilizadas con mucha frecuencia para representar las edades de una población de una región. Si en un triángulo se determinan zonas proporcionales a las cantidades representadas y hay diferenciación entre las zonas demarcadas, al igual que anexar los signos convencionales correspondientes, la gráfica así elaborada se denomina pirámide.

EJEMPLO: Los siguientes datos representan la distribución de los gastos en millones de pesos, de las empresas la Mazorca y El diamante en un determinado periodo:

EMPRESAS SALARIOS ALQUILER IMPUESTO PUBLICIDAD LA MAZORCA 20.4 47.5 39.8 20.4

EL DIAMANTE 30.6 38.6 34.6 31.6

1.0 Gráfico de barra.

Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable

0

10

20

30

40

50

Salario Alquiler Impuesto Publicidad

La mazorca

El Diamante

Fuente: División Financiera

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

49

2.0 Gráfico circular

Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable

16%

37%31%

16%

Salario

Alquielr

Impuesto

Publicidad

Fuente: División Financiera

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

50

3. Grafico de cilindro

Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable

0

20

40

60

80

100

Salario Alquiler Impuesto Publicidad

El Diamante

La Mazorca

Fuente: División Financiera.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

51

4. Grafico de Líneas.

Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable

0

20

40

60

80

100

Salario Alquiler Impuesto Publicidad

El Diamante

La Mazorca

Fuente: División Financiera.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

52

EVALUACION SOBRE LA UNIDAD Nº 2 2.1 Construir un diagrama circular para la siguiente distribución.

Distribución porcentual del numero de personas vacunadas según tipo de vacunas (1986 - 1987)

TIPO DE VACUNA PERSONAS VACUNADAS

PORCENTAJE

DPT POLIO BCG SARAMPIÓN TOTAL

48.958 55.068 46.884 46.450 197.360

24.81 27.9

23.76 23.53 100.00

2.2 Construir un diagrama de línea que visualice los datos de la siguiente tabla que muestra los depósitos y préstamos de las entidades financieras de esta ciudad.

ENTIDAD DEPOSITO (MILES DE $) PRESTAMOS (MILES DE $)

Sistema Bancario 1 Caja Agraria 2 UPAC 3 Corporaciones Financieras 4

8´699.699 2´517.702 3´303.211 368.218

7´145.909 6´609.804 2´212.117 610.281

2.3 Construir un diagrama de barra con los datos que se muestran en la

tabla que representan los servicios de salud en hora años medicas, odontológicas y de enfermería, según subsectores.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

53

SUBSECTORES

OFICIAL Y MIXTO SEGURIDAD SOCIAL

PRIVADO TOTAL

MÉDICOS ODONTOLÓGICOS ENFERMERÍA

178.348 115.500 112.000

120.746 51.952 18.680

13.212 13.380 00

312.308 180.832 130.680

2.4 Elaborar un diagrama triangular que represente las extensiones

territoriales de los países Bolivarianos.

PAÍS ÁREA (KM²)

BOLIVIA COLOMBIA ECUADOR PERÚ VENEZUELA

1´099.000 1´138.000 284.000 1´285.000 916.000

2.5 Los aviones agrícolas como modernas máquinas agrícolas, participan

cada vez más en gran número de trabajo. Aproximadamente unos 60 países con unos 19.000 aviones tratan al rededor de 200.000.000 hectáreas según la (FAO). A continuación aparecen algunos datos referentes a diversos países. Elaborar un pictograma que visualice los datos presentados.

PAIS Nº DE AVIONES

URSS EE. UU. CANADÁ ARGENTINA MÉXICO RDA RFA

8.000 6.100 666 450 450 100

2.030

2.6 Para formar las curvas de calibración para estimación de la

concentración de protombina, se considera arbitrariamente que el plasma de un sujeto normal tiene una concentración de 100%. Con suero salino se prepara una serie de diluciones de esta muestra y se mide un tiempo que se requiere para la coagulación después de agregar una mezcla de cloruro de calcio y trasmboplastina. La tabla siguiente ilustra el tipo de dato que se tiene.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

54

CONCENTRACIÓN NOMINAL DE PROTOMBINA, X

TIEMPO EN SEGUNDOS QUE SE REQUIERE PARA QUE

APAREZCA UN COAGULO , Y

100 50 25 15

14 18 22 24

Representar los puntos en una gráfica de Y en función de X y trazar la curva a mano alzada a través de esos puntos. 2.7 En un sujeto cuyo nivel de glucosa en sangre en ayunas es de 100

mg/100ml, se inyectan por vía intravenosa 50 gr de glucosa. Se miden muestra de sangre, con intervalos de media hora, obteniendo los resultados siguientes:

MINUTOS DESPUÉS DE LA INYECCIÓN Mg/100 ml DE GLUCOSA EN SANGRE

30 60 90 120

161 128 119 108

Trazar la gráfica del logaritmo del aumento en la concentración de azúcar en la sangre, en función del tiempo.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

55

2.8.- Sírvase registrar ( F ) dentro del paréntesis en caso de que el enunciado sea completamente falso y ( V ) verdadero en caso contrario. El gráfico circular (pastel) lo usamos para representar variables cualitativas

( ) La elaboración del pictograma exige que sobre el eje x vaya la variable de interés ( ) La parte inicial en la construcción de un formulario debe contener las preguntas acerca del tema de interés. ( ). El gráfico de barras simple y el de pastel se utiliza cuando la variable es de naturaleza cualitativa ( ) En el procesos de investigación estadística, la selección de las variables a estudiar se realiza independientemente de los objetivos o hipótesis de investigación. ( ) Toda investigación científica debe contar con el método estadístico como su único auxiliar. ( ) Las tablas estadísticas son arreglos de datos expuestos en filas y columnas para su manejo y presentación. ( ) Para utilizar un polígono de frecuencias, la variable debe ser de naturaleza cuantitativa continua y deberá ocupar la ordenada del sistema del coordenadas cartesianas ( ) Kilogramos, onza y libra son unidades de medida de la variable peso ( ) Toda variable cuantitativa puede ser transformada para ser manejada a un nivel de medición nominal u ordinal ( ). 2.9 A cada espacio en blanco que aparece en la columna A, escribir la letra correspondiente de la columna B (respuesta) que usted crea es la respuesta correcta. Cada expresión de la columna B, puede ser utilizada como respuesta en A más de una vez.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

56

COLUMNA A COLUMNA B

Elementos que permiten cuantificar A. Los porcentajes

la unidad de análisis Permiten visualizar el comportamiento B. El coeficiente de Asimetría

real y objetivo del objeto de estudio. Permiten tener un conocimiento de D. El coeficiente de variación la variable desde el centro de la serie. Como medida de dispersión está E. Desviación estándar asociada con la media. Permiten describir el comportamiento F. El saber cotidiano de una variable cuantitativa. Permite comparar la variabilidad o G. Unidad de observación heterogeneidad que presentan dos variables con igual unidad de medida Utiliza los numerales como códigos H. Gráfico de líneas para establecer una categorización.

Se utiliza para conocer el grado I. Medidas de tendencia central de simetría que presenta la Distribución de una variable. Permiten describir el comportamiento J. Medidas de resumen de una variable cualitativa. K. Histograma de frecuencias

2.10 Dentro de un estudio de clima organizacional en una unidad local de salud que cuenta con 55 empleados, se tomó una muestra de 15 empleados en los cuales se evaluó en nivel motivacional, y, la aplicación del test arrojó los siguientes resultados calificados con una escala de 1 a 5 y 30 ítem. 42 36 65 70 42 58 66 65 58 90 85 70 90 66 36

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

57

Con base en la información anterior precisar: Cuál es la variable de estudio? ------------------------------------------------------------------------------------------------------------------------------------------------------------ Cuál es la naturaleza de la variable de estudio? y nivel de medición --------------------------------------------------------------------------------------------------------------

Cuál es la unidad de medida de la variable?.--------------------------------------- Cuál es la unidad de análisis? ---------------------------------------------------------- Cuál es la muestra? ----------------------------------------------------------------------

Cuantos valores diferentes tiene la variable? ----------------------------------------

Cuál es el universo? -----------------------------------------------------------------------

Cuál es el puntaje máximo que se puede esperar en el test para una persona? -------------------------------------------------------------------------------------

Cuál es la frecuencia absoluta para cada valor de la variable? --------------------------------------------------------------------------------------------------------------------

Cuál es el puntaje mínimo que se puede esperar en el test de una persona? --------------------------------------------------------------------------------------------------- 2.11 Los siguientes datos agrupados corresponden a las Estaturas de 98

estudiantes, hombres, que participaron en un estudio titulado “Desarrollo de las medidas Craneofaciales de crecimiento de población X”. En uno de los

objetivos de la investigación, se requería hacer una descripción de talla inicial de las personas bajo estudio, para efectos comparativos posteriores.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

58

Distribución porcentual de las Estaturas de 98 hombres, en un estudio sobre Desarrollo de las Medidas Craneofaciales y de Crecimiento. Medellín, 1.995

INTERVALOS

Marcas de clase Xi

Frecuencia absoluta

Fi

Frecuencia acumulada

Fa

Frecuencia Relativa en %

Fr

Frecuencia Relativa

Acumulada % Fra

1.47 – 1.53 1.50 9 9 9.2 9.2

1.53 - 1.59 1.56 18 27 18.4 27.6

1.59 - 1.65

1.62 20 47 20.4 48.0

1.65- 1.71

1.68 16 63 16. 64.3

1.71 - 1.77

1.74 19 82 19.4 83.7

1.77 -1.83

1.80 8 90 8.2 91.9

1.83 - 1.89

1.86 5 95 5.1 97.0

1.89- 1.95

1.92 3 98 3.0 100.0

Tomando como referencia el cuadro anterior, una o unas de las siguientes afirmaciones es o son falsa: a.- La estatura que predomina en el estudio es 1.62 mts. b.- A lo sumo el 48% de las estaturas está entre 1.47 mts y 1.65

c.- El 48% de las Estaturas está entre 1.59 mts y 1.65 mts

d.- El 3% de las Estaturas más altas está entre 1.83 y 1.95 mts.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

59

UNIDAD 3.0

MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL

OBJETIVO

DE LA UNIDAD: Proporcionar una comprensión de las características o propiedades de los Datos numéricos (tendencia central) y sus mediciones descriptivas de Resumen correspondientes, como una ayuda para el análisis e interpretación de datos.

CONTENIDOS:

3.1 Media Aritmética

3.1.1 Propiedades

3.1.2 Ventajas y desventajas

3.2 Mediana

3.2.1 Ventajas y desventajas

3.3 Moda

3.3.1 Ventajas y desventajas

3.4 Características principales de los promedios anteriores

3.5 Relación entre la Media, Mediana y Moda

3.6 Media Geométrica

3.6.1 Propiedades

3.6.2 Ventajas y desventajas

3.6.3 Características

3.7 Media Armónica

3.7.1 Característica

3.8 Relación entre Media Aritmética, Geométrica y Armónica

3.9 Cuartiles, Decíles y Percentiles

Evaluación de la unidad

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

60

MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL

3.0. MEDIDAS DE POSICIÓN.

Son parámetros o promedios que se consideran representativos de una distribución de datos , los cuales tienen tendencia a concentrar los datos, o sea , que son valores de posición central a cuyo alrededor se distribuyen los datos del conjunto. Los más importantes son: Media Aritmética, Mediana y Moda. Se encuentran otras medidas de menos importancia que analizaremos en éste trabajo como son: Media Geométrica, Armónica, Cuadrática, Cúbica, Cuartiles, Deciles y percentiles.

3.1 MEDIA ARITMÉTICA :

Es el promedio más utilizado. Es la suma de los valores de la distribución dividida por el número total de datos. Es un promedio que se obtiene por medio del cálculo cuyo valor depende del que tienen los diversos datos que entran en la distribución.

La medida Aritmética se representa por medio de

__

X (que se lee X barra)

3 .1.1. CALCULO DE MEDIA ARITMÉTICA.

3.1.1.1 Para datos no Agrupados. La Media Aritmética se calcula a partir de la formula:

X__

n

XnXXXXXXX ...7654321

X__

Xi

n

i

n

1

representa la media de la muestra

Donde x Se utiliza para indicar la suma de todas las X y n es el número

total de datos de la muestra.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

61

EJEMPLO 1:

Las calificaciones de un alumno durante el grado 10º han sido las siguientes: Matemáticas, 8 , Estadística 7, Ingles , 7; Física 6 Química, 9 Filosofía, 5 , Literatura, 6, Hallar la nota media (

_ _

X ).

__

X X X X X X X X1 2 3 4 5 6 7

7

__

X

Xi

n

i

1

7

__

X = 8 7 7 6 9 5 6

7

= 6.85

EJEMPLO 2.

Hallar la Media Aritmética de la siguiente distribución de datos:

32, 25, 29, 30, 30, 27, 24, 35, 34, 30, 29

__

X = 32 25 29 30 30 27 24 35 34 30 29

11

__

X = 29.54

Ejemplo 3.

La Media Aritmética de los números 8, 3, 5, 12, 10 es:

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

62

__

X = 8 3 5 12 10

5

= 7.6

3.1.1.2 Para Datos Agrupados. Se puede calcular por efectivos, frecuencia y por intervalos. Se calcula a partir de la fórmula.

__

X =

X f

n

i i

i

n

1

; Media aritmética ponderada

EJEMPLO 1.

Los valores de las edades en años obtenidas en una toma de datos en una encuesta, son los que figuran en la tabla siguiente. Hallar la Media Aritmética de la distribución de los datos.

Xi (Edad en años) fi XI . fi

29 0 0 30 2 60 31 7 217 32 13 416 33 22 726

34 32 1088 35 49 1715 36 35 1260 37 23 851 38 9 342 39 5 195 40 3 120 41 0 0

N = 200 6.990.

__

X =

X f

n

i i

i

n

1

= 6990

200 = 34.95 = 35 años, edad promedio.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

63

EJEMPLO 2.

Hallar la Media Aritmética (__

X ) de los datos que figuran en la siguiente

tabla en la cual vamos a encontrar la estatura en centímetros de las especies de árboles estudiados en una área determinada.

Intervalo Xi Fi Xi Fi

6 25 15,5 4 62 26 45 35,5 3 106,5 46 65 55,5 7 388,5 66 85 75,5 9 679,5 86 105 95,5 16 1528 106 125 115,5 14 1617 126 145 135,5 20 2710 146 165 155,5 32 4796 166 185 175,5 24 4212 186 205 195,5 13 2514.5 206 225 215,5 6 1293

------------ --------------- N = 148 19907

__

X =

X f

n

i i

i

n

1

= 19907

148 = 134.50cm; estatura promedio

EJEMPLO 3.

En la siguiente tabla se encuentra unas distribuciones de los datos de la estatura de 50 trabajadores.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

64

Estatura en pulgada

INTERVALOS

Puntos medios Xi

frecuencia Fi

Xi .Fi

50.5 - 53,5

53.5 - 56.5

56.5 - 59.5

59.5 - 62.5

62.5 - 65.5

65.5 - 68.5

68.5 - 71.5

71.5 - 74.5

52

55

58

61

64

67

70

73

1

2

6

11

16

9

4

1

52

110

3 48

6 71

1024

603

280

73

__

X =

X f

n

i i

i

n

1

=

3161

50 = 63.22 pulgadas, estatura promedio.

3.1.2 PROPIEDADES DE LA MEDIA ARITMÉTICA

a. La suma algebraica de las desviaciones de un conjunto de números de su Medida Aritmética es igual a 0 (cero).

Así : (Xij

n

1

__

X ) = O

b. La suma de los cuadros de las desviaciones de un conjunto Xi

respecto ciertos número a es mínima sí y solo sí a es igual a __

X .

c. Si f1 número tienen la media m1 , f2 número tiene la media m 2, fk número tiene la media mk entonces la media de todos los números es :

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

65

__

X = 1 1 2 2

1 2

f m f m f mk k

f f fk

...

...

3.1.3 VENTAJAS Y DESVENTAJAS DE LA MEDIA ARITMÉTICA

3.1.3.1. ventajas

a. El promedio aritmético es, en así, la medida más fácil de entender y la

más comúnmente usada. Es un valor tal que si calculamos para un grupo en el cual todos los elementos fueran iguales, cada uno de ellos sería igual a su promedio aritmético de “n” elementos es nuevo elemento formado, tomado una parte igual a 1/n de cada uno los elementos originales.

b. Esta media se define en forma rígida por una ecuación matemática

muy fácil de entender y algunas veces se puede obtener cuando no es posible calcular otros tipos de medida de tendencia central y aún en el caso de no conocer los valores individuales de las serie, por ejemplo.

Sí 10 filas consumen 20 litros de leche, el promedio aritmético será de 2 litros por fila.

c. El promedio aritmético es extraordinariamente estable en el muestreo.

d. Es altamente sensible a cualquier cambio en los datos de la distribución.

e. Como una ventaja más del promedio aritmético, podemos anotar que

es excepcionalmente adaptable cuando se trata de hacer cálculos matemáticos posteriores con él (promedio ponderado, métodos abreviados y promedio de promedios).

3.1.3.2. Desventajas

a. Es sensible a los valores muy grande o muy pequeños, especialmente

a los primeros, y a la inclusión de tales datos en distribución que se esté estudiando pueden dar un promedio aritmético que no sea realmente el representante típico del grupo.

b. Cuando una distribución es marcadamente aritmética en tal forma que

el promedio aritmético, la mediana y la moda difieren en forma apreciable,

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

66

debe considerarse siempre la posibilidad de que el promedio aritmético pueda no ser el valor único representativo de la serie.

c. Otro inconveniente o desventaja del promedio aritmético, es cuando la distribución tiene forma de “U”, es decir parabólicamente este corresponde a los valores menos comunes en la serie y por tanto, puede dar una idea irreal de la distribución.

3.2. MEDIANA (Me)

La Mediana de una serie de datos ordenados es el valor central de la distribución de datos que divide dicho conjunto de datos de tal manera que el número de partidas por encima de la Mediana sea igual al número de partidas por debajo de la Mediana.

3.2.1 MEDIANA PARA DATOS NO AGRUPADOS.

Cuando el número de valores de la distribución es impar, la mediana está bien definida será el valor que se encuentre en el medio cuando se hayan ordenado los valores.

Si los números de la distribución son pares, se ordenan, se suman los valores centrales y se dividen por dos(2).

EJEMPLO 1.

Calcular la Mediana para cada una de las distribuciones de datos que siguen:

4, 6, 7, 9, 15, 16, 17, (número de datos impares)

La Mediana es 9 ya que este es el valor central de la distribución EJEMPLO 2.

Calcule la mediana para: 3, 7, 9, 12, 15, 20, 21, 25 (número de datos par)

La mediana es = (12 +15) / 2 = 13.5

En este caso, la Mediana no corresponde a un valor real de la distribución.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

67

EJEMPLO 3.

32 25 29 30 31 27 24 34 32 29 25

Ordenando los datos:

24 25 25 27 29 29 30 31 32 32 34

La Mediana es 29

En éste caso corresponde a un valor real de distribución.

3.2.2 MEDIANA PARA DATOS AGRUPADOS:

Para encontrar la Mediana de datos agrupados se suele utilizar el método de interpretación que exige la construcción de una distribución de frecuencia acumulada o de una distribución de frecuencia acumulada relativa.

La Mediana se obtiene mediante la fórmula:

Mediana = Li + n

fmediana

if/

'2

1

A

Donde Li = Límite real inferior de la clase mediana

n = Número total de datos (frecuencia total )

if

1 = Suma de las frecuencias de todas las clases por debajo de la

clase Mediana.

F mediana = Frecuencia de la clase Mediana.

A = Tamaño del intervalo de la clase mediana.

EJEMPLO 1.

Hallar la Mediana para las cargas máximas de los cables de la siguiente tabla.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

68

Máxima de cargas Número de cables Toneladas Cortas.

9,3 - 9,7 2 9,8 - 10.2 5 10,3 - 10,7 12 10,8 - 11,2 17 11,3 - 11,7 14 11,8 - 12,2 6 12,3 - 12,7 3 12,8 - 13,2 1

TOTAL 60

Me = Li + n

fmediana

if/

'2

1

A

Me = 10.8 + 60 2 19

17

/

0.4

Me = 10.8 + 11

17

0.4

Me = 10.8 + 0.258

Mediana = 11.06 Toneladas cortas

Es decir que el 50% de los cables resisten menos de 11.06 toneladas y el otro 50% mas de 11.06 toneladas.

EJEMPLO 2.

Halle la Mediana de los diámetros de las cajas de remaches de la siguiente tabla.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

69

DIÁMETRO FRECUENCIA (PULGADAS)

0,7247 - 0,7244 2 0,7250 - 0,752 6 0,7253 - 0,755 8 0,7256 - 0,7258 15 0,7259 - 0,7261 42 0,7262--- 0,7264 68 0,7265--- 0,7267 49 0,7268--- 0,7270 25 0,7271--- 0,7273 18 0,7274--- 0,7276 12 0,7277--- 0,7279 4

0,7280--- 0,7282 1

Me = Li + n

fmediana

if/

'2

1

A

Me = 0.7262 + 250 2 73

68

/

0.0002

Me = 0.7277

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

70

EJEMPLO 3.

Hallar la mediana de la siguiente tabla, que muestra los salarios recibidos por algunas familias.

CLASES(salarios) FRECUENCIA(familias)

10 - Menor de 15 3 15 -Menor de 20 7 20 -Menor de 25 16 25 -Menor de 30 12 30 -Menor de 35 9 35 -Menor de 40 5 40 -Menor de 45 2

TOTAL 54

Me = Li + n

fmediana

if/

'2

1

A

Me = 25 + 54 2 26

12

/

5

Me = 25.41 salarios; el 50% de las familias reciben menos de 25.41 salarios y el otro 50% mas de 25.41 salarios.

3.2.3 VENTAJAS Y DESVENTAJAS DE LA MEDIANA

3.2.3.1 Ventajas

3.2.3.1.1 La Mediana tiene una definición rígida y el concepto que envuelve es tan claro que cualquiera puede entenderlo aún no siendo familiar el término.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

71

3.2.3.1.2 Si los datos están ordenados en un cuadro de frecuencias esta medida es fácil de calcular y por otro lado los datos extremos no tienen ninguna influencia en ella.

3.2.3.1.3 Tiene menos estabilidad en el muestreo que el promedio aritmético, pero es más aceptable en otras medidas.

3.2.3.1.4 Hay situación en que la única medida de tendencia central que puede calcularse es la Mediana, tal como sucede en el uso de una distribución cuyos intervalos extremos no están definidos.

3.2.3.2 Desventajas.

3.2.3.2.1 No es tan conocida como la Media Aritmética

3.2.3.2.2 Es necesario ordenar los datos para poderla calcular

3.2.3.2.3 La mediana no se adapta a cálculos posteriores aritméticos, por

cuanto que si obtenemos la mediana de diferentes grupos, no podemos tener una mediana de los grupos reunidos.

3.2.3.2.4 La Mediana no es sensible a cambios de valores de los elementos que componen la distribución.

3.3 MODA ( Mo)

Se define como el valor que ocurre con mayor frecuencia en una distribución o sea el punto donde la concentración es máxima, Si todos los valores son diferentes, no existen moda, por otra parte un conjunto de valores puede tener más de una moda. Si la moda es única la distribución de datos se denomina UNIMODAL si hay dos modas BIMODAL etc.

Por ejemplo:

Un laboratorio con 10 empleados cuyas edades son 20, 21, 20, 20, 34, 22, 24, 27, 27 y 27. Puede decirse que estos datos tienen dos modas, 20 y 27.

La muestra que consiste de los valores 10, 21, 33, 53 y 54 son diferentes.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

72

De una distribución de frecuencia o histograma la moda puede sacarse de la fórmula:

Moda = Li + 1

1 2

A

Li = Limite real inferior de clase modal

1 = Exceso de la frecuencia modal sobre la frecuencia de la clase

contigua inferior.

2 = El exceso de la frecuencia modal sobre la frecuencia de la clase

contigua superior.

A = Tamaño del intervalo de clase modal.

Para datos no agrupados la moda es el valor que más se repite o es el valor de más alta frecuencia.

EJEMPLO1.

Hallar la Moda para el siguiente conjunto de datos: 7, 4, 10, 15, 12, 7, 9, 7, Moda = 7 EJEMPLO 2. Los tiempos de reacción de un individuo a determinados estímulos fueron : 0,53, 0.46, 0.50, 0.49, 0.52, 0.53, 0.44 y 055 segundos Moda = 0.53

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

73

EJEMPLO 3. Una serie de números está formada por seis 6, siete 7, ocho 8 , nueve 9, y Diez 10. La Moda = 10

EJEMPLO 4. Hallar la moda para la siguiente frecuencia que demuestra el ingreso familiar diario en pesos.

INGRESO FAMILIAR DIARIO EN $ Nº DE FAMILIAS

Menos de 3.000 25 3.000 - 4.999 31 5.000 - 6.999 42 7.000 - 8.999 45 9.000 - 10.999 52

11.000 - 12.000 42 13.000 - 14.999 35 15.000 - o más 28

TOTAL 300

Mo = Li + 1

1 2

A

Mo = 9000 + 7

7 10

1999

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

74

Mo = 9000 + ( 0.411) 1999 Moda = $ 9821.58 La mayor parte de las familias ganan alrededor de $ 9,822 .

EJEMPLO 5. Distribución de las partículas de materia en suspensión ( microgramos por metros cúbicos ) en muestras de aires tomadas en 57 grandes ciudades.

INTERVALO DE CLASE FRECUENCIA

10 19 5 20 29 19 30 39 10 40 49 13 50 59 4 60 69 4 70 79 2

Mo = Li + 1

1 2

A

Mo = 20 + 14

14 9

9

Mo = 20 + ( 0.608)9 Moda = 25.47 micro gramos/ metro cúbico.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

75

EJEMPLO 6.

En la siguiente distribución observamos el tiempo en minutos que demoraron algunos atletas en recorrer una distancia.

INTERVALO DE CLASES FRECUENCIA

20 30 15 30 40 18 40 50 22 50 60 30 60 70 15

100

Mo = Li + 1

1 2

A

Mo = 50 + 8

8 15

10

Mo = 53.47 minutos 3.3.1 VENTAJAS Y DESVENTAJAS DE LA MODA 3.3.1.1 Ventajas 3.3.1.1.1. El hecho de que la moda indique el número de mayor concentración, lo que hace tal vez la mejor medida de tendencia central, cuando una distribución es asimétrica. Claramente se ve que el modo es el más representativo del grupo, y en algunos casos si los promedios son simplificativamente diferentes del valor es preferible usar el modo. 3.3.1.1.2 En series polimodales, el modo permite dividir la distribución con fines de estratificación 3.3.1.2 Desventajas.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

76

3.3.1.2.1 El modo es difícil de calcular en una serie agrupada y las aproximaciones de su cálculo no son de mucha confianza. 3.3.1.2.2 El modo es muy inestable en el muestreo.

3.3.1.2.3 El modo puede ser usado fácilmente en procesos algebraicos

posteriores. 3.3.1.2.4. El modo no es sensible a cambios de valores en la distribución, a menos que tales cambios afecten a su propio valor. 3.3.1.2.5 No es recomendable, en la variable continua o cuando la

amplitud de los intervalos es diferente. 3.4 CARACTERÍSTICAS DE LOS PRINCIPALES PROMEDIOS VISTOS ANTERIORMENTE.

3.4.1 Media Aritmética.

3. 4.1.1 El valor de la media aritmética depende de cada una de las medidas que forman la serie, y se halla afectada excesivamente por las desviaciones extremas con respecto al promedio, lo que habría que tener presente en algunas de sus aplicaciones. 3.4.1.2 La media aritmética se calcula con facilidad, y es única para cada caso. 3.4.1.3 La media aritmética es un promedio calculado, susceptible de las operaciones algebraicas. 3.4.2 MEDIANA (CARACTERES PRINCIPALES)

3.4.2.1 El valor de la mediana no está sujeto a la magnitud de las desviaciones extremas con respecto al promedio. 3.4.2.2 La mediana puede ser localizada cuando los términos que forman la serie no son susceptibles de evaluación cuantitativa. 3.4.2.3 La mediana no se presta tanto como los medios aritméticos, geométricos y armónicos a las operaciones algebraicas.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

77

3.4.3 MODA (CARACTERES PRINCIPALES)

3.4.3.1 El valor de la moda no está afectado por las magnitudes de las desviaciones extremas con relación al promedio. 3.4.3.2 Es fácil localizar la moda aproximadamente, pero, la determinación de su valor exacto exige prodigiosos cálculos. 3.4.3.3. La moda carece de significado a menos que la distribución comprenda un gran número de datos y ofrezca marcada concentración. 3.4.3.4. La moda es el promedio más típico de toda la distribución pues se halla localizado en el punto de máxima concentración. 3.4.3.5 La moda no es susceptible de operaciones algebraicas. 3.5.- RELACIÓN ENTRE MEDIA, MEDIANA Y MODA. En una distribución de frecuencias uní modales que sea moderadamente asimétricas, la mediana se encuentra entre la media aritmética y la moda a un tercio aproximadamente de distancia; de aquí se tiene la relación empírica:

MEDIA - MODA = 3 (MEDIA - MEDIANA)

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

78

Ejemplo

Hallar la media, mediana y moda de los pesos de 40 estudiante de una Universidad.

PESOS ( LIBRAS ) Xi Fi Xi.Fi

118 - 126 122 3 366 127 - 135 131 5 655 136 - 144 140 9 1260 145 - 153 149 12 1788 154 - 162 158 5 790 163 - 171 167 4 668 172 - 180 176 2 352

n =40 5879

__

X =

X f

n

i i

i

n

1

= 5879

40 = 146.97

Me = Li + n

fmediana

if/

'2

1

A

Me = 145 + 40 2 17

12

/

9

Me = 147.25

Mo = Li + 1

1 2

A

Mo = 145 + 3

3 7

8

Mo = 147.4

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

79

RELACIÓN EMPÍRICA = MEDIA - MODA = 3 ( MEDIA - MEDIANA )

146.97 - 147.4 = 3 ( 146.97 - 147.25 )

- 0.43 - 0.84 Lo cual quiere decir que esta relación es asimétrica. En una distribución simétrica la media aritmética, mediana y moda coinciden. 3.6.- MEDIA GEOMÉTRICA ( G)

Se define como Media Geométrica (G) de una distribución de datos como la raíz enésima del producto de n valores de la distribución. Se deduce que si uno de los valores de la serie de las medidas es cero (o), la Media Geométrica también tendrá el valor cero. existen tres (3) fórmulas o maneras para encontrar la Media Geométrica (G):

G = n

NXXX ....21 Esta fórmula es para datos no

agrupados.

G = 1 2 31 2 3

f f f fx x x xk

n k. . ... Esta formula es para datos

agrupados

EJEMPLOS 1.0 Calcular la media geométrica de los siguientes valores: 8, 16, 20

)....log(1

log21 xxx nn

G

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

80

G = n

NXXX ....21

G = 8 16 203 x x = 13.67

2.0 Calcular la G de los siguientes valores: 5, 7, 15, 12, 11, 16.

G = n

NXXX ....21 = 5 7 15 12 11 166 x x x x x = 10.17

3.0 Hallar la media geométrica de las siguientes distribuciones de datos:

a.

Xi Fi

1 3 2 5 3 2 4 4 5 7 6 2

TOTAL 23

G = 1 2 31 2 3

f f f fx x x xk

n k. . ...

G = 3 5 2 4 7 8231 2 3 4 5 6. . . . . = 3.104

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

81

b.

Xi Fi

8 2 9 1 11 2 12 3 14 5 15 4

TOTAL 17

G = 1 2 31 2 3

f f f fx x x xk

n k. . ...

G = 2 1 2 3 5 417 8 9 11 12 14 15. . . . . = 12.28

4.0 Hallar la G de los siguientes valores 21, 22, 15, 14, 20

Log G = 1

nLog ( X1 .X2 ...Xn )

Log G = 1

5log( 21x 22x 15x 14x 20 )

Log G = 1

5 Log (1940400 )

Log G = 1

5 (6.28)

Log G = 1.25

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

82

G = Antilogaritmo 1.25 G = 18.09

3.6.1 PROPIEDADES DE LA MEDIA GEOMÉTRICA.

Las propiedades o características de la media geométrica (G) es que no varía el producto de los valores que forman la serie de medidas cuando se reemplazan cada una de estas por la media geométrica de la serie. Además para la media geométrica, la suma de las desviaciones de cada término de la serie cuyo valor sea superior al de la media, es igual a la suma de las desviaciones de los valores inferiores a esta abstracción hecha de los signos, ósea que las sumas que en cada caso dan las diferencias entre las partidas individuales y la media son iguales. En el caso de la media geométrica, los productos de las razones correspondientes son iguales o sea que el producto de las razones entre la media geométrica y los términos de valor de inferior a esta será igual a la que se obtenga multiplicando entre sí las razones entre los términos de valor superior a la media y esta. Ejemplo : La G de los números 3, 6, 8, 9, es 6 y podemos escribir así.

3.6.2 VENTAJAS Y DESVENTAJAS DE LA MEDIA GEOMÉTRICA

3.6.2.1.Ventajas :

.Se define rígidamente por una fórmula matemática.

Se utiliza cuando se quiere dar importancia a los valores pequeños de la variable.

Es sensible a cualquier cambio en los valores de la distribución.

Es indispensable cuando se desea sacar promedio a una serie de valores que están en progresión geométrica o aproximadamente geométrica.

6

9

6

8

6

6

3

6xx

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

83

Su valor no es muy influenciable por los datos extremos, como sucede en los otros promedios.

Su resultado puede ser usado en trabajos estadísticos posteriores puestos que los promedios geométricos de diferentes muestras pueden ser combinadas para obtener el promedio geométrico del total de las muestras.

3.6.2.2 Desventajas

Es la complicación de su cálculo

Si cualquier dato de la serie original es “o” el promedio geométrico toma el valor “o” (usando la fórmula de raíz productora de los valores de la

serie.

Si un valor de la serie es negativo, el promedio geométrico es negativo o imaginario y cuando el número de datos es par, teóricamente tiene dos valores, uno positivo y otro negativo.

3.6.3 CARACTERÍSTICAS PRINCIPALES DE LA MEDIA GEOMETRÍA (G)

La media geométrica da menos pero a las desviaciones extremas que la media aritmética.

Queda rigurosamente determinadas cuando se hallan promedios de los valores positivos.

La media geométrica es el promedio más apropiado para las variaciones de números proporcionales, se adapta particularmente bien para promediar relaciones de cambios de precios.

La media geométrica puede ser objeto de las operaciones algebraicas. 3.7. MEDIA ARMÓNICA. Se representa usualmente por (H) y se define como el inverso de la media aritmética de los inversos de los valores dados, se obtiene calculando el valor inverso de la media de los valores de la variable. La media armónica viene dada por la fórmula.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

84

H =

n

xi

n 1

1

1

1 1

1nii

n

x

Ejemplos :

a. La media armónica de los números 2, 4, 8 es:

H = 3

1

2

1

4

1

8

= 3.43

b. Calcular la media armónica de la velocidad alcanzada en un circuito de carretera por tres automóviles cuya velocidad respectiva es: V1 = 150 Km / h V2 = 175 Km / h V3 =165 Km / h

H =

n

xi

n 1

1

=

3

1

150

1

175

1

165

= 162.67 K / h velocidad media

c. Hallar la H de la distancia media recorrida por 3 ciclistas Ciclista 1 = 10 Km Ciclista 2 = 20 km Ciclista 3 = 30 km

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

85

H =

n

xi

n 1

1

=

3

1

30

1

20

1

10

= 16.36 Km, distancia media

3.7.1 CARACTERÍSTICAS PRINCIPALES DE LA MEDIA ARMÓNICA 3.7.1.1 La media armónica es apropiada para promediar velocidades y otras

magnitudes análogas. Se emplea en los trabajos de la estadística económica para la elaboración de los datos de precios. 3.7.1.2 La dificultad del cálculo de la media armónica disminuye su utilidad

en la práctica del análisis estadístico más corriente. 3.7.1.3 La media armónica puede ser objeto de las operaciones algebraicas. 3.8 RELACIÓN ENTRE MEDIA ARITMÉTICA, GEOMÉTRICA Y ARMÓNICA. La media geométrica de los números X1 , X2, ...Xn es menor o igual que su media aritmética, pero es mayor o igual que su media armónica. En símbolos:

H G X

La igualdad de los signos se presentan solamente cuando los números X1

X2... Xn son idénticos. Ejemplo: Los números 2, 4, 8 tienen como media aritmética 4.6 de media geométrica 4 y media armónica 3.43

3.43 4 4. 6

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

86

3.9. CUARTILES. DECILES Y PERCENTILES. 3.9.1 CUARTILES Son puntos de la Escala que dividen al número total de casos en 4 grupos iguales. Es una medida asociada a la mediana puesto que se basan también en su posición en una serie de observaciones. El primer cuartil corresponde al punto debajo del cual quedan una cuarta parte de los casos. El segundo cuartil, tal como la mediana tiene valores idénticos. Para datos sin agrupar, un cuartil, tal como la mediana, o bien toma uno de los valores de las partidas, o bien el valor intermedio entre dos partidas. Si n es divisible por 4, el primer cuartil tienen el valor situado entre los números n/ 4 y el entero mayor que la sigue. Si n/4 no es entero el primer cuartil tiene por valor el de mayor entero siguiente. Sustituyendo 3n/4 se

puede encontrar el valor del tercer cuartil. Con datos agrupados, el método de estimación de los cuartiles primero y tercero es parecido al utilizado para la mediana : PRIMER CUARTIL SEGUNDO CUARTIL

Q1 = Li +

n

fcuartilico

f4 1

A Q2 = Li +

2

4 2

n

fcuartilico

f

A

TERCER CUARTIL Q3 = Li +

3

4 3

n

fcuarttilico

f

A

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

87

Qi = Abscisa de la curva comprendiente al cuartil. Li = Límite inferior del intervalo del cuartil. A = Amplitud del intervalo (diferencia entre el límite superior y el límite

Inferior).

f cuartilico = Número de efectivos del intervalo del cuartil

n = Número total de los datos

fi = Efectivo acumulado anterior al intervalo del cuartil

3.9.2 DECILES Son líneas límites que separan una distribución en 10 partes iguales, es decir con el mismo número de observaciones en cada una . El quinto decil coincide con la mediana. Para calcular el valor de los deciles se procede en igual forma que con los cuartiles sustituyendo en n / 2 por:

n n n n

10

2

10

3

10

9

10, , ,...,

3.9.3 PERCENTILES.

Son límites que dividen una distribución en 100 partes iguales. Existen 99 percentiles. Para datos sin agrupar, el percentil o bien toma el valor intermedio entre dos observaciones, o bien el valor de una de las observaciones según que n sea o no divisible por 100. Si se tiene una

distribución de frecuencia se puede utilizar una fórmula parecida a las empleadas para mediana y los cuartiles. El 60 percentil, p60 es el valor que separa el 60% inferior a las

observaciones del 40%.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

88

Ejemplos Sobre Cuartiles, Deciles Y Percentiles. En la siguiente tabla se encuentran algunas distribuciones de los datos de estatura de 50 trabajadores. Hallar el primer y tercer cuartil, el quinto y sexto decil y el 50 y 75 percentil.

ESTATURAS EN PULGADAS FRECUENCIA FRECUENCIA ACUMULADA (fa)

50.5 - 53.5 1 1

53.5 - 56.5 2 3

56.5 - 59.5 6 9

59.5 - 62.5 11 20

62.5 - 65.5 16 36

65.5 - 68,5 9 45

68,5 - 71.5 4 49

71,5 - 74.5 1 50

N = 50

PRIMER CUARTIL

Q1 = Li +

n

fcuartilico

f4 1

A

Q1 = 59.5 +

50

49

11

3

Q1 = 60.45 , que representa el 25% de la distribución.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

89

TERCER CUARTIL.

Q3 = Li +

3

4 3

n

fcuarttilico

f

A

Q3 = 65.5 +

3 50

436

9

( )

3

Q3 = 66 , que representa el 75% de la distribución. QUINTO DECIL

D5 = Li +

5

10 5

n

fdecil

f

A

D5 = 62.5 +

5 50

1020

16

( )

3

D5 = 63.4,el cual representa el 50% de la distribución.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

90

SEXTO DECIL

D6 = 62.5 +

6 50

1020

16

( )

3

D6 = 64.3 , que significa el 60% de la distribución.

PERCENTIL 50

P50 = 62.5 +

50 50

10020

16

( )

3

P50 = 63.4, que significa el 50% de la distribución.

PERCENTIL 75

P75 = 65,5 +

75 50

10036

9

( )

3

P75 = 66, el cual representa el 75% de la distribución

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

91

EVALUACION SOBRE LA UNIDAD 3.0 3.1 Los siguientes son los niveles de glucosa en la sangre extraída a 10

niños en ayunas.

NUMERO VALOR NUMERO VALOR

1 56 6 65

2 62 7 65

3 63 8 68

4 65 9 70

5 65 10 72

Calcular : a. La media b. La mediana c. La moda d. Hacer una tabla de frecuencia y sacar conclusiones. 3.2 El 31 Diciembre de 1986, nacieron 10 bebes en el Hospital, sus pesos

en kg fueron:

7, 8, 8, 6, 4, 9, 10, 11, 8, 9 Calcúlese: a. La media b. La mediana c. Moda d. Compárense estos valores, ¿qué opina? e. Media geométrica f. Media armónica 3.3 Los siguientes son los pesos de 10 animales que están sometidos a

un procedimiento quirúrgico experimental.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

92

NUMERO PESO (KG) NUMERO PESO (KG)

1 13,2 6 14.4

2 15.4 7 13.6

3 13.0 8 15.0

4 16.6 9 14.6

5 16.9 10 13.1

Encontrar : a. La media b. La mediana c. La moda 3.4. Los pesos (kg) de 14 niños atacados por polio entre 3 a 4 meses son

los siguientes: 16.1, 15.9, 15.8, 16.3, 16.2, 16.0, 16.1, 15.9, 16.0, 16.1, 16.0, 15.9, 16.1. Calcular :

a. Hacer una tabla de Frecuencia b. La media

c. La mediana d. La moda 3.5 Hallar la media geométrica de los números

a. 5,5,8,3,7,2 b. 28, 5, 73, 6, 47, 2, 31, 5, 64, 8

3.6 Hallar la media geométrica y la media aritmética de los números

2, 4, 8, 16, 32 3.7 Hallar la media armónica de los números

a. 2, 3, 6 b. 3, 4, 8, 6, 1, 4, 2

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

93

3.8 Hallar la media aritmética, geométrica y la media armónica de los

números 0, 2, 4 y 6 3.9. Hallar la media geométrica de los números:

a. 4.2, 16.3, 5.4 b. 5.8, 4.7, 3.9, 7.7 3.10 Hallar la media armónica de los números:

a. 3.4 6.8 4.7 6.5 b. 1.5 3.2 7.6 5.5 6.3 6.0 3.11 Hallar la media geométrica por el método del logaritmo a los siguientes

números: a. 1, 3, 4, 7 b 6, 7, 3, 1 c. 4, 2, 1 3.12 Calcular la media geométrica por los dos métodos y comparar el

resultado de los siguientes números: a. 1, 3, 4, 7 b. 1.5, 3.2, 4.5 c. 8, 9, 7, 5, 4 3.13 El salario anual pagado a todos los empleados de una compañía fue

de $ 500.000. Los salarios medios anuales pagados a hombres y mujeres de la compañía fueron $ 520.000 y $ 420.000 respectivamente. Determinar el porcentaje de hombres y mujeres empleados en la compañía. 3.14 Los tiempos de reacción de un individuo a determinados estímulos fueron 0.53, 0.50, 0.46, 0.52, 0.44, 0.55 segundos, respectivamente. Determinar el tiempo medio de reacción del individuo a los estímulos. 3.15 Mediante la fórmula empírica: Media - Moda = 3 (Media - Mediana); comprobar esta fórmula mediante un ejercicio propuesto por usted.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

94

3.16 Hallar dos números cuya media aritmética es 9.0 y cuya media

geométrica es 7.2 4.17 Diga cuáles son las relaciones existentes entre las medidas de

tendencia central? 3.18 Diga 3 ventajas y 2 desventajas de la media aritmética.

3.19 Diga 2 ventajas y 2 desventajas de la mediana

3.20 Diga 2 ventajas y 3 desventajas de la media geométrica

3.21 Diga 2 ventajas y 3 desventajas de la Moda ó la Modal

4.22 En un laboratorio existen 10 empleados cuyas edades son: 20, 21, 20

20, 34, 22, 24, 27, 27 y 27.

a. Calcular la moda b. Calcular la mediana c. Calcular el promedio de edades 4.23 La siguiente tabla contiene datos acerca de la contaminación del aire,

que fueron proporcionados por 57 grandes ciudades.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

95

Partículas de materia en suspensión ( microgramos por metros cúbico) en muestra de aire tomadas en 57 grandes ciudades.

CIUDAD VALOR CIUDAD VALOR CIUDAD VALOR

1 68 21 36 41 16

2 63 22 42 42 24

3 42 23 28 43 69

4 27 24 31 44 47

5 30 25 28 45 23

6 36 26 25 46 22

7 28 27 45 47 43

8 32 28 12 48 27

9 79 29 57 49 49

10 27 30 51 50 28

11 22 31 12 51 23

12 23 32 32 52 19

13 24 33 49 53 46

14 25 34 38 54 30

15 44 35 42 55 43

16 65 36 27 56 49

17 43 37 31 57 12

18 25 38 50

19 74 39 38

20 51 40 21

Con dichos datos:

a. Construir una tabla de frecuencias utilizando intervalos adecuados b. Determinar la mediana c. Determinar la moda d. Calcular los cuartiles e interpretar el significado de cada uno e. Hallar el segundo y quinto decíl f. Hallar el 20º, 50º y 75º percentil. g. Hacer un histograma de los datos.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

96

3.24 Los siguientes son los niveles de glucosa en la sangre extraída 100

niños en ayunas:

55 61 57 77 62 75 63 55 64 60

50 57 61 57 67 62 69 67 68 59

65 72 65 61 68 73 65 62 75 80

66 61 69 76 72 57 75 68 81 64

69 64 66 65 65 76 65 58 65 64

68 71 72 58 73 55 73 79 81 56

65 60 65 80 66 80 68 55 66 71

72 73 73 75 75 74 66 68 73 65

73 74 68 59 69 55 67 65 67 63

67 56 67 62 65 75 62 63 63 59

Con dichos datos: Preparar una distribución de frecuencias utilizando intervalos adecuados y Hallar: a. La media b. La mediana c. La moda d. El 2°. y 3° Cuartil e. El 5°. y 7° Decil f. 50° y 76° Percentil

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

97

4.25 Las pagas en dólares semanales de 200 estudiantes que trabajan

parte de su tiempo se distribuye así:

PAGAS NUMERO DE ESTUDIANTES

77.5 82.5 5 82.5 87.5 12 87.5 92.5 13 92.5 97.5 22 97.5 102.5 30 102.5 107.5 35 107.5 112.5 32 112.5 117.5 20 117.5 122.5 15 122.5 127.5 10

127.5 132.5 6

Determinar : a La media b. La Moda c. 2º cuartil d. 5º. Decil e. 50° percentíl f. Comparar los resultados anteriores y sacar su propia conclusión.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

98

3.26 Las cantidades en miles de pesos, destinadas por un total de 40

familiar a diversiones, tales como cine, teatro y otros espectacular públicos durante un período de tiempo determinado, fueron los siguientes:

16, 15, 14, 12, 24, 20, 17, 18, 13, 14, 16, 16, 18, 10, 9, 11, 11, 12, 19, 20,

26, 21, 17, 17, 15, 13, 14, 14, 12, 9, 13, 10, 12, 15, 11, 14, 16, 17, 15, 22

a. Agrupar dichos datos en una tabla de frecuencias en intervalos adecuados. b. Determinar la media c. Determinar la moda d. Hallar el 1o . cuartil e. Hallar el 6o. decil f. Hallar el 24 percentíl g. Representar los datos en un diagrama de línea. 3.27 Las alturas de un grupo de 100 personas ordenadas en sentido

crecientes, son las siguientes.

1.61 1.63 1.65 1.66 1.67 1.67 1.67 1.67 1.67 1.67 1.67 1.67 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.69 1.69 1.69 1.69 1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.71 1.71 1.71 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.74 1.75 1.75 1.75 1.75 1.75 1.75 1.76 1.76 1.76 1.76 1.77 1.77 1.77 1.77 1.78 1.78 1.78 1.80 1.80 1.80 1.80 1.81 1.81 1.81 1.82 1.82 1.82 1.83 1.83 1.85 1.85 1.86 1.86 1.87 1.87 1.88 1.88 1.90 1.90 1.90 1.91 1.92 1.93 1.93 1.94 1.94 1.96

Se pide hallar: a. La media b. La mediana c. La moda d. El 3o. Curtíl e. El 9o . decíl f. El 18o. percentíl.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

99

3.28 La distribución del sueldo mensual de 100 empleados del Departamento de una fábrica es, por categoría, la siguiente:

CATEGORÍAS SUELDOS No EMPLEADOS

8a. 25.000 ---- 27.999 5 7a. 28.000 ---- 30.999 12 6a 31.000 ---- 33.999 15 5a 34.000 ---- 36.999 25 4a 37.000 ---- 39.999 15 3a 40.000 ---- 42.999 14 2a 43.000 ---- 45.999 10 1a. 46.000 ---- 48.999 4

S e pide calcular: a. La media b. La moda c. La mediana d. Representar los datos en un histograma de frecuencia. 3.29 La dirección de una empresa dice, que el salario promedio de los

trabajadores es mayor de 1000 semanales y, en consecuencia, se rehusó a aumentar los salarios. El sindicato encontró que la distribución de los salarios es la siguiente:

CLASE INTERVALOR Fi

D 500 - 100O 120

C 1000 - 1500 50

B 1500 - 2000 20

A 2000 - 2500 10

En qué forma sugiere usted que el sindicato pueda discutir con los Directores?

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

100

3.30 Suponga que los salarios semanales pagados por una compañía son

los siguientes:

DIRECTORES 2 10.000

SUPERVISORES 5 6.000

INGENIEROS 3 5.000

OBREROS 120 2.000

Cuál de los dos: El salario promedio o el salario modal, es más representativo?. Calcule los salarios promedios y modal.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

101

UNIDAD 4.0

MEDIDAS DE DISPERSIÓN

OBJETIVO DE LA UNIDAD: Enfatizar la importancia de calcular medidas de dispersión que complemente el cálculo de la media aritmética.

CONTENIDO:

4.1 Varianza

4.1.1 Propiedades

4.1.2 Corrección de Shepard

4.2 Rango o recorrido

4.2.1 Características

4.3 Desviación Típica o Estándar

4.3.1 Propiedades

4.4 Coeficiente de variación

4.4.1 Característica

4.5 Puntaje Típico o estandarizado

4.6 Recorrido intercuartilico

4.7 Desviación Mediana

4.8 Desviación Media

Evaluación de la unidad.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

102

4.0 MEDIDAS DE DISPERSIÓN:

Son medidas que se emplean para determinar el grado de variabilidad o de dispersión de los datos con respecto a un promedio. También se llaman medidas de dispersión a los valores estadísticos que proporcionan una idea acerca de como se agrupan los datos de una distribución con respecto a los valores centrales de la misma. Las medidas de dispersión son: Varianza desviación Típica o Estándar Desviación media Desviación mediana Coeficiente de variación Puntaje típico o estandarizando Recorrido intercuartilico

4.1 LA VARIANZA ( S2 ) Es la más importante de las medidas de dispersión y es la más conocida y usada. La varianza se define como la media aritmética de los cuadros de las desviaciones respecto a su media. La varianza es importante porque da origen a la desviación típica o estándar. La varianza se simboliza de muchas formas pero la más común es S2. La fórmula para calcular la varianza es :

S2 =

( )_

X X

n

i

n

1

2

= n

Z i

2

para datos no agrupados.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

103

S2 =

( )_

i ii

n

X fX

n

2

1 para datos agrupados.

S2 =

n

fiZ i.

2

Si estas formulas de la varianza la dividimos entre n – 1, en lugar

de n, estamos calculando la denominada cuasívarianza.

Para calcular la varianza de una serie de datos sin agrupar se debe proceder así: a. Calcular la media aritmética del conjunto de datos.

b. Calcular la desviación ( x - x_

) = Z, entre cada dato y la media de la

distribución.

c. Calcular el cuadrado ( x - x_

)2 de estas desviaciones.

d. Sumar ( X - x_

)2 estos cuadrados.

e. Dividir la suma por el número de datos. En caso de que los valores estén agrupados por efectivos entre el 3 y 4

punto debe ir un nuevo paso: Multiplica los cuadros; ( x - x_

)2 de las

desviaciones por sus efectivos respectivos. En caso de que los valores de la variable estén agrupados por intervalos y efectivos, se buscan los puntos medios de cada intervalo y se procede igual que en el anterior caso. 4.1.1 PROPIEDADES DE LA VARIANZA .

4.1.1.1 Debe ser siempre un valor positivo s2 0 4.1.1.2 La varianza de una constante es igual a 0 4.1.1.3 La varianza de una constante mas una variable es igual a la

varianza de la variable.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

104

4.1.1.4 La varianza de una constante por una variable es igual al

producto de la constante al cuadrado por la varianza de la variable. 4.1.1.5 Para el cálculo de la varianza de una muestra, cuando se

trabaja con submuestras, se aplica la siguiente fórmula.

S2 = ...

21

2

2

21

2

1

nnnsns

4.1.2 CORRECCION DE SHEPPARD PARA LA VARIANZA No obstante, al estudiar cada intervalo por el valor central del mismo, se comete un error sistemático que conviene corregir, especialmente cuando la longitud de los intervalos (A) es grande en comparación con la raíz cuadrada (s) de la varianza (s2).

Para curvas de frecuencia uní modales (moda única) y en la que los efectivos disminuyen tendiendo a cero en los dos extremos del eje x (abcisas) se puede aplicar la siguiente corrección:

S2 (corregida) = S2 ( sin corregir ) - A2 / 12

Esta corrección no necesita ser efectuada cuando la longitud del intervalo es inferior a la mitad de la raíz cuadrada de la varianza. Los estadísticos difieren en lo que se refiere a cuándo y si debe aplicarse la corrección de SHEPPARD, ciertamente no debe aplicarse sin haber hecho

un examen completo de la situación; estos se debe a que frecuentemente se tiende a sobre corregir y así sustituir unos errores por otro. En este trabajo, a menos que se indique lo contrario, esta corrección no es empleada. 4.2. RANGO O RECORRIDO ( OSCILACIÓN) El rango de un conjunto de número es la diferencia entre el mayor y el menos de todos ellos.

R = Xmáx - Xmin

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

105

Ejemplo: El Rango de los números 2,2,3,5,5,7,7,8,12, se puede enunciar

denotando sus extremos o su diferencia así:

R = Xmáx - Xmin

R = 12 - 2 = 10

4.2.1 CARACTERÍSTICAS.

El rango no es sensible a cambios en los datos, solamente lo es en puntuaciones extremas, razón por la que no es una medida de dispersión confiable.

Es la más fácil de calcular. Para datos agrupados existen dos métodos para calcular el rango:

El rango es la diferencia entre la marca de clase de la clase superior y la marca de clase inferior. Tiene la ventaja de eliminar los datos extremos.

El rango es la diferencia entre el límite real superior de la clase más alta y

el límite real inferior de la clase más baja. EJEMPLO 1:

La siguiente tabla muestra las alturas de los estudiantes de una universidad. Hallar el rango.

Altura No. de Marca de clase (Pulgada) Estudiantes

60 - 62 5 61 63 - 65 18 64 66 - 68 42 67 69 - 71 27 70 72 - 74 8 73

n = 100

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

106

1. Rango = marca de la clase superior - marca de la clase inferior

R = 73 - 61 = 12 pulgadas

2. Rango = Límite real superior de la clase más alta – límite real

inferior de la clase más baja R = 74.5 - 59.5 = 15 pulgadas EJEMPLO 2

Hallar el rango de las series de números: 5, 3, 8, 4, 7, 6,12, 4, 3. Ordenando : 3 3 4 4 5 6 7 8 12 R = 12 - 3 = 9 EJEMPLO 3

Hallar el rango de: 8.772, 6.453, 10.624, 8.628, 9.434, 6.351 Ordenando : 6.351, 6.453, 8.628, 8.772 , 9.434, 10.624 R = 10.624 - 6.351 = 4.273 EJEMPLO 4 La mayor de 50 pesadas es 8.34 kg si el rango es 0.46 kg hallar la pesada menor.

R = Xmáx - Xmin

0.46 = 8.34 - Xmin

Xmin = 8,34 - 0,46 = 7.88 kg.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

107

4.3 DESVIACIÓN TÍPICA O ESTÁNDAR (S)

Se define como la raíz cuadrada de la varianza y también como la raíz cuadrática de las desviaciones respecto a la media. La desviación típica al igual que la varianza es también muy utilizada, desempeña un papel muy importante en el análisis de los datos estadísticos. La fórmula para calcular la desviación típica en datos no agrupados es

S =

( )_

ii

n

X X

n

2

1

Para datos agrupados la fórmula es más o menos similar

S =

( )_

i ii

n

X fX

n

2

1

4.3.1 Propiedades de la Desviación típica.

4.3.1.1. Está definida por una fórmula = S =

( )i

i

n

X a

n

2

1

donde a es un promedio que puede ser diferente a la media aritmética.

De todas las desviaciones típicas, la mínima es aquella para la cual a = X_

4.3.1.2. Para distribuciones normales resulta que el valor de la desviación típica está a ambos lados de la media.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

108

4.3.1.3 Suponiendo dos series de datos N1 Y N2 números o dos distribuciones de frecuencia con frecuencia totales N1 y N2 cuyas variaciones

vienen dadas por 1

2

2

2

S Sy y que tienen las mismas medidas X_

entonces la varianza combinadas para ambas series está dada por

S2 = 1

2

1 2

2

2

1 2

s n s nn n

...

Esta es una media aritmética ponderada de las varianzas. Este resultado puede generalizares a 3 o más series de datos Ejemplo 1

Hallar la desviación típica de los siguientes números.

3, 6, 2, 1, 7, 5, Ordenando: 1, 2, 3, 5, 6, 7,

X_

= 46

24

6

765321

( X - X_

)2 (1 - 4)2 = (- 3)2 = 9 (2 - 4)2 = (- 2)2 = 4 (3 - 4)2 = (-1)2 = 1 (5 - 4)2 = (-1)2 = 1 (6 - 4)2 = ( 2)2 = 4 (7 - 4)2 = (3)2 = 9

SUMAS: 28

S2 =

( )_

X X

n

i

n

1

2

= 28/6 = 4.6

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

109

S =

( )_

ii

n

X X

n

2

1 = 4 6 216. .

EJEMPLO 2

La desviación típica de los siguientes números 3.2, 4.6, 2.8, 5.2, 4.4

X_

= 2 8 32 4 4 4 6 52

5

20 2

54 04

. . . . . ..

( X - X_

)2 (2.8 - 4.04 )2 = 1.6376 (3.2 - 4.04)2 = 0.7056 (4.4 - 4.04)2 = 0.1296 (4.6 -4.04)2 = 0.3136 ( 5.2- 4.04)2 = 1.3456 SUMAS: 4.032

S2 =

( )_

X X

n

i

n

1

2

= 4 032

508064

..

S =

( )_

ii

n

X X

n

2

1= 08064 0 90. .

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

110

4.4 COEFICIENTES DE VARIACIÓN

Esta medida se obtiene dividiendo a la desviación típica por su media aritmética, expresándose el resultado en términos porcentuales. Este coeficiente se emplea cuando se desea comparar dos o más distribuciones, con el fin de determinar cuáles de ellas tiene mayor o menor variabilidad relativa. Se usa cuando las distribuciones están dadas en unidades de medidas diferentes, por lo tanto en estos casos, no se podrá comparar las varianzas o la desviación estándar; puede darse el caso de que las distribuciones estén expresadas en la misma unidad. La fórmula para calcular el coeficiente de variaciones es :

Cv =S

X_

.100

4.4.1 CARACTERISTICAS DEL COEFICIENTE DE VARIACION 4.4.1.1. Este coeficiente deja de ser útil cuando la media está próxima a

cero. 4.4.1.2 Es independiente de las unidades? 4.4.1.3. Generalmente se expresa en porcentajes.

EJEMPLO 1 Un grupo de obreros tienen un salario promedio de $ 26.800 y varianza $ 14.400.oo. Otro grupo de obreros que trabajan en un país diferente tienen un salario promedio de Bs 8.570 y una desviación típica de Bs 80.

Se quiere determinar cuál grupo de salarios presenta una menor variabilidad.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

111

Solución.

En este caso no se pueden comparar las varianzas ni las desviaciones típicas, debido a que unos reciben en pesos y otros en B

s, la mejor forma de comparar estas dos distribuciones es mediante el uso del coeficiente de variación:

CV1 = 120

268000 0044 0 44% . .

CV2 = 80

85700 0093 0 93% . .

En conclusión se puede decir que los salarios para el grupo de empleados (obreros) del primer país presentan una menor variabilidad. EJEMPLOS 2

Dos distribuciones cuyas medias aritmética: X_

= 24.5 y X_

= 30 y cuyas desviaciones típicas o estándar son idénticas S1 = 2 y S2 = 2 indicando este

hecho que tienen el mismo grado de variación absoluta.

CV1 = 2

24 50 0816 816%

.. .

Cv2 = 2

300 0666 6 66% . .

EJEMPLO 3. Para un conjunto de datos se obtuvo $ 9.200 como promedio de ingreso mensual y una desviación típica de 10.100. Lo primero que podemos decir que la desviación típica es demasiado grande.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

112

Ahora si calculamos su coeficiente de variación se tendrá.

Cv = 10100

920010978 109 78% . .

4.5. PUNTAJE TÍPICO O STANDARIZADO (Z)

Es muy utilizado en la distribución normal y en análisis del coeficiente de correlación, mide la desviación de una observación con respecto a la media aritmética, en unidades de desviación típica, determinándose la posición relativa de una observación dentro del conjunto. También es muy utilizado como variante estadístico, por lo general es simbolizada por (z), sin embargo en casos especiales se puede simbolizar por (T). La formula utilizada para calcular el puntaje típico es:

Z = X X

S

_

ó T = X X

S

_

CARACTERISTICA:

Sirve para comparar dos o más datos individuales, aunque pertenezca a diferentes distribuciones.

Ejemplo:

Un obrero realiza tres operaciones dentro del trabajo:

La primera la realiza en 72 minutos, la segunda en 85 y la tercera en 52 minutos; el promedio de duración para realización de cada operación el 85, 90 y 58 minutos respectivamente. Además las respectivas desviaciones Estándar fueron 7, 3 y 7; se requiere ordenar las operaciones realizadas por el obrero, de acuerdo con su mayor capacidad para la ejecución.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

113

Solución:

X1 = 72 X_

= 85 S1 = 7

X2 = 85 X_

= 90 S2 = 3

X3 = 52 X_

= 58 S3 = 7

Z = X X

S

_

Z1 = 72 - 85 = - 13 = -1.85 7 7 Z2 = 85 - 90 = -5 = -1.66 3 3 Z3 = 52 - 58 = - 6 = -0.86 7 7

Ejemplo 2.

En una encuesta sobre aceptación de dos productos en el mercado se obtuvieron los siguientes datos:

Producto A , X_

= 85 s2 = 12

Producto B, X_

= 78 S2 = 20

Se midieron puntajes particulares 82 y 86 para los productos A y B. Cuál de los productos tuvo mayor aceptación.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

114

Z = X X

S

_

ZA = 82 85

12

3

120 25

.

ZB = 86 78

20

8

200 4

.

Lo cual nos permite decir que tuvo mayor aceptación el producto B ya que su puntaje típico es mayor.

4.6 EL RECORRIDO O RANGO INTERCUARTILICO.

Se define como la diferencia entre el tercer y el primer cuartil de los cuartiles de una distribución.

QD2 = Q3 - Q1

El rango intercuartílico Q3 - Q1 se emplea a veces pero el rango semicuartílico es más utilizado como medida de dispersión.

Rango Semicuartilico.

QD2= 2

13QQ

Se comprende que cuanto mayor sea la desviación intercuartílico, más dispersos (menos concentrados) están los valores de la distribución.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

115

Ejemplo: En la siguiente tabla de datos agrupados, los cuales representan el recorrido en kilómetros de 208 familias desplazadas:

INTERVALO(Km) Fi (F/lias) Fa

30 - 38 6 6 38 - 46 14 20 46 - 54 36 56 54 - 62 50 106 62 - 70 43 149 70 - 78 32 181 78 - 86 18 199 86 - 94 9 208

N = 208

se tiene:

Q1 = 46 + 52 20

368

Q1 = 53.11: El 25% de las familias recorrieron menos de 53 Km.

Q3 = 70 + 156 149

328

Q3 = 71.75 : El 75% de las familias recorrieron menos de 71 Km.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

116

QD 2= 3 1

2

Q Q =

7175 5311

29 32

. ..

4.7 DESVIACIÓN MEDIANA (Dm)

Se define como la media aritmética de las diferencias en valor absoluto, entre los valores que toma la variable y la mediana.

Es una medida de dispersión poco utilizada y su mayor uso corresponde a aquellas distribuciones cuyos valores extremos no están definidos o cuando el promedio esta afectado por valores grandes de la variable que obliga a calcular la mediana.

FORMULAS:

Dm =

ii

n

i

Xf

Me

n

1 . para datos agrupados.

Dm =

ii

n

X Me

n

1

para datos no agrupados.

Valor de la Dm puede ser menor o igual a la desviación media, la que a su vez es siempre menor que la desviación típica.

Dm MD S

4.8 DESVIACIÓN MEDIA.

También llamada desviación media absoluta o promedio de desviación.

Se denomina desviación media aritmética de los valores absolutos de las desviaciones.

Para calcular la desviación media se ha de proceder de modo siguiente:

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

117

4.8.1 Valores no agrupados.

4.8.1.1 Calcular la media ( X_

) de la distribución de datos

4.8.1.2 Calcular la desviación de datos ( X - X_

) entre cada dato y la media.

4.8.1.3 Calcular el valor absoluto de cada valor.

X X_

4.8.1.4 Sumar Los Valores Absolutos de las desviaciones.

X X_

4.8.1.5 Dividir esta suma por el número de datos.

FORMULAS:

M.D =

ii

n

X X

n

_

1

para datos no agrupados.

M.D =

i ii

n

X fX

n

_

.1

para datos agrupados.

Se le considera como una de las medidas de dispersión más fáciles de calcular, siendo utilizada en la mayoría de los casos con el único fin de agilizar las operaciones, por ello al resultado se le considere como una aproximación a la cuantificación de la dispersión.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

118

4.9 ERROR ESTÁNDAR: Se obtiene dividiendo la desviación típica por el tamaño de la muestra.

e =n

S

4.10 ASIMETRIA: En una distribución se tiene que:

La distribución es simétrica si: La media aritmética = a la mediana = a la moda

X_

= Me = Mo

Cuando la media es menor que la mediana y esta menor que la moda, la distribución es asimétrica negativa.

X_

Me Mo

Si la media es mayor que la mediana y esta mayor que la moda, la distribución es asimétrica positiva.

X_

Me Mo

Las formulas para calcular el grado de asimetría, entre otras son:

El coeficiente de Pearson: S

MoXA

*

La medida de Bowley: QQ

QQ MeA

13

132

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

119

4.11CURTOSIS: Indica si la distribución está más o menos apuntada que la

distribución normal. Un valor mayor que cero indica que está más apuntada(forma puntiaguda),un valor igual a cero indica mismo apuntamiento que la normal, un valor menor que cero indica menos apuntada(aplanada). Los términos usados son: Normal – Mesocúrtica Aplanada – Platicúrtica Puntiaguda – leptocúrtica.

Ejemplo:

La siguiente tabla muestra la lectura sobre el volumen de tráfico y la concentración de monóxido de carbono en un punto de muestreo de la calidad del aire en una ciudad.

VALORES DE TRAFICO Co ( PPM)

0 - 20 30 20 - 40 25

40 - 60 15

60 - 80 13

80 - 100 12

100 - 120 5

Se pide calcular: Su media, varianza, desviación típica coeficiente de variación y desviación media.

Solución:

En la solución de esta clase de ejercicios es importante que tratemos de agrupar en una tabla los pasos necesarios para calcular cada medida de dispersión.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

120

VOLUMEN DE TRAFICO Y CONCENTRACIÓN DE MONOXIDO DE CARBONO

INTERVALOS

Xi

Fi

XI . FI X i - X

_

(Xi - X_

)2 F(Xi X

_

)2

F X X_

0 - 20

10

30

300

-33.4

1115.56

33466.80

1002

20 - 40

30

25

750

-13.4

179.56

4489.0

335

40 - 60

50

15

750

6.6

43.56

653.4

99

60 - 80 70

13

910

26.6

707.56

9198.28

345.8

80 - 100 90

12

1080

46.6

2171.56

26058.72

559.2

100 - 120

110

5

550

66.6

4435.56

22177.8

333

Sumas

N=100 4340 96044.0 2674

1. Calculamos la media: X

X F

n

i

n

_.

.

1

4340

100434

2. La varianza: S2 = 4.960100

960441

2_

n

XX fi

n

i

3. La desviación típica o estándar: S = var . .ianza 960 4 30 99 31

4. El coeficiente de variación: Cv =

S

X_

..

. .10031

434100 714%

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

121

5. La desviación media: M.D =

X X f

n

i

n

_

.12674

10026 74

6. Error estándar: e =n

S= 31/100 = 0.31

7.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

122

EVALUACION DE LA UNIDAD No 4 4.1 Hallar el rango de las series de números:

a) 5, 3, 8, 4, 7, 6, 12, 4, 3 b.) 8.772, 6.453, 10.624, 8.628, 9.434, 6.351. 4.2 La mayor de 50 pesadas es 8.34 Kg si el rango es 0.46 kg, hallar la

pesada menor 4.3 Sumando 4 a cada uno de los números de la serie: 2, 6, 5, 9, 1 se

obtiene la serie: 6, 10, 9, 5 y 13. Comprobar que ambas series tienen la misma varianza, distintas medias y diferentes coeficientes de variación. 4.4 Multiplicando por 4 cada uno de los valores de la variable X: 3, 2, 0, 5 se obtiene la serie Y: 12, 8, 0, 20; comprobar que ambas series tienen el mismo coeficiente de variación. 4.5 Sean los números 1, 2 y 3 y supongamos que su varianza es S2

1,

agregamos dos veces el número 2 y tendremos 1, 2, 2,,2,3, supongamos que la varianza de este nuevo conjunto de números es S2

2 .

Es S2

2 mayor o menor que S21.

4.6 Consideremos que en el Hospital A hay 30 pacientes, y 50 en el Hospital B. se pide calcular el coeficiente de variación para el total de los 80 pacientes. 4.7 Hallar las desviaciones medias de las series de los números:

a) 3, 7, 9, 5 b) 2, 4, 1, 6, 3, 8, 4, 1, 3, 4. 4.8 Hallar la desviación típica de los números: a) 3, 6, 2, 1, 7, 5 b)3, 2, 4, 6, 2, 8, 5, 2, 4, 4

c) 0, 0, 0, 0, 0 1, 1, 1,

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

123

4.9 La siguiente tabla muestra la concentración de albúmina en el suero

de 60 sujetos hospitalizados.

ALBÚMINA EN EL SUERO N° DE SUJETOS

0 - 1.0 9 1.0 - 2.0 13 2.0 - 3.0 18 3.0 - 4.0 17 4.0 - 5.0 3

Se pide calcular el rango, la varianza, desviación típica y el coeficiente de variación, el Error estándar, la asimetría.

4.10 Se han tomado tres muestras de 50 ejemplares cada una de cachamas macropomus hembras, con el fin de realizar una investigación. Al efectuar el pesaje se encontró los siguientes datos, medidos en Kilogramos:

Xi

Kilogramos

Muestra A

Fi

Muestra B

Fi

Muestra C

Fi

1.5 1.6 1.7 1.8 1.9 2.0 2.1

2 4 10 18 10 4 2

3 3 12 14 12 3 3

5 6 9 10 9 6 5

TOTALES n = 50 n = 50 n = 50

Con los datos del cuadro anterior calcule: 1. La desviación media y la desviación típica o estándar en cada muestra 2. Cual de las muestras presenta mayor porcentaje de variabilidad 3. Que opinión le ofrece la media aritmética de las tres muestras

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

124

4.11 Los siguientes datos representan las edades de 120 Docentes de la

concentración Escolar:

24 30 27 31 32 33 32 35 28 33 29 28 32 36 31 38 30 32 39 33 30 34 31 29 26 40 33 26 31 36 27 33 31 31 40 30 30 26 35 32 30 32 34 30 27 31 31 32 32 33 29 24 31 28 33 28 29 32 33 28 34 33 29 33 31 33 34 25 33 32 30 32 37 31 37 31 34 21 29 32 37 31 27 30 38 32 35 34 25 26 35 32 32 25 24 21 25 24 32 33 40 28 26 29 36 25 38 31 33 27 25 21 25 24 32 29 26 30 21 21

Con los datos anteriores: 1. Haga una distribución de frecuencia usando intervalos adecuados 2. Analice e interprete los intervalos 3° y 4° 3. Que porcentaje de docentes tiene edad menor de 30 años 4. Que porcentaje tiene edad mayor de 30 años 5. Calcule y analice las medidas de dispersión vistas.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

125

4.12 Los datos siguientes representan el peso(kilogramos) de 110 jóvenes:

56 61 57 77 62 75 63 55 64 60 60 57 57 67 62 69 67 59 59 65 72 65 61 68 65 62 75 80 66 61 69 76 72 57 75 68 64 69 64 66 65 65 76 65 58 65 64 68 71 72 58 73 55 73 79 81 56 65 60 65 66 80 68 55 66 71 72 73 73 75 75 74 73 65 73 74 68 59 69 55 67 65 67 63 56 67 62 65 75 62 63 63 59 50 57 66 56 50 66 57 80 74 81 60 62 75 64 57 68 64

Con los datos anteriores: 1. Haga una distribución de frecuencias utilizando intervalos adecuados e

interprete el intervalo que tenga la mayor frecuencia. 2. Calcule las medidas de tendencia central(media, mediana y moda) 3. Calcule la desviación media, varianza, desviación típica, el coeficiente de

variabilidad y el error estándar.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

126

UNIDAD Nº 5

REGRESIÓN Y CORRELACIÓN

OBJETIVO

DE LA UNIDAD: Desarrollar, tanto descriptiva como inferencialmente, los modelos de regresión lineal simple y de correlación, como un medio de utilizar una variable para predecir otra, y medir la intensidad de la asociación entre dos variables.

CONTENIDOS:

5.1 Introducción a la bidimensionalidad

5.2 Relación entre dos variables

5.3 Regresión

5.4 Teoría de la correlación

5.5 Error típico de la estima

5.6 Variación explicada y no explicada

5.7 Coeficiente de correlación

5.8 Correlación gradual

Evaluación de la unidad.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

127

5.1 INTRODUCCIÓN A LA BIDIMENSIONAL

En los casos anteriores veníamos analizando casos en los cuales intervenía una sola variable, la cual llamábamos distribuciones unidimensional, el procesos que seguíamos consistía en ordenar y concentrar la información en tablas elaborando gráficas y aplicando una serie de medidas, buscando con ello la mejor forma de describir ciertas características para así tener una idea aproximada de la situación real de un fenómeno, cumpliéndose, en parte una de las finalidades de la estadística. En esta unidad se harán consideraciones respecto a distribuciones bidimensionales, o sea, el estudio del comportamiento de dos variables, para determinar si existe alguna relación funcional entre si, causa y efecto, además de cuantificar dicho grado de relación. Estas dos variables deben ser analizadas simultáneamente, no en forma separada. Son ejemplo de distribuciones bidimensionales, variables como : producción y consumo, venta y utilidades, costo y venta, etc. Ambas variables pueden ser discretas o continúas, también una de ellas discretas y la otra continua. 5.2. RELACIÓN ENTRE DOS VARIABLES

Al analizar los datos para las ciencias de la salud, con frecuencia se encuentra que resulta conveniente saber algo acerca de la relación entre dos variables por ejemplo, es posible que se tenga interés en estudiar la relación

entre la presión de la sangre y la edad, la estatura y el peso, la concentración de un medicamento inyectado y la rapidez de los latidos del corazón, el nivel de consumo de algún nutriente y la ganancia en peso, la intensidad de un estímulo y el tiempo de reacción, o bien, el ingreso total familiar y los gastos médicos. La naturaleza y la intensidad de las relaciones entre variables como éstas pueden examinar por medio del análisis de regresión y correlación. 5.2.1 REGRESIÓN Y CORRELACIÓN : Dos técnicas estadísticas que aunque relacionadas, tienen propósito diferentes. La clase de relación que puede existir entre dos variables puede ser

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

128

5.2.1.1 Dependencia causal unilateral : Esta relación seda cuando una de las variables influye en la otra pero no al contrario 5.2.1.2 Interdependencia: Se presenta cuando la influencia entre las dos variables es reciproca. También se podría decir que es un caso de dependencia bilateral . 5.2.1.3 Dependencia Indirecta : Dos variables pueden mostrar cierta relación a través de una tercera variable que influye en ellas. 5.2.1.4 Concordancia : Se presenta por lo general en dos variables independientes a las que se les determina o cuantifica la correlación que podría existir. 5.2.1.5 Covariación casual : Cuando la correlación entre las dos variables es casual o accidental. 5.2.2 PRESENTACIÓN DE LOS DATOS

Para ordenar los datos de una distribución estadística de dos variables, cuando hay muchas observaciones, se construye una tabla de doble entrada. En la primera fila se sitúan los valores Xi ( donde i toma valores desde 1 hasta n, siendo n el número de pares de observaciones ) y con Yi, simbolizamos la segunda variable. Se tendrá tantos valores de Xi Yi , como pares de observaciones tengamos, en tal forma que el valor de X1 guarda relación con el de Y1 , y el de X2 y con el de Y2 y así sucesivamente.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

129

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

130

Xi Yi

X1 X2 ..............................XL.................................XK

nJ

Y1

Y2

.

.

.

YJ

.

.

YL

n11 n21 ni1 nK1

n12 n22 ni2 nK2

.

.

.

n1J. n2J niJ nKJ

.

.

.

n1L n2L niL nKL

n.1

n.2

.

.

.

n.J

. . .

nL

ni n1 n2 ni nK n

Xi Yi

X1

.

.

.

.

.

.

Y1

.

.

.

.

.

.

Xn Yn

EJEMPLO : Se ha realizado un experimento para investigar el efecto del opio y la marihuana en actividad alucinatoria. Ambas variables independientes tienen dos factores o categorías : fumar y no fumar. Se a signaron al azar 7 individuos a cada nivel, y se empleo una escala de actividad alucinatoria de manera tal que un valor elevado indica una mayor cantidad de alucinaciones.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

131

Los resultados obtenidos están indicados así :

FUMARON OPIO NO FUMARON OPIO

FUMARON MARIHUANA

NO FUMARON MARIHUANA

FUMARON MARIHUANA

NO FUMARON

MARIHUANA

7 7 7 6 6 5 4

5 5 4 4 3 3 3

6 5 5 4 4 4 3

3 2 2 1 1 0 0

42 27 31 9

Elaborando una tabla de doble entrada, los datos quedarían así:

OPIO

MARIHUANA

SI

NO

TOTAL

SI

42

31

73

NO

27

9

36

TOTALES

69

40

109

5.3. REGRESIÓN

El término de “regresión “ es un término poco afortunado, aunque su uso

continua como vestigio de algunas de las primeras aplicaciones del análisis estadístico a datos biológicos. Las ideas de regresión fueron aclaradas por primera vez por el científico ingles, Sir FRANCISCO GALTON hacia el final del siglo XIX, para expresar

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

132

la tendencia de la descendencia a “Regresar” a un valor medio de los atributos de los padres. Actualmente el análisis de regresión se emplea para denotar el procesos de estimar el valor de una de las variables en función de la otra, cuyo valor se considera dado. Cuando se estima el valor de X en función de Y, se habla de una regresión de x en y, y estaremos estimando la primera variable en función de la segunda. La regresión de y en x será dada cuando estimamos el valor para y, suponiendo conocido el valor de x.

La regresión exige ajustar los puntos del diagrama de dispersión a una línea que permita estimar los valores del “ PREDICTANDO” ( variable que desea estimar ) , conocidos los del “ PREDICTOR” (variable conocida ).

Las líneas de regresión de mayor aplicabilidad es la línea recta ; este método se denomina también ajuste a una recta o regresión rectilínea o recta de mínimos cuadros.

La ecuación de la recta es : Y = a0 + a1 X Donde a0 es el coeficiente de posición u origen de la ordena. Puede ser positiva, negativa o igual a cero. Como muestran las siguientes gráficas :

+ a0 ao = 0 -ao

a1 es el coeficiente angular . Determinar el crecimiento o aumento del predictando ( y ) por cada centímetro del predictor ( x ); también suele

llamársele pendiente de la recta. Este puede ser positivo, negativo o igual a cero representando gráficamente así :

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

133

a1 0 a1 0 a1 = 0 Ascendente Descendente Paralela

Cuando se estima y en función de x, la ecuación y = a0 + a1 x nos quedará

así :

y = a0 N + a1x

xy = a0x + a1x2 X en función de y :

x = a0 N + a1y

xy = a0y + a1y2 5.3.1. EL MODELO DE REGRESIÓN :

El problema típico de regresión, como en la mayoría de los problemas de la estadística aplicada, el investigador cuenta para el análisis, con una muestra de observaciones de una población real o hipotética. Basado en los resultados de sus análisis de los datos de la muestra , tiene interés en llegar a decisiones acerca de la población de la cual se supone que se ha extraído

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

134

la muestra por lo tanto es importante que el investigador comprenda la naturaleza de la población en la que está interesado. Debe conocer lo suficiente acerca de la población, para ser capaz de construir un modelo matemático que la represente, o bien , determinar si se ajusta razonablemente a algún modelo establecido. Un investigador, que va a analizar un conjunto de datos por los métodos de la regresión lineal simple, por ejemplo, debe tener la seguridad de que el modelo de regresión es, al menos una representación aproximada de su población. 5.4 TEORÍA DE LA CORRELACIÓN

Se denomina correlación al grado de relación de interdependencias, que existe entre dos variables, o más, que se estudia para determinar en que medida una ecuación lineal o de otro tipo describe ó explica de una forma adecuada la relación entre variables. Si todos los valores de las variables, satisfacen exactamente una ecuación, se dice que las variables están correlación perfectamente o que existe una correlación perfecta entre ellas. Así, la circunferencia C y los radios r de todos los círculos están

correlacionados perfectamente, puesto que C = 2r. Si lanzamos simultáneamente dos dados 100 veces, no hay relación entre los puntos correspondientes de cada dado, es decir no están correlacionados. Las variables altura y peso de los individuos muestran ciertas correlación. Cuando se trata de dos variables solamente, se habla de correlación SIMPLE y de regresión SIMPLE. Cuando se trata de más de dos variable se habla de correlación MÚLTIPLE y de regresión MÚLTIPLE. 5.4.1. CORRELACIÓN LINEAL.

Si X e Y representan las dos variables que se consideran, un “diagrama de dispersión “ muestra la localización de los puntos ( x,y ) en un sistema de coordinadas rectangulares. Si todos los puntos en este diagrama de

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

135

dispersión parecen encontrarse cerca de una recta, se dice que existe correlación y es lineal ; si Y tiende a disminuir cuando se incrementa X, se dice que existe correlación POSITIVA o correlación DIRECTA, si Y tiende a disminuirse cuando se incrementa X, la correlación se dice NEGATIVA o correlación INVERSA.

Si todos los puntos parecen estar cerca de una curva, la correlación se dice NO LINEAL y una ecuación no lineal es apropiada para la regresión o estimación. Es evidente que una correlación no lineal puede ser a veces positiva o a veces negativa. Si no hay ninguna correlación o relación entre las variables, se dice que no hay CORRELACIÓN entre ellas.

Correlación lineal Correlación lineal No hay correlación Positiva Negativa

5.4.2 RECTAS DE REGRESIÓN DE MÍNIMOS CUADRADOS

Se consideran en primer lugar el problema de la bondad conque una línea recta explica la relación entre dos variables. Para ello son necesario las ecuaciones de las rectas de regresión, como se vio, la recta de regresión de y sobre x es :

Y = a0 + a1 X

Donde a0 y a1 de obtienen de las ecuaciones normales.

y = a0 N + a1 X

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

136

XY = ao X + a1x2

Las cuales las podemos reducir a:

0

2

2 2aXX

Y X XY

N X

( )( ) ( )( )

( )

1 2 2aX

N XY X Y

N X

( )( )

( )

Análogamente, la recta de regresión de x sobre y está dada por: X = b0 + b1 Y Donde b0 y b1 se obtienen de las ecuaciones normales

x = b0 N + b1y

xy = b0y + b1y2

. Las que reduciremos a:

0

2

2 2bY

X Y Y XY

N Y

( )( ) ( )( )

( )

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

137

1 2 2bN XY X Y

N Y Y

( )( )

( )

Las ecuaciones : y = a0 + a1 x y x = b0 + b1y Pueden también escribirse respectivamente como :

YXY

XX

2

y XXY

YY

2

Donde : X x x _

y Y y y _

Las ecuaciones de regresión son idénticas , si y solamente sí, todos los puntos del diagrama de dispersión se encuentran sobre la recta. En tal caso, hay una correlación lineal perfecta entre X e Y 5.5 ERROR TÍPICO DE LA ESTIMA

Si Yest. representa el valor de Y estimado, de y = a0 + a1 x para los valores

de X dados, una medida de dispersión al rededor de la recta de regresión de Y sobre X viene dada por :

yx

est

Syy

N

( ).

2

Que se llama “ error típico de la estima “ de y sobre x.

Si es la recta de regresión :

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

138

X = b0 + b1y

Se obtiene análogamente el error típico de la estima de x sobre y, que queda

definido por :

xy

est

sxx

N

( )2

En general , Syx S xy La ecuación :

yx

est

Syy

N

( ).

2

Pueden escribirse así :

sx

y y xy

N

a a 2

0 1

Que pueda ser más adecuada para el cálculo. Una expresión similar se obtiene para :

xy

est

sxx

N

( )2

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

139

xysb bx x xy

N

22

0 1

El error típico de la estima tiene análogas propiedades a las de la desviación típica, por esos algunos autores o estadísticos prefieren sustituir en las anteriores ecuaciones a N por : N - 2 5.6 VARIACIÓN EXPLICADA Y NO EXPLICADA.

La variación total de y se define como ( y - Y_

)2 es decir, la suma de los cuadrados de las desviaciones de los valores de y de su media y esto puede escribirse así :

( y - Y_

)2 = ( y - yest. )2 + ( yest. - Y

_

)2 El primer término del segundo miembro se llama VARIACIÓN NO EXPLICADA, mientras el segundo término se llama VARIACIÓN

EXPLICADA, y esto es así, porque las desviaciones. Yest - Y_

tienen un

patrón definido, mientras que las desviaciones : y - yest. se comportan de

una forma aleatoria o no previsible. Resultado análogo se obtiene para la variable x.

( ) ( ) ( )_ _

x x x xest estx x 2 2 2

5.7 COEFICIENTE DE CORRELACIÓN Fue propuesto por primera vez por A. BRAVAIS y PEARSON , éste nos da un número abstracto que representa una medida cuantitativa de que también están correlacionados los dos valores, y que se pueden utilizar para estimar el significado estadístico de la correlación aparente.

El coeficiente de correlación se representa por la letra “r” y su expresión

matemática es:

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

140

riacion licada

iaciontotal

var exp

var

ry

y y

esty

( )

( )

_

_

2

2

Utilizando :

yx

est

Syy

N

( ).

2

( y - Y_

)2 = ( y - yest. )2 + ( yest. - Y

_

)2

y el hecho que la desviación típica de y es ysy y

N

( )_

2

,

r

yx

y

s

s 1

2

2 ó yx ys s r 1 2

Sin tener en cuenta el signo ; ecuación similar se obtiene cuando se intercambian x e y.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

141

Para el caso de una correlación lineal la cantidad r es la misma, tanto si es x como y considerada como variable independiente. La ventaja del coeficiente de correlación radica en el hecho de que se trata de un coeficiente adimensional, por lo que no dependen de las unidades en que estén expresadas las dos variables correlacionadas. En cuanto a los valores numéricos que adopta el coeficiente de correlación r, cabe decir que cuanto más próximo esté r de +1 ó - 1 mayor correlación

habrá ( positiva en el primer caso y negativa en el segundo).

-1 r 1

El grado de correlación se podrá interpretar, evitando un poco la rigidez mediante los siguientes limites : 1. Correlación perfecta, cuando r = 1 ó r = -1 .

2. Correlación excelente, cuando : 0,90 < r <1 ; - 1< r < 0,90

3. Correlación aceptable, cuando : 0.80< r < 0.90 ; -0.90< r < -0.80

4. Correlación regular, cuando : 0.60 < r<0.80 ; - 080< r < - 060

5. Correlación mínima, cuando : 0.30 < r < 0.60 ; -60 < r < - 0,30

6. Correlación no hay , cuando : 0 < r < 0.30 ; -030 < r < 0

Observemos el comportamiento del coeficiente de correlación en la siguiente figura.

r = 1 r = -1 o< r< 1

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

142

-1< r< 0 r = 0 0 0

5.8 FORMULA PRODUCTO - MOMENTO PARA EL COEFICIENTE DE CORRELACIÓN LINEAL

Si se supone una relación lineal entre dos variables, la ecuación :

r

y

y y

esty

( )

( )

_

_

2

2

Se convierte en :

rxy

X Y

( )( )2 2

Donde X x x _

y Y y y _

, esta fórmula que

automáticamente dada el signo adecuado de r se llama “ fórmula producto - momento” y muestra claramente la simetría entre x e y si se escribe;

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

143

xysxy

N

, xsx

N 2

, ysy

N 2

entonces sx y sy se reconocerán como la desviación típica de las variables

x e y, respectivamente, mientras que x ys s2 2, son sus varianzas La

nueva cantidad Sxy se llama COVARIANZA de x e y. En términos de

símbolos las anteriores ecuaciones pueden resumirse si : 5.9 COVARIANZA. Es un indicador de cuál es la variación conjunta de X e Y, y va a permitir, de alguna manera, examinar el grado de relación existente entre ambas. La forma de calcular la covarianza es mediante el producto de las dos diferencias con respecto a sus medias para cada una de las variables, es decir:

Para datos no agrupados:

nn

ZZyyxx

Syx

iin

ixy

1

yxyx

Sn

ii

xy

.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

144

Para datos agrupados:

nn

fZZfyyxx

Siyx

iiin

ixy

1

yxfyx

Sn

iii

xy

.

r

xy

x y

ss s

Al valor r2 se le denomina coeficiente de determinación, e indica el

porcentaje de la variabilidad de una variable explicable por la otra. Nótese que r no es solamente independiente de la elección de las unidades de x e y, también de la elección del origen. 5.10 FÓRMULAS CORTAS PARA EL CALCULO

La fórmula :

rxy

X Y

( )( )2 2

Puede escribirse en la forma equivalente :

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

145

rN XY X Y

N X X N Y Y

( )( )

( ) ( )2 2 2 2

5.11 RECTAS DE REGRESIÓN Y EL COEFICIENTE DE CORRECCIÓN LINEAL.

La ecuación de la recta de los mínimos cuadrados Y = a o + a1 X o recta regresión de y sobre x, puede escribirse :

Y Yr

X Xy

x

ss

_ _

( ) ó

Yr

Xy

x

ss

Análogamente, la recta de regresión de X sobre Y , x = bo + b1y puede escribirse :

X X

rY Yx

y

ss

_

( )_

ó X

rYx

y

ss

Las pendientes de las rectas anteriores son iguales si , y solamente si,

r = 1. En tal caso las dos rectas son iguales o idénticas y entres las variables. x e y hay correlación línea perfecta. Si r = O, las rectas forman

un ángulo recto y no hay correlación entre las variables. Así, pues , el coeficiente de correlación lineal mide la divergencia de las dos rectas de regresión.. Nótese que si las ecuaciones : se escriben : Y = ao + a1 X , X = bo + b1 Y , respectivamente entonces : a1 b1 = r2

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

146

5.12 CORRELACIÓN GRADUAL O POR RANGOS.

En lugar de utilizar valores precisos de las variables, o cuando tal precisión no es ventajosa, los datos pueden ordenarse según su tamaño , importancia, etc. Utilizando los números 1,2,3, ...,N. si dos variables x e y se ordenan de

tal forma, el coeficiente de correlación gradual está dado por

gra . ( )drD

N N

1

6

1

2

2

Donde D = diferencia entre las graduaciones de los valores correspondientes de X e Y.

N = número de pares de valores ( x , y ) de los datos .

Dicha fórmula es llamada comúnmente como COEFICIENTE DE RELACIÓN DE SPEARMAN, es muy utilizado en investigación de mercado, especialmente cuando no se pueden aplicar medidas cuantitativas para ciertas características cualitativas tales como: preferencias, actitudes, capacidad de dirección de personal, belleza femenina y otras características de conductas. El significado del valor r es el siguiente : * Sise trata de dos clasificaciones idénticas r = 1 * Si se trata de dos clasificaciones inversa r = -1

* En los casos intermedios -1 r + 1. 5.13 REGRESIÓN NO LINEAL, REDUCIBLES A LINEAL.

Hay situaciones en las que el modelo lineal no es adecuado al fenómeno que se analiza. Existen otros métodos basados en el mismo principio de ajuste que la regresión lineal(minimizar los cuadrados de los residuos), en muchos casos reducibles a lineal(transformando las variables): en el caso de las regresiones:

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

147

Exponencial: ebx

aY .

Potencial: xb

aY .

Logarítmica: )ln(. XbaY

EJEMPLO 1. En unas pruebas elásticas de rebote de un amortiguador de fricción, se obtuvieron para distintas altura de caída del peso libre, las altura de rebote que figuran en la siguiente tabla ; determinar la recta de regresión correspondiente y determinar el coeficiente de correlación r para las dos

variables,

X : altura de caída ( dm ) Y : altura de rebote ( m.m)

1.2 1.9 2.4 1.3 3.2 2.1 4.3 3.4 5.7 2.0 7.0 3.8 9.0 3.3

Evidentemente, a mayor altura de caída, mayor altura de rebote. Se trata de dos variables dependiente, existiendo una relación positiva entre ellas. SOLUCIÓN : Efectuemos la gráfica de los puntos del ejercicio.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

148

Altura de Rebote (mm)

4 3 2 1 1 2 3 4 5 6 7 8 9 Altura de caída (dm)

Luego, dispondremos los cálculos en forma de tabla

PUNTOS X Y X .Y X2 y2

1 1.2 1.9 2.28 1.44 3.61

2 2.4 1.3 3.12 5.76 1.69

3 3.2 2.1 6.72 10.24 4.41

4 4.3 3.4 14.62 18.49 11.56

5 5.7 2.0 11.40 32.49 4.0

6 7.0 3.8 26.60 49 14.44

7 9.0 3.3 29.70 81 10.89

32.8 17.8 94.44 198.42 50.6

Cómo : Y = ao + a1 X,

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

149

0

2

2 2aXX

Y X XY

N X

( )( ) ( )( )

( )

0 2

17 8 198 42 32 8 94 44

7 198 42 32 8

434 244

3131013869a

( . )( . ) ( . )) . )

( )( . ) ( . )

.

..

1 2 2aX

N XY X Y

N X

( )( )

( )

1 2

7 94 44 32 8 17 8

7 198 42 32 8

77 24

313100 2466a

( )( . ) ( . )( . )

( )( . ) ( . )

.

..

Luego la recta de regresión de X sobre Y , es : y = 1.3869 + 0, 2466X

rN XY X Y

N X X N Y Y

( )( )

( ) ( )2 2 2 2

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

150

r

7 94 44 32 8 17 8

7 198 42 32 8 7 50 6 17 8

77 24

11697 416

77 24

1081542 2

( , ) ( , )( , )

( )( . ) ( . ) ( )( . ) ( . )

.

.

.

.

r = 0.714 COMENTARIO : No es un coeficiente de correlación demasiado alto , por lo que es posible que la recta de la regresión antes buscada no pueda utilizarse para efectuar previsiones. La probabilidad de asegurar una cierta altura de rebote para una altura de caída del peso libre determinada, es bastante baja. EJEMPLO 2

Calcular el error típico de la estima , Syx ; como también, la variación total, la

variación no explica y la variación explica, para los datos del ejemplo 1. SOLUCIÓN : En la siguiente tabla aparecen los valores reales de Y, y los valores de y estimado obtenidos con la recta de regresión : y = 1.3869 + 2466X obtenida anteriormente.

Por ejemplo cuando X = 1.2 se obtiene que

Yest. = 1.3869 + 0,2466 ( 1.2) = 1.3869 + 0.29592 = 1.68

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

151

X 1.2 2.4 3.2 4.3 5.7 7.0 9.0 32.8

Y 1.9 1.3 2.1 3.4 2.0 3.8 3.3 17.8

Yest. 1.68 1.97 2.17 2.44 2.79 3.11 3.60 17.76

( Y -Yest )2 0.04 0.44 0.004 0.92 0.62 0.47 0.09 2.58

( Y - y_

)2 0.40 1.53 0.19 0.73 0.29 1.58 0.57 5.29

( Yest - y_

)2 0.73 0.32 0.13 0.01 0.06 0.32 1.12 2.69

y_

=17 8

72 54

..

a) error Típico dela estima :

yx

est

Syy

N

( ).

2

2 58

70 60

..

b) Varianza total = ( )_

Y Y 2 = 5.29

c.) Variación no explicada = ( Y -Yest )2 = 2.58

d.) Variación explicada = ( ) ._

estY Y 2 2 69

Podemos también calcular a r por la formula:

rV licada

V total

.exp

.

.

..

2 69

5290 713

EJEMPLO 3. Calcular el coeficiente de correlación gradual para los datos del Ejemplo 1.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

152

SOLUCIÓN : Ordenando las alturas de caída en forma ascendente tenemos :

Datos: 1.2, 2.4, 3.2, 4.3, 5.7, 7.0, 9.0

Graduación: 1 2 3 4 5 6 7

De igual forma , las alturas del rebote ordenados en sentido creciente son :

Datos: 1.3 1.9 2.0 21 3.3 3.4 3.8

Graduación: 1 2 3 4 5 6 7

Luego formamos una tabla que represente los datos antes dados, lo mismo que represente sus respectivas graduaciones.

X

1.2 2.4 3.2 4.3 5.7 7.0 9.0 32.8

Y

1.9 1.3 2.1 3.4 2.0 3.8 3.3 17.8

Graduación de x 1

2

3

4

5

6

7

Graduación de y

2

1

4

6

3

7

5

D

-1 1 -1 -2 2 -1 -2

D2

1 1 1 4 4 1 4 16

Entonces :

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

153

gra . ( )drD

N N

1

6

1

2

2

gra

( )

( ). .

dr

16 16

7 17 11

96

3361 0 285 0 715

2

Que concuerda con el valor de r obtenido en el ejemplo 1. EJEMPLO 4. En 1965, Babich, Jacobson y Bubash realizaron un experimento para demostrar que el ácido ribonucleico ( ARN) está relacionado con la memoria. El experimento consistió en condicionar 8 ratas a aproximarse a comer cuando se encendía una bombilla. Una vez condicionadas se extrajo de su cerebro ARN ; estas pertenecían al grupo A del experimento, también se realizó una extracción de ARN de un grupo de 8 ratas no sometidas a este condicionamiento. Se eligieron posteriormente 16 ratas que fueron divididas al azar en dos grupos A Y B . Las ratas del grupo A recibieron ARN procedente de las ratas condicionadas. las ratas del grupo B recibieron ARN procedentes de las rata no condicionadas Ambos grupos se colocaron en cajas de Skinner y durante el experimento se encendió 25 veces la bombilla. La contabilización del número de aproximaciones a la comida producidas después del estímulo luminoso está indicado en la siguiente tabla.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

154

GRUPO A GRUPO B

RATA Nº APROX. RATA Nº APROX.

1 3 9 0 2 10 10 1 3 8 11 2 4 9 12 1 5 10 13 0 6 1 14 3 7 7 15 0 8 4 16 1

Calcular el grado de relación por rango. SOLUCIÓN : Ordenamos en sentido ascendente de magnitud, las aproximaciones del grupo

A : 1, 3, 4, 7, 8, 9 10 ; 10

Puesto que en esta ordenación los lugares séptimo octavo representan la misma aproximación ( 10) , le asignamos a estos dos lugares un orden medio de 7.5 (7+8 = 15/ 2 =7.5 ).

Graduación : 1, 2, 3, 4, 5, 6, 7.5, 7.5

Ordenamos de igual forma las aproximaciones de grupo

B :

0, 0, 0, 1, 1 1 2 3

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

155

Graduación : 2 2 2 5 5 5 7 8

Formemos una tabla para el cálculo .

X 3 10 8 9 10 1 7 4 52

Y 0 1 2 1 0 3 0 1 8

Graduación de X 2 7.5 5 6 7.5 1 4 3

Graduación de Y 2 5 7 5 2 8 2 5

D 0 2.5 -2 1 5.5 -7 2 -2

D2 0 6.25 4 1 30.25 49 4 4 98.50

Luego:

gra . ( )drD

N N

1

6

1

2

2

gra

( . )

( ).

dr

16 9850

8 8 11

591

5040172

2

Podemos concluir diciendo que , aunque la diferencia entre los dos grupos es una diferencia significativa que prueba o da entender que el ARN actúa como soporte de la memorización, no podemos decir que dos grupos A y B se relacionen.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

156

EVALUACION SOBRE LA UNIDAD Nro. 5 5.1 La siguiente tabla da las dos primeras puntuaciones, denotadas por X e Y, respectivamente, de 10 estudiantes en dos pruebas de biología.

Puntuación en la primera prueba ( x): 6, 5, 8, 8 7, 6, 10, 4, 9 7 Puntuación de la segunda prueba (y) : 8, 7, 7, 10, 5, 8, 10, 6, 8, 6, a. Construir el diagrama de dispersión. b. Hallar la recta de regresión de los mínimos cuadrados de y sobre x. c. Hallar la recta de regresión de los mínimos cuadrados de X sobre Y. d. Representar las dos rectas de regresión sobre el diagrama de dispersión. 5.2 Hallar Syx y Sxy para los datos del problema anterior. 5.3 Calcular la variación total, la variación no explica y la variación explicada, para los datos del problema 8.1 5.4 Utilizando los resultados del problema 8.3 Hallar el coeficiente de

correlación. 5.5 Hallar el coeficiente de correlación mediante la formula producto- momento y formula de SPEARMAN.

5.6 se produjo un experimento con el fin de estudiar el efecto de un cierto

medicamento en bajar la rapidez de los latidos del corazón en los adultos. La variable independiente es la dosis en milagro del medicamento y la variable dependiente es la diferencia entre la rapidez más baja siguiente a la administración del medicamento y un control antes de administrar el medicamento. Se reunieron los siguientes datos.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

157

REDUCCIÓN EN LA RAPIDEZ

DOSIS(mg) DEL CORAZÓN ( Latidos / min.)

X Y

0.50 10

0.75 8

1.00 12

1.25 12

1.50 14

1.75 12

2.00 16

2.25 18

2.50 17

2.75 20

3.00 18

Construir un diagrama de dispersión, obtener las ecuaciones de regresión y trazar su gráfica en el diagrama de dispersión, calcular el coeficiente de correlación por todo los sistemas vistos hasta el momento. 5.7 Para medir la reacción de un grupo de consumidores respecto a la

presentación de un producto, se tomaron 12 personas y se integraron en cuanto al concepto que le merecen la presentación tradicional de este producto, luego se les presenta el mismo articulo en su nuevo empaque. Las mediciones se efectuaron utilizando una escala de 25 puntos y se obtuvieron los siguientes resultados ( para cada una de las personas ).

Antes : 6 10 14 17 6 6 11 14 10 17 11 13.

Después :

10 13 18 12 9 8 12 18 17 20 18 15

Calcular el coeficiente de correlación de SPEARMAN.

5.8 La siguiente tabla muestra la edad X, y la presión sanguínea Y de 12 mujeres.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

158

EDAD ( X)

56 42 72 36 63 47 55 49 38 42 68 60 PRESIÓN (Y)

147 125 160 118 149 128 150 145 115 140 152 155

a.. Hallar el coeficiente de correlación entre X e Y. b. Determinar la ecuación de regresión de mínimo cuadrados de Y sobre X. c. Estimar la presión sanguínea de una mujer de 45 años. 5.9 Se compararon dos métodos de medir el rendimiento cardiaco a 10 animales experimentales con los resultados siguiente.

MÉTODO I : 0.8, 1.0, 1.3, 1.4, 1.5, 1.4, 2.0, 2.4, 2.7, 3.0

MÉTODO II : 0.5, 1.2, 1.1, 1.3, 1.1, 1.8, 1.6, 2.0, 2.4, 2.8

a. Preparar un diagrama de dispersión b. Calcular el coeficiente de correlación , por los métodos vistos. c- Obtener una ecuación de regresión adecuada. 5.10 En un acero aleado, la adición progresiva de manganeso permite dejando constante los de más componentes de la aleación, aumentar la dureza, que se mide en este caso especifico por el método de Brinell . Se han realizado diversas coladas con sus probetas correspondientes, relacionándose el porcentaje de manganeso. (% Mn) con la dureza obtenida en el ensayo Brinell (DB) según los datos que figuran en la tabla. a. Determinar si existe relación entre las dos variables. b. obtener la ecuación de regresión para el sistema. c. Elaborar la gráfica de regresión.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

159

X Y

%Mn DB 0.115 60 0.20 125 0.30 105 0.32 145 0.33 195 0.425 160 0.52 140 0.59 200 0.67 180 0.78 215

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

160

UNIDAD N° 6

INTRODUCCIÓN A LAS COMPUTADORAS

OBJETIVO DE LA UNIDAD: Identificar la algunos paquetes estadísticos( Excel, statgraphics) como herramientas de trabajo estadístico.

CONTENIDOS:

6.1 La computadora en la Estadística

6.2 Introducción a Microsoft Excel

6.2.1 Grafica en Excel

6.3 Manejo del Statgraphics

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

161

6.1 LA COMPUTADORA EN LA ESTADÍSTICA

Las computadoras están ocasionando una verdadera revolución: la revolución científico- técnica. En la última década han tenido lugar cambios revolucionarios en la sociedad debido a la rápida difusión de la tecnología de computadoras; cambios en nuestros negocios, nuestros hogares y nuestros salones de clases. La necesidad de efectuar un gran número de cálculos aritméticos como parte del análisis estadístico de los datos sólo vive en el recuerdo de aquellos investigadores y practicantes cuyas carreras son anteriores a la llamada “revolución de las computadoras”. Las computadoras pueden ejecutar cálculos mas rápidos y mucho mas precisos de lo que puede un ser humano. El uso de las computadoras hace posible que los investigadores dediquen más tiempo a mejorar la calidad de los datos originales y a la interpretación de resultados. Durante los últimos veinte años, el campo de la estadística ha cambiado dramáticamente mediante el desarrollo de SOFWARE de computadoras especialmente escrito para el análisis estadístico. Durante los ochenta, el SOFWARE estadístico experimento una vasta revolución tecnológica; rápidamente se dispuso de programas de computación o paquetes como SAS, SPSS, MINITAB, MYSTAT Y STATGRAPHICS ; los que con el uso cada vez mayor de los paquetes de hojas de cálculos populares como LOTUS Y EXCEL, llevaron a la incorporación de peculiaridades estadísticas en estos paquetes. El final de la década de los ochenta y el principio de los noventa representaron un periodo continuo de avances tecnológicos; mientras que los primeros paquetes desarrollados para las computadoras personales sólo estaban disponibles para maquinas IBM o compatibles, actualmente los paquetes han sido adaptados al ámbito de las computadoras MACKINTOSH.

Aunque el SOFTWARE estadístico ha hecho factible incluso los análisis más

sofisticados, los problemas surgen cuando usuarios inexpertos en estadística, que no comprenden las premisas que están detrás de los procedimientos o las limitaciones de los resultados obtenidos, son engañados por la salida estadística generada por la computadora.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

162

El papel principal del experto en estadística o del investigador, es analizar e interpretar los resultado; el papel de la computadora es ayudar en este proceso. La computadora es una herramienta en extremo útil que puede almacenar, organizar y procesar información con facilidad y rapidez y proporcionar resultados, tablas y graficas resumidas. Para interactuar en forma apropiada con la computadora, el investigador no sólo tiene que estar familiarizado con el paquete del programa en uso, sino que además tiene que seleccionar correctamente los procedimientos estadísticos apropiados para la tarea que se trata. Por ejemplo, la grafica de pastel y las tablas de clasificación cruzada sólo sirven como información cualitativa; es inadecuado solicitar gráficos del ejemplo anterior para variables cuantitativas continuas, a menos que antes hayan sido clasificadas, como en una distribución de frecuencias. por otra parte, las medias, medianas, rango y desviación estándar sólo se deben usar para variables cuantitativas; es totalmente ocioso ordenar a la computadora que produzca resultados para variables cualitativas; el resultado no tendría sentido. 6.2 INTRODUCCIÓN AL MICROSOFT EXCEL La plantilla electrónica Excel, se reveló como una aplicación computacional poderosa la cual permite efectuar cálculos estadísticos relativamente complejos. Su uso en la estadística, aunque no es lo ideal, permite resolver la mayor parte de las situaciones comunes y economiza tiempo al acabar con la demora en la repetición de largos y complejos cálculos estadísticos, lo cual ocurría con los métodos basados en el lápiz, el papel y las calculadoras. 6.2.1 INGRESO AL PROGRAMA Para iniciar el trabajo con la hoja electrónica Microsoft Excel desplace el mouse hasta el botón rotulado inicio que aparece en la parte inferior

izquierda de la pantalla inicial de Windows, se abre una pantalla de opciones. Lleve el marcador del mouse a la opción programas, cuando se abre otra pantalla; lleve el puntero hasta la carpeta Office o al icono del Microsoft Excel para dar ingreso a la hoja electrónica.

6.2.2 FUNCIONES ESTADÍSTICAS Dentro de las funciones predefinidas de Excel se encuentran:

DESVEST(a,b,c,...) es la desviación estándar de los datos de la

muestra a,b,c...

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

163

DESVPROM(a,b,c,...) calcula la media aritmética de las desviaciones

en valor absoluto de los números a, b, c,... con respecto a la media de los mismos números.

VAR(a,b,c,...) calcula la varianza de los datos de la muestra a,b,c,..

MAX(a,b,c,d,…) determina el máximo de los números a,b,c,d,...

MEDIANA(a,b,c,...)halla la mediana de los números a,b,c,...

MIN(a,b,c,...) encuentra el mínimo de los números a,b,c,...

MODA(a,b,c,...) muestra el valor modal de los números a,b,c....

PROMEDIO( a,b,c,...) calcula la media aritmética de los números

a,b,c,...

Cuando los datos están en bloques es decir en celdas, es importante que usted sombree las celdas a trabajar y luego elija la función que desee.

6.2.3 GRÁFICOS EN EXCEL

Es muy fácil y rápido presentar los datos de una hoja empleando al ASISTENTE DE GRÁFICO, con el cual se puede escoger a partir de muchas

variaciones predefinidas y, además, personalizar cualquiera de esas opciones. La vinculación del grafico con los valores que le dieron origen también es sencilla, y cada cambio hecho en la hoja es actualizado automáticamente en la figura. Después de colocar en las columnas de la hoja de Excel los datos, sombree la o las columnas que desee obtener grafico; a continuación, utilizamos el mouse hacemos clic en el icono correspondiente al asistente para gráficos de Excel; al aparecer el cuadro de diálogo, seleccionamos el tipo de gráfico deseado y hacemos clic en el botón rotulado siguiente. Ahora escribimos los títulos para el gráfico, los ejes (X) y (Y); luego de completar la información necesaria, hacemos clic en el botón rotulado siguiente. El siguiente cuadro

de diálogo pregunta el lugar donde queremos situar el gráfico( en una hoja nueva o como objeto); luego de ubicarlo, hacemos clic en el botón rotulado siguiente. Finalmente hacemos clic en el botón rotulado terminar y la grafica se pega en la hoja designada.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

164

6.3 MANEJO DEL STATGRAPHICS Con este paquete estadístico usted podrá entrar, crear, modificar, borrar, salvar e imprimir archivos de datos y gráficas; podrá obtener estadísticas descriptivas y tablas de frecuencias, lo mismo que manejar distribuciones de probabilidad, hacer inferencia estadística, cruce de variables y análisis de regresión. Aunque el programa está escrito en ingles su uso es muy fácil porque da instrucciones en la parte baja de la pantalla en fondo rojo. 6.3.1 COMO ENTRAR AL PAQUETE STATGRAPHICS Supongamos que el paquete se encuentra instalado en el disco duro en un

directorio llamado STATG. Tan pronto tenga el prompt ( C:) escriba CD__STATG y presione ENTER. Cuando la pantalla muestre el siguiente

prompt (que puede ser C:STATG ) escriba STATGRAF, que es el nombre del archivo de ejecución, y oprima la tecla ENTER. A continuación aparece en pantalla el nombre del paquete, los fabricantes del mismo, la versión etc. Segundos después aparece en pantalla el menú principal.

STATGRAPHICS SATTISTICAL GRAPHICS SYSTEN

DATA MANAGENEN AND SYSTEM UTILITIES TIME SERIES PROCEDURES A. Data manegenen L. Forecasting

B. Sysyten Environnent M. Quality C. Report writer and Graphics Replay N. Saoothing D. Graphics Atributes O. Time series Analysis

PLOTTING AND DESCRIPTIVE ADVANCED PRODEDURES E. Plotting Functions P. Categorical Data Analysis

F. Descriptive Methods Q. Multivariate Methods G. Estimation and Testing R. Nonparametric Methods H. Distribution Functions S. Sanpling

I. Exploratory Data Analysis T. Experimental Design ANOVA AND REGRESSION ANALYSIS MATHEMATICAL AND USER PROCEDURES

J. Analysis of variance U. Mathematical Functions K. Regression analysis V. Macros and Functions.

Use el cursor para desplazarse en esta pantalla y al ubicarse presione enter. Las opciones de cada submenú están precedidas por una letra mayúscula; cada opción tiene una lista de procedimientos numerados.

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

165

BIBLIOGRAFIA

1. WYNE.DANIEL, BIOESTADISTICA BASE PARA EL ANALISIS DE

LAS CIENCIAS DE LA SALUD. LIMUSA.MEXICO 1983

2. SNEDECOR GEORGEW.YG.COCHERAN , METODOS

ESTADISTICOS ,CONTINENTAL S.A MEXICO 1971.

3. MOOD ALEXANDER M. GRAYBILL FRANKLIN A Y BOES DUANE

C. INTRODUCTION TO THEORY OF STATISCS. THIRD EDITTION

MC GRAW-HILL 1974

4. CONOVER W. J. PRACTICAL NONPARAMETRIC STATICS JHON

WILE Y SONS INC. NEW YORK. 1971

5. CONOVOS GEORGE C. PROBABILIDAD Y ESTADISTICA

APLICACIONES Y METODOS MC.GRAW.HILL MEXICO 1988.

6. CHAO LINCOLN L. ESTADISTICA PARA LAS CIENCIAS

ADMINISTRATIVAS 2 EDICION MC GRAWL HILL. 1975.

7 WALPOLE RONALD E. RAYMOND H. MYERS.PROBABILIDAD Y

ESTADISTICA 4 EDICION MCGRAWL-HILL MEXICO 1992.

8. LEVIN RICHARD Y. ESTADISTICA PARA ADMINISTRADORES 2

EDICION PRENTICE. HALL HISPANOAMERICANA S.A MEXICO

1988.

9. BOROVKOV A. A ESTADISTICA MATEMATICA MIR MOSCU 1984.

10. SIEGEL SEDNEY ESTADISTICA NO PARAMETRICA , APLICADA A

LAS CIENCIAS DE LA CONDUCTA TRILLAS , MEXICO 1989

___________________________MODULO DE ESTADISTICA UNO - ALBERTO QUINTO JIMENEZ

166