ESTADÍSTICA PARA EDUCACIÓN SUPERIOR SEGUNDA EDICIÓN · 9.5 Probabilidad simple y conjunta, y su...

ESTADÍSTICA PARA EDUCACIÓN SUPERIOR

SEGUNDA EDICIÓN

Mary Nieves Cruz Zuluaga

Institución Universitaria Esumer

Todos los derechos reservados. Se prohíbe la reproducción total o parcial de esta obra,

sea cual fuere el medio, sin permiso del editor.

Las opiniones expresadas en esta publicación son responsabilidad directa de sus autores

y no necesariamente representan los puntos de vista de la Institución Universitaria Esumer.

La correspondencia en relación con esta publicación debe dirigirse a la Oficina de

Comunicaciones de la Institución Universitaria Esumer, Calle 76 80-26, Carretera al Mar,

Medellín, Colombia, o a la dirección electrónica [email protected]

© Institución Universitaria Esumer ISBN 978-958-8599-15-1 Coordinación Editorial Comité Editorial Esumer Diseño de Portada Mónica Vasco Revisión y Evaluación Dirección de Investigación y Extensión Esumer

Corrección de Estilo Juliana Marcela Vélez Díaz

Diseño y Diagramación Sergio Andrés Calderón Ossa

Institución Universitaria Esumer Calle 76 80-26, Carretera al Mar Teléfono: (57) (4) 403 81 30 www.esumer.edu.co Medellín, Colombia Publicado y hecho en Colombia

Published in Colombia

CONTENIDO

Sobre la autora

Agradecimiento

Presentación

PARTE I

1. La estadística: Conceptos básicos

1.1 Definición de estadística.

1.2 Importancia de la estadística.

1.2.1 Importancia dentro del proceso de investigación científica.

1. La investigación.

2. Esquema general por el cual surge un proceso de investigación.

3. Metodología de la investigación científica.

4. La ciencia.

5. Planteamiento del problema.

6. Objetivo.

7. Justificación.

8. Marco de referencia.

9. Marco metodológico.

10. Hipótesis.

1.2.2 Importancia en todas las áreas del saber humano.

1.3 Clasificación básica de la estadística.

1.3.1 Estadística descriptiva.

1.3.2 Estadística inferencial.

Estadística para educación superior

1.4 Investigación estadística.

1.5 Población.

1.6 Muestra.

1.7 Unidad o elemento de investigación.

1.8 Variables.

1.8.1 Variables cualitativas.

1.8.2 Variables cuantitativas.

1.9 Base de datos.

2. Organización y procesamiento de la información

2.1 Tablas de frecuencia.

2.1.1 Para una variable cualitativa.

1. Frecuencia absoluta.

2. Porcentajes.

2.1.2 Para una variable cuantitativa sin agrupar por intervalos.

1. Frecuencia relativa.

2. Frecuencia absoluta acumulada.

3. Frecuencia relativa acumulada.

2.1.3 Para una variable cuantitativa agrupada por intervalos.

1. Marca de clase.

2. Amplitud de los intervalos.

3. Conformación de los intervalos.

4. Conteo de las frecuencias absolutas.

2.1.4 Para dos o más variables.

1. Tablas de clasificación cruzada para dos variables.

2. Tablas de clasificación cruzada para tres o más variables.

2.2 Gráficos estadísticos.

2.2.1 Representación visual.


2.2.2 Descripción de los gráficos estadísticos más utilizados.

1. Gráfico circular.

2. Gráfico de barras.

3. Histograma.

4. Polígono.

5. Ojiva.

6. Diagrama de dispersión.

7. Gráfica lineal para series de tiempo.

3. Medidas de tendencia central

3.1 La media.

3.1.1 Propiedades de la media.

3.2 La mediana.

3.2.1 La mediana para datos desagrupados.

3.2.2 La mediana para datos agrupados.

3.3 La moda.

4. Medidas de variabilidad

4.1 La varianza.

4.1.1 Propiedades de la varianza.

4.2 La desviación típica o estándar.

4.3 Coeficiente de variación.

4.4 El rango recorrido.

4.5 Recorrido intercuartílico.

5. Medidas de posición (los cuantiles)


5.1 Cuartiles.

5.1.1 Cuartiles para datos sin agrupar.

5.1.2 Cuartiles para datos agrupados.

5.2 Deciles.

5.2.1 Deciles para datos sin agrupar.

5.2.1 Deciles para datos agrupados.

5.3 Percentiles.

6. Medidas de asimetría y apuntamiento

6.1 Coeficiente de asimetría.

6.1.1 Distribución simétrica.

6.1.2 Distribución asimétrica.

6.2 Coeficiente de apuntamiento.

7. Ejercicios de aplicación resueltos

7.1 Precio de venta de bienes raíces.

7.2 Base de datos: Compañías por sector económico, ubicación geográfica y vinculación

de aprendices.

8. Ejercicios de aplicación propuestos

8.1 Ingresos quincenales.

8.2 Volumen de exportación mensual de empresas distribuidoras de artículos de cuero.

8.3 Gastos quincenales de las personas de un sector de la ciudad.

8.4 Millas recorridas por galón de gasolina.

8.5 Asistencia promedio de los empleados del departamento de producción.

8.6 Salario de los obreros según el turno diurno o nocturno.


8.7 Volumen de ventas semestral de establecimientos comerciales.

8.8 Ingreso semanal de los empleados ejecutivos de una corporación financiera.

8.9 Volumen de importación de papelerías especializadas.

8.10 Análisis estadístico de la sumatoria de las desviaciones respecto a la media.

8.11 Análisis estadístico sobre el grado de alejamiento de los datos alrededor de la

media.

8.12 Justificación estadística con frecuencias absolutas y relativas (caso específico).

8.13 Explicación matemático-estadística del cálculo de la varianza.

8.14 Cálculo del a media y la varianza utilizando una expresión algebraica que

representa la relación entre dos variables (caso específico).

8.15 Consumidores de latas de cerveza.

8.16 Ingreso quincenal de un grupo de empleados.

8.17 Percepción sobre el clima laboral.

8.18 Tiempo de permanencia del aroma de ambientadores adquiridos por un grupo de

amas de casa.

8.19 Análisis estadístico: Marca de clase y mediana.

8.20 Nivel de exportación mensual de las empresas confeccionistas de vestidos

ejecutivos.

8.21 Justificación estadística con frecuencia absoluta y relativa (caso específico).

8.22 Análisis estadístico: mediana, segundo cuartil, quinto decil, y percentil.

8.23 Unidades vendidas de computadores.

8.24 Auditoría de despacho y facturación de mercancía.

8.25 Investigación requerida por la unidad académica de una universidad, sobre el

perfil del estudiante.

8.26 Justificación estadística de proposiciones según el valor de verdad asignado.

8.27 Identificación del elemento o unidad de investigación, variable y clasificación.

8.28 Presupuesto anual en bienestar institucional de establecimientos educativos.

8.29 Preferencias por candidatos electorales.


8.30 Análisis estadístico del comportamiento asimétrico de las ventas en una cadena

de supermercados.

8.31 Tiempo empleado en efectuar transacciones financieras.

8.32 Trabajo social y análisis del gasto en alimentación.

8.33 Cadena de minimercados y el volumen de ventas.

8.34 Producción mensual en textiles.

8.35 Gasto en publicidad de almacenes distribuidores de maletines en cuero.

8.36 Número de empleados por secciones en una compañía e ingreso promedio.

8.37 Nivel de capacitación semanal en corporaciones de ahorro y vivienda.

8.38 Urbanización de tres torres destinada para el arriendo de apartamentos.

8.39 Volumen de importación anual de materia prima.

8.40 Consumidores potenciales de una bebida alimenticia.

PARTE II

9. Probabilidades

9.1 Conceptos básicos.

9.2 Enfoques básicos de las probabilidades.

9.3 Cálculo del valor de una probabilidad.

9.4 Axiomas básicos de probabilidad.

9.5 Probabilidad simple y conjunta, y su relación.

9.6 Probabilidad condicional.

9.7 Reglas de la adición y la multiplicación dentro del cálculo de probabilidades.

9.8 Teorema de Bayes.

9.9 Ejercicios resueltos.

9.9.1 Comercio y ventas: Enfoque frecuentista de probabilidades.

9.9.2 Producción-maquinaria

9.9.3 Análisis de características del personal por sexo y partido político.


9.9.4 Administración y planeación.

9.9.5 Desempeño laboral y atención al cliente: Empresa de servicios.

9.10 Ejercicios propuestos.

9.10.1 Distribución porcentual de las familias de un barrio, según la tenencia de

vivienda y carro propios.

9.10.2 Estudiantes de grado once con deseos de ingresar a la universidad.

9.10.3 Propietarios de acciones y bonos en una corporación financiera.

9.10.4 Medición de la eficacia de un procedimiento aduanero para detectar sustancias

alucinógenas.

9.10.5 Almacenes distribuidores de electrodomésticos.

9.10.6 Población adulta clasificada según lectores de prensa y votantes en elecciones.

9.10.7 Transporte de mercancía: Embarque de cajas con juguetes y ropa para bebé.

9.10.8 Solicitudes de afiliación a una organización para estudiantes universitarios.

9.10.9 Comerciantes y distribuidores de amplificadores de sonido, botiquines y

cosméticos.

9.10.10 Firma manufacturera y calidad del as piezas suministradas por los

proveedores.

9.10.11 Estudiantes de educación superior con teléfono celular, beeper y fijo

inalámbrico.

9.10.12 Control de calidad en una empresa manufacturera.

9.10.13 Amas de casa consumidoras de detergentes para el aseo del hogar.

9.10.14 Distribución de vuelos en una aerolínea.

9.10.15 Estudiantes universitarios con becas y vinculación laboral de medio tiempo.

9.10.16 Evaluación de un producto por parte de los consumidores, y grado de

aceptación del mismo en el mercado.

9.10.17 Producción de muebles modulares y control de calidad en el ensamblaje.

9.10.18 Producción y comercialización de maletines escolares.

9.10.19 Mercadeo y lanzamiento de un nuevo producto.

9.10.20 Perfil de clientes de un reconocido restaurante.


9.10.21 Secretaría de Desarrollo Comunitario y proyecto para jóvenes.

9.10.22 Distribución y comercialización de teléfonos.

PARTE III

10. Distribuciones de probabilidad

10.1 Asociación de probabilidad con conceptos de estadística descriptiva.

10.2 Función de densidad de probabilidad.

10.3 Función de distribución acumulativa de probabilidad.

10.4 Parámetros en las distribuciones de probabilidad.

10.5 Cálculo de probabilidades.

10.6 Distribuciones de probabilidad discretas.

10.6.1 Distribución binomial.

10.6.2 Distribución Poisson.

10.6.3 Distribución hipergeométrica.

10.7 Distribuciones de probabilidad continuas.

10.7.1 Distribución normal.

10.7.2 Distribución exponencial.

10.7.3 Distribución uniforme continua.

10.7.4 Distribución Chi-cuadrada.

10.7.5 Distribución T-student.


10.8.1 Producción de empaques (unidades defectuosas).

10.8.2 Venta de seguros de vida.

10.8.3 Pago de facturas por parte de los usuarios de una compañía de teléfonos

celulares.

10.8.4 Importación de chapas para puertas de seguridad e inspección de calidad.

10.8.5 Volumen de exportación mensual de una compañía de electrodomésticos.


10.8.6 Vida útil de las pilas de una cierta marca.

10.8.7 Llegada de clientes a un banco.

10.8.8 Producción de circuitos electrónicos y su vida útil.

10.9 Ejercicios de aplicación propuestos.

10.9.1 Unidades defectuosas en un proceso de manufactura.

10.9.2 Campaña de mercadeo para un club nacional de automovilistas.

10.9.3 Pago de compras con tarjeta de crédito en un almacén.

10.9.4 Control de calidad en cajas de bombillas.

10.9.5 Asistencia tarde al trabajo por parte de empleados.

10.9.6 Preferencias por determinado candidato a la presidencia.

10.9.7 Hogares con televisión por cable.

10.9.8 Tiempo de llegada de estudiantes a una biblioteca.

10.9.9 Número de estudiantes que llegan a una biblioteca.

10.9.10 Tiempo de llegada de clientes a la caja registradora.

10.9.11 Número de clientes que llegan a la caja registradora.

10.9.12 Tiempo y número de clientes que llegan a una compañía de teléfonos celulares.

10.9.13 Proceso de selección y contratación de personal en una entidad financiera.

10.9.14 Firma de asesores en comercio internacional para nuevos proyectos.

10.9.15 Cálculo de áreas bajo la curva de la distribución normal estandarizada.

10.9.16 Ventas anuales a crédito.

10.9.17 Gasto semanal en loncheras para niños.

10.9.18 Estatura de los alumnos de un colegio.

10.9.19 Peso promedio de las frutas de un cargamento a transportar.

10.9.20 Duración de las baterías de una cierta marca.

10.9.21 Salario medio mensual.

10.9.22 Notas en un examen de legislación.

10.9.23 Peso de un grupo de deportistas.

10.9.24. Gasto semanal en transporte por parte de un grupo de empleados.

10.9.25 Publicación sobre los salarios mensuales de contadores.


10.9.26 Fabricación de neumáticos y su vida útil.

10.9.27 Comisión mensual obtenida por un grupo de vendedores.

10.9.28 Vida útil de circuitos electrónicos.

10.9.29 Producción de arandelas: unidades aceptables y defectuosas.

10.9.30 Costo de trascripción e impresión de trabajo de tesis.

10.9.31 Puntaje en proceso de admisión para laborar en una empresa.

10.9.32 Tiempo de servicio en una compañía de reparación de fotocopiadoras.

10.9.33 Tiempo de espera en un restaurante.

10.9.34 Tiempo de servicio en una agencia de viajes.

10.9.35 Control de calidad en producción de bombillas eléctricas.

10.9.36 Vida útil de transistores importados por una firma nacional.

10.9.37 Transporte de mercancía en camiones hacia una bodega.

10.9.38 Servicio de taxis en un aeropuerto local.

10.9.39 Inducción y entrenamiento a un nuevo empleado.

10.9.40 Tiempo de llegada de clientes para pago de servicios públicos.

10.9.41 Contenido de cerveza envasada por botella.

10.9.42 Empaque de leche en polvo en una compañía de procesamiento de lácteos.

PARTE IV

11. Muestreo básico

11.1 Tamaño de muestra.

11.2 Relación entre el tamaño poblacional y el muestral.

11.3 Relación entre nivel de confianza, margen de error y error de estimación.

11.4 Total de muestras posibles a extraer de una población.

11.5 Clases de muestreo.

11.5.1 Muestreo aleatorio simple.

1. Muestreo aleatorio simple con reposición.


2. Muestreo aleatorio simple sin reposición.

11.5.2 Muestreo estratificado.

11.5.3 Muestreo por conglomerados.

11.5.4 Muestreo sistemático (muestreo tipificado).

11.6 Cálculo de estimativos poblacionales.

11.6.1 Estimación puntual.

11.6.2 Estimación por intervalos.

11.6.3 Estimación puntual y por intervalos para la proporción poblacional.

11.7 Ejercicios de aplicación resueltos.

11.7.1 Tamaño de muestra para una población de padres de familia.

11.7.2 Estimativo puntual y por intervalo de confianza para la media del ingreso

poblacional.

11.7.3 Estimación puntual y por intervalo de confianza para la proporción del uso de

transporte escolar.

11.7.4 Tamaño de muestra para un nivel de confianza del 95% y diferentes errores de

estimación.

11.7.5 Tamaño de muestra para adelantar un proyecto a cargo de la secretaría de

planeación de un municipio.


11.8.1 Proyecto de capacitación académica para dirigentes gubernamentales.

11.8.2 Estimación puntual e intervalo de confianza para la proporción de dirigentes

profesionales.

11.8.3 Plan de mercadeo y ayuda solidaria por parte de una empresa procesadora de

leche: Tamaño de muestra de familias.

11.8.4 Estimativo del promedio de litros de leche a donar semanalmente por familia.

11.8.5 Tamaño de muestra de ejecutivos en diferentes empresas multinacionales.

11.8.6 Estimativo de la proporción poblacional de ejecutivos que viajan.

11.8.7 Intervalo de confianza para la proporción poblacional de ejecutivos que viajan.

11.8.8 Estimativo del gasto total por concepto de viajes y estadía.


11.8.9 Tamaño de muestra para una población de empresas de una región

determinada.

11.8.10 Tamaño de muestra para una población universitaria.

11.8.11 Tamaño de muestra de televidentes para mercadear un producto.

12. Pruebas de hipótesis

12.1 Prueba de hipótesis para la media.

12.2 Prueba de hipótesis para la proporción.

12.3 Prueba Chi-cuadrado para la bondad de ajuste.


12.4.1 Proceso de producción: Prueba de bondad de ajuste.

12.4.2 Prueba de hipótesis para el promedio de exportación semestral.

12.4.3 Prueba de hipótesis para la proporción poblacional de cajas de CD-ROM en un

proceso de producción.


12.5.1 Número de empleados con trabajo pendiente para el día siguiente: Prueba de

bondad de ajuste.

12.5.2 Prueba de hipótesis para la proporción de población potencial que rechaza un

nuevo producto.

12.5.3 Prueba de hipótesis para el contenido promedio de latas de atún.

12.5.4 Prueba de hipótesis para el tiempo promedio de duración de velones especiales.

PARTE V

13. Análisis de regresión y correlación


13.2 Ajuste lineal.


13.2.1 Estimación de los parámetros.

13.2.2 Cálculo del pronóstico.

13.3 Error residual.

13.4 Coeficiente de correlación.

13.5 Medidas de variación en la regresión.

13.5.1 Variación total (VT).

13.5.2 Variación no explicada (VNE).

13.5.3 Variación explicada (VE).

13.5.4 Propiedades de las medidas de variación en la regresión.

13.6 Coeficiente de determinación (D).

13.7 Ajuste parabólico.

13.8 Ajuste exponencial.

13.9 Análisis de regresión en una serie de tiempo.


13.10.1 Ajuste de regresión entre el precio y la demanda de un producto.

13.10.2 Comportamiento de la captación de una cooperativa a través del tiempo:

Enfoque de regresión y correlación.


13.11.1 Análisis de regresión entre el precio de entrada a una sala de videos y el

número de estudiantes que entran.

13.11.2 Análisis de regresión entre la utilidad y el gasto en publicidad.

13.11.3 Análisis de regresión entre el nivel de ahorro y el ingreso.

13.11.4 Análisis de regresión: Utilidad a través del tiempo en una compañía

distribuidora de computadores.

13.11.5 Análisis de regresión: Ventas versus espacio asignado.

13.11.6 Análisis de regresión: Pasivo pensional a través del tiempo.

13.11.7 Análisis de regresión: Presupuesto ejecutado de egresos a través del tiempo.

13.11.8 Análisis de regresión: Crecimiento de la población a través del tiempo.

13.11.9 Análisis de regresión: Utilidad semestral.


Sobre la autora

Egresada de la Facultad de Estadística e Informática de la Universidad de Medellín;

Especialista en Gerencia de Proyectos de la Institución Universitaria ESUMER.

Ha sido docente en el área de estadística en la Universidad de Medellín y en la

Universidad Católica de Oriente, y actualmente es docente-investigadora de tiempo completo

en la Institución Universitaria Esumer.



Agradecimiento

A ti que no te veo, pero siempre estás presente, a ti que te debo la vida y todo lo que

soy, a ti que pensaste en mí desde antes de yo nacer, a ti que iluminas mi camino y llenas mi

vida de esperanza, a ti que me ayudas a soportar y a superar las diferentes dificultades que se

presentan en mi camino. Gracias infinitas por todo lo que me ofreces, por ayudarme a

perdonar, a superar los obstáculos y por las personas nobles que has puesto en las diferentes

etapas de mi vida.

Con amor,



Presentación

Este libro es el producto de muchos años de experiencia dedicados al estudio, la

investigación y la docencia en el área de estadística. Contiene los aspectos fundamentales que

todo profesional debe conocer para procesar estadísticamente información concerniente a

diversas aplicaciones económico-administrativas.

En el libro se maneja un lenguaje técnico, sencillo y de fácil comprensión, gracias a la

metodología clara y didáctica que permite visualizar explicaciones paso a paso en cada una de

las diferentes etapas de la solución de problemas o situaciones aplicadas al comercio nacional e

internacional, mercadeo, ventas, logística, administración y procesos de producción, entre

otras.

El texto se encuentra distribuido en cinco partes, cada una de ellas contiene la

explicación de la temática específica respectiva. En muchos casos se dan a conocer diferentes

formas de obtener los cálculos y de analizar los resultados; se cuenta con una serie de ejemplos

de aplicación resueltos y adicionalmente, con ejercicios de aplicación propuestos. En la Parte I

se encuentra la estadística descriptiva, organización y procesamiento de la información,

medidas de tendencia central, de variabilidad, de posición, de asimetría y apuntamiento; en la

Parte II se visualizan diferentes aspectos de probabilidades; en la Parte III, distribuciones de

probabilidad discretas y continuas; en la Parte IV, teoría de muestreo y pruebas de hipótesis; en

la Parte V, el análisis de regresión y correlación.


PARTE I

1. La estadística: Conceptos básicos

1.1 Definición de estadística.

La estadística es una ciencia que trata de la recopilación, organización, presentación, análisis e

interpretación de información, con el fin de realizar una toma de decisión efectiva.

1.2 Importancia de la estadística.

1.2.1 Importancia dentro del proceso de investigación científica.

1. La investigación.

Investigar es un verbo que denota una acción o movimiento, ¿a qué acción o

movimiento hace referencia?, la respuesta no es simple, porque su acción conjuga

simultáneamente diferentes verbos como descubrir, consultar, analizar, modelar, observar,

plantear, comprobar, crear, comparar; sin olvidar que también es una acción muy importante

dentro de todas las áreas del saber humano, trátese del ámbito académico, laboral, social,

económico, biológico, entre otros. Es por ello que se habla de diferentes niveles de

investigación y dentro de cada uno de éstos, del proceso de investigación.

Desde la niñez, todo ser humano investiga aún sin ser consciente de ello, el infante

observa y descubre nuevas sensaciones; con la experiencia de observar y descubrir por medios

propios se llega al conocimiento de algo nuevo, al menos para dicho ser humano. En todas las

etapas de la vida, de algún modo se investiga; durante el proceso de culturización y educación

se recurre a la investigación como elemento fundamental para la construcción de conocimiento.


La organización del sistema educativo es diferente entre países. En Colombia se cuenta

con diferentes niveles, denominados de forma genérica: primaria, secundaria, técnico,

tecnológico, profesional, especialista, magíster, doctorado. El proceso de investigación dentro

de cada uno de estos niveles educativos es diferente, así como el grado de profundidad de la

temática a tratar. Todas las ramas o áreas del saber humano, como lo son el área jurídica,

biológica, social, económica, contable, comercial, mercadeo, entre otras, cuentan con procesos

de investigación propios de la misma, no obstante, existen unos lineamientos generales a seguir

dentro de toda investigación científica.

2. Esquema general por el cual surge un proceso de investigación.

En el momento inicial se parte de una necesidad sentida o de un problema detectado. El

objetivo inmediato es satisfacer la necesidad o solucionar el problema, lo cual puede hacerse a

través de un proceso de investigación (ver figura 1).

Figura 1. Esquema general del surgimiento de un proceso de investigación

MOMENTO INICIAL

Necesidad Problema

OJETIVO

LA INVESTIGACIÓN

se parte de

resolversatisfacer

a través de


La necesidad también puede hacer referencia al simple deseo de conocer a profundidad

algún suceso.

En muchas ocasiones existe una familia de problemas, siendo éste el caso, el

investigador ha de estudiarlos en detalle hasta identificar el problema generatriz de los demás.

Si se efectúa una investigación para solucionar un problema que no es el generatriz o principal

se pierde el tiempo, el dinero y todo el trabajo invertido en el proyecto, porque los resultados

no contribuirán efectivamente a mejorar la situación inicial.

Surge una pregunta fundamental: ¿Cómo alcanzar el objetivo?, ¿cómo hacer las cosas

para poder solucionar el problema?, el cómo hacerlo hace referencia al método, y la explicación

de este método es precisamente lo que se denomina metodología de la investigación, lo que

implica procedimientos teóricos basados en análisis lógicos previamente comprobados por la

ciencia, y procedimientos empíricos basados en experiencia y opinión subjetiva.

La metodología de la investigación científica excluye las opiniones subjetivas del

investigador, eliminando todo rasgo de sentimiento afectivo frente al objeto (problema) que se

estudia.

3. Metodología de la investigación científica.

Es la explicación de cómo aplicar el método científico a una investigación; son los pasos y

estrategias que utiliza el método científico, el cual construye conocimiento basándose en el

análisis lógico del pensamiento intelectual y empleando leyes generales y particulares

reconocidas previamente por la ciencia. La ejecución ordenada de la serie de pasos desemboca

en la conformación de un proceso, caracterizado por ser sistémico, objetivo y racional. Cada una

de las ciencias utiliza una terminología propia (términos y conceptos), así como procesos de

investigación particulares al interior de la misma.


4. La ciencia.

Término empleado con gran frecuencia en el ámbito cultural y académico. Es difícil

definirla, se trata de un sustantivo abstracto, no se puede tocar, es intangible, es un sustantivo

común muy importante dentro de la evolución en el mundo real, se convierte en sustantivo

propio cuando se habla de una ciencia en particular.

Expresiones como la casa, la universidad, la empresa, el carro, el libro, etc., todos estos

son sustantivos comunes que identifican algo, de igual manera se identifica la ciencia, al afirmar

que la ciencia es una empresa. Esta empresa tiene unos empleados o trabajadores que se

llaman investigadores, los cuales trabajan con diferentes insumos:

Intelecto, pensamiento intelectual,

la observación,

la experimentación,

el conocimiento adquirido en el proceso de culturización del investigador,

leyes generales y particulares previamente reconocidas y comprobadas,

la realidad inicial de un suceso o evento.

Estos insumos se procesan mezclándolos entre sí, en el departamento de investigación. El

producto final es un producto no terminado. Este producto se llama conocimiento de la

realidad. Este producto tiene una presentación o empaque y llega al consumidor final

(personas) de diversas formas como:

Descripción,

explicación,

formulación,

predicción.


Este producto se cataloga como no terminado, porque en el momento en que se

demuestre lo contrario, se modifica o mejora el producto.

En todo proceso de investigación se recolecta información, motivo por el cual la

estadística es una herramienta de vital importancia dentro del estudio a realizar, porque

permite organizar, resumir y analizar la información, logrando la descripción, contrastación de

hipótesis y en muchas oportunidades, el planteamiento de pronósticos.

5. Planteamiento del problema.

Para comprender el concepto que se transmite con este título, se hace indispensable

concebir con gran claridad lo que es un problema y la acción de plantear.

Problema. Situación o evento considerado perjudicial o con un grado de positivismo

bajo, que de no solucionarse, genera consecuencias negativas. En ocasiones se requiere tomar

decisiones, pero el desconocimiento de aspectos directamente relacionados con la situación

impide la toma de decisiones acertadas; en este caso específico, la investigación parte de una

necesidad o falencia sobre algo. El problema ocurre en algún lugar, tiempo, espacio, y afecta a

alguien o algo de la vida real. Ese algo de la vida real que se ve afectado por el problema se

denomina objeto de estudio, por tal motivo, el objeto de estudio es aquella parte de la realidad

que ha de ser investigada.

Plantear. Es una acción (verbo) que describe o formula, a través de una frase, lo que está

aconteciendo. Esta acción es intelectual y requiere de un proceso mental, en el cual se asocia el

conocimiento del problema con la capacidad de redacción y transcripción del mismo. Se

requiere por lo tanto, conocer a profundidad el problema y transmitir con claridad el

conocimiento que se tiene de éste. Sólo en esta medida quedará un problema bien formulado.


Relacionando los conceptos de problema y de plantear, se deduce lo que es el

planteamiento de un problema: formular la situación problémica con un lenguaje sencillo y

claro, en el que fácilmente se pueda detectar cuál es la falencia, necesidad o inconveniente

respecto al objeto de estudio.

Para el planteamiento de un problema es fundamental conocerlo a profundidad, si no se

conoce a profundidad, se recomienda elaborar preliminarmente un diagnóstico de la situación,

identificando las causas del problema, además las consecuencias actuales y futuras en caso de

no ser solucionado (ver figura 2).

Figura 2. Problema visualizado a través del tiempo

Diagnosticar es examinar la situación actual (presente), a partir del pasado

(antecedentes) y mirar hacia el futuro. Las causas pueden estar en el presente o en el pasado, o

en ambos; las consecuencias pueden estar en el presente o en el futuro, o en ambos.

PASADO

Conocer:

Antecedentes

Causas generadas en el pasado

PRESENTE

Conocer:

Situación actual

Causas presentes

Consecuencias presentes

FUTURO

Conocer:

Posibles consecuencias

futuras


6. Objetivo.

Enunciado con el que se expresa la solución al problema de investigación. Dentro de la

Investigación existe un objetivo general y varios objetivos específicos.

Objetivo general. Es una frase de carácter enunciativo, a través de la cual se plantea la

solución del problema. Precisamente, lo que se va a hacer durante la investigación es solucionar

el problema, de ahí el lazo de unión tan fuerte entre el problema y el objetivo general.

Objetivos específicos. Son frases también de carácter enunciativo, a través de las cuales

se plantean las diferentes acciones que encaminan al investigador para alcanzar el objetivo

general. Todos los objetivos específicos, sin excepción alguna, deben apuntar al logro del

objetivo general; de aquí surge también un lazo de unión fuerte entre el objetivo general y los

objetivos específicos. El planteamiento de los objetivos también puede ser visualizado como un

árbol, donde el tallo está representado por el objetivo general y las ramificaciones constituyen

los objetivos específicos.

Los objetivos se plantean utilizando verbos en infinitivo —aquellos terminados en ar, er,

ir—, pero teniendo cuidado de que el verbo utilizado pueda lograrse o realizarse durante la

investigación. La investigación sólo tiene sentido cuando se alcanza el objetivo general, porque

es precisamente éste, el que plantea la solución del problema.

Algunos verbos en infinitivo que son utilizados con gran frecuencia dentro del

planteamiento de objetivos son los siguientes: conocer, describir, analizar, identificar, estudiar,

elaborar, entre otros.


7. Justificación.

Describe la importancia de efectuar la investigación. La justificación es el respaldo del

motivo considerado pertinente para la investigación; cobija todas las razones que se consideran

de importancia y por las cuales se efectúa la investigación. Responde a las preguntas: ¿Para qué

se hace la Investigación?, ¿por qué es importante efectuar la Investigación?

El diagnóstico realizado es una base o guía para elaborar la justificación, porque dentro

de éste se analizan las consecuencias de no solucionar el problema, es decir, las consecuencias

de no realizar la investigación cuyo objetivo es precisamente solucionar el problema. La

importancia de la Investigación radica precisamente en el hecho de tomar decisiones acertadas

al solucionar un problema, de tal forma que las consecuencias negativas se minimicen o se

eliminen totalmente dentro del evento o situación estudiada.

8. Marco de referencia.

Se conoce también bajo el término de marco referencial. En el lenguaje cotidiano, marco

es un objeto o bien tangible que encierra o delimita un área o superficie (ver figura 3).

Figura 3. Ilustración del marco de referencia

En la figura 3 se visualiza la referencia dentro de un marco; el marco está limitando a la

referencia. La referencia se utiliza para identificar, es un código establecido, por ejemplo, los

artículos de un supermercado tienen su referencia. La referencia Indica y establece; mientras

REFERENCIA MARCO


que el marco limita y encierra. En una investigación, estos dos conceptos no son tangibles, no se

puede tocar ni observar como si mirara un paisaje (referencia) en un cuadro (marco).

En una investigación generalmente se hace referencia a la teoría, al tiempo y al espacio;

por tal motivo, el marco referencial está conformado por el marco teórico, el marco espacial y

marco temporal.

Marco teórico. Una investigación se apoya en teorías y conceptos científicos ya

establecidos. Durante el proceso de culturización del investigador, éste aprende, asimila e

interioriza diversas teorías y conceptos científicos previamente comprobados por otras

personas o científicos; una investigación, en cuanto a teoría se refiere, no parte de la nada o de

cero, se soporta en teorías existentes y conocimiento previamente construido. Gracias a la

teoría ya existente, el investigador actual fundamenta el proceso de conocimiento. Visualizando

estos conceptos gráficamente se tiene la figura 4:

Figura 4. Ilustración del marco teórico

La teoría y el conocimiento científico se encuentran al interior de un marco que los

delimita, es este el motivo por el cual se habla de marco teórico. Es imposible que un

investigador avance en su proyecto si no tiene el conocimiento sobre la teoría científica

directamente asociada con la temática que se estudia. Cuando un investigador descubre cosas

totalmente nuevas y formula leyes que antes no existían, complementando de este modo a las

anteriores teorías, contribuye a la ampliación del marco teórico para futuras investigaciones.

TEORÍA CIENTÍFICA

MARCO


Marco espacial. Está constituido por un área física, una zona geográfica determinada,

una institución, una empresa, entre otros. Es la delimitación del lugar físico dentro del cual se

lleva a cabo la investigación. La representación gráfica está en la figura 5.

Figura 5. Ilustración del marco espacial

Marco temporal. Es la delimitación del tiempo durante el cual se lleva a cabo la

investigación. Intervalo o período de tiempo expresado en días, meses, semestres, años.

Gráficamente:

Figura 6. Ilustración del marco temporal

9. Marco metodológico.

Se delimita o especifica claramente la metodología que se emplea durante la

investigación. Gráficamente:

TIEMPO MARCO

ESPACIO MARCO


Figura 7. Ilustración del marco metodológico

Para especificar la metodología o sistematización del proceso dentro del método

científico, es indispensable tomar la decisión sobre el tipo de estudio que ha de ejecutarse, así

como el grado de profundidad del mismo. En todas las áreas o ramas del saber humano

(biología, administración, comercio, demografía, mercadeo, geología, política, economía,

química, física, etc.), existe la posibilidad de efectuar diferentes tipos de estudio como el

exploratorio, descriptivo, histórico, experimental, explicativo, estudio de casos, entre otros. Se

puede incluso conjugar simultáneamente diferentes tipos de estudio, además, variar el grado de

profundidad de los mismos.

Cada tipo de estudio presenta su metodología particular, sin embargo, tienen algo en

común y es precisamente, la recolección de la información, procesamiento y análisis de la

misma. No obstante, la técnica de recolección de información su procesamiento y su análisis

pueden cambiar, dependiendo del tipo de estudio por el cual se haya optado; pero lo que no

puede permitirse es de la falencia de información, por eso, sin excepción, en todo tipo de

estudio se recolecta información.

La información puede ser recolectada de diversas formas, tales como encuestas,

lecturas, Internet, archivos, observación, experimentación, entre otras. Es aquí donde juega un

papel importante la estadística, como herramienta fundamental para la recolección de

información, procesamiento, análisis, pruebas de hipótesis, relación entre variables,

pronósticos, probabilidades, modelamiento de eventos, entre otras actividades.

METODOLOGÍA MARCO


10. Hipótesis.

Es una proposición (frase) que describe un mensaje claro y sencillo, el cual ha de ser

verificado durante la investigación para comprobar si es verdadero o falso. Igualmente, durante

el proceso investigativo se puede efectuar comparación entre hipótesis contrastando una con

otra, o con otras.

Cada metodología en particular, dependiendo del tipo de investigación, tiene su forma

operacional propia de efectuar pruebas de hipótesis, que validen, acepten o rechacen la misma.

Este proceso de validación sigue los lineamientos del marco teórico asociado con el tipo de

investigación elegido.

El investigador parte de una realidad, supone resultados sobre lo que estudia, hace

conjeturas que posiblemente pueden acontecer en el futuro, pero que de algún modo no son

confiables totalmente, hasta no efectuar la prueba de validez de la hipótesis.

Las hipótesis están relacionadas con los objetivos de la investigación, porque constituyen

un recurso o medio de lograr los mismos; es por ello que la hipótesis tiene un lazo de unión

directo con el problema, porque ésta es planteada suponiendo una respuesta o alternativa de

solución al problema de la investigación.

Hipótesis alternativa. Las hipótesis que se plantean como alternativa de solución posible

al problema se consideran hipótesis alternativas o de trabajo, de ahí su nombre de hipótesis

alternativa.

Hipótesis nula. Es aquella hipótesis que se plantea totalmente opuesta o contraria a la

hipótesis alternativa o de trabajo. La hipótesis nula se plantea cuando se hace necesario

contrastar ésta con la realidad que supone el investigador (hipótesis alternativa o de trabajo).


1.2.2 Importancia en todas las áreas del saber humano.

Radica en sus grandes aplicaciones en las diferentes actividades que implican manejo de

información. En todas las áreas del saber humano se maneja información de alguna índole, de

ahí que la estadística es una herramienta vital para ayudar en el procesamiento, organización,

análisis y presentación de resultados.

Herramienta de vital importancia en la toma de decisiones.

Los métodos estadísticos se utilizan a diario, tanto en el sector público como en el

privado.

Indispensable su aplicación en el manejo y análisis de información económico-

administrativa: estudios econométricos, análisis financieros, análisis de portafolio de

inversiones, ventas, procesos de producción, investigaciones de mercado, políticas económicas

y administrativas, elaboración de presupuestos de inversión, campañas electorales, control de

calidad, análisis demográfico, entre otras.

1.3 Clasificación básica de la estadística.

La estadística se clasifica o divide en dos grandes ramas: la estadística descriptiva y la

estadística inferencial. El hecho de que exista esta división no implica que la inferencial esté

disociada de la descriptiva, por el contrario, la descriptiva es la base, sin la cual sería imposible

profundizar en conceptos inferenciales (ver figura 8).


Figura 8. Clasificación de la estadística

1.3.1 Estadística descriptiva.

Describe un conjunto de datos a través de la organización de los mismos y el cálculo de

medidas representativas; medidas que al ser interpretadas, hablan o describen al conjunto de

datos.

1.3.2 Estadística inferencial.

Tiene sus bases en la estadística descriptiva. Infiere o pronostica para la población,

tomando como base la muestra. Emplea técnicas probabilísticas, análisis de muestreo,

intervalos de confianza, pruebas de hipótesis.

1.4 Investigación estadística.

La estadística puede ser aplicada en todas las ramas del saber humano: investigaciones

de mercado, económicas, educativas, empresariales, biológicas, sicológicas, entre otras.

ESTADÍSTICA

Descriptiva

Observa y analiza el

comportamiento de

una serie de datos,

para describirlo de

manera global.

Inferencial

Realiza un trabajo conjunto

con la estadística

descriptiva, probabilidades,

muestreo para efectuar

pronósticos e inferencias.


Cuando se desea investigar, se parte de un problema, necesidad, o simplemente del

deseo por conocer lo que sucede bajo determinada situación. El problema necesita ser resuelto

y la necesidad hay que satisfacerla; por eso es importante plantear un objetivo general y unos

objetivos específicos que marquen las pautas para solucionar el problema o satisfacer la

necesidad.

Hay que tener definida la población y la muestra; si la investigación es a través del censo,

se trabaja con todos los elementos de la población; pero si la investigación se hace con una

parte representativa de la población, hablamos de muestreo.

El elemento o unidad de investigación es precisamente sobre quién deseamos hacer las

respectivas mediciones; y las mediciones constituyen las variables. Todo lo que necesitamos

medir, consultar o averiguar en cada uno de los elementos o unidades de investigación,

constituyen las variables. En ocasiones se necesita consultar (medir) características, en otras

ocasiones, valores numéricos (cantidades). Por eso se habla de variables cualitativas y

cuantitativas.

Se necesita recolectar la información suministrada por cada unidad o elemento de

investigación y que es alusiva a cada una de las variables. La recolección se efectúa con alguna

de las técnicas de recolección de información (encuestas, entrevistas, vía telefónica, vía e-mail,

anuarios estadísticos, archivos, bases de datos, entre otras).

Toda la información que se recolecta se organiza, se procesa estadísticamente, se

analiza, se concluye, y es en este momento cuando se alcanzan las metas u objetivos de la

investigación.


1.5 Población.

La población, en el campo de la estadística, no se entiende únicamente como el total de

personas de una zona geográfica determinada; la población también puede estar constituida

por el total de establecimientos, total de objetos, total de plantas, total de animales, entre

otros.

Es indispensable delimitar muy bien la población, cada investigación, cada problema en

particular por solucionar, tiene su respectiva población. Cuando la investigación se lleva a cabo

consultándole a todos los elementos de la población, se habla de censo.

1.6 Muestra.

Es una parte representativa de la población. Hablar de representatividad no es

seleccionar las mejores unidades o elementos a criterio del investigador, nunca deberá

entenderse en este sentido. La representatividad está asociada con el concepto de selección

aleatoria de unidades.

¿Cuántas unidades debe tener la muestra? (tamaño de la muestra) y ¿cuáles unidades

deben entrar a formar parte de esta muestra?, son dos problemas o interrogantes que se

resuelven a través de las técnicas de muestreo o lo que se denomina simplemente teoría de

muestreo.

La representatividad de la muestra se alcanza con procesos aleatorios (muestreo

aleatorio simple), esto significa que cada unidad o elemento de la población tiene igual

posibilidad de ser seleccionada para entrar a formar parte de la muestra.


Dependiendo del caso particular de la investigación, para el cálculo del tamaño de

muestra, se empleará la técnica de muestreo que más se ajuste al caso (muestreo aleatorio

simple, muestreo estratificado, muestreo por conglomerados, entre otros).

1.7 Unidad o elemento de investigación.

Una unidad está representada por uno y sólo un elemento de la población (en caso de

trabajar con censo), o por un elemento de la muestra (en caso de trabajar con muestreo).

1.8 Variables.

Una variable es todo aquello que se desea medir, consultar o averiguar, sobre cada

unidad o elemento de investigación.

1.8.1 Variables cualitativas.

Cuando lo que se desea medir, consultar, se refiere a una cualidad, atributo o

característica; generalmente está expresado en palabras o códigos que no son precisamente

valores numéricos sobre los cuales sea lógico efectuar operaciones aritméticas. Por ejemplo: el

estado civil, color de ojos, preferencia musical, estrato socioeconómico, entre otras.

1.8.2 Variables cuantitativas.

Cuando lo que se desea medir, consultar, se refiere a un valor numérico sobre el cual sea

lógico efectuar operaciones aritméticas. Las variables cuantitativas se encuentran a su vez,

clasificadas en dos grandes grupos: cuantitativas discretas y cuantitativas continuas.


Variables cuantitativas discretas. Son aquellas que sólo admiten valores enteros, por

ejemplo: número de hermanos, número de personas a cargo, número de cargos ocupados,

número de llegadas tarde al mes, volumen de ventas (en número de unidades).

Variables cuantitativas continuas. Son aquellas que admiten valores fraccionarios. Si los

datos originales no están expresados con cifras decimales, no significa que se trate

necesariamente de una variable cuantitativa discreta, porque lo importante es el significado de

la variable, lo que representa, para poder clasificarla en continúa o discreta. Por ejemplo:

volumen de ventas (en dinero), ingresos, gastos, arriendo.

1.9 Base de datos.

Está constituida por toda la información que se recolectó. Cada fila representa a cada

unidad o elemento de investigación, y cada columna representa a cada variable, aunque

también pueden existir columnas que representen datos de identificación. Esta base de datos

también es conocida con el nombre de sábana de datos.

Figura 9. Representación gráfica de una base de datos

EElleemmeennttoo oo

uunniiddaadd ddee

iinnvveessttiiggaacciióónn VVaarriiaabbllee 11 VVaarriiaabbllee 22 VVaarriiaabbllee 33 ……

EElleemmeennttoo 11

EElleemmeennttoo 22

EElleemmeennttoo 33

……


2. Organización y procesamiento de la información

La base de datos por sí sola no permite concluir acerca del total de datos, no permite

tomar decisiones, por tal motivo se necesita procesar la información recolectada, iniciando por

la organización de los datos a través de tablas de frecuencia, tanto univariadas (una sola

variable) como bivariadas o multivariadas (dos o más variables), la elaboración de gráficos

respectivos, el cálculo de medidas representativas que sean de utilidad para concluir respecto a

la información recolectada, y el análisis e interpretación de todos los resultados obtenidos.

2.1 Tablas de frecuencia.

Las tablas de frecuencia se pueden elaborar para variables cualitativas y cuantitativas

(discretas y continuas). Se puede hacer alusión a frecuencia absoluta, relativa, absoluta

acumulada y relativa acumulada. Cada una de las cuales tiene sus características e

interpretaciones particulares. A medida que se explica el diseño de las tablas de frecuencia se

menciona las propiedades y características de las diferentes clases de frecuencias.

2.1.1 Para una variable cualitativa.

Para una variable cualitativa, la frecuencia hace referencia al número de veces que se

repite determinada característica o atributo. El diseño de la tabla puede elaborarse de la

siguiente manera (figura 10):


Figura 10. Diseño de tabla de frecuencia para una variable cualitativa

Cada uno de los atributos de la variable constituye cada una de las categorías de la

variable, en este caso se cuenta con m categorías, cada una con su respectiva frecuencia

absoluta. Las categorías son mutuamente excluyentes porque un elemento o unidad de

investigación no puede pertenecer simultáneamente a varias categorías.

1. Frecuencia absoluta (fi).

Las frecuencias absolutas las identificamos con fi —se puede visualizar en la segunda

columna de la figura 10—. Las características de las frecuencias absolutas (fi) son:

1. Las frecuencias absolutas siempre son valores enteros y positivos. Se encuentran entre 0

y n. Siendo n el total de elementos o unidades de investigación, así: 0 ≤ fi ≤ n

2. La sumatoria de las frecuencias absolutas e igual a n:

∑

Fórmula (1)

CCaarraacctteerrííssttiiccaa NNúúmmeerroo ddee eelleemmeennttooss PPoorrcceennttaajjee

AAttrriibbuuttoo 11 ff11 PP11%%



…… …… ……

AAttrriibbuuttoo mm ffmm PPmm%%

TToottaalleess NN 110000%%


2. Porcentajes.

Es la representación porcentual o en términos relativos de cada una de las respectivas

frecuencias absolutas. Se calcula de la siguiente manera:

Fórmula (2)

La sumatoria de los Pi es igual al 100% de la información.

2.1.2 Para una variable cuantitativa sin agrupar por intervalos.

Para una variable cuantitativa sin agrupar en intervalos, la frecuencia hace alusión al

número de veces que se repite determinado valor de la variable. En este caso existirá una

frecuencia respectiva para cada valor diferente que tome la variable (ver figura 11).

Figura 11. Diseño de tabla de frecuencia para una variable cuantitativa sin agrupar por

intervalos

Esta tabla (figura 11) contiene m renglones (filas). Cada uno de los valores de Xi

representa cada una de las categorías que asume la variable, donde:

Xi = cada uno de los diferentes valores que tiene la variable.

XXii ffii hhii FFii HHii

XX11 ff11 hh11 FF11 HH11




…… …… …… …… ……

XXmm ffmm hhmm FFmm HHmm

TToottaall NN 11 -- --


m = número de valores diferentes que asume la variable.

fi = frecuencia absoluta; es el número de veces que se repite el valor Xi dentro de la serie

de datos original.

hi = frecuencia relativa.

Fi = frecuencia absoluta acumulada.

Hi = frecuencia relativa acumulada.

1. Frecuencia relativa (hi).

Es la relación entre la frecuencia absoluta, fi, y el total de datos n; es el grado de

representatividad de la fi frente al total, n; es el peso o ponderación de la fi dentro del total, n.

Es la representación porcentual (aún sin multiplicar por 100) de cada una de las respectivas

frecuencias absolutas. Las hi se calculan así:

Fórmula (3)

Características de las frecuencias relativas (hi):

1. Las frecuencias relativas siempre son valores fraccionarios positivos.

2. Las frecuencias relativas siempre se encuentran entre 0 y 1, así: 0 ≤ hi ≤ 1

3. La sumatoria de las frecuencias relativas siempre es igual a 1, así:

∑

Fórmula (4)

2. Frecuencia absoluta acumulada (Fi).

Consiste en ir acumulando las frecuencias absolutas (fi), así:


F1 = f1

F2 = f1 + f2

F3 = f1 + f2 + f3

F4 = f1 + f2 + f3 + f4

Fm = f1 + f2 + f3 +… + fm

También, se tiene que:

F2 = F1 + f2

F3 = F2 + f3

F4 = F3 + f4

Fm = Fm-1 + fm

Características de las frecuencias absolutas acumuladas (Fi):

1. El primer valor de las Fi siempre es igual al primer valor de las fi, así: F1 = f1.

2. El último valor de las Fi siempre es igual a n, así: Fm = n.

3. Las Fi siempre son valores enteros entre 0 y n.

3. Frecuencia relativa acumulada (Hi).

Es ir acumulando las frecuencias relativas (hi), así:

H1 = h1

H2 = h1 + h2

H3 = h1 + h2 + h3

H4 = h1 + h2 + h3 + h4

Hm = h1 + h2 + h3 +… + hm


También, se tiene que:

H2 = H1 + h2

H3 = H2 + h3

H4 = H3 + h4

Hm = Hm-1 + hm

Características de las frecuencias relativas acumuladas (Hi):

1. El primer valor de las Hi siempre es igual al primer valor de las hi, así: H1 = h1.

2. El último valor de las Hi siempre es igual a 1, así: Hm = 1.

3. Las Hi siempre son valores fraccionarios entre 0 y 1.

2.1.3 Para una variable cuantitativa agrupada por intervalos.

Para una variable cuantitativa agrupada (organizada por intervalos), la frecuencia se

refiere al número de valores dentro de la serie de datos que se encuentran incluidos en el

intervalo respectivo. En este caso existirán tantas frecuencias como intervalos posea la tabla

que se elabore (figura 12).

Figura 12. Diseño de tabla de frecuencia para una variable cuantitativa agrupada por

intervalos

NNoo.. IInntteerrvvaallooss XXii ffii hhii FFii HHii

11 LLii -- LLSS XX11 ff11 hh11 FF11 HH11




…… …… …… …… …… …… ……

mm LLii -- LLSS XXmm ffmm hhmm FFmm HHmm

TToottaall -- -- nn 11 -- --


Esta tabla (figura 12) contiene m renglones que coinciden con el número de intervalos.

Los intervalos representan cada una de las diferentes categorías que asume la variable. Aquí, un

elemento o unidad de investigación no puede pertenecer simultáneamente a varias categorías.

En la tabla:

m = número de intervalos o número de marcas de clase.

Xi = marca de clase del intervalo i-ésimo.

fi = frecuencia absoluta del intervalo i-ésimo. Es el número de valores dentro de la serie

de datos original que se encuentran incluidos en el intervalo i-ésimo.

hi = frecuencia relativa.

Fi = frecuencia absoluta acumulada. Acumulación de las fi hasta el intervalo i-ésimo.

Hi = frecuencia relativa acumulada. Acumulación de las hi hasta el intervalo i-ésimo.

1. Marca de clase (Xi).

Es el punto medio del intervalo. Para su cálculo se suma el límite inferior del intervalo

más el límite superior del mismo intervalo, y luego se divide entre 2.

Luego de tener calculada la primera marca de clase, las siguientes pueden ser calculadas

siguiendo esta misma metodología o teniendo presente la amplitud que tienen los intervalos (C)

y la anterior marca de clase, así:

Fórmula (5)

En esta fórmula se trabaja con el límite inferior (Li) y el límite superior (Ls) del respectivo

intervalo i-ésimo. Si se desea calcular la primera marca de clase (X1) nos ubicamos en el

intervalo i=1 (primer intervalo). Para las siguientes marcas de clase, se puede emplear la

fórmula 5, o utilizar la fórmula 6:

Fórmula (6)


Por ejemplo:

X2 = X1 + C

X3 = X2 + C

X4 = X3 + C

2. Amplitud de los intervalos (C).

La amplitud de los intervalos es un número constante C, el cual puede ser entero o

decimal.

3. Conformación de los intervalos.

Los intervalos se conforman teniendo presente el rango o recorrido de toda la serie de

datos, el número de intervalos deseado, m y la amplitud constante, C de los intervalos, tal como

se explica a continuación.


Cuadro 1. Procedimiento para la conformación de intervalos

Paso 1: Identificar, dentro de la serie de datos original, el valor mayor y el valor menor:

Xmáx = Valor máximo o mayor

Xmín = Valor mínimo o menor

Paso 2: Calcular el rango, R:

R = Xmáx – Xmín

Paso 3: Calcular el número de intervalos (m). El número de intervalos puede ser calculado utilizando la siguiente fórmula, o también a criterio subjetivo del investigador, en otras palabras, el investigador puede definir el número de intervalos con los cuales desea trabajar:

m = 1 + 3,3 log (n)

Paso 4: Calcular o definir la amplitud que van a tener los intervalos (C):

= 𝑅

𝑚

Se puede trabajar con el valor que dé, o con una aproximación siempre por encima del resultado, sin importar la regla de aproximación de decimales (nunca aproximar por debajo).

Paso 5: Calcular el nuevo rango (R*):

R* = C ⋅ m

Paso 6: Comparar el nuevo rango (R*) con el rango inicial R: siempre se debe cumplir la condición de que el nuevo rango sea mayor o igual al rango inicial (nunca menor): R* ≥ R. En caso de no cumplirse esta condición, modificar los valores de C y de m, o de uno sólo (el que se desee). Lo más conveniente es que R* sea igual a R o tienda a ser igual al R, esto es, que el incremento del rango no sea muy alto (un valor pequeño).

Paso 7: Calcular el incremento del Rango (ΔR):

ΔR = R* – R

Repartir el incremento del rango en dos partes iguales (dividir el ΔR sobre dos), de la siguiente manera:

Xmín – (ΔR/2) = Li del primer intervalo

Xmáx (ΔR/2) = Ls del último intervalo

Paso 8: Conformar los intervalos: Primer intervalo: Al límite inferir del primer intervalo, sumarle el valor de la

amplitud C, para obtener el límite superior de ese intervalo. Segundo intervalo: Asignar como límite inferior del segundo intervalo, el límite

superior del primero, y luego, sumar de nuevo el valor de C, para obtener el límite superior del segundo intervalo.

Continuar de la misma manera hasta llegar al último intervalo (el m-ésimo intervalo).


4. Conteo de las frecuencias absolutas (fi).

Para el conteo de cada una de las frecuencias absolutas correspondientes para cada

intervalo, se debe primero tomar la decisión sobre cuál de los dos límites quedará abierto y cuál

cerrado. Hay que recordar que límite abierto significa que no se incluye el valor respectivo, y

límite cerrado significa que sí se incluye el valor respectivo; este detalle es muy importante para

no alterar las frecuencias, y por consiguiente, el total de datos que arroja la sumatoria de las

frecuencias absolutas.

Si se cierra el límite superior y se deja abierto el límite inferior, el único intervalo que

quedará cerrado en sus dos extremos es el primero; por el contrario, si se cierra el límite inferior

y se deja abierto el superior, el único intervalo que quedará cerrado en sus dos extremos es el

último.

2.1.4 Para dos o más variables.

Las tablas de frecuencia para dos o más variables reciben el nombre de tablas bivariadas

o multivariadas. La metodología para su elaboración es a través de cruce de variables. Cruzar

variables es analizar simultáneamente las variables; si se trata del cruce de dos variables, es

analizar simultáneamente las dos variables respectivas; si se trata de tres variables, es analizar

simultáneamente las tres variables respectivas; y así sucesivamente. El análisis de clasificación

cruzada se elabora a través del diseño de cuadros o tablas de doble entrada.

1. Tablas de clasificación cruzada para dos variables.

Se conoce también con el nombre de tabla de doble entrada. En la parte superior se

ubica una variable y en la parte izquierda la otra, cada una con sus respectivas categorías. Las

frecuencias absolutas ubicadas en cada uno de los cruces reciben el nombre de frecuencia

absoluta conjunta y los totales de las mismas por columna o por fila, se identifican como


frecuencias absolutas marginales. La sumatoria de los totales por fila y de los totales por

columna siempre debe sumar lo mismo (ver figura 13).

Figura 13. Diseño de tabla de clasificación cruzada bivariada

Para analizar porcentajes en una tabla de doble entrada se tienen tres opciones o

posibilidades:

Porcentajes con base en cada uno de los totales por fila.

Porcentajes con base en cada uno de los totales por columna.

Porcentaje con base en el gran total, es decir, el total ubicado en la esquina inferior

derecha de la tabla.

Para las interpretaciones de los porcentajes se debe tener en cuanta cuál de las

alternativas anteriores fue la elegida para elaborar los respectivos cálculos.

2. Tablas de clasificación cruzada para tres o más variables.

Para tres variables. Se tienen dos alternativas de diseño: una es ubicar dos variables en

la parte superior y una en la parte izquierda; la otra alternativa es ubicar dos variables en la

parte izquierda y una variable en la parte superior. La elección de cuáles van en un lado y cuales

en otro, depende de las necesidades de cada caso particular dentro de la investigación. Un

diseño puede ser como el que se muestra a continuación (ver figura 14); existen otros diseños,

VVaarriiaabbllee 22 VVaarriiaabbllee 11

TToottaall CCaatteeggoorrííaa 11 CCaatteeggoorrííaa 22 CCaatteeggoorrííaa 33 …… CCaatteeggoorrííaa nn

CCaatteeggoorrííaa 11

CCaatteeggoorrííaa 22

……

CCaatteeggoorrííaa mm

TToottaall


los cuales dependen de las características de cómo se desee organizar la información

recolectada.

Figura 14. Diseño de tabla de clasificación cruzada trivariada

Las frecuencias absolutas que se ubican en cada una de las posiciones de cruce se

denominan frecuencias absolutas conjuntas y las ubicadas en cada una de las casillas de totales

(por fila y columna) se denominan frecuencias absolutas marginales. Los porcentajes se calculan

con base en los totales por filas, columnas o el gran total; la interpretación y análisis del

porcentaje respectivo depende del total que se haya tomado como base para el cálculo. El gran

total se ubica en la esquina inferior derecha de la tabla y debe ser igual, tanto por filas como por

columnas.

Para más de tres variables. El diseño depende de las necesidades particulares que se

tengan al efectuar el cruce.

Si se tienen cuatro variables para cruzar:

Ubicar dos en la parte superior de la tabla y dos en la parte izquierda.

Ubicar tres en la parte superior y una en la izquierda.

Ubicar una en la parte superior y tres en la parte izquierda.

Si se tienen cinco variables para cruzar:

VVaarriiaabbllee

33 CCaatt..11((VV11)) CCaatt..22((VV11)) CCaatt..jj((VV11)) TToottaall

CCaatt..11((VV22)) CCaatt..22((VV22)) …… CCaatt..jj((VV22)) CCaatt..11((VV22)) CCaatt..22((VV22)) …… CCaatt..jj((VV22)) …… CCaatt..11((VV22)) CCaatt..22((VV22)) …… CCaatt..jj((VV22))

CCaatt..11((VV33))

CCaatt..22((VV33))

CCaatt..33((VV33))

……

CCaatt..kk((VV33))

TToottaall


Ubicar dos en la parte superior y tres en la izquierda.

Ubicar tres en la parte superior y dos en la izquierda.

Ubicar una variable en un lado y cuatro en el otro.

Para el cálculo y análisis de los porcentajes se debe tener en cuenta cuál de todos los totales

o subtotales se toma como base.

2.2 Gráficos estadísticos.

Los gráficos son una manera de complementar la información que se encuentra

organizada en una tabla, para asimilar de manera visual el comportamiento de la variable. Los

gráficos más utilizados son:

Gráfico de pastel o circular.

Diagrama de barras.

Histograma.

Polígono.

Ojiva.

Gráfico lineal (para series de tiempo).

Diagrama de dispersión y función de ajuste.


2.2.1 Representación visual.

Figura 15. Ejemplo de gráfico circular o de pastel

Televisión28,1%

Radio25,0%

Prensa14,1%

NR14,1%

Visita de Esumer12,5%

Valla publicitaria3,1%

Volante3,1%

Medios publicitarios por los cuales se da a conocer Esumer entre los bachilleres


Figura 16. Ejemplos de diagrama de barras

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

Excelente Bueno Regular Malo Ninguno

42,6% 44,1%

2,5%0,0%

10,8%

Concepto de los bachilleres encuestados, sobre Esumer

0%

10%

20%

30%

40%

50%

60%

70%

ME AF CI ASI

65,0%

20,0%

40,0%

20,0%

Grado de conocimiento que tienen los empresarios, de los programas de Esumer


Figura 17. Ejemplos de diagramas de barras bivariados

0%

10%

20%

30%

40%

50%

60%

Escuchar Hablar Leer Escribir

20,7%

14,4%

25,2%

12,6%

53,2% 51,4% 49,5% 49,5%

31,5%

39,6%

32,4%

38,7%

Nivel de dominio del Inglés, de los estudiantes de pregrado, según habilidades Avanzado

Intermedio

Básico

5,6%

5,6%

2,8%

5,6%

2,8%

8,3%

8,3%

8,3%

8,3%

13,9%

2,8%

19,4%

8,3%

5,6%

2,8%

8,3%

0% 5% 10% 15% 20% 25%

Administrativa

Financiera

Sistemas

Mercadeo

Ccio. Internacional

Áreas en las que el empresario considera que Esumer podria ofrecerle servicios de posgrado, consultoría y extensión

Extensión Consultoria/Asesoría Posgrado Pregrado


Figura 18. Ejemplo de diagrama de dispersión y función de ajuste

2.2.2 Descripción de los gráficos estadísticos más utilizados.

1. Gráfico circular.

La circunferencia se divide en sectores que representan los diferentes porcentajes, los

360 grados de la circunferencia representan el 100% de los datos. Se utiliza cuando las

categorías de la variable son mutuamente excluyentes.

2. Gráfico de barras.

Cada barra representa una categoría de la variable y su altura está asociada con la

frecuencia absoluta o relativa de la respectiva categoría. Este gráfico puede ser utilizado para

variable cuantitativa discreta y para variable cualitativa con categorías mutuamente

excluyentes, y también en categorías no mutuamente excluyentes.

0

10

20

30

40

50

60

70

80

1986 1987 1988 1989 1990 1991 1992 1993 1994

Ventas (millones de $)


3. Histograma.

Se parece al gráfico de barras, con la diferencia de que no hay espacio entre barra y

barra, las barras son consecutivas debido a que el histograma se utiliza para visualizar el

comportamiento de una variable cuantitativa continua, organizada por intervalos.

Generalmente en el eje X (eje horizontal) se ubican los intervalos y en el eje Y (eje vertical) se

ubican las frecuencias absolutas o relativas. La altura de cada barra del histograma representa la

frecuencia absoluta o relativa del intervalo respectivo.

4. Polígono.

Se toma como base para su elaboración, el histograma de frecuencias, se unen con una

línea los puntos medios de las alturas de cada una de las barras, esta gráfica lineal resultante es

llamada Polígono. En otras palabras, se está trabajando con las marcas de clase y las frecuencias

absolutas de cada intervalo.

5. Ojiva.

Se toman como base las marcas de clase de cada intervalo y las frecuencias absolutas

acumuladas, se unen mediante una línea, arrojando como resultado un gráfico lineal

ascendente por tratarse de frecuencias absolutas acumuladas.

6. Diagrama de dispersión.

Llamada también nube de puntos. Es utilizado para estudiar la relación existente entre

variables, cada punto representa una coordenada en el plano cartesiano (X, Y) referente al dato

real u original. Sobre el diagrama de dispersión se grafica la función de ajuste que representa a

la serie de datos originales. En determinados casos, una de las variables es el tiempo.


7. Gráfica lineal para series de tiempo.

Es usada para analizar el comportamiento de una variable a través del tiempo, o lo que

es lo mismo, para analizar dos variables conjuntamente siendo una de ellas el tiempo. En el eje

X (eje horizontal) se ubica el tiempo, en el eje Y (eje vertical) se ubica la otra variable, se señalan

puntos de cruce para cada unidad de tiempo con su respectivo valor de la variable y luego se

unen los puntos con una línea, la cual va mostrando el movimiento ascendente o descendente a

través del tiempo que puede presentar la variable analizada.


3. Medidas de tendencia central

3.1 La media.

Es la medida de tendencia central más importante y utilizada. Tiene en cuenta cada uno

de los valores de la serie de datos, se ve afectada por valores altos y bajos, así como también

por las respectivas frecuencias. Se identifica con , M(X) o también con la letra µ.

1. Media aritmética simple.

∑

Para datos desagrupados Fórmula (7)

∑

Para datos agrupados Fórmula (8)

∑ Para datos desagrupados y ponderados Fórmula (9)

2. Media aritmética ponderada.

Es utilizada cuando los diferentes valores de la variable tienen diferente peso o

ponderación, la ponderación está representada por los porcentajes de representatividad que

tiene cada valor de la variable.

∑ Fórmula (10)

En esta fórmula, los hi: los respectivos pesos o ponderaciones.


3.1.1 Propiedades de la media.

1. La sumatoria de las desviaciones respecto a la media siempre es igual a cero. La

expresión estadística ( ) se conoce con el nombre de desviación respecto a la

media. La desviación respecto a la media puede ser positiva o negativa dependiendo si el

valor de Xi se encuentra por encima o por debajo de la media, e incluso puede ser igual a

cero si el valor de Xi coincide con el de la media.

∑( ) Para datos sin agrupar Fórmula (11)

∑( ) Para datos agrupados Fórmula (12)

2. La media aritmética de una constante es igual a la constante misma.

( ) o Fórmula (13)

3. La media aritmética de una constante por una variable es igual a la constante por la

media de la variable.

( ) ( ) ó Fórmula (14)

4. La media total: Cuando tenemos una población dividida en subgrupos y para cada uno

de los subgrupos conocemos su respectiva media y el total de datos, siendo el objetivo

calcular la media total, es decir, la media para todo el grupo o media poblacional, se

calcula a través de la aplicación de la siguiente fórmula (media de medias):


∑

∑ Fórmula (15)

Donde:

media total o general

media de cada subgrupo i

total de datos del subgrupo i

3.2 La mediana.

Es el valor que ocupa la posición central en una serie de datos, lo que significa que el

50% de los datos se encuentran por encima de la mediana o son valores superiores a la mediana

y el otro 50% se encuentran por debajo de la mediana o son valores inferiores a la mediana. Se

identifica con el símbolo Me.

El cálculo de la mediana implica tener preliminarmente los datos organizados en orden

ascendente, y se halla de manera diferente en caso de tener los datos desagrupados o

agrupados.

3.2.1 La mediana para datos desagrupados.

Para n impar: ordenar los datos de menor a mayor.

Me es el valor de la variable que ocupa la posición (

)

Para n par: ordenar los datos de menor a mayor.

Me es el promedio de los valores de la variable que ocupan las posiciones (

) y [(

) ]


3.2.2 La mediana para datos agrupados.

Para variable continua: cuando los datos están agrupados en una tabla de frecuencia, los

valores ya se encuentran organizados de menor a mayor.

Cuadro 2. Pasos a seguir para determinar la mediana para datos agrupados, para variable

continua

Para variable discreta: a continuación se presenta el procedimiento:

Paso 1: Calcular (

2)

Paso 2: Buscar este resultado en la columna de las Fi (frecuencias absolutas acumuladas).

Paso 3: Efectuar las indicaciones que se presentan a continuación, en caso de encontrar o

no este valor.

En caso de encontrarlo En caso de no encontrarlo

- Señalar el valor de (

2) en la columna de las

Fi

- Ir al renglón siguiente y señalar Li

𝑒 = 𝑖

- Señalar el inmediatamente menor a (

2) en

la columna de las Fi e inmediatamente

identificarlo con el nombre de Fi-1

- Ir al renglón siguiente y señalar la

correspondiente frecuencia absoluta fi y el

respectivo límite inferior del intervalo Li

- Aplicar la siguiente fórmula:

𝑒 = 𝑖 +

2 𝐹𝑖 1

𝑖


Cuadro 3. Pasos a seguir determinar la mediana para datos agrupados, para variable discreta

3.3 La moda.

Es el valor de la variable que se repite con mayor frecuencia. Se identifica con Md.

Fórmula (16)

Siendo Xi un valor particular de la variable, en caso de estar analizando una tabla para

variable discreta, o un valor particular de una marca de clase, en caso de estar trabajando con

una tabla para variable continua.

Paso 1: Calcular (

2)

Paso 2: Buscar este resultado en la columna de las Fi (frecuencias absolutas acumuladas).

Paso 3: Efectuar las indicaciones que se presentan a continuación, en caso de encontrar o

no el valor respectivo.

En caso de encontrarlo En caso de no encontrarlo

- Señalar el valor de (

2) en la columna de las

Fi

- Señalar el valor de la variable ubicada en

ese mismo renglón e identificarla como Xi-1,

y el valor de la variable ubicada en el

renglón siguiente e identificarla como Xi


𝑒 = 𝑖 1 + 𝑖

2

- Señalar el inmediatamente menor a (

2) en

la columna de las Fi

- Ir al renglón siguiente y señalar el

correspondiente valor de la variable e

identificarlo como Xi


𝑒 = 𝑖


4. Medidas de variabilidad

Son utilizadas para analizar cómo varían, oscilan, van cambiando o se van distribuyendo

los valores de la variable.

4.1 La varianza.

Se identifica con Var(X), V(X), o simplemente σ2. Es un cálculo estadístico preliminar

para poder hallar la desviación típica o estándar, en otras palabras, la varianza y la desviación

típica o estándar van de la mano.

La varianza se define como el promedio de las desviaciones cuadráticas respecto a su

misma media. Toma como referencia para el análisis de la variabilidad, el promedio o media de

la variable.

( ) ∑( )

Varianza para datos desagrupados Fórmula (17)

( ) ∑( )

Varianza para datos agrupados Fórmula (18)

Nota. En las anteriores fórmulas para la varianza, n representa el total de datos que se están analizando, sin hacer

diferencia entre población y muestra. Cuando el estudio implica hacer diferencia en cuanto a la población y a la

muestra, hay que tener presente que N representa tamaño poblacional y n, tamaño muestral.

Al estar trabajando con muestreo, la varianza cambia por el nombre de cuasivarianza o

varianza muestral, la cuasivarianza está dada por:

( ) ∑( )

Fórmula (19)


Cuando se refiere a la cuasivarianza, se deja de identificar con σ2 y pasa a reconocerse

con el símbolo de S2.

4.1.1 Propiedades de la varianza.

1. La varianza siempre es un valor positivo. Var(X) ≥ 0

2. La varianza de una constante K es igual a cero. Var(K) = 0

3. La varianza de una variable más o menos una constante es igual a la varianza de la

variable. Var(X ± K) = Var(X)

4. La varianza de una constante por una variable es igual a la constante al cuadrado por la

varianza de la variable. Var(KX) = K2 Var(X)

4.2 La desviación típica o estándar.

Se identifica con σX o σ. Mide el promedio de variabilidad de los datos tomando como

referencia la media de la variable, es decir, analiza el grado de alejamiento o de dispersión de

los datos alrededor de la media. La desviación típica o estándar es la raíz cuadrada de la

varianza.

√ ( ) Fórmula (20)


4.3 Coeficiente de variación.

Se identifica con CV. Permite comparar la variabilidad de dos o más distribuciones

expresadas en unidades de medidas diferentes, con el fin de determinar cuál de ellas tiene una

mayor o menor variabilidad relativa. Se expresa en términos porcentuales.

CV= desviación típica / media aritmética

Fórmula (21)

4.4 El rango recorrido.

Se identifica con la letra R. Es la diferencia entre el valor máximo y el mínimo de la serie

de datos alusiva a la variable.

𝑅 Fórmula (22)

Simplemente muestra el recorrido de la variable, es decir el espacio en unidades dentro

del cual se encuentran los datos, pero no toma en cuenta como están distribuidos los datos

entre el valor máximo y el valor mínimo. No debe utilizarse como medida de dispersión cuando

se tienen observaciones extremas. Esta medida no permite saber nada acerca de los valores

intermedios de la variable y tampoco tiene en cuenta aquellos valores con mayor peso,

ponderación o importancia según la frecuencia.


4.5 Recorrido intercuartílico1.

Se identifica con RI. El recorrido intercuartílico, evita el problema de las observaciones

extremas, sin embargo no tiene en cuenta el 25% inicial de la serie de datos ni el 25% final de la

misma. Es indispensable tener la serie de datos organizada de menor a mayor (orden

ascendente), por tal motivo, al hacer referencia al 25% inicial, no es otra cosa más que el 25%

de los valores inferiores, y el 25% final, el 25% de los valores superiores.

El recorrido intercuartílico considera la extensión en el 50% medio de los datos, esta

extensión o recorrido está dada por la diferencia entre el cuartil de orden tres y el cuartil de

orden uno (ver figura 19).

Figura 19. Recorrido intercuartílico

𝑅 Fórmula (23)

El recorrido intercuartílico tiene la ventaja de no verse afectado por valores extremos,

sin embargo es desventajoso porque sólo mide la extensión en el 50% del centro de los datos y

por ello, no dice nada de la extensión de los datos totales, además, tampoco analiza cómo se

encuentran distribuidos los datos dentro de éste 50% central (entre Q1 y Q3).

1 Para comprender con mayor precisión esta medida se recomienda leer el tema de Medidas de posición, específicamente, los cuartiles.

Q1 Q2 Q3

50% medio de los datos


5. Medidas de posición (los cuantiles)

Los cuantiles son medidas de posición no central, se emplean para resumir o describir un

conjunto de datos tomando como base algunas posiciones específicas, teniendo

preliminarmente la serie de datos organizada en forma ascendente.

5.1 Cuartiles.

Los cuartiles dividen la serie de datos en cuatro partes iguales. Se calculan tres cuartiles:

Q1, Q2 y Q3 (ver figura 20).

Figura 20. Los cuartiles

5.1.1 Cuartiles para datos sin agrupar.

Cuando los datos no están organizados en una tabla de frecuencia, el procedimiento a

seguir es el que se describe en el siguiente cuadro:

Q1 Q2 Q3

Q1E l 25% de los datos son valores menores a Q1 , y el 75% de los datos son valores mayores a Q1

Q2E l 25% de los datos son valores menores a Q2, y el otro 50% de los datos son valores mayores a Q2 . El Q2 coincide con la mediana (Me)

Q3E l 75% de los datos son valores menores a Q3, y el otro 25% de los datos son valores mayores a Q3


Cuadro 4. Procedimiento para el cálculo de cuartiles con datos sin agrupar

( ) Fórmula (24)

5.1.2 Cuartiles para datos agrupados.

Cuando los datos están agrupados en una tabla de frecuencias, el procedimiento a seguir

es el siguiente:

Cuadro 5. Procedimiento para el cálculo cuartiles con datos agrupados

𝐹

Fórmula (25)

5.2 Deciles.

Los deciles dividen la serie de datos en diez partes iguales. Se calculan nueve deciles: D1,

D2, D3, D4, D5, D6, D7, D8, D9. El significado de cada decil es similar al análisis realizado para los

Paso 1: Calcular ×

4

Paso 2: Buscar este resultado en la columna de las frecuencias absolutas acumuladas y continuar con la misma metodología explicada para el cálculo de la mediana.

Paso 1: Organizar los datos de forma ascendente

Paso 2: Calcular la posición r ( +1

4)

Nota: Si el valor resultante del punto de posición es un entero, se selecciona la observación numérica particular correspondiente al punto de posición. Si el punto de posición resultante está en la mitad de dos puntos de posición, se selecciona la media de sus valores. Si el punto de posición resultante no es un entero ni un valor a la mitad de dos puntos, se utiliza la regla de aproximación empírica de redondeo al punto de posición del entero más cercano.

Paso 3: El cuartil de orden r esta dado por el valor de la variable que ocupa esta posición.


cuartiles, pero teniendo presente que se trata de una serie de datos dividida en 10 partes

iguales.

El decil de orden cinco, D5, coincide con el valor de la mediana.

D1: Significa que el 10% de los datos son inferiores a D1, y el otro 90% son valores

superiores a D1.

D4: Significa que el 40% de los datos son inferiores o están por debajo de D4, y el otro

60% están por encima o son valores superiores a D4.

5.2.1 Deciles para datos sin agrupar.

Cuando los datos no están organizados en una tabla de frecuencia, el procedimiento a

seguir es el siguiente:

Cuadro 6. Procedimiento para el cálculo de deciles con datos sin agrupar

(

) Fórmula (26)

5.2.1 Deciles para datos agrupados.

Cuando los datos están agrupados en una tabla de frecuencias, el procedimiento a seguir

es el que se indica a continuación:

Paso 1: Organizar los datos de forma ascendente

Paso 2: Calcular la posición r ( +1

10)

Paso 3: El decil de orden r esta dado por el valor de la variable que ocupa esta posición.


Cuadro 7. Procedimiento para el cálculo de deciles con datos agrupados

𝐹

Fórmula (27)

5.3 Percentiles.

Los percentiles dividen la serie de datos en 100 partes iguales. Se calculan 99 percentiles:

P1, P2, P3,…, P56, P57,…, P98, P99. Para calcular los percentiles se sigue la misma metodología

utilizada para los cuartiles y los deciles, simplemente que ya no se divide sobre 4 ó 10, sino

sobre 100 al calcular (

). Para su análisis también se emplea la misma metodología utilizada

en cuartiles y deciles, pero teniendo presente que la serie de datos está dividida en 100 partes

iguales.

Paso 1: Calcular ×

10

Paso 2: Buscar este resultado en la columna de las frecuencias absolutas acumuladas y continuar con la misma metodología explicada para el cálculo de la mediana.


6. Medidas de asimetría y apuntamiento

Son medidas utilizadas para analizar la forma como se distribuye la serie de datos. Se

estudia conjuntamente con la gráfica adquirida en el polígono de frecuencias.

6.1 Coeficiente de asimetría.

El coeficiente de asimetría es un cálculo estadístico que permite definir si una serie de

datos es simétrica o asimétrica.

𝑚

Fórmula (28)

Donde:

m3 = momento de orden tres respecto a la media, o tercer momento respecto a la

media.

σ = desviación típica o estándar.

Éstos son hallados de la siguiente manera:

𝑚 ∑( )

Fórmula (29)

√ ( ) Fórmula (30)

( ) ∑( )

𝑚 Fórmula (31)

La varianza es el mismo momento de orden dos respecto a la media. El coeficiente de

asimetría puede ser expresado utilizando el momento de orden dos y tres respecto a la media,

así:


𝑚

√𝑚

Fórmula (32)

Para definir la simetría se compara el resultado obtenido del cálculo As con el número

cero, así:

As = 0 Distribución simétrica.

As > 0 Distribución asimétrica positiva

As < 0 Distribución Asimétrica negativa.

6.1.1 Distribución simétrica.

En una serie de datos con distribución simétrica, los datos se encuentran concentrados

alrededor de la media de manera proporcional, tanto por encima como por debajo de la media.

Como es sabido, la media es una medida de tendencia central, algunos datos se encuentran por

encima o son mayores que la media y otros datos se encuentran por debajo o son valores

inferiores a la media e incluso, puede ocurrir que muchos de ellos coincidan con el valor de la

media. Cuando esta distribución se presenta de manera simétrica, tomando como punto de

referencia a la media, se concluye que la variable analizada se distribuye simétricamente.

Gráficamente, se puede detectar la simetría a través del polígono de frecuencias, cuando

éste presenta forma de campana (ver figura 21).


Figura 21. Representación gráfica de la simetría

Con la tabla de frecuencias, sin necesidad de efectuar el polígono, también se puede

detectar si la variable presenta distribución simétrica, esto se hace observando la columna de

las frecuencias absolutas (o también las relativas), si éstas comienzan a crecer hasta llegar a un

valor a partir del cual comienzan a decrecer de manera simétrica, es decir, el crecimiento y

decrecimiento de las frecuencias se presenta con características particulares, siendo la primera

frecuencia igual a la última, la segunda frecuencia igual a la penúltima y así sucesivamente. En

una distribución simétrica, las tres medidas de tendencia central son iguales; la media, la

mediana y la moda coinciden en su valor.

6.1.2 Distribución asimétrica.

La asimetría se presenta cuando la serie de datos de la variable no se distribuye

simétricamente respecto a la media. La asimetría puede ser positiva o negativa.

Asimetría positiva. La serie de datos presenta una mayor concentración de los datos

hacia la izquierda y una menor concentración a la derecha, bajo esta circunstancia, la serie de

datos presenta un sesgo o caída que se extiende hacia la derecha. Las tres medidas de

tendencia central son desiguales (ver figura 22).

Distribución simétrica


Figura 22. Representación gráfica de la asimetría positiva

Asimetría negativa. La serie de datos presenta una mayor concentración de los datos

hacia la derecha y una menor concentración a la izquierda, bajo esta circunstancia, la serie de

datos presenta un sesgo hacia la izquierda. Las tres medidas de tendencia central son desiguales

(ver figura 23).

Figura 23. Representación gráfica de la asimetría negativa

Distribución asimétrica negativa

Distribución asimétrica positiva


6.2 Coeficiente de apuntamiento.

Es un cálculo estadístico para analizar la altura de la distribución. La altura depende de

las frecuencias altas o bajas que se presenten en la serie de datos, lo cual puede visualizarse

claramente con el gráfico del polígono de frecuencias.

Para calcular el coeficiente de apuntamiento se efectúan las siguientes operaciones:

𝑚

Fórmula (33)

Donde:

m4 = momento de orden cuatro respecto a la media, o cuarto momento respecto a la

media.

σ = desviación típica o estándar.

𝑚 ∑( )

Fórmula (34)

Expresando el coeficiente de apuntamiento en términos de los momentos de orden dos

y cuatro respecto a la media, se tiene:

𝑚

(√𝑚 ) 𝑚

𝑚 Fórmula (35)

El coeficiente de apuntamiento se compara con el valor de 3 para analizar si es

apuntada, achatada o normal (ver figura 24), así:

Ap = 3 Distribución con altura normal.

Ap > 3 Distribución apuntada.


Ap < 3 Distribución achatada.

Figura 24. Representación gráfica de la altura de la distribución con coeficiente de

apuntamiento

En una distribución apuntada existe una concentración alta (frecuencias altas) alrededor

del valor de X donde se visualiza el punto de máximo en el polígono; por el contrario, en una

distribución achatada, los datos se encuentran muy dispersos y no están concentrados

alrededor de un valor específico. Se recomienda analizar conjuntamente asimetría y

apuntamiento, para obtener mayor claridad sobre la forma de la distribución de la variable; así

por ejemplo, en caso de tratarse de una distribución simétrica apuntada, se puede concluir que

los datos se encuentran demasiado concentrados alrededor de la media debido a que las

frecuencias más altas donde se refleja el apuntamiento en el polígono corresponden a

intervalos alrededor de la media.

Apuntada

Achatada

Normal


7. Ejercicios de aplicación resueltos

7.1 Ejemplo: Precio de venta de bienes raíces.

Los siguientes datos representan el precio (en millones de pesos) de 62 casas

unifamiliares de cierta zona de la ciudad:

Se pide:

a) Organizar los datos en una tabla de frecuencias.

b) Elaborar el polígono de frecuencias.

c) Calcular la media, la mediana y la moda.

d) Calcular la desviación típica o estándar.

e) Calcular el coeficiente de asimetría y de apuntamiento.

f) Calcular el rango intercuartílico.

g) Calcular el tercer cuartil, el decil de orden dos y el percentil 70.

Analizar e interpretar los resultados obtenidos.

75 89 91 97 105 110 125

71 93 93 102 103 108 122

74 87 95 95 110 111

79 89 100 96 105 114

86 94 96 102 107 118

80 88 102 95 103 113

85 87 100 102 107 116

81 88 97 95 110 114

83 89 100 99 109 116

86 90 102 98 104 120

Vivienda unifamiliar

Precio de venta (en millones de pesos)


Solución

a) Elaboración de la tabla de frecuencias.

Se aplican los pasos descritos para la conformación de los intervalos:

1.

2. 𝑅

𝑅

3. Número de intervalos 𝑚 Puede calcularse con la fórmula o a criterio del investigador (opinión subjetiva).

𝑚 log( )

𝑚 log

𝑚

4. Amplitud de cada intervalo

𝑅

𝑚

Se aproxima a número entero en caso de desear trabajar con una amplitud entera.

Nota. Los pasos 3 y 4 pueden efectuarse con opinión subjetiva del investigador, dependiendo de cómo se desee que queden conformados los intervalos, lo único que siempre hay que tener presente es que el nuevo rango sea igual o mayor al rango inicial; cuando sea mayor se recomienda que no se aleje demasiado del valor del rango inicial.

5. Nuevo rango 𝑅

𝑅 𝑚

𝑅

Se puede trabajar con estos valores de C y m porque el nuevo rango cumple la condición de 𝑅 ≥ 𝑅

6. Incremento del rango 𝑅

𝑅 𝑅 𝑅

𝑅

7. Repartir el incremento en dos partes iguales. 𝑅 . Se corre hacia la izquierda del Xmín y hacia la derecha del Xmáx.

El valor de 70 constituye el límite inferior del primer intervalo. El valor de 126 constituye el límite superior del último intervalo.


Para el conteo de las frecuencias absolutas es indispensable aclarar en los intervalos, cuál límite queda abierto y cuál cerrado.

Para los intervalos en la tabla de frecuencias que se presenta, se tienen las siguientes

observaciones, con el objeto de facilitar el conteo de las frecuencias absolutas:

Primer intervalo: Límite inferior cerrado, límite superior cerrado.

Segundo intervalo: Límite inferior abierto, límite superior cerrado.

Tercer intervalo: Límite inferior abierto, límite superior cerrado.

Intervalo n-ésimo: en este caso, séptimo intervalo, límite inferior abierto, límite

superior cerrado.

Siguiendo esta metodología de dejar abierto el límite inferior y cerrado el superior, el

único intervalo que queda cerrado en sus dos extremos es el primero. Esto es muy importante

porque si existe un valor en la serie de datos recolectada, que quede precisamente en uno de

los límites, al hacer el conteo de frecuencias absolutas se puede tener claridad dentro de cuál

intervalo es incluido dicho valor.

Algunas interpretaciones o análisis de los cálculos estadísticos efectuados en la tabla de

frecuencias son:

Intervalos X i f i h i F i H i

70-78 74 3 0,0484 3 0,0484

78-86 82 7 0,1129 10 0,1613

86-94 90 12 0,1935 22 0,3548

94-102 98 18 0,2903 40 0,6452

102-110 106 12 0,1935 52 0,8387

110-118 114 7 0,1129 59 0,9516

118-126 122 3 0,0484 62 1,0000

Total ─ 62 1,0000 ─ ─


f3 = 12 Existen 12 casas unifamiliares con un precio entre 86 y 94 millones (sin incluir el

86), expresado de otra forma, entre 86,000001 y 94 millones. El valor 86,000001 (en

millones de pesos) significa $ 86.000.001 (pesos).

h5 = 0,1935 = El 19,35% de las casas unifamiliares están avaluadas entre 102,000001 y

110 millones de pesos.

F3 = 22 Existen 22 casas avaluadas a un precio inferior o igual a 94 millones, es decir,

entre 70 y 94 millones de pesos (por debajo de 94 millones).

H5 = 0,8387 El 83,87% de las casas se encuentran avaluadas a un precio inferior o igual a

110 millones, es decir, entre 70 y 110 millones de pesos (por debajo de 110 millones).

∑ La sumatoria de las frecuencias absolutas es igual al total de datos

recolectados, en este caso, n = 62

∑ La sumatoria de las frecuencias relativas es igual a 1, equivalente al 100% de

los datos.

F7 = 62 El último valor de la columna de las frecuencias absolutas acumuladas es igual al

total de datos.

H7 = 1 El último valor de la columna de las frecuencias relativas acumuladas es igual a 1.

b) Polígono de frecuencias.

0

5

10

15

20

70 78 86 94 102 110 118 126

Nú

mer

o d

e ca

sas

Precio (millones de pesos)

Polígono de frecuencias


c) Media, mediana y moda.

La media:

∑

Interpretación: El valor promedio de las casas unifamiliares es de 98 millones, es decir, el precio promedio es de $ 98.000.000

La mediana:

Se calcula

Se busca este valor en la columna de las frecuencias absolutas acumuladas: en este caso particular no se encuentra este valor.

Como no se encuentra el valor, se señala el inmediatamente menor a 31, en este caso es 22, que corresponde a la tercera frecuencia absoluta acumulada, se le asigna el nombre de 𝐹

Se pasa al renglón siguiente, en éste señalamos el valor de la frecuencia absoluta y del límite inferior, se tiene por lo tanto que:

Se sustituyen los valores en la fórmula para la mediana:

𝐹

(

) ( )

Intervalos X i f i X 1 x f i F i

70-78 74 3 222 3

78-86 82 7 574 10

86-94 90 12 1080 22

94-102 98 18 1764 40

102-110 106 12 1272 52

110-118 114 7 798 59

118-126 122 3 366 62

Total ─ 62 6.076 ─


Interpretación: El 50% de las casas tienen un valor inferior a 98 millones, y el otro 50%, un precio por encima de 98 millones.

La moda:

Se visualiza en la columna de las frecuencias absolutas el valor más alto, en este caso corresponde a , por lo tanto, la moda es el valor de la marca de clase X4 asociada con esta frecuencia absoluta:

Interpretación: El precio más frecuente para las casas unifamiliares es de aproximadamente 98 millones de pesos. Se presenta con mayor frecuencia que el precio asignado a las casas unifamiliares se encuentra cercano a 98 millones (cercano por debajo y por encima).

Nota: La media, la mediana y la moda arrojaron un mismo valor, lo que indica que la variable precio tiene un comportamiento simétrico (se distribuye simétricamente)

d) Desviación típica o estándar:

Para calcular la desviación típica o estándar se hace indispensable conocer el valor de la

varianza porque √ ( ) también puede ser expresada √ . Para hallar la varianza

se necesita calcular la sumatoria de las desviaciones cuadráticas respecto a la media, para luego

promediarla.

( )

∑ ( )

( )

Intervalos X i f i X 1 x f i (X i - X )2f i

70-78 74 3 222 1.728

78-86 82 7 574 1.792

86-94 90 12 1.080 768

94-102 98 18 1.764 0

102-110 106 12 1.272 768

110-118 114 7 798 1.792

118-126 122 3 366 1.728

Total ─ 62 6.076 8.576


√

Interpretación: En promedio, los precios de las casas se encuentran alejados o dispersos alrededor de la media ($98 millones) en 11,76 millones.

El polígono donde se visualiza el comportamiento de esta variable es simétrico, la

variable precio presenta una distribución normal, la media, la mediana y la moda están ubicadas

en todo el centro de la serie de datos; los sesgos del polígono caen a lado y lado del punto

medio, se acercan al eje X donde se alejan de la media más o menos a 3 desviaciones

estándares (3σ), esto se escribe µ 3σ, donde µ es el valor de la media. Gráficamente se tiene:

50,96 62,72 74,48 86,24 98 109,76 121,52 133,28 145,04

µµ - σµ - 2σµ - 3σ µ + σ µ + 2σ µ + 3σ

Precio

Ca

sas

(fre

cuen

cia

)

Casas unifamiliaresDistribución del precio (millones de pesos)


e) Coeficiente de asimetría y apuntamiento: As, Ap.

Es necesario calcular los momentos de orden tres y cuatro respecto a la media, m3 y m4,

para esto se elaboran dos columnas nuevas, una que permita calcular la sumatoria de las

desviaciones cúbicas respecto a la media y otra para calcular la sumatoria de las desviaciones a

la potencia cuatro respecto a la media.

𝑚

∑( )

𝑚

( )

𝑚

∑( )

𝑚

( )

Interpretación: El valor del coeficiente de asimetría se compara con cero; como As = 0 se tiene que el precio presenta una distribución simétrica. El valor del coeficiente de apuntamiento se compara con tres; como Ap < 3 se tiene que el precio presenta una distribución achatada, el grado de achatamiento no es muy alto porque 2,53 no está demasiado alejado de 3.

f) Rango intercuartil (RI)

𝑅

Se necesita calcular el primer cuartil y el tercero.

Intervalos X i f i (X i - X )3f i (X i - X )4f i

70-78 74 3 -41.472 995.328

78-86 82 7 -28.672 458.752

86-94 90 12 -6.144 49.152

94-102 98 18 0 0

102-110 106 12 6.144 49.152

110-118 114 7 28.672 458.752

118-126 122 3 41.472 995.328

Total ─ 62 0 3.006.464


Cálculo de Q1

Efectuar

( )( )

Buscar este valor en la columna de las frecuencias absolutas acumuladas, como no se encuentra, se señala el inmediatamente menor, en este caso corresponde a la segunda frecuencia absoluta acumulada, se le asigna el nombre de 𝐹

Se pasa al renglón siguiente para seleccionar los valores correspondientes a la frecuencia absoluta y al límite inferior, en este caso corresponde y . Se sustituyen estos valores en la fórmula correspondiente para el cálculo de cuartiles:

𝐹

(

)

Cálculo de Q3

( )( )

𝐹

(

)

Cálculo de RI

𝑅

Interpretación: El 50% central de los precios de las casas unifamiliares se encuentra entre $89,67 y $106,33 millones, el rango (distancia o recorrido) entre estos límites es de $16,66 millones.

g) Cuartil de orden tres, segundo decil y percentil 70:

Cuartil de orden tres: Q3

( )( )

𝐹

𝐹 (

)


Interpretación de El 75% de los precios de las casa unifamiliares se encuentran por debajo de $106,33 millones y el otro 25% son precios superiores a $106,33 millones.

Segundo decil o decil de orden dos: D2

( )

𝐹

𝐹 (

)

Interpretación de El 20% de los precios de las casas unifamiliares se encuentran por debajo de $87,6 millones y el otro 80% son precios superiores o por encima de $87,6 millones.

Percentil 70: P70

( )

𝐹

𝐹 (

)

Interpretación de El 30% de los precios de las casas unifamiliares están por debajo de $104,27 millones y el otro 70% son precios superiores a $104,27 millones.

7.2 Base de datos: Compañías por sector económico, ubicación geográfica y vinculación

de aprendices.

La siguiente base de datos hace referencia a un grupo de compañías ubicadas dentro de

un departamento determinado del país. Se especifica para cada compañía, el sector económico

al que pertenece, la zona de ubicación y la vinculación actual de aprendices dentro de su planta

de personal.


Se pide:

a) Cuál es la unidad o elemento de investigación.

b) Cuáles son las variables de esta investigación con sus respectivas categorías.

c) Elaborar tres tablas de frecuencia univariadas para: sector económico, ubicación

geográfica y vinculación de aprendices. Calcular porcentajes e interpretar algunos datos.

Elaborar gráficos.

Agrícola = A

Industrial = I

Zona norte = N

Zona sur = S

Comercial = C

Financiero = F

Occidente = O

Oriente = R

Sí vinculan = S No vinculan = N

Ubicación geográfica:

Vinculación de aprendices:

Convenciones de la tabla

Nota: Los códigos de la base de datos tambien

pueden ser números o palabras. En este caso se

usaron letras.

Sector económico:

Compañía Sector Zona Vinculación Compañía Sector Zona Vinculación

1 F S S 26 I S N

2 C N S 27 F S S

3 A O N 28 F S S

4 C S N 29 F S S

5 F S S 30 I S S

6 F S S 31 C S N

7 C O S 32 C R S

8 A R N 33 C N N

9 I N S 34 F R S

10 I O S 35 F R S

11 F N S 36 F R S

12 C S S 37 F S S

13 A S S 38 F N S

14 A N S 39 F S N

15 C O N 40 C R S

16 F O N 41 C N N

17 F S S 42 A O S

18 F R S 43 F S S

19 F R S 44 F O S

20 I R N 45 C O N

21 I S S 46 C O S

22 A R S 47 F N S

23 I O N 48 A N S

24 I O S 49 F O S

25 F O N 50 F S S


d) Elaborar una tabla de frecuencias (bivariada) de doble entrada para la zona y el sector

económico. Cuáles son los diferentes porcentajes que se pueden calcular. Analizar e

interpretar algunos resultados. Elaborar gráfico.

e) Elaborar una tabla de frecuencias (bivariada) de doble entrada para el sector económico

y la vinculación de aprendices. Cuáles son los diferentes porcentajes que es posible

calcular. Analizar e interpretar algunos resultados. Elaborar gráfico.

f) Elaborar una tabla de frecuencias (trivariada) de tres entradas para el sector económico,

zona y vinculación de aprendices. Cuáles son los diferentes porcentajes que se pueden

calcular. Analizar e interpretar algunos resultados. Elaborar gráfico.

Solución

a) Unidad o elemento de investigación.

Cada una de las compañías.

b) Variables.

V1: Sector económico.

Categorías de la variable V1: agrícola, industrial, comercial, financiero.

V2: Ubicación geográfica.

Categorías de la variable V2: norte, sur, occidente, oriente.

V3: Vinculación de aprendices.

Categorías de la variable V3: sí, no.


c) Tablas de frecuencia univariadas.

Interpretación: El 24% de las compañías pertenecen al sector comercial; el 46% al sector financiero; el 14% al sector agrícola; y el 16% de pertenecen al sector industrial.

Interpretación: El 18% de las compañías se encuentran ubicadas en la zona norte; el 26% en la zona occidental; el 20% en la zona oriental; y el 36% están ubicadas en la zona sur.

Interpretación: El 28% de las compañías no vinculan aprendices, mientras que el 72% sí vinculan aprendices en su planta de personal.

Vinculación

Número de

Compañías Porcentaje

No 14 28,0%

Sí 36 72,0%

Total 50 100,0%

28%

72%

Vinculación de aprendices

No Sí

Zona

Número de


Norte 9 18%

Occidente 13 26%

Oriente 10 20%

Sur 18 36%

Total 50 100,0% 02468

101214161820

Norte Occidente Oriente Sur

18%

26%

20%

36%

Ubicación geográfica

Sector

Número de


Agrícola 7 14,0%

Comercial 12 24,0%

Financiero 23 46,0%

Industrial 8 16,0%

Total 50 100,0%

14%

24%

46%

16%

Sector económico

Agrícola Comercial Financiero Industrial


d) Tabla de frecuencia: Cruce entre la zona y el sector económico.

Se pueden calcular porcentajes por filas, por columnas o con base en el gran total:

Tabla con porcentajes por filas:

Algunas interpretaciones:

Fila 1, columna 2: El 28,6% de las empresas del sector agrícola están ubicadas en la zona occidental.

Fila 3, columna 4: El 47,8% de las empresas del sector financiero están ubicadas en la zona sur.

Fila 4, columna 1: El 12,5% de las empresas del sector industrial están ubicadas en la zona norte.


Agrícola 28,6% 28,6% 28,6% 14,3% 100,0%

Comercial 25,0% 33,3% 16,7% 25,0% 100,0%

Financiero 13,0% 17,4% 21,7% 47,8% 100,0%

Industrial 12,5% 37,5% 12,5% 37,5% 100,0%

Sector

económico

ZonaTotal


Agrícola 2 2 2 1 7

Comercial 3 4 2 3 12

Financiero 3 4 5 11 23

Industrial 1 3 1 3 8

Total 9 13 10 18 50

TotalSector

económico

Zona

0

2

4

6

8

10

12



Distribución por sector económico y zona


Tabla con porcentajes por columna:


Fila 2, columna 1: El 33,3% de las compañías ubicadas en la zona norte se dedican a la actividad económica comercial.

Fila 3, columna 3: El 50% de las compañías de la zona oriental pertenecen al sector financiero.

Fila 4, columna 2: El 23,1% de las empresas ubicadas en la zona occidental pertenecen al sector industrial.

Tabla de porcentajes con base en el gran total:


Fila 3, columna 4: El 22% de las compañías están ubicadas en la zona sur y pertenecen al sector financiero.

Fila 2, columna 1: El 6% de las compañías pertenecen al sector comercial y están ubicadas en la zona norte.

Fila 4, columna 3: El 2% de las compañías están ubicadas en la zona oriental y se dedican a la actividad industrial.


Agrícola 4,0% 4,0% 4,0% 2,0% 14,0%

Comercial 6,0% 8,0% 4,0% 6,0% 24,0%

Financiero 6,0% 8,0% 10,0% 22,0% 46,0%

Industrial 2,0% 6,0% 2,0% 6,0% 16,0%

Total 18,0% 26,0% 20,0% 36,0% 100,0%

Sector

económico

ZonaTotal


Agrícola 22,2% 15,4% 20,0% 5,6%

Comercial 33,3% 30,8% 20,0% 16,7%

Financiero 33,3% 30,8% 50,0% 61,1%

Industrial 11,1% 23,1% 10,0% 16,7%

Total 100,0% 100,0% 100,0% 100,0%

Sector

económico

Zona


e) Tabla de frecuencia: Cruce entre el sector económico y vinculación de aprendices.

De igual manera que en el anterior cruce, se pueden calcular porcentajes por filas,

columnas o con base en el gran total.

Tabla con porcentajes por filas:


Fila 1, columna 2: El 71,4% de las empresas del sector agrícola sí vinculan aprendices en su planta de personal.

Fila3, columna 1: El 13% de las empresas del sector financiero no vinculan aprendices.

Fila 4, columna 2: El 62,5% de las empresas del sector industrial sí vinculan aprendices.

No Sí

Agrícola 28,6% 71,4% 100,0%

Comercial 50,0% 50,0% 100,0%

Financiero 13,0% 87,0% 100,0%

Industrial 37,5% 62,5% 100,0%

Sector

económico

Vinculación aprendicesTotal

No Sí

Agrícola 2 5 7

Comercial 6 6 12

Financiero 3 20 23

Industrial 3 5 8

Total 14 36 50

Sector

económicoTotal

Vinculación aprendices

0

5

10

15

20


No Sí

Distribución por sector económico y vinculación de aprendices


Tabla con porcentajes por columnas:


Fila 2, columna 1: El 42,9% de las empresas que no vinculan aprendices pertenecen al sector comercial.

Fila 4, columna 2: El 13,9% de las empresas que sí vinculan aprendices se dedican a la actividad económica industrial.

Fila 3, columna 1: El 21,4% de las compañías que no vinculan aprendices pertenecen al sector financiero.

Tabla de porcentajes con base en el gran total:


Fila 2, columna 1: El 12% de las empresas son del sector económico comercial y no vinculan aprendices en su planta de personal.

Fila 3, columna 2: El 40% de las empresas pertenecen al sector financiero y sí vinculan aprendices en su planta de personal.

Fila 4, columna 1: El 6% de las empresas pertenecen al sector industrial y no vinculan aprendices dentro de su planta de personal.

No Sí

Agrícola 4,0% 10,0% 14,0%

Comercial 12,0% 12,0% 24,0%

Financiero 6,0% 40,0% 46,0%

Industrial 6,0% 10,0% 16,0%

Total 28,0% 72,0% 100,0%

Sector

económico

Vinculación aprendicesTotal

No Sí

Agrícola 14,3% 13,9%

Comercial 42,9% 16,7%

Financiero 21,4% 55,6%

Industrial 21,4% 13,9%

Total 100,0% 100,0%

Sector

económico



f) Tabla de frecuencia: Cruce entre el sector económico, la zona y la vinculación de

aprendices.


Fila 5, columna 1: El 66,7% de las empresas comerciales ubicadas en la zona norte no vinculan aprendices dentro de su planta de personal.

Fila 12, columna 2: El 90,9% de las empresas del sector financiero ubicadas en la zona sur no vinculan aprendices dentro de su planta de personal.

Fila 16, columna 1: El 33,3% de las empresas del sector industrial ubicadas en la zona sur no vinculan aprendices dentro de su planta de personal.

No Sí

Norte 0 2 2

Occidente 1 1 2

Oriente 1 1 2

Sur 0 1 1

Norte 2 1 3

Occidente 2 2 4

Oriente 0 2 2

Sur 2 1 3

Norte 0 3 3

Occidente 2 2 4

Oriente 0 5 5

Sur 1 10 11

Norte 0 1 1

Occidente 1 2 3

Oriente 1 0 1

Sur 1 2 3

14 36 50 ─Total

Agrícola

Comercial

Financiero

Industrial

7

12

23

8

Sector

económicoZona

Vinculación aprendices Total sector

y zonaTotal sector

0

2

4

6

8

10

12

No

rte

Occ

ide

nte

Ori

en

te

Sur

No

rte

Occ

ide

nte

Ori

en

te

Sur

No

rte

Occ

ide

nte

Ori

en

te

Sur

No

rte

Occ

ide

nte

Ori

en

te

Sur


No Sí

Distribución por sector económico, zona y vinculación de aprendices


Tabla con porcentajes por columna:

Alguna interpretaciones:

Fila 5, columna 1: El 14,3% de las empresas que no vinculan aprendices pertenecen al sector industrial y están ubicadas en la zona norte.

Fila 11, columna 2: El 13,9% de las empresas que sí vinculan aprendices dentro de su planta de personal pertenecen al sector financiero y se ubican en la zona oriental.

Fila 1, columna 2: El 5,6% de las empresas que sí vinculan aprendices se dedican a la actividad económica agrícola y están ubicadas en la zona norte.

No Sí

Norte 0,0% 5,6%

Occidente 7,1% 2,8%

Oriente 7,1% 2,8%

Sur 0,0% 2,8%

Norte 14,3% 2,8%

Occidente 14,3% 5,6%

Oriente 0,0% 5,6%

Sur 14,3% 2,8%

Norte 0,0% 8,3%

Occidente 14,3% 5,6%

Oriente 0,0% 13,9%

Sur 7,1% 27,8%

Norte 0,0% 2,8%

Occidente 7,1% 5,6%

Oriente 7,1% 0,0%

Sur 7,1% 5,6%

100,0% 100,0%Total

Comercial

Financiero

Industrial

Sector

económicoZona


Agrícola


Tabla de porcentaje con base en el gran total:

Alguna interpretaciones:

Fila 3, columna 1: El 2% de las compañías pertenecen al sector agrícola, están ubicadas en la zona oriental y no vinculan aprendices.

Fila 12, columna 2: El 20% de las empresas pertenecen al sector financiero, están ubicadas en la zona sur y sí vinculan aprendices en su planta de personal.

Fila 16, columna 2: El 4% de las compañías pertenecen al sector industrial, están ubicadas en la zona sur y sí vinculan aprendices en su planta de personal.

No Sí

Norte 0,0% 4,0% 4,0%

Occidente 2,0% 2,0% 4,0%

Oriente 2,0% 2,0% 4,0%

Sur 0,0% 2,0% 2,0%

Norte 4,0% 2,0% 6,0%

Occidente 4,0% 4,0% 8,0%

Oriente 0,0% 4,0% 4,0%

Sur 4,0% 2,0% 6,0%

Norte 0,0% 6,0% 6,0%

Occidente 4,0% 4,0% 8,0%

Oriente 0,0% 10,0% 10,0%

Sur 2,0% 20,0% 22,0%

Norte 0,0% 2,0% 2,0%

Occidente 2,0% 4,0% 6,0%

Oriente 2,0% 0,0% 2,0%

Sur 2,0% 4,0% 6,0%

28,0% 72,0% 100,0% ─ ─

Industrial 16,0%

Total

Gran total

100,0%

Agrícola 14,0%

Comercial 24,0%

Financiero 46,0%

Sector

económicoZona

Vinculación aprendices Total sector

y zonaTotal sector


Tabla de porcentaje con base en los subtotales por filas:


Fila 1, columna 2: El 28,6% de las compañías del sector agrícola están ubicadas en la zona norte y sí vinculan aprendices en su planta de personal.

Fila 12, columna 1: El 4,3% de las empresas del sector financiero están ubicadas en la zona sur y no vinculan aprendices en su planta de personal.

Fila 14, columna 1: El 12,5% de las empresas del sector industrial están ubicadas en la zona occidental y no vinculan aprendices.

No Sí

Norte 0,0% 28,6% 28,6%

Occidente 14,3% 14,3% 28,6%

Oriente 14,3% 14,3% 28,6%

Sur 0,0% 14,3% 14,3%

Norte 16,7% 8,3% 25,0%

Occidente 16,7% 16,7% 33,3%

Oriente 0,0% 16,7% 16,7%

Sur 16,7% 8,3% 25,0%

Norte 0,0% 13,0% 13,0%

Occidente 8,7% 8,7% 17,4%

Oriente 0,0% 21,7% 21,7%

Sur 4,3% 43,5% 47,8%

Norte 0,0% 12,5% 12,5%

Occidente 12,5% 25,0% 37,5%

Oriente 12,5% 0,0% 12,5%

Sur 12,5% 25,0% 37,5%

Industrial 100,0%

Agrícola 100,0%

Comercial 100,0%

Financiero 100,0%

Sector

económicoZona

Vinculación aprendicesTotal sector

y zona

Gran to tal

(co n base

en cada

secto r

eco nó mico )


8. Ejercicios de aplicación propuestos

8.1 Ingresos quincenales.

Los siguientes datos representan los ingresos quincenales de 50 personas en miles de

pesos.

Se pide:

a) Agrupar los datos en una tabla de frecuencias.

b) Construir un polígono de frecuencias absolutas.


d) Calcular la varianza y la desviación típica o estándar

e) Calcular el coeficiente de asimetría.

f) Calcular el coeficiente de apuntamiento.

g) Calcular el segundo cuartil, el decil de orden seis y el percentil 83.

Nota: Interpretar cada uno de los resultados obtenidos.

8.2 Volumen de exportación mensual de empresas distribuidoras de artículos de cuero.

Los siguientes datos representan el volumen de exportación mensual (en millones de

pesos) de un grupo de empresas dedicadas a la distribución de artículos de cuero:

251 325 225 480 501

369 422 307 297 501

258 436 369 325 326

247 505 324 502 498

458 509 258 406 568

365 436 407 325 255

286 307 309 279 305

269 365 568 357 421

457 402 456 368 269

369 358 228 405 227


Se pide:

a) Graficar el histograma de frecuencias.

b) Calcular la media, la mediana y la moda.

c) Calcular la desviación típica o estándar.

d) Calcular el coeficiente de asimetría y el de apuntamiento.

e) Calcular el rango intercuartil.

f) Calcular el cuartil de orden tres, el decil 4 y el percentil 38.

Nota: Interpretar cada uno de los resultados.

8.3 Gastos quincenales de las personas de un sector de la ciudad.

En la siguiente tabla se observa la distribución de frecuencias de los gastos quincenales

(en miles de pesos) de un grupo de personas de un sector determinado de la ciudad:

Se pide:

a) Graficar el histograma y el polígono de frecuencias.

GastosNúmero de

personas

300 - 400 8

400 - 500 15

500 - 600 27

600 - 700 14

700 - 800 9

800 - 900 3

Volumen de

exportación

Número de

empresas

150 - 200 4

200 - 250 12

250 - 300 25

300 - 350 20

350 - 400 10

400 - 450 3


b) Calcular la media, la mediana y la moda.

c) Calcular la desviación típica o estándar.

d) Calcular el coeficiente de asimetría y el de apuntamiento.

e) Calcular el cuartil uno, el decil 7 y el percentil 65.

Nota: Interpretar cada uno de los resultados.

8.4 Millas recorridas por galón de gasolina.

Una muestra aleatoria de automóviles del mismo tipo nos señala cuántas millas recorren

por galón de gasolina:

Se pide:

a) Construir una tabla de frecuencias con cinco intervalos.

b) Elaborar un polígono de frecuencias.





g) Calcular el decil 7 y el percentil 64.


25 33 27 28 29 28

29 27 30 31 27 32

28 26 33 35 25 27

31 30 35 26 35 30

35 33 26 28 33 31

33 35 25 25 26 29

27 25 29 33 31 28

26 27 32 30 30 32

29 29 34 35 34 29

31 32 25 29 27 28


8.5 Asistencia promedio de los empleados del departamento de producción.

En una fábrica, el departamento de producción está dividido en tres secciones. Se sabe

que en la sección A, con 100 empleados, la asistencia promedio es de 240 días al año. En la

sección B, con 80 empleados, la asistencia promedio es de 216 días al año.

Si la asistencia media en todo el departamento es de 226,5 días al año, ¿cuántos

empleados hay en la sección C, donde la asistencia promedio es de 200 días al año?

8.6 Salario de los obreros según el turno diurno o nocturno.

De un grupo de 200 obreros que laboran en una fábrica, 120 de ellos trabajan de día y 80

trabajan de noche. Se sabe que el salario medio de los 200 trabajadores es de $ 360.000. Los del

turno de día reciben en valor medio, un 25% menos que los trabajadores de la noche. ¿Cuál es

el salario medio de cada grupo?

8.7 Volumen de ventas semestral de establecimientos comerciales.

El volumen de ventas semestral en millones de pesos de 50 establecimientos

comerciales se muestra a continuación:

Se pide:

a) Construir una tabla de frecuencias con siete intervalos y una amplitud de 4.

42 37 51 62 65

56 42 46 48 53

39 56 54 55 56

48 61 62 60 57

54 56 50 54 53

62 50 37 38 40

45 42 56 61 65

45 60 52 50 55

51 61 63 58 50

56 46 58 57 46


b) Elaborar un polígono de frecuencias.





g) Calcular el rango intercuartil.

h) Calcular el cuartil de orden uno, el decil de orden cinco y el percentil 23.


8.8 Ingreso semanal de los empleados ejecutivos de una corporación financiera.

El departamento de personal de una empresa del sector financiero desea analizar el

comportamiento del ingreso semanal en miles de pesos de un grupo de 31 empleados de nivel

ejecutivo. La información recolectada se muestra a continuación:

Se pide:

a) Organizar la información en una tabla de frecuencias con cinco intervalos.

b) Graficar el polígono y la ojiva.


d) Calcular la varianza y la desviación típica o estándar.

e) Calcular coeficiente de asimetría y apuntamiento.

f) Calcular el rango intercuartil.

460 546 567 625

478 547 570 648

493 550 573 648

510 555 580 649

510 558 580 650

538 558 580 670

541 561 599 680

545 526 610 ─


g) Calcular el cuartil 3, el decil 9 y el percentil de orden 47.

Nota: Analizar e interpretar los resultados obtenidos

8.9 Volumen de importación de papelerías especializadas.

Un grupo de papelerías especializadas en el país importa lapiceros de marcas

prestigiosas, el nivel de importación bimestral en millones de pesos, se presenta a continuación:

Se pide:

a) Calcular las frecuencias relativas, absolutas acumuladas y relativas acumuladas.

b) Graficar el histograma, el polígono de frecuencias y la ojiva.




f) El 30% de las papelerías importan bimestralmente menos de un valor determinado (en

millones de pesos), ¿cuál es ese nivel de importación y cuántas son las papelerías?

g) Calcular el percentil de orden 85.

Nota: Analizar e interpretar los resultados obtenidos.

Importación

(millones de

pesos)

Número de

papelerías

3 - 5 7

5 - 7 12

7 - 9 18

9 - 11 15

11 - 13 9

13 - 15 5


8.10 Análisis estadístico de la sumatoria de las desviaciones respecto a la media.

Elegir dos tablas de frecuencias de alguno de los ejemplos anteriores y desarrollar los

cálculos necesarios para demostrar que la sumatoria de las desviaciones respecto a la media es

igual a cero (propiedad de la media).

8.11 Análisis estadístico sobre el grado de alejamiento de los datos alrededor de la

media.

Explique por qué para calcular el grado de alejamiento de los datos alrededor de la

media, se toma el promedio de las desviaciones cuadráticas respecto a la media y no solamente

las desviaciones respecto a la media.

8.12 Justificación estadística con frecuencias absolutas y relativas (caso específico).

Según sus conocimientos sobre frecuencia absoluta, absoluta acumulada, relativa y

relativa acumulada, justifique estadísticamente si es verdadero o falso el siguiente caso

particular:

𝑚

8.13 Explicación matemático-estadística del cálculo de la varianza.

Analizar y explicar por qué la varianza de una constante por una variable es igual a la

constante al cuadrado por la varianza de la variable.


( ) ( )

8.14 Cálculo del a media y la varianza utilizando una expresión algebraica que

representa la relación entre dos variables (caso específico).

La siguiente expresión algebraica representa la relación entre el precio de un artículo y la

cantidad de unidades que está dispuesto a ofrecer el comerciante a dicho precio, siendo X la

cantidad y Y, el precio. La función lineal de oferta está dada por:

( )

Calcular la media y la varianza de X, si se sabe que la media y la desviación típica de Y son

4 y 0,3 respectivamente.

8.15 Consumidores de latas de cerveza.

La siguiente tabla señala la cantidad de latas (con un contenido individual de 8 oz.) de

cervezas ingeridas al mes por un grupo de 37 consumidores:

Se pide:

Latas de

cervezaX i f i h i F i H i

15 - 18 0,135 500 - 27 927 - 00 30 2600 - 39 7 0,18939 - 00Total 37


a) Completar los espacios en blanco y señalar claramente los cálculos estadísticos

empleados para encontrar los valores respectivos.

b) Analizar e interpretar h3 y H3.

c) ¿Qué significa f5?

d) Graficar el polígono de frecuencias.

e) Calcular la media, la mediana y la moda.

f) Calcular la desviación típica o estándar.

g) Calcular el coeficiente de asimetría y el de apuntamiento.

h) Calcular el rango o recorrido.

i) Calcular el recorrido intercuartílico.

j) Calcular el decil 7 y el percentil 58.


8.16 Ingreso quincenal de un grupo de empleados.

La distribución de frecuencias del ingreso quincenal (en miles de pesos) de un grupo de

empleados de una compañía se presenta a continuación:

Se pide:

a) Calcular las frecuencias relativas e interpretar h2 y h4.

b) Graficar el histograma y el polígono.

Ingreso

quincenal (miles

de pesos)

Número de

emleados

200 - 300 7

300 -400 12

400 - 500 15

500 - 600 20

600 - 700 13

700 - 800 10

800 - 900 9




e) Calcular el coeficiente de asimetría y el de apuntamiento.

f) Calcular el cuartil de orden tres, el decil 6 y el percentil 45.

g) Calcular el rango o recorrido.

h) Calcular el recorrido intercuartílico.


8.17 Percepción sobre el clima laboral.

La percepción que tienen un grupo de empleados sobre el clima laboral que reina dentro

de la empresa donde están vinculados es la siguiente:

Se pide:

a) ¿Cuál es la variable y cómo se clasifica?

b) ¿Cuáles son las categorías de la variable, a qué clasificación pertenecen y por qué?

c) ¿Cuál es la unidad o elemento de investigación?

d) Calcular las frecuencias relativas y analizarlas.

e) Elaborar el gráfico de pastel o circular.

f) Elaborar el gráfico de barras.

g) Hallar la moda e interpretarla.

Clima laboralNúmero de

empleados

Excelente 12

Bueno 25

Regular 5

Malo 2


8.18 Tiempo de permanencia del aroma de ambientadores adquiridos por un grupo de

amas de casa.

Una empresa dedicada a la producción de ambientadores con atomizador realiza una

investigación entre las amas de casa del barrio El Porvenir de una ciudad. Se seleccionan

aleatoriamente 50 de ellas para analizar el tiempo de permanencia del aroma después de

esparcirlo en el ambiente del hogar.

Se pide:

a) Definir la población (tamaño de la población).

b) ¿Cuál es el tamaño de la muestra?

c) ¿Cuál es la variable?

d) ¿Cómo se clasifica esta variable?

8.19 Análisis estadístico: Marca de clase y mediana.

¿Cuál es la diferencia y cuál la similitud, entre marca de clase y mediana?

8.20 Nivel de exportación mensual de las empresas confeccionistas de vestidos

ejecutivos.

El nivel de exportación mensual (en millones de pesos) de un grupo de empresas

confeccionistas de vestidos ejecutivos para dama y caballero, es el siguiente:


Se pide:

a) ¿Cuál es el volumen de exportación promedio mensual?

b) ¿Cuál es el promedio del grado de alejamiento de los volúmenes de exportación mensual

alrededor de dicho promedio?

c) ¿De cuántas medias se está hablando en el numeral anterior? Explicar a qué hace

referencia cada una de ellas y cómo se calculan.

d) Graficar el polígono de frecuencias.

e) Calcular el coeficiente de asimetría e interpretarlo.

f) Calcular el percentil 74 y analizarlo.

8.21 Justificación estadística con frecuencia absoluta y relativa (caso específico).

De acuerdo a los conocimientos sobre frecuencia absoluta, absoluta acumulada, relativa

y relativa acumulada; justificar estadísticamente si es verdadero o falso el siguiente caso

particular:

𝐹

Exportación

mensual (millones

de pesos)

Número de

empresas

7 - 9 39 - 11 811 - 13 1513 - 15 3215 - 17 1217 - 19 719 - 21 521 - 23 2


8.22 Análisis estadístico: mediana, segundo cuartil, quinto decil, y percentil.

Explicar si existe alguna relación entre mediana, segundo cuartil, quinto decil y percentil

de orden 50.

8.23 Unidades vendidas de computadores.

Las unidades vendidas de computadores en el semestre anterior, por un consorcio

conformado por 76 agencias distribuidoras en el país, se muestra a continuación:

Se pide:

a) Graficar el histograma.

b) Calcular la moda.

c) En promedio, ¿cuántos computadores vendió el consorcio en el semestre?

d) Calcular las frecuencias relativas.

e) Calcular el decil de orden ocho.

f) Calcular la desviación típica o estándar.


8.24 Auditoría de despacho y facturación de mercancía.

El gerente de ventas de un gran almacén de materiales para la construcción y

remodelación desea efectuar auditoria sobre el proceso de despacho de mercancía y

Número de

computadores

Número de

agencias

30 - 50 7

50 - 70 13

70 - 90 18

90 - 110 15

110 - 130 18

130 - 150 5

Total 76


facturación. Un estudio previo sobre el cálculo del tamaño de muestra indica que para llevar a

buen término esta auditoría, se debe seleccionar una muestra aleatoria de 70 registros de

solicitud y despacho de mercancía.

Para cada registro se analiza:

Forma de solicitud: personal, teléfono, fax, correo electrónico.

Tiempo transcurrido desde recibida la solicitud hasta que es despachada (en horas).

Elaboración de la factura: cálculos correctos y sin enmendaduras, cálculos incorrectos y

con enmendaduras.

Valor o monto de la factura (en miles de pesos).

Forma de pago de la mercancía. El almacén sólo vende bajo las siguientes alternativas de

pago: de contado, a la semana, a los quince días y al mes.

Existencia del sello en la factura: si posee sello o si no plasmaron el sello.

Firma de recibido: posee firma de la persona que recibe la mercancía o no hay firma que

respalde la conformidad de quien recibe la mercancía.

Registro de devoluciones: en caso de que la mercancía o parte de ella presente baja

calidad. Si presenta registro o no lo presenta.

RegistroNúmero de

facutra

Forma de

solicitud

Tiempo de

despacho

(horas)

Elaboración

factura

Monto

(miles de

pesos)

Forma de

pago

Existencia

de sello

Firma de

recibido

Registro

devolución

1 231 2 5 1 250 2 1 2 1

2 521 1 2 1 268 3 1 1 2

3 41 2 1 1 752 1 1 1 2

4 123 3 0,5 2 824 1 1 1 2

5 587 1 1,5 2 365 2 1 1 2

6 415 1 1 2 1500 3 2 1 2

7 635 1 1,5 1 100 2 1 1 2

8 412 4 2 1 156 3 1 1 2

9 852 3 0,5 1 85 1 1 1 2

10 741 2 7 1 236 3 1 1 2

11 963 2 2 1 421 2 1 1 2

12 952 4 6 1 328 2 1 1 2

13 523 2 1 2 687 3 1 1 2

14 654 1 2 2 547 1 1 2 2

15 742 4 2 1 753 4 1 1 2

16 623 4 6,5 2 700 3 1 2 2

17 418 1 2 1 5 2 2 2 1

18 795 4 5,5 2 1230 4 1 1 2

19 862 4 1 1 50 1 2 1 2

20 743 2 1 2 98 3 1 1 2


RegistroNúmero de

facutra

Forma de

solicitud

Tiempo de

despacho

(horas)

Elaboración

factura

Monto

(miles de

pesos)

Forma de

pago

Existencia

de sello

Firma de

recibido

Registro

devolución

21 569 2 2,5 2 125 2 1 2 2

22 857 4 2 1 478 2 1 1 2

23 413 1 2 1 524 3 2 2 2

24 956 1 3 1 687 3 2 1 1

25 875 1 2 1 54 1 1 1 1

26 627 2 1,5 1 62 1 1 1 2

27 813 2 4 2 78 1 1 1 2

28 928 2 3,5 1 2125 4 1 1 2

29 56 1 5 1 524 3 1 1 2

30 742 1 8 1 569 2 1 1 2

31 85 3 1 1 789 4 1 1 2

32 96 1 2 1 623 3 1 1 2

33 415 4 4,5 1 15 1 1 1 2

34 582 1 2 1 524 3 1 1 2

35 224 3 4 1 500 2 1 1 2

36 436 1 1,5 1 639 1 1 1 2

37 478 2 1,5 1 1500 1 1 1 2

38 15 1 7 1 956 4 1 1 1

39 136 1 4 1 456 2 1 2 2

40 547 1 3,5 1 547 2 1 1 2

41 14 1 3 2 236 3 1 1 2

42 196 1 3 2 125 3 1 2 2

43 54 1 4 1 412 2 2 1 2

44 76 2 2 2 258 1 1 2 2

45 32 2 2 1 951 3 2 1 2

46 547 3 5 2 544 3 2 2 2

47 65 1 4 2 200 2 1 2 1

48 45 4 3 2 10 1 1 1 2

49 48 1 6 1 215 3 1 1 2

50 459 4 2 1 236 3 1 1 2

51 721 4 5 1 379 2 1 1 2

52 146 3 6 1 365 3 1 1 2

53 237 2 2,5 1 458 1 1 1 2

54 932 2 6 2 741 1 1 1 2

55 568 3 4 1 1600 1 1 1 2

56 258 2 4 2 125 1 1 1 2

57 416 2 7 1 456 2 1 1 2

58 438 2 4 1 478 2 1 1 2

59 259 2 8 2 456 4 1 1 2

60 379 1 6 2 1700 4 1 2 2

61 534 1 5 1 512 3 1 1 1

62 58 1 4,5 1 415 3 1 1 1

63 79 1 7 1 400 1 1 1 2

64 54 1 4 1 287 1 1 1 2

65 41 1 4 1 5 1 1 1 2

66 485 3 5 1 100 1 1 1 2

67 52 1 8 1 542 3 1 1 2

68 67 1 1 2 420 3 1 1 2

69 698 1 4 1 854 3 1 1 2

70 520 1 7 1 350 1 1 1 1


En esta base de datos, los códigos que identifican a cada categoría de la variable son

números, pero igualmente si el investigador opta por utilizar letras o palabras, puede hacerlo.

Se pide:

a) Definir la unidad o elemento de investigación.

b) Hacer un listado de las variables que se trabajan en esta investigación.

c) Clasificar cada variable y especificar sus categorías respectivas.

d) Elaborar la tabla de frecuencia para cada variable con su respectivo gráfico y analizar las

frecuencias relativas.

e) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre

registro de devolución y el monto de la factura; elaborar gráfico. Calcular tres tablas con

porcentajes: por filas, por columnas y con base en el gran total; interpretar los

resultados obtenidos en cada tabla.

f) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre el

valor o monto de la factura y la forma de pago; elaborar gráfico. Calcular tres tablas con

Columna 1 = Conteo de registros

Columna 2 = Número de factura

Columna 3 = Forma de solicitud del pedido

Personal= 1

Teléfono = 2

Fax = 3

e-mail = 4

Columna 4 = Tiempo de despacho (en horas)

Columna 5 = Elaboración de factura

Sin errores = 1

Con errores = 2

Columna 6 = Valor o monto de la factura (en miles de pesos)

Columna 7 = Forma de pago

Contado = 1

A la semana = 2

A los 15 días = 3

Al mes = 4

Columna 8 = Existencia de sello

Sí = 1

No = 2

Columna 9 = Firma de recibido

Sí = 1

No = 2

Columna 10 = Registro de devolución

Sí = 1

No = 2

Convenciones


porcentajes: por filas, por columnas, con base en el gran total; interpretar los resultados

obtenidos en cada tabla.

g) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre el

monto de la factura y el tiempo de despacho; elaborar gráfico. Calcular tres tablas con

porcentajes: por filas, por columnas y con base en el gran total; interpretar los

resultados obtenidos.

h) Elaborar tabla de clasificación cruzada trivariada (con frecuencias absolutas) entre forma

de solicitud, monto de la factura y forma de pago; efectuar gráfico. Calcular tablas con

porcentajes: por filas, por columnas, con base en subtotales y con base en el gran total;

interpretar los resultados obtenidos.

8.25 Investigación requerida por la unidad académica de una universidad, sobre el

perfil del estudiante.

La dirección académica de una universidad reconocida en la ciudad, requiere efectuar

una investigación sobre el perfil del estudiante de pregrado. La investigación es de carácter

urgente, lo que imposibilita recolectar la información necesaria sobre toda la población actual

de estudiantes; se opta por aplicar muestreo. El cálculo del tamaño de muestra arroja un total

de 125 estudiantes. La información recolectada a través de una encuesta aparece registrada en

la siguiente base de datos:

Número de

registro

Unidad

académicaSemestre Género Trabajo

Tipo de

matrículaEstrato

1 2 3 2 2 1 3

2 3 2 2 2 1 5

3 4 2 2 2 2 4

4 2 5 1 2 2 6

5 2 1 1 1 1 4

6 1 6 1 2 2 3

7 1 7 1 2 1 3

8 1 2 1 2 2 4

9 3 7 2 2 2 4

10 2 7 2 2 2 4


Número de

registro

Unidad


Tipo de

matrículaEstrato

11 3 2 2 2 2 4

12 4 8 1 1 2 3

13 1 5 2 1 1 5

14 1 1 1 2 2 4

15 4 3 1 2 2 3

16 2 8 2 1 1 4

17 3 2 2 2 2 4

18 1 4 2 2 2 4

19 4 9 2 1 1 4

20 3 6 2 2 2 4

21 2 1 1 2 2 4

22 4 2 1 2 2 6

23 1 10 2 1 2 4

24 3 3 1 1 1 4

25 3 1 1 1 2 4

26 2 2 1 2 2 4

27 4 9 2 2 2 3

28 1 10 2 2 2 4

29 1 9 1 1 2 4

30 1 1 1 2 1 4

31 2 2 1 2 1 4

32 2 5 1 2 2 4

33 2 10 1 1 1 3

34 4 2 2 2 2 3

35 1 1 2 2 2 4

36 4 10 2 1 2 3

37 4 2 2 2 2 5

38 4 6 1 2 2 4

39 1 3 2 2 1 6

40 1 1 1 2 1 4

41 4 10 2 1 2 4

42 4 2 2 2 1 4

43 4 10 1 1 2 4

44 4 1 1 2 1 6

45 4 10 1 2 2 4

46 1 3 1 2 2 4

47 3 9 2 2 2 4

48 3 9 2 1 2 3

49 4 1 2 2 2 3

50 1 10 2 1 1 4

51 4 3 1 2 2 4

52 4 8 2 1 1 4

53 2 1 1 2 1 4

54 2 5 1 2 1 4

55 4 2 2 2 2 4

56 3 4 2 2 1 6

57 4 10 2 1 1 4

58 2 1 1 2 2 4

59 3 6 1 2 2 4

60 2 3 2 2 2 4

61 3 2 1 2 2 4

62 2 1 2 2 2 6

63 2 10 2 1 1 3

64 3 10 2 1 1 5

65 1 9 1 1 1 6

66 4 10 2 2 2 4

67 4 1 1 2 2 3

68 3 1 2 2 2 4

69 1 10 2 2 2 4

70 4 7 2 1 2 4


Número de

registro

Unidad


Tipo de

matrículaEstrato

71 4 2 2 2 1 5

72 3 10 2 1 1 4

73 3 1 1 2 2 4

74 4 5 2 2 2 6

75 3 2 1 2 2 4

76 1 2 2 2 2 4

77 1 4 1 2 1 3

78 4 10 1 1 2 3

79 3 1 1 2 1 4

80 3 1 1 2 2 3

81 3 8 2 1 2 4

82 1 2 2 2 2 4

83 1 4 2 2 2 4

84 1 10 1 2 2 4

85 1 1 2 2 2 4

86 4 1 1 2 1 5

87 4 9 1 1 1 6

88 2 3 1 2 1 3

89 2 3 2 2 1 3

90 1 10 2 1 2 5

91 4 8 2 2 2 3

92 4 1 2 2 2 4

93 3 10 2 2 2 4

94 2 3 1 2 2 4

95 4 10 1 1 2 3

96 4 10 2 1 2 3

97 1 1 1 2 2 4

98 1 1 2 2 1 4

99 4 8 1 2 2 6

100 4 10 1 2 2 3

101 3 5 1 2 2 6

102 4 6 1 2 1 4

103 3 3 2 1 2 4

104 4 10 2 1 2 4

105 3 1 1 2 1 5

106 1 10 2 2 2 4

107 1 1 1 2 2 3

108 1 9 1 1 1 3

109 4 4 2 2 2 3

110 2 9 2 2 2 6

111 2 10 2 1 2 4

112 4 1 2 2 2 4

113 1 9 2 2 2 6

114 4 3 2 2 1 4

115 4 10 1 2 2 4

116 3 7 2 2 2 4

117 1 1 1 2 2 4

118 1 4 1 1 2 3

119 1 7 2 1 2 4

120 1 1 1 2 2 4

121 4 3 2 2 2 4

122 4 7 1 2 2 4

123 2 4 1 2 1 4

124 2 1 2 2 1 5

125 1 3 2 1 1 3


Se pide:

a) ¿Cuál es la unidad o elemento de investigación?

b) Identificar las variables, clasificarlas y especificar las categorías que posee cada una de

ellas.

c) Elaborar una tabla de frecuencia para cada variable, con el gráfico respectivo. Analizar

las frecuencias relativas y especificarlas dentro de la tabla en términos porcentuales.

d) Efectuar una tabla de clasificación cruzada (bivariada) con frecuencias absolutas para la

unidad académica y el género. Elaborar el gráfico respectivo. Calcular tres tablas de

frecuencia con porcentajes: por filas, por columnas y con base en el gran total. Analizar e

interpretar los resultados obtenidos en estas tablas.

e) Efectuar una tabla de clasificación cruzada (bivariada) con frecuencias absolutas para el

semestre que cursa y trabajo actual. Elaborar el gráfico respectivo. Calcular tres tablas

de frecuencias con porcentajes: por filas, por columnas y con base en el gran total.

Analizar e interpretar los resultados obtenidos en cada una de estas tablas.

f) Efectuar una tabla de clasificación cruzada (trivariada) con frecuencias absolutas para la

unidad académica, género y trabajo actual. Efectuar varias tablas con porcentajes: por

filas, por columnas, con base en el gran total, con base en subtotales. Analizar e

interpretar los resultados obtenidos.

Columna 1 = Unidad académica a la que pertenece el estudiante.

Comunicación = 1

Sicología = 2

Economía = 3

Contaduría = 4

Columna 2 = Semestre que cursa el estudiante (de 1 a 10)

Columna 3 = Género del estudiante

Masculino = 1

Femenino = 2

Columna 4 = Trabajo remunerado actual

Sí = 1

No = 2

Columna 5 = Tipo de matrícula del estudiante

Tiempo parcial = 1

Tiempo completo = 2

Columna 6 = Estrato socioeconómico del estudiante (de 1 a 6)

Convenciones


g) Efectuar varias tablas de clasificación cruzada (cuatrivariada) con frecuencias absolutas

para unidad académica, género, estrato y tipo de matrícula. Diseñar el gráfico

correspondiente para cada tabla de frecuencia. Con base en cada una de las tablas

anteriores elaborar otras tablas de frecuencia donde se visualicen porcentajes: por filas,

por columnas, con base en el gran total, con base en subtotales por filas, con base en

subtotales por columna. Analizar e interpretar cada uno de los resultados obtenidos.

8.26 Justificación estadística de proposiciones según el valor de verdad asignado.

Para cada uno de los enunciados siguientes especificar si es una proposición falsa o

verdadera, además justificar estadísticamente el valor de verdad asignado.

a) El momento de orden uno respecto a la media es igual a 1.

b) Cuando los datos de la variable son muy heterogéneos la varianza arroja un valor

negativo.

c) La estadística sólo se puede aplicar en aquellos casos en que se tengan datos numéricos.

d) La varianza es lo mismo que el momento de orden tres respecto a la media.

e) Una serie de datos numéricos puede llegar a tener varias medias.

f) Una serie de datos numéricos puede llegar a tener varias modas.

g) Una serie de datos cualitativa sólo tiene una media.

h) En una serie de datos cualitativa es imposible calcular la moda.

i) Siempre la desviación respecto a la media es un valor positivo.

j) Los momentos respecto a la media son promedios.

k) El cuartil de orden dos nada tiene que ver con la mediana.

l) El cuartil de orden dos es lo mismo que la varianza.

m) El segundo cuartil es lo mismo que el percentil 50.

n) El segundo cuartil es lo mismo que el quinto decil.

o) La varianza es un promedio.

p) La mediana es una medida de dispersión.


q) El momento de orden dos respecto a la media es una medida de dispersión.

r) La desviación típica o estándar es negativa cuando los datos son decrecientes.

8.27 Identificación del elemento o unidad de investigación, variable y clasificación.

Para cada uno de los siguientes enunciados, especificar si puede ser considerada alguna

variable, en caso afirmativo, indicar cuál sería el nombre, clasificarla en cualitativa o

cuantitativa, además, definir cuál es el elemento o unidad de investigación.

a) El peso en gramos de cada uno de los 200 pollos adquiridos en un restaurante para su

posterior preparación y venta.

b) Los números telefónicos de un grupo de empleados de una compañía.

c) El número de páginas de un libro.

d) El número de libros en finanzas existentes en cada una de las bibliotecas de las

universidades del departamento.

8.28 Presupuesto anual en bienestar institucional de establecimientos educativos.

Los siguientes datos representan el gasto presupuestal anual (en millones de pesos) en la

dependencia de Bienestar Institucional de 48 establecimientos educativos de secundaria de

carácter privado.

Gasto

presupuestal

Número de

establecimientos

15 - 20 3

20 - 25 9

25 - 30 14

30 - 35 10

35 - 40 8

40 - 45 4


Se pide:

a) Calcular las frecuencias relativas y analizarlas.




e) Calcular el rango.

f) Calcular el rango intercuartílico.

g) Calcular el decil de orden siete.

h) Calcular el coeficiente de asimetría.


8.29 Preferencias por candidatos electorales.

Los siguientes datos muestran las preferencias de un grupo de ciudadanos por cada uno

de los candidatos electorales.

Se pide:

a) ¿Cuál es la unidad o elemento de investigación?

b) Definir la variable, clasificarla e indicar las categorías que posee.

c) Elaborar un gráfico de pastel o circular.

d) Calcular las frecuencias relativas e interpretarlas.

e) Calcular la moda e interpretarla.

f) Elaborar un gráfico de barras.

Candidato Número de votos

Anadidato AA 120

Anadidato BB 570

Anadidato CC 400

Anadidato DD 58


8.30 Análisis estadístico del comportamiento asimétrico de las ventas en una cadena

de supermercados.

Si al director del departamento de ventas de una cadena de supermercados le informan

que las ventas presentan un comportamiento asimétrico negativo, deberá tomar medidas

correctivas. En caso afirmativo o negativo, justificar estadísticamente su respuesta.

8.31 Tiempo empleado en efectuar transacciones financieras.

Los clientes que llegan a una entidad bancaria para llevar a cabo una transacción

financiera tardan determinado tiempo (en minutos), se recolecta la información de un grupo de

ellos de manera aleatoria, para analizar la distribución de frecuencias del tiempo, la información

recolectada es la siguiente:

Se pide:

a) Organizar el tiempo en una tabla de frecuencias con seis intervalos y una amplitud de 8.

b) Graficar el histograma.




f) Calcular el coeficiente de asimetría y el de apuntamiento.

g) Calcular el decil de orden ocho y el percentil 67.

32 16 20 42 62

18 24 36 18 56

15 28 30 21 35

32 28 20 38 26

41 16 14 42 34

15 23 21 35 15

30 18 42 54 42

14 24 51 59 56

19 34 25 15 28



8.32 Trabajo social y análisis del gasto en alimentación.

Una corporación dedicada al trabajo social desea analizar la distribución y el

comportamiento del gasto destinado para la alimentación semanal (en miles de pesos)

efectuado por un grupo de personas cabeza de hogar de una zona determinada de la ciudad,

para tal fin, recolecta la siguiente información:

Se pide:

a) Organizar el gasto en una tabla de frecuencia.

b) Graficar el polígono.

c) Calcular media, mediana y moda.

d) Calcular desviación típica o estándar.



g) Calcular el decil 4 y el percentil 72.

h) Calcular coeficiente de asimetría y de apuntamiento.

i) ¿Cuál es el intervalo donde se encuentra el 50% de los gastos inferiores?

j) ¿Cuál es el intervalo donde se encuentra el 25% de los gastos más altos?


96 93 88 117 127 112

95 113 96 108 94 91

148 156 139 142 94 98

107 125 155 155 103 129

112 127 117 120 112 135

135 132 111 125 104 129

106 139 134 119 97 131

89 118 136 125 143 118

120 103 113 124 138 109


8.33 Cadena de minimercados y el volumen de ventas.

Una cadena de minimercados tiene ocho agencias de venta en la zona norte, siete en el

occidente, 12 en el oriente y 20 en el sur. El volumen de venta promedio de toda la cadena es

de $91,9 millones anuales. Se sabe que en el occidente el volumen de venta promedio fue de

$38 millones, y en el oriente $96 millones. Calcular el volumen de ventas promedio para el

norte y el sur, si además se sabe que el volumen de ventas promedio del sur es dos veces y

medio el del norte.

8.34 Producción mensual en textiles.

La producción diaria en metros de tela en una textilera, durante el último mes, se

registra a continuación:

Se pide:

a) Calcular las frecuencias relativas, absolutas acumuladas y relativas acumuladas.

b) Graficar el histograma y el polígono.

c) Calcular la media, la mediana y la moda. ¿Qué relación existe entre estos valores?, ¿qué

se puede concluir de la distribución de frecuencias de la producción de tela en metros?



Producción de

tela (en metros)Número de días

500 - 600 1

600 - 700 3

700 - 800 6

800 - 900 10

900 - 1000 6

1000 - 1100 3

1100 - 1200 1

Total 30


f) Calcular el decil de orden ocho y el percentil 39.

g) Calcular el intervalo central del 68,3% y el del 95,5%.


8.35 Gasto en publicidad de almacenes distribuidores de maletines en cuero.

Los siguientes datos hacen referencia al gasto anual en publicidad (en miles de pesos) de

un grupo de almacenes distribuidores de maletines y correas en cuero:

Se pide:

a) Calcular frecuencias relativas, absolutas acumuladas y relativas acumuladas.

b) Elaborar el histograma de frecuencias.





g) Calcular el decil inferior y el decil superior.

h) ¿Cuál es el intervalo central donde se encuentra el 80% de los gastos en publicidad?


Gasto en

publicidad

(miles de pesos)

Número de

almacenes

400 - 900 15

900 - 1400 9

1400 - 1900 12

1900 - 2400 15

2400 - 2900 8

2900 - 3400 4


8.36 Número de empleados por secciones en una compañía e ingreso promedio.

Una compañía está dividida en tres secciones: La sección 1 cuenta con 80 empleados. La

sección 2 cuenta con 130 empleados, que ganan en promedio, un 15% menos que los de la

sección 1. La sección 3 cuenta con 100 empleados, que ganan en promedio, un 15% más que la

sección 2.

Se sabe que el salario promedio de toda la compañía es de $ 750.000. ¿Cuál es el ingreso

promedio de cada sección?

8.37 Nivel de capacitación semanal en corporaciones de ahorro y vivienda.

La captación semanal (en millones de pesos) a nivel nacional, de las agencias de una

corporación de ahorro y vivienda, presenta la siguiente distribución de frecuencias:

Se pide:

a) Calcular las frecuencias relativas e interpretarlas.





f) Calcular el decil de orden siete y el percentil 43.

Nivel de

captación

Número de

agencias

5 - 8 2

8 - 11 7

11 - 14 12

14 - 17 18

17 - 20 21

20 - 23 16



8.38 Urbanización de tres torres destinada para el arriendo de apartamentos.

Una urbanización posee tres torres: la A, la B y la C. Sus apartamentos están destinados

todos para el arriendo (ninguno de los habitantes es propietario). El arriendo promedio de todos

los apartamentos de la urbanización es de $367.000. La torre A cuenta con 18 apartamentos, y

el promedio de arriendo es de $360.000. La torre C posee 12 apartamentos y tiene un arriendo

promedio de $450.000.

Calcular el número de apartamentos de la torre B, si se sabe que el arrendamiento

promedio de esta torre es de $280.000.

8.39 Volumen de importación anual de materia prima.

La distribución de frecuencias para el volumen de importación anual (en millones de

pesos) de materia prima necesaria para la fabricación de un producto nacional, por parte de una

reconocida empresa con diferentes sucursales dentro del territorio, se visualiza a continuación:

Se pide:

Importación

anual (millones

de pesos)

Número de

sucursales

200 - 250 3

250 - 300 8

300 - 350 15

350 - 400 23

400 - 450 15

450 - 500 8

500 - 550 3

Total 75


a) Calcular las frecuencias relativas e interpretarlas.

b) Graficar el polígono de frecuencias.


d) ¿Qué se puede concluir con relación a la forma de la distribución y comportamiento de

la variable importación, con base en el resultado de las tres medidas de tendencia

central?

e) Calcular la desviación típica o estándar.

f) Calcular el intervalo central para el volumen de importación, dentro del cual se

encuentra el 68,3% de las sucursales.

g) Calcular el intervalo central para el volumen de importación, dentro del cual se

encuentra el 95,5% de las sucursales.

h) Calcular el coeficiente de asimetría y el de apuntamiento.

i) Calcular el percentil de orden 83.

j) Calcular los deciles de orden tres y de orden siete.

k) Calcular el intervalo central para el volumen de importación, dentro del cual se

encuentra el 40% de las sucursales.

8.40 Consumidores potenciales de una bebida alimenticia.

Los siguientes datos hacen referencia a la distribución de personas dentro de la muestra

para una población potencial de consumidores de una bebida alimenticia, según su edad y

género:


Número de

registro

Consume

la bebidaEdad Género

41 2 7 1

42 1 4 1

43 1 7 2

44 1 3 1

45 1 3 1

46 1 4 1

47 1 4 2

48 2 7 1

49 2 4 1

50 2 3 1

51 1 6 1

52 1 7 2

53 2 3 2

54 1 4 1

Número de

registro

Consume

la bebidaEdad Género

9 2 1 1

10 1 4 1

11 1 3 1

12 1 4 2

13 2 5 1

14 2 6 2

15 1 4 2

16 2 7 2

17 1 1 2

18 1 4 1

19 2 7 2

20 1 4 1

21 2 7 2

22 2 5 1

23 1 3 1

24 1 4 1

25 1 3 1

26 1 1 2

27 2 6 2

28 1 3 2

29 1 5 2

30 2 7 1

31 1 4 2

32 2 6 2

33 2 6 2

34 2 5 2

35 1 7 1

36 1 4 1

37 1 7 1

38 2 6 2

39 2 6 1

40 1 4 2


Los códigos utilizados para identificar las categorías de cada variable son números, pero

igualmente, si el investigador opta por utilizar letras o palabras, puede hacerlo.

Se pide:

a) Calcular tres tablas de frecuencia (cruzadas) porcentuales: por filas, por columnas y con

base en el gran total.

b) Elaborar el gráfico respectivo para cada una de las tablas anteriores.

c) Calcular una tabla de frecuencia para la edad.

d) Utilizando la tabla de frecuencia para la edad, calcular la edad promedio de los

consumidores.

e) ¿Cuál es la edad a partir de la cual se encuentra el 20% de los consumidores mayores?

¿Cuál decil será útil para hallar esta edad?, ¿se podrá también calcular utilizando los

percentiles?

f) ¿Cuál género (masculino o femenino) es el que más consume esta bebida y cuál es el

porcentaje de representatividad?

g) g) Elaborar una grafica de pastel para visualizar la distribución del género (masculino o

femenino) de los consumidores de esta bebida.

Columna 1 = Número de registro de la persona

Columna 2 = Consume la bebida

Sí = 1

No = 2

Columna 3 = Edad de la persona

De 6 a 10 años = 1

De 11 a 14 años = 2

De 15 a 18 años = 3

De 19 a 22 años = 4

De 23 a 26 años = 5

De 27 a 30 años = 6

De 31 a 34 años = 7

Clolumna 4 = Clasificación según género

Masculino = 1

Femenino = 2

Convenciones


PARTE II

9. Probabilidades


La probabilidad. Es una medida estadística que se emplea para expresar el grado de

certeza de la ocurrencia de un evento o suceso.

Experimento. Cualquier proceso que genere una serie de datos; en cada realización

presenta un resultado.

Espacio muestral. Conjunto de todos los resultados posibles del experimento. Se denota

por Ω.

Punto muestral. Es cada uno de los elementos del espacio muestral.

Suceso o evento. Subconjunto del espacio muestral. Se denota con las letras mayúsculas

del alfabeto A, B, C,... Es cualquier conjunto de posibles resultados del experimento aleatorio. El

suceso imposible se denota por el conjunto vacío, φ, y el suceso posible se denota por el

conjunto de todos los posibles resultados, Ω.

Sucesos o eventos contrarios. Son aquellos sucesos (conjuntos) que no tienen elementos

comunes, y además, la unión de ellos conforma el conjunto de todos los posibles resultados Ω.

Los eventos φ y Ω son eventos contrarios.

El suceso contrario del evento A se denota con alguno de los tres símbolos siguientes: A',

A*, Ac; y así sucesivamente, para cualquier evento identificado con otra letra del alfabeto.


Los sucesos B y B' son eventos contrarios.

En los eventos contrarios se cumple que la intersección entre ellos arroja el conjunto

vacío, φ, y la unión da como resultado el conjunto Ω. Gráficamente, se tiene:

Figura 25. Sucesos o eventos contrarios

Sucesos o eventos incompatibles. Son aquellos eventos que sin ser necesariamente

contrarios, no presentan elementos en común, es decir, son eventos que no se pueden

presentar simultáneamente, también conocidos como mutuamente excluyentes o exhaustivos.

Gráficamente:

Figura 26. Sucesos o eventos incompatibles

No siempre ocurre que A⋃ B = Ω porque

pueden existir elementos

pertenecientes a Ω y que se encuentren por

fuera de A o de B.

A

Ω

B

A

A'

Ω


Número de elementos de un evento. La nomenclatura utilizada para identificar el

número de elementos del evento A es n(A), para el evento B es n(B), y así sucesivamente.

Unión de eventos. Se da como se explica en la figuras a continuación:

Figura 27. Unión de eventos incompatibles

Figura 28. Unión de eventos compatibles

Eventos compatibles:

n(A ⋃ B) = n(A) + n(B) - n(A ∩ B)

Se lee: número de elementos de Aunión B es igual al número de elementos de A más el número de elementos de B, menos el número de elementos de A intersección B

ΩBA

Eventos incompatibles:

n(A ⋃ B) = n(A) + n(B)

Se lee: número de elementos de A unión Bes igual al número de elementos de A más del número de elementos de B

ΩBA


Figura 29. Unión de tres eventos compatibles

Intersección de eventos. Se presenta cuando los eventos son compatibles, pudiéndose

presentar simultáneamente.

Figura 30. Intersección de eventos: A y B

Figura 31. Intersección de eventos: A, B y C

Número de elementos de A, B y C:

Número de elementos de los tres eventos, simultáneamente.

n(A ∩ B ⋂ C)

ΩBA

C

Número de elementos de A y B:

Los eventos A y B se presentan simultáneamente; son eventos compatibles.

n(A ∩ B)

ΩBA

Unión de tres eventos compatibles:

n(A⋃B⋃C) = n(A) + n(B) + n(C) xxxxxxxxxxx- n(A∩B ) - n(A⋂C) - n(B⋂C) xxxxxxxxxx+ n(A⋂B⋂C)

Se lee: número de elementos de A unión B unión Ces igual a número de elementos de A, más número de elementos de B, más número de elementos de C, menos número de elementos de A intersección B, menos número de elementos de A intersección C, menos número de elementos de B intersección C, más número de elementos de A intersección Bintersección C

Ω

BA

C


Figura 32. Otras intersecciones entre A, B y C

Complemento de la unión de eventos. Son todos aquellos elementos que pertenecen al

conjunto Ω pero que no están incluidos dentro de la unión; es lo que le falta a la unión para ser

igual a Ω.

Ω

Número de elementos de B y C:

n(B ⋂ C)

ΩBA

C

Número de elementos de sólo B y C:

n(A' ⋂ B ⋂ C)

ΩBA

C

Número de elementos de sólo A:

Número de elementos de A, y no elementos de B o C

n(A⋂B' ⋂ C')

BA

C

Número de elementos de C:

n(C)

ΩBA

C


Figura 33. Complemento de la unión de eventos

Figura 34. Leyes de Morgan

9.2 Enfoques básicos de las probabilidades.

Existen tres formas básicas de visualizar o analizar las probabilidades, éstas son:

Enfoque frecuentista. Se basa en las frecuencias relativas para su análisis. Recordar:

Es la proporción de veces que ocurre un suceso o evento, siendo fi el número de veces

que se repite el suceso, y n, el total de casos posibles.

n(A ⋃ B)' = n(A' ⋂ B')

ΩA B

n(A ⋂ B)' = n(A' ⋃ B')

ΩA B

Complemento de la unión de eventos:

En este caso, no hay elementos de Ani de B ni de C.

n(A'⋂B'⋂C') = n(A⋃B⋃C)'

Ω

C

A B


Enfoque clásico. Es la relación o proporción entre el número de casos favorables para el

evento A y el total de casos posibles, donde:

n(A) = número de casos favorables para el evento A

n(Ω) = número total de casos posibles.

P(A) = probabilidad de que ocurra el evento A

( ) ( )

( ) Fórmula (36)

Enfoque subjetivo. Es el que se basa en la experiencia o conocimiento que tenga el

investigador (persona) sobre el evento o suceso.

9.3 Cálculo del valor de una probabilidad.

Para calcular el valor de una probabilidad bajo el enfoque clásico es indispensable

calcular el número de elementos de cada evento en particular, n(A), n(B), n(C),... y el número

total de casos posibles, n(Ω). Por ejemplo:

Si se tienen dos eventos A y B, la probabilidad de que ocurran A y B, es decir, la

probabilidad de que ocurran simultáneamente A y B, se calcula así:

( ⋂ ) ( ⋂ )

( ) Fórmula (37)

Con ayuda de la teoría de conjuntos, se visualiza de la siguiente manera:


Figura 35. Probabilidad de (A ⋂ B)

Si se tienen tres eventos A, B y C, la probabilidad de que ocurran A y B se representa:

Figura 36. Probabilidad de (A ⋂ B) cuando existen A, B y C

Si se tienen tres eventos A, B y C, la probabilidad de que ocurran sólo A y B está

representada por:

Ω

P(A y B) = P(A ⋂ B)

( ⋂ ) = ( ⋂ )

( )

BA

C

ΩBA


Figura 37. Probabilidad de (A ⋂ B ⋂ C')

Si se tienen tres eventos A, B y C, la probabilidad de que ocurra A o B está dada

gráficamente por:

Figura 38. Probabilidad de (A U B), con A, B y C

Si se tienen tres eventos A, B y C, la probabilidad de que ocurra C es:

Ω

P(A o B) = P(A ⋃ B)

BA

( ⋃ ) = ( ⋃ )

( )

C

Ω

P(sólo A y B) = P(A ⋂ B ⋂ C')

BA

( ⋂ ⋂ ′) = ( ⋂ ⋂ ′)

( )

C


Figura 39. Probabilidad de (C), con A, B y C

Si se tienen tres eventos A, B y C, la probabilidad de que ocurra sólo C es:

Figura 40. Probabilidad de (A' ⋂ B' ⋂ C)

Si se tienen tres eventos A, B y C, la probabilidad de que se presenten simultáneamente

los tres eventos es:

P(sólo C) = P(A' ⋂ B' ⋂C)

Ω

( ′⋂ ′⋂ ) = ( ′⋂ ′⋂ )

( )

BA

C

Ω BA

( ) = ( )

( )

C


Figura 41. Probabilidad de (A ⋂ B ⋂ C)

Si se tienen tres eventos A, B y C, la probabilidad de que no se presente ninguno de los

tres eventos es:

Figura 42. Probabilidad de (A' ⋂ B' ⋂ C')

Si se tienen tres eventos A, B y C, la probabilidad de que se presente A o B o C es:

P(ninguno) = P(A' ⋂ B' ⋂ C') = P(A' ⋂ B' ⋂ C')

Ω

( ′⋂ ′⋂ ′) = ( ′⋂ ′⋂ ′)

( )

C

BA

P(A y B y C) = P(A ⋂ B ⋂ C)

Ω BA

( ⋂ ⋂ ) = ( ⋂ ⋂ )

( )

C


Figura 43. Probabilidad de (A U B U C)

9.4 Axiomas básicos de probabilidad.

La probabilidad siempre es un valor positivo: P(A) ≥ 0

La probabilidad del suceso posible o seguro Ω, es 1: P(Ω) = 1

La probabilidad del suceso imposible φ, es igual a cero: P(φ) = 0

La probabilidad de un evento siempre es un valor entre cero y uno: 0 ≤ P(A) ≤ 1

La probabilidad de que ocurra el evento A o B es P(A U B) = P(A) + P(B), para eventos

incompatibles; y P(A U B) = P(A) + P(B) - P(A ⋂ B), para eventos incompatibles.

La probabilidad de la unión de eventos contrarios, A o A', es igual a la probabilidad del

evento seguro:

P(A U A') = P(Ω)

P(A U A') = 1

P(A) + P(A') = 1

P(A o B o C) = P(A ⋃ B ⋃ C)

Ω

( ⋃ ⋃ ) = ( ⋃ ⋃ )

( )

C

BA


P(A) = 1 - P(A')

9.5 Probabilidad simple y conjunta, y su relación.

Probabilidad simple. Se conoce también como probabilidad marginal. Hace referencia a

la probabilidad de ocurrencia de un solo evento descrito por una sola característica: P(A).

Probabilidad conjunta. Hace referencia a la probabilidad de ocurrencia de dos o más

eventos (características) simultáneamente: P(A ⋂ B).

Relación entre probabilidad marginal y conjunta. La probabilidad marginal puede ser

expresada como la sumatoria de probabilidades conjuntas. Las probabilidades marginales y

conjuntas se ubican en una tabla de doble entrada, e incluso también es recomendable elaborar

una tabla preliminar con el número de elementos incluidos en cada uno de los eventos

conjuntos y marginales, que sirva de base para el cálculo de las respectivas probabilidades.

Figura 44. Diseño de tabla para probabilidades marginales y conjuntas

En la tabla se visualizan probabilidades marginales y conjuntas, así:

Probabilidades marginales:

P(A1), P(A2), P(A3), …, P(Aj)

EEvveennttooss AA11 AA22 AA33 …… AAjj TToottaall

BB11 PP((AA11 ⋂⋂ BB11)) PP((AA22 ⋂⋂ BB11)) PP((AA33 ⋂⋂ BB11)) …… …… PP((BB11))



…… …… …… …… …… …… ……

BBii …… …… …… …… PP((AAjj ⋂⋂ BBjj)) PP((BBii))

TToottaall PP((AA11)) PP((AA22)) PP((AA33)) …… PP((AAjj)) PP((ΩΩ)) == 11


P(B1), P(B2), P(B3), …, P(Bj)

Probabilidades conjuntas:

P(A1 ⋂ B1), P(A1 ⋂ B2), P(A1 ⋂ B3), …, P(A1 ⋂ Bi)

P(A2 ⋂ B1), P(A2 ⋂ B2), P(A2 ⋂ B3), …, P(A2 ⋂ Bi), P(Aj ⋂ Bi)

Nota: La intersección de eventos es conmutativa, es lo mismo escribir P(Aj ⋂ Bi) que P(Bi

⋂ Aj)

La probabilidad marginal es la sumatoria de probabilidades conjuntas:

( ) ∑ ( ⋂ )

( ) ∑ ( ⋂ )

Y así sucesivamente para P(A3), …, P(Aj).

( ) ∑ ( ⋂ )

( ) ∑ ( ⋂ )

Y así sucesivamente para P(B3), …, P(Bi).

9.6 Probabilidad condicional.

Es utilizada cuando se calcula la probabilidad de un evento A particular, teniendo

información previa en cuanto a la ocurrencia de otro evento B. La probabilidad del evento A

está condicionada o influenciada por la ocurrencia del evento B. Se escribe P(A/B), y se lee:

probabilidad de A dado que se conoce B, o simplemente, probabilidad de A dado B.

( ) ( ⋂ )

( ) Fórmula (38)


Siendo P(B) > 0

Nota: Cuando los eventos son independientes, la P(A/B) = P(A) y la P(B/A) = P(B). En

estos casos se dice que la probabilidad de ocurrencia del evento A no está relacionada con la

probabilidad de ocurrencia del evento B.

9.7 Reglas de la adición y la multiplicación dentro del cálculo de probabilidades.

Regla de la adición. Es utilizada para calcular la probabilidad de que ocurra el evento A o

el evento B, denominada también regla de la unión. Se escribe P(A ⋃ B). Su cálculo se desarrolla

de la siguiente manera, dependiendo si se trata de eventos incompatibles (mutuamente

excluyentes) o de eventos compatibles (no mutuamente excluyentes):

P(A ⋃ B) = P(A) + P(B) Para eventos incompatibles.

P(A ⋃ B) = P(A) + P(B) - P(A ⋂ B) Para eventos compatibles.

Regla de la multiplicación. Es utilizada para calcular la probabilidad de que ocurra el

evento A y el evento B. Se escribe P(A ⋂ B). Para su cálculo es necesario identificar si se trata de

eventos dependientes o independientes.

P(A ⋂ B) = P(A/B)P(B) Para eventos dependientes.

P(A ⋂ B) = P(B/A)P(A) Para eventos independientes.

9.8 Teorema de Bayes.

Es una técnica estadística para calcular el valor de una probabilidad cuando intervienen

en el análisis, probabilidades condicionales y también un conjunto de eventos mutuamente

excluyentes.


( ) ( ) ( )

∑ ( ) ( )

Fórmula (39)

Los eventos Ai son eventos mutuamente excluyentes o incompatibles (no pueden ocurrir

simultáneamente), sin embargo, cada Ai es compatible con B. La sumatoria de la probabilidad

de ocurrencia de cada evento Ai es igual a 1, debido a que se trata de eventos mutuamente

excluyentes: ∑ ( )


9.9.1 Comercio y ventas: Enfoque frecuentista de probabilidades.

De un grupo de 108 comerciantes:

53 venden amplificadores de sonido

46 venden botiquines para baños

78 venden cosméticos

23 venden amplificadores y botiquines

35, amplificadores y cosméticos

15 venden los tres productos anteriores

7 no venden ninguno de los tres productos anteriores.

Si se selecciona aleatoriamente un comerciante, cuál es la probabilidad de:

a) Que venda únicamente amplificadores.

b) Que venda únicamente botiquines y cosméticos.

c) Que venda amplificadores o botiquines o cosméticos.

d) Que venda los tres productos simultáneamente.

e) Que venda sólo cosméticos.

f) Que venda cosméticos.


Elaborar el diagrama de Venn, escribir el procedimiento de los cálculos con

nomenclatura estadística, efectuar operaciones e interpretar el resultado.

Solución

Los eventos de interés son:

A = Vender amplificadores de sonido

B = Vender botiquines para baños

C = Vender cosméticos

La información suministrada en el enunciado es la siguiente:

n(Ω) = 108

n(A) = 53

n(B) = 46

n(C) = 78

n(A ⋂ B) = 23

n(B ⋂ C) = ?

n(A ⋂ C) = 35

n(A ⋂ B ⋂ C) = 15

n(A' ⋂ B' ⋂ C') = 7

Para elaborar el diagrama de Venn es indispensable tener pleno conocimiento del total de elementos en cada uno de los eventos y en cada una de las partes del diagrama con su respectiva identificación. Después de conocer todos los datos, se comienza a llenar desde la parte más interna hacia la más externa, es decir, desde la intersección de los tres eventos, y luego los espacios donde se ubican las intersecciones de a dos eventos.

Como el n(Ω) = n(A ⋃ B ⋃ C) + n(A ⋃ B ⋃ C)', se puede calcular el número de elementos de la unión de los tres eventos n(A ⋃ B ⋃ C).

( ⋃ ⋃ ) ( ) ( ⋃ ⋃ )′

( ⋃ ⋃ ) ( ) ( ′⋃ ′⋃ ′)


( ⋃ ⋃ )

( ⋃ ⋃ )

Se aplica la fórmula para la unión de tres eventos, y de ésta, se despeja el valor de n(B ⋂ C) =?, posteriormente se procede a llenar el diagrama de Venn.

( ⋃ ⋃ ) ( ) ( ) ( ) ( ⋂ ) ( ⋂ ) ( ⋂ ) ( ⋂ ⋂ )

( ⋂ )

( ⋂ )

( ⋂ )

( ⋂ )

Diagrama de Venn

a) ( ⋂ ′⋂ ′)

( ⋂ ′⋂ ′)

( )

La probabilidad de que venda únicamente amplificadores es de 0,0925. El grado de certeza de que venda únicamente amplificadores es del 9,25%.

b) ( ⋂ ⋂ ′)

( ′⋂ ⋂ )

( )

La probabilidad de que venda únicamente botiquines y cosméticos es de 0,1667. El grado de certeza de que sólo venda botiquines y cosméticos es del 16,67%.

c) ( ⋃ ⋃ )

( ⋃ ⋃ )

( )

La probabilidad de que venda amplificadores o botiquines o cosméticos es de 0,9352. El grado de certeza de que venda amplificadores o botiquines o cosméticos es del 93,52%.

Ω

C

BA

10 8 5

15

20 18

257


d) ( ⋂ ⋂ )

( ⋂ ⋂ )

( )

La probabilidad de que venda amplificadores y botiquines y cosméticos es de 0,1389. El grado de certeza de que venda los tres productos simultáneamente es del 13,89%.

e) ( ) ( ′⋂ ′⋂ )

( ′⋂ ′⋂ )

( )

La probabilidad de que únicamente venda cosméticos es de 0,2315. El grado de certeza de que venda sólo cosméticos es del 23,15%.

f) ( )

( )

( )

La probabilidad de que venda cosméticos es de 0,7222. El grado de certeza de que venda cosméticos es del 72,22%.

9.9.2 Producción-maquinaria

Una máquina está construida con cuatro componentes independientes, la máquina

trabaja si cada uno de los componentes trabaja bien. Se sabe que la probabilidad de que cada

componente funcione bien es de 0,98. ¿Cuál es la probabilidad de que la máquina trabaje bien?

Solución

Evento Ai = El componente i funciona bien.

( ) con i = 1, 2, 3, 4.

( ⋂ ⋂ ⋂ ) ∏ ( )

( ) ( ) ( ) ( )

( ⋂ ⋂ ⋂ )

La probabilidad de que la máquina funcione bien es de 0,92. El grado de certeza de que la máquina funcione bien es del 92%.


9.9.3 Análisis de características del personal por sexo y partido político.

De un grupo de empleados de una compañía determinada, el 60% son mujeres y el 40%,

hombres. Se sabe que el 4% de los hombres no pertenecen a ningún partido político, y el 2% de

las mujeres tampoco pertenecen a ningún partido político.

Si se selecciona aleatoriamente un empleado y no pertenece a ningún partido político:

a) ¿Cuál es la probabilidad de que el empleado sea mujer?

b) ¿Cuál es la probabilidad de que el empleado sea hombre?

Solución

Se definen los eventos:

H = Ser hombre

M = Ser mujer

N = No pertenecer a ningún partido político

S = Pertenecer a algún partido político

Probabilidades dadas a conocer en el enunciado:

Probabilidades marginales:

P(H)= 0,40 Probabilidad de ser hombre

P(M)= 0,60 Probabilidad de ser mujer

Probabilidades conjuntas:

P(H ⋂ N) = 0,04 Probabilidad de ser hombre y no pertenecer a ningún partido político.

P(M ⋂ N) = 0,01 Probabilidad de ser mujer y no pertenecer a ningún partido político.


Se elabora un cuadro de doble entrada para organizar la información suministrada:

Partido político Género

Total Hombre Mujer

No (N) 0,04 0,01 ?

Sí (S) ? ? ?

Total 0,40 0,6 1

Se calculan las probabilidades desconocidas en la tabla:

( ⋂ )

( ⋂ )

( )

( )

La tabla completa, con las respectivas probabilidades conjuntas y marginales, queda así:

a) P(M / N) = ? Probabilidad de que el empleado sea mujer dado que no pertenece a ningún partido político.

( )

( ⋂ )

( )

Si se selecciona un empleado al azar, el grado de certeza que sea mujer dado que no pertenece a ningún partido político es del 20%.

b) P(H / N) = ? Probabilidad de que el empleado sea hombre dado que no pertenece a ningún

Partido político Género

Total Hombre Mujer

No (N) 0,04 0,01 0,05

Sí (S) 0,36 0,59 0,95

Total 0,40 0,6 1,00

Probabilidades conjuntas

Probabilidades marginales


partido político.

( )

( ⋂ )

( )

Si se selecciona un empleado al azar, el grado de certeza que sea hombre dado que no pertenece a ningún partido político es del 80%.

9.9.4 Administración y planeación.

El Departamento de Tránsito y Transporte de un municipio determinado planea reforzar

el respeto a los límites de velocidad mediante la utilización de un sistema de radar, ubicándolos

en cuatro sitios diferentes de la ciudad.

Los sistemas L1, L2, L3 y L4 son puestos a funcionar el 40%, 30%, 20% y 30% del tiempo,

respectivamente.

La probabilidad de que una persona lleve exceso de velocidad dado que fue detectada

por cada uno de los radares respectivamente es de 0,2, 0,1, 0,5 y 0,2.

¿Cuál es la probabilidad de que el tercer radar haya detectado a una persona dado que

llevaba exceso de velocidad?

Solución

Se tienen los siguientes sucesos o eventos:

B = Que lleve exceso de velocidad.

L1 = Que sea detectado por el radar 1.





La información suministrada es la siguiente:

P(L1) = 0,40 Probabilidad de que sea detectado por el radar 1. Probabilidad de que el

radar 1 esté funcionando.







P(B / L1) = 0,20 Probabilidad de que lleve exceso de velocidad dado que es detectado por

el radar 1.


el radar 2.


el radar 3.


el radar 4.

P(L3 / B) =? Probabilidad de que sea detectado por el radar 3 dado que llevaba exceso de

velocidad.

( )

( ) ( )

∑ ( ) ( )

( )

( ) ( ) ( ) ( )

( )

Interpretación: La probabilidad de que un conductor sea detectado por el radar 3 dado que llevaba exceso de velocidad es de 0,37. El grado de certeza de que un conductor sea detectado por el radar 3 dado que lleve exceso de velocidad es del 37%.


9.9.5 Desempeño laboral y atención al cliente: Empresa de servicios.

En el departamento de historia clínica de un hospital, tres empleados tienen la tarea de

procesar semanalmente los registros de los pacientes. El primer empleado procesa el 45% de los

registros. El segundo empleado procesa el 30% de los registros. El tercer empleado procesa el

25 % de los registros. El primer empleado tiene una tasa de error en su trabajo del 3%. El

segundo empleado tiene una tasa de error en su trabajo del 5%. El tercer empleado tiene una

tasa de error en su trabajo del 2%.

Si se selecciona un registro al azar entre los que se procesan durante la semana y se

encuentra que tiene errores:

a) ¿Cuál es la probabilidad de que el registro haya sido procesado por el primer empleado?

b) ¿Cuál es la probabilidad de que el registro haya sido procesado por el segundo

empleado?

c) ¿Cuál es la probabilidad de que el registro haya sido procesado por el tercer empleado?

Solución

Se identifican inicialmente los datos suministrados en el problema, asociándolo con los

respectivos eventos:

P(E1) = 0,45 Probabilidad de que el empleado 1 procese el registro.



Evento B = Que el registro presente error.

P(B / E1) = 0,03 Probabilidad de que un registro presente error dado que fue procesado

por el empleado 1.


por el empleado 2.



por el empleado 3.

El problema plantea:

a) P(E1 / B) = ? Probabilidad de que el primer empleado procese el registro dado que el

registro presenta error.

b) P(E2 / B) = ? Probabilidad de que el segundo empleado procese el registro dado que el


c) P(E3 / B) = ? Probabilidad de que el tercer empleado procese el registro dado que el


Se aplica la fórmula definida en el teorema de Bayes:

( )

( ) ( )

∑ ( ) ( )

a) ( )

( ) ( ) ( )

Interpretación: Si se selecciona un registro al azar, el grado de certeza de que lo haya procesado el primer empleado dado que presentó error, es del 40,29%.

b) Al aplicar la fórmula se obtiene:

( )

Interpretación: Si se selecciona un registro al azar, el grado de certeza de que lo haya procesado el segundo empleado dado que presentó error, es del 44,77%.

c) Al aplicar la fórmula se obtiene:

( )

Interpretación: Si se selecciona un registro al azar, el grado de certeza de que lo haya procesado el tercer empleado dado que presentó error, es del 14,92%.


9.10 Ejercicios propuestos.

9.10.1 Distribución porcentual de las familias de un barrio, según la tenencia de

vivienda y carro propios.

El 18% de las familias de un barrio tienen carro propio, el 20% tienen vivienda propia y el

12% tienen vivienda y carro propio. Calcular:

a) Probabilidad de que posea sólo carro.

b) Probabilidad de que posea carro y vivienda.

c) Probabilidad de que posea vivienda.

d) Probabilidad de que posea sólo vivienda.

e) Probabilidad de que no posea ni carro ni vivienda.

9.10.2 Estudiantes de grado once con deseos de ingresar a la universidad.

De un grupo de 172 estudiantes de undécimo de determinado colegio: 110 se

presentaron a Esumer, 70 a la Universidad Central, 12 no se presentaron a ninguna de las dos

instituciones de educación anteriores. Al seleccionar aleatoriamente un estudiante, determine:

a) La probabilidad de que se haya presentado a Esumer.

b) La probabilidad de que se haya presentado sólo a Esumer.

c) La probabilidad de que se haya presentado a Esumer y a la Universidad Central.

d) La probabilidad de que no se haya presentado a ninguna de las dos instituciones de

educación anteriores.


9.10.3 Propietarios de acciones y bonos en una corporación financiera.

Una corporación del sector financiero está pensando en utilizar una lista de propietarios

de acciones y bonos para mercadear un nuevo servicio a través de publicaciones enviadas por

correo a los inversionistas. El 40% de los inversionistas financieros tienen sólo acciones. El 10%

de los inversionistas financieros tienen sólo bonos. El 20% de los inversionistas poseen ambos.

El 30% no tienen bonos ni acciones (poseen otro documento financiero).

a) ¿Cuál es la probabilidad de que un inversionista tenga sólo acciones?

b) ¿Cuál es la probabilidad de que un inversionista posea acciones y bonos?

c) ¿Cuál es la probabilidad de que un inversionista posea acciones o bonos?

d) ¿Cuál es la probabilidad de que posea otro documento diferente a los dos anteriores?

9.10.4 Medición de la eficacia de un procedimiento aduanero para detectar sustancias

alucinógenas.

Un procedimiento aduanero a través de un proyecto de la instalación de una planta

bioelectrónica analiza su eficacia en detectar el tráfico de sustancias alucinógenas en los

cargamentos de exportación de flores y frutas tropicales. La probabilidad de que la prueba sea

positiva dado que el cargamento posee sustancia alucinógena es de 0,99. La probabilidad de

que la prueba sea positiva dado que el cargamento no posee la sustancia alucinógena es de

0,05. La probabilidad de que un cargamento posea sustancia alucinógena es de 0,10.

Calcular la probabilidad de que un cargamento posea sustancia alucinógena dado que la

prueba resultó positiva.


9.10.5 Almacenes distribuidores de electrodomésticos.

De un grupo de 127 almacenes: 60 venden neveras. 52 venden lavadoras. 62 venden

equipos de sonido. 22 venden neveras y lavadoras. 20 venden neveras y equipos de sonido. 17

venden lavadoras y equipos de sonido. 5 no venden ninguno de los tres electrodomésticos

anteriores.

Calcular:

a) Probabilidad de que venda los tres electrodomésticos.

b) Probabilidad de que venda neveras.

c) Probabilidad de que venda únicamente neveras.

d) Probabilidad de que venda lavadoras y equipos de sonido.

e) Probabilidad de que venda lavadoras o equipos de sonido.

f) Probabilidad de que venda sólo lavadoras y equipos de sonido.

g) Probabilidad de que venda sólo equipos de sonido.

h) Probabilidad de que no venda ninguno de los tres electrodomésticos.

9.10.6 Población adulta clasificada según lectores de prensa y votantes en elecciones.

La siguiente tabla recoge las proporciones de adultos en áreas no metropolitanas de

Antioquia, clasificadas en aquellos que leen o no la prensa y aquellos que votaron o no en las

elecciones anteriores:

Votaron Lectores No lectores

Sí 0,63 0,13

No 0,14 0,10

a) ¿Cuál es la probabilidad de que un adulto de esta población elegido al azar votase?

b) ¿Cuál es la probabilidad de que un adulto de esta población elegido al azar lea la prensa?


c) ¿Cuál es la probabilidad de que vote dado que lee la prensa?

d) ¿Cuál es la probabilidad de que vote y lea la prensa?

9.10.7 Transporte de mercancía: Embarque de cajas con juguetes y ropa para bebé.

Un embarque contiene 10 cajas, tres de ellas, con juguetes para niños menores de un

año y siete con ropa de bebé. Si se seleccionan aleatoriamente dos cajas del embarque, ¿cuál es

la probabilidad de que las cajas seleccionadas contengan ropa para bebé? Calcular esta

probabilidad para el caso de:

a) Selección con reposición.

b) Selección sin reposición.

9.10.8 Solicitudes de afiliación a una organización para estudiantes universitarios.

Un estudiante de una organización universitaria distribuyó solicitudes de afiliación a

nuevos estudiantes durante una reunión de orientación. El 40% de los que recibieron estas

solicitudes eran hombres, y el 60%, mujeres. Posteriormente, el 7% de los hombres y el 9% de

las mujeres que recibieron la solicitud se afilió a la organización.

a) ¿Cuál es la probabilidad de que un nuevo estudiante elegido al azar, que recibe la

solicitud, se afilie a la organización?

b) Calcular la probabilidad de que un nuevo estudiante elegido al azar, que se afilie a la

organización después de recibir la solicitud, sea mujer.

9.10.9 Comerciantes y distribuidores de amplificadores de sonido, botiquines y

cosméticos.

De un grupo de 108 comerciantes, 53 exportan amplificadores de sonido; 46 exportan

botiquines para baños; 78 exportan cosméticos; 23 exportan amplificadores y botiquines; 35


exportan amplificadores y cosméticos; 15 exportan los tres productos anteriores; 7 no exportan

ninguno de los tres productos anteriores.

Si seleccionamos aleatoriamente un comerciante, cuál es la probabilidad de que:

a) Exporte únicamente amplificadores.

b) Exporte únicamente botiquines y cosméticos.

c) Exporte amplificadores o botiquines o cosméticos.

9.10.10 Firma manufacturera y calidad del as piezas suministradas por los

proveedores.

Una firma manufacturera recibe embarques de dos proveedores. El 70% de las piezas

adquiridas provienen del proveedor A y el 30% restante del proveedor B. La calidad de las piezas

adquiridas varía con la fuente de suministro. Con base en datos históricos, las probabilidades

condicionales de recibir piezas buenas y malas de los proveedores están dadas por:

La probabilidad de que la pieza esté buena, dado que fue enviada por el proveedor A es

de 0,98. En otras palabras, el 98% de las piezas enviadas por el proveedor A son buenas.

La probabilidad de que la pieza esté mala dado que fue enviada por el proveedor A es de

0,02.

La probabilidad de que la pieza esté buena dado que fue enviada por el proveedor B es

de 0,95.

La probabilidad de que la pieza este mala dado que fue enviada por el proveedor B es de

0,05.

Si se selecciona una pieza al azar y resultó ser mala:


a) ¿Cuál es la probabilidad de que dicha pieza mala provenga del proveedor A?

b) ¿Cuál es la probabilidad de que dicha pieza mala provenga del proveedor B?

9.10.11 Estudiantes de educación superior con teléfono celular, beeper y fijo

inalámbrico.

De un grupo de 123 alumnos de una institución de educación superior, 71 poseen en sus

casas teléfono fijo inalámbrico; 58 tienen teléfono celular; 51 tienen beeper; 33, teléfono fijo

inalámbrico y celular; 31 teléfono fijo inalámbrico y beeper; 23 tienen los tres (inalámbrico,

celular, beeper); 12 no poseen ninguno.

Si se selecciona un alumno aleatoriamente:

a) ¿Cuál es la probabilidad de que posea sólo beeper?

b) ¿Cuál es la probabilidad de que posea sólo celular y beeper?

c) ¿Cuál es la probabilidad de que posea beeper o celular?

d) ¿Cuál es la probabilidad de que posea inalámbrico y beeper?

9.10.12 Control de calidad en una empresa manufacturera.

En el departamento de producción de una empresa se seleccionan en forma aleatoria

tres artículos de un proceso de manufactura. Se examina cada uno de ellos y se clasifica como

defectuoso y bueno.

a) ¿Cuál es la probabilidad de que los dos primeros artículos sean buenos?

b) ¿Cuál es la probabilidad de que los tres artículos examinados sean buenos?


9.10.13 Amas de casa consumidoras de detergentes para el aseo del hogar.

Se tomó una muestra de 115 amas de casas consumidoras de detergentes para el aseo

en el hogar, se encontró que: 15 no consumen Arielly ni Fabe; 45 consumen Arielly; 60

consumen Fabe.

Si seleccionamos aleatoriamente un ama de casa, cuál es:

a) La probabilidad de que consuma Arielly.

b) La probabilidad de que consuma sólo Arielly.

c) Probabilidad de que consuma Arielly y Fabe.

d) Probabilidad de que consuma Arielly o Fabe.

e) Probabilidad de que no consuma ninguno de los dos detergentes anteriores.

9.10.14 Distribución de vuelos en una aerolínea.

Una aerolínea estudia la distribución de sus vuelos en época de vacaciones con destino a

tres ciudades (Armenia, Bogotá, Cartagena). Se toma una muestra de 146 pasajeros, a los cuales

se les hace un seguimiento sobre sus viajes, encontrándose los siguientes resultados: 53 visitan

la ciudad de Armenia; 60 visitan la ciudad de Bogotá; 100 visitan la ciudad de Cartagena; 25

visitan Armenia y Bogotá; 35 visitan Armenia y Cartagena; 40 visitan Bogotá y Cartagena; 18 no

visitan ninguna de las tres ciudades anteriores.

Si se elige al azar un pasajero, calcular:

a) Probabilidad de que visite las tres ciudades anteriores.

b) Probabilidad de que visite la ciudad de Cartagena.

c) Probabilidad de que visite sólo Cartagena.

d) Probabilidad de que visite Bogotá o Cartagena.

e) Probabilidad de que visite Bogotá y Armenia.

f) Probabilidad de que visite Bogotá o Armenia.


g) Probabilidad de que visite sólo Bogotá y Armenia.

9.10.15 Estudiantes universitarios con becas y vinculación laboral de medio tiempo.

Un grupo de 120 estudiantes de la universidad a los cuales se les concedieron becas el

semestre actual, mostró que 53 de ellos poseen vinculación laboral de medio tiempo; 30 de

ellos solicitaron beca el semestre anterior y 18, al mismo tiempo, solicitaron beca el semestre

anterior y poseen vinculación laboral de medio tiempo.

Si se selecciona un estudiante al azar dentro de este grupo:

a) ¿Cuál es la probabilidad de que haya solicitado beca el semestre anterior?

b) ¿Cuál es la probabilidad de que posea vinculación laboral de medio tiempo?

c) ¿Cuál es la probabilidad de que sólo posea vinculación laboral de medio tiempo y no

haya solicitado beca el semestre anterior?

d) ¿Cuál es la probabilidad de que haya solicitado beca el semestre anterior y posea

vinculación laboral de medio tiempo?

9.10.16 Evaluación de un producto por parte de los consumidores, y grado de

aceptación del mismo en el mercado.

El departamento de mercadeo de una compañía desea analizar la incidencia de la buena

evaluación hecha a sus productos por parte de los consumidores en relación con los productos

que han tenido mucho éxito en el mercado, moderado éxito y baja aceptación.

El 97% de los productos con mayor éxito en el mercado recibieron buenas evaluaciones.

El 70% de los productos con moderado éxito en el mercado recibieron buenas calificaciones. El

12% de los productos con baja aceptación en el mercado recibieron buenas calificaciones. El

estudio también muestra que: El 45% de los productos han tenido mucho éxito en el mercado;


El 40% de los productos han tenido éxito moderado en el mercado; El 15% de los productos son

de baja aceptación en el mercado.

Si se selecciona aleatoriamente un producto:

a) ¿Cuál es la probabilidad de que obtenga buena calificación?

b) Si el producto obtuvo buena evaluación, ¿cuál es la probabilidad de que sea un producto

con alto éxito en el mercado?

c) Si el producto obtuvo buena evaluación, ¿cuál es la probabilidad de que sea un producto

con bajo éxito en el mercado?

9.10.17 Producción de muebles modulares y control de calidad en el ensamblaje.

El departamento de producción de una compañía dedicada a la fabricación de muebles

modulares desea efectuar control de calidad respecto al ensamble e instalación de los muebles.

Un mueble modular tiene 20 tornillos. Por diagnósticos preliminares, se ha detectado que

generalmente, cinco de ellos no están bien apretados.

Si se seleccionan aleatoriamente y sin remplazo, cuatro tornillos para efectuar la

auditoría en el control de la calidad del ensamblaje, para determinar si están bien apretados:

a) ¿Cuál es la probabilidad de que los cuatro tornillos estén bien apretados?

b) ¿Cuál es la probabilidad de que el primer tornillo seleccionado este flojo y los otros tres,

bien apretados?

c) ¿Cuál es la probabilidad de que los dos primeros tornillos estén bien apretados y los

otros dos, flojos?

d) ¿Cuál es la probabilidad de que los tres primeros tornillos estén apretados y el último,

flojo?

e) ¿Cuál es la probabilidad de que el primer tornillo esté bien apretado y los otros tres,

flojos?


9.10.18 Producción y comercialización de maletines escolares.

La tabla siguiente presenta un resumen de las características solicitadas en 315 órdenes

de maletines escolares:

Característica Estampado Fondo entero

Con cierre 30 85

Sin cierre 50 150

Si se selecciona aleatoriamente una orden de maletines escolares:

a) ¿Cuál es la probabilidad de que la solicitud sea de maletines estampados?

b) ¿Cuál es la probabilidad de que la orden sea de maletines con cierre?

c) ¿Cuál es la probabilidad de que la orden sea de maletines fondo entero y con cierre?

d) ¿Cuál es la probabilidad de que la orden sea de maletines fondo entero?

e) ¿Cuál es la probabilidad de que la orden sea de maletines estampados y sin cierre?

9.10.19 Mercadeo y lanzamiento de un nuevo producto.

El departamento de mercadeo de una empresa está promocionando un evento para el

lanzamiento de su nuevo producto. Se distribuyen tarjetas de invitación a diferentes

empresarios de la ciudad. El director de mercadeo efectúa auditoría al proceso de distribución

de volantes y tarjetas, para tal efecto, selecciona aleatoriamente tres empresarios para analizar

si la invitación llegó a tiempo o tarde.

a) ¿Cuál es la probabilidad de que al primer empresario seleccionado le haya llegado tarde

y a los otros dos a tiempo?

b) ¿Cuál es la probabilidad de que los tres empresarios hayan recibido la información a

tiempo?


c) ¿Cuál es la probabilidad de que al segundo empresario seleccionado le haya llegado a

tiempo y al primero y al tercero, tarde?

9.10.20 Perfil de clientes de un reconocido restaurante.

El propietario de un reconocido restaurante ubicado en una ciudad capital desea

construir el perfil de sus clientes para desarrollar una campaña publicitaria que atraiga a clientes

potenciales típicos de quienes actualmente prefieren este restaurante. El 40% de los usuarios

actuales son mujeres, el 75% de ellas es menor de 30 años. El 25% de los hombres son menores

de 30 años.

Determine cuál es la probabilidad de que un usuario seleccionado aleatoriamente:

a) Sea una mujer menor de 30 años.

b) Sea un hombre.

c) Sea un hombre mayor de 30 años.

d) Sea una mujer.

e) Sea una mujer mayor de 30 años.

f) Sea un usuario menor de 30 años.

9.10.21 Secretaría de Desarrollo Comunitario y proyecto para jóvenes.

La secretaría de desarrollo comunitario de un municipio, inicia un estudio en la población

de jóvenes de 18 años, para analizar la distribución respecto de los bachilleres y los que

actualmente laboran, con el objetivo de presentar un proyecto académico-laboral de ayuda a

este sector de la población.

De 1.500 jóvenes de 18 años se encontró que 400 tienen empleo y 1.200 son bachilleres.

De los bachilleres, 285 tienen empleo.


Determine cuál es la probabilidad de que un joven seleccionado aleatoriamente sea:

a) Un bachiller.

b) Un bachiller empleado.

c) Un bachiller desempleado.

d) Un joven sin culminar el bachillerato.

e) Un joven sin culminar el bachillerato y desempleado.

f) Un joven sin culminar el bachillerato y empleado.

9.10.22 Distribución y comercialización de teléfonos.

Un distribuidor de teléfonos vende teléfonos Panic y Solevy. De acuerdo a estudios

preliminares en las ventas se ha diagnosticado que: El 35% de los clientes compran teléfonos

Panic; El 53% de los clientes adquieren teléfonos Solevy; El 15% de los clientes adquieren los dos

teléfonos.

Determine cuál es la probabilidad de que un cliente:

a) No compre ninguna de las dos marcas de teléfono anteriores.

b) Compre sólo teléfonos Panic.

c) Compre teléfonos Panic o Solevy.

d) Compre teléfonos Panic y Solevy.

e) Compre únicamente teléfonos Solevy.


PARTE III

10. Distribuciones de probabilidad

10.1 Asociación de probabilidad con conceptos de estadística descriptiva.

La variable dentro de un estudio estadístico, hace referencia a lo que se desea medir

sobre cada unidad o elemento de investigación. Cuando cada valor de la variable (o intervalos

de la variable) pueden ser asociados con un respectivo valor de probabilidad, se habla de

variable aleatoria.

En estadística descriptiva se elaboran tablas de frecuencia, existe una columna que

identifica los respectivos valores de la variable (marcas de clase o intervalos) y otra columna con

frecuencias relativas (hi) las cuales pueden ser interpretadas en términos probabilísticos. Las

frecuencias relativas son valores entre 0 y 1, además, la sumatoria de las frecuencias relativas

siempre es igual a 1. Esta distribución de frecuencias se refiere a datos reales y se denomina

distribución empírica o simplemente distribución de frecuencias.

Existen casos en que no se conoce la totalidad de datos reales, pero con base en los

reales se puede construir la distribución de probabilidad, se conoce como una distribución de

probabilidad teórica referida a una variable aleatoria o variable estocástica.

En estadística descriptiva se construye el gráfico del polígono para visualizar la forma de

la distribución real de los datos de la variable, este polígono (curva o línea) tiene una función

matemática específica que lo identifica, dependiendo de su forma. El polígono es una curva

elaborada en un plano cartesiano, en el eje X (abscisa) se ubican los valores de la variable

aleatoria, y en el eje Y (ordenada) se ubican los respectivos valores de probabilidad. Bajo estas

circunstancias se habla de función de densidad de probabilidad.


En la misma forma que las distribuciones de frecuencia, las distribuciones de

probabilidad pueden analizarse mediante algunas medidas estadísticas como la media y la

varianza, las cuales se identificarán de ahora en adelante como parámetros de la distribución de

probabilidad, siendo la media conocida con el nombre de esperanza matemática.

Las variables aleatorias pueden ser discretas o continuas, dependiendo de si sólo

admiten valores enteros o expresiones decimales.

10.2 Función de densidad de probabilidad.

Para que una función matemática f(X) pueda ser definida como función de densidad de

probabilidad, debe cumplir las siguientes condiciones, para cada valor de X que forme parte del

dominio de la función.

Es importante recordar que una función matemática puede estar definida para valores

de X infinitos, o para determinados valores de X, lo que se conoce como el dominio de la

función. En este tema, el rango de la función esta dado por los valores de probabilidades, los

cuales se ubican en el eje Y.

Cuadro 8. Función de densidad de probabilidad

Variable aleatoria discreta Variable aleatoria continua

( ) ≥ 0 ( ) ≥ 0

∑ ( 𝑖)

𝑖=1

= 1 ( )+∞

∞

𝑑𝑥 = 1

Con ( 𝑖) = ( 𝑖) Esto significa que toda el área bajo la

función de densidad de probabilidad es igual a 1.


10.3 Función de distribución acumulativa de probabilidad.

La función de densidad de probabilidad se identifica con f(X).

La función de distribución acumulativa de probabilidad se identifica con F(X).

La probabilidad puntual P(X = xi) de que X tome un valor particular de xi sólo es posible

calcularla para el caso de la variable aleatoria discreta, para la variable aleatoria continua no

existen valores de probabilidad puntuales.

Cuadro 9. Probabilidad puntual

La probabilidad acumulativa, de que X sea menor o menor o igual que un valor

respectivo de xi se denomina función de distribución acumulativa F(X).


( = 𝑥𝑖) = (𝑥𝑖) ( = 𝑥𝑖) = ( )𝑑𝑥𝑥𝑖

𝑥𝑖

= 0


Cuadro 10. Probabilidad acumulativa

La probabilidad de que X se encuentre entre dos valores a y b (Incluyéndolos), se calcula

de la siguiente manera, dependiendo si es el caso de una variable discreta o una variable

continua, así:

Cuadro 11. Cálculo de probabilidad de X entre a y b


( ≤ ≤ 𝑏) = ∑ ( )

=𝑏

=

( ≤ ≤ 𝑏) = ( )𝑑𝑥 =𝑏

=

Significa hallar un área entre dos valores de X, a y b, bajo la función de densidad de

probabilidad.

( ≤ ≤ 𝑏) = ( ≤ 𝑏) ( ≤ )

( ≤ ≤ 𝑏) = 𝐹(𝑏) 𝐹( )

La probabilidad de que X se encuentre entre dos valores puede ser expresada como la diferencia de dos valores arrojados por la

función de distribución acumulativa.


( ≤ 𝑥) ≠ ( < 𝑥) ( ≤ 𝑥) = ( < 𝑥) = 𝐹(𝑥)

Se acumula con el operador sumatoria los valores de f(X) arrojados por todos los

X ≤x

Se acumula con el operador integral desde el menor valor que puede tomar la X hasta

el valor particular de x. Esta operación significa hallar un área bajo la función de densidad de probabilidad f(X)

a la izquierda de x.

( ≤ 𝑥) = ∑ ( )

=𝑥

= ∞

( ≤ 𝑥) = ( )𝑑𝑥𝑥

∞

= 𝐹(𝑥)

( < 𝑥) = ∑ ( )

𝑡𝑒 𝑖

= ∞

Nota: se acumula sin incluir el valor de x, hasta el anterior.


10.4 Parámetros en las distribuciones de probabilidad.

La media (esperanza matemática) y la varianza, se calculan de manera diferente

dependiendo si se trata de una variable aleatoria discreta o una continua.

Cuadro 12. Cálculo de parámetros

10.5 Cálculo de probabilidades.

Dependiendo del tipo de variable aleatoria discreta o continua, el cálculo de las

probabilidades presenta algunas diferencias.

Para la variable aleatoria discreta.

( ) ≠ ( ≤ )

( ) ( ≤ )

( ) ( ≤ )

( ) ( )

( ) ( ≤ ) ( ≤ ) 𝐹( ) 𝐹( )

( ≤ ≤ 𝑏) ( ≤ 𝑏) ( ≤ ) 𝐹(𝑏) 𝐹( )

( ) ( ≥ ) ( ) ( ≤ )

( ≥ ) ( ≤ )


Media o esperanza matemática Media o esperanza matemática

µ = ( ) = ∑ 𝑖 ( 𝑖)

𝑖=1

Fórmula (40) µ = ( ) = ( )𝑑𝑥

+∞

∞

Fórmula (42)

Con ( 𝑖) = ( = 𝑖)

Varianza Varianza

( ) = 2

Fórmula (41) 2 = ( µ)2

+∞

∞

( )𝑑𝑥 Fórmula (43)

2 = ∑ 𝑖 ( 𝑖)

𝑖=1


Para la variable aleatoria continua.

( ) No existe

( ≤ ) ( ) 𝐹( )

( ≤ ≤ 𝑏) ( ≤ 𝑏) ( ≤ ) ( 𝑏) ( ) 𝐹(𝑏) 𝐹( )

( 𝑏) ( ≤ ≤ 𝑏)

( ) ( ≥ ) ( ≤ ) ( ) 𝐹( )

10.6 Distribuciones de probabilidad discretas.

10.6.1 Distribución binomial.

Es una distribución de probabilidad para una variable discreta X, la variable X representa

el total de “éxitos” dentro de n ensayos. La palabra éxito siempre estará asociada con la

característica de interés que se esté analizando dentro de la ocurrencia del evento. Es una

distribución de probabilidad con aplicaciones en inspección de calidad, ventas, mercadeo,

investigación de opiniones, entre otras.

Nomenclatura.

n = Total de casos posibles, o total de ensayos.

X = Total de éxitos dentro de los n ensayos.

p = Probabilidad de éxito, en otras palabras, es la probabilidad de que ocurra la

característica de interés. El valor de p es una proporción, siempre se encuentra entre 0 y

1. La probabilidad p es conocida con estudios preliminares y se calcula como la relación

entre el total de casos favorables para la característica de interés sobre el total de casos

posibles.

Fórmula (44)


Con a = total de casos favorables para la característica de interés. 0 ≤ p ≤ 1.

q = probabilidad de fracaso, en otras palabras, la probabilidad de que no se presente la

característica de interés. También es una proporción y se puede calcular como la

relación entre el total de casos que no son favorables para la característica de interés (b)

dividido por el total de casos posibles, o simplemente utilizando la siguiente fórmula:

Fórmula (45)

𝑏

Fórmula (46)

Nota: Siempre, la unión de p con q representa el 100%, en términos relativos 1, por lo

tanto, se cumple que:

Fórmula (47)

De donde q = 1 – p, o también, p = 1–q

Función de distribución de probabilidad binomial.

f(X) = Probabilidad de que se presenten X éxitos dentro de los n ensayos.

( ) ( )

Fórmula (48) ≤

X = 0, 1, 2, 3,…, n. La variable X toma valores positivos y enteros (variable discreta).

Parámetros de la binomial.

Fórmula (49)


√ Fórmula (50)

( ) Representa combinaciones de n en X, se calcula de la siguiente forma:

( )

( )

n! se lee n factorial. El factorial de un número se calcula así:

( )

Por definición, 0! = 1

Nota: Por tratarse de una función de distribución de probabilidad, se tiene que la

sumatoria de todos los valores de f(X) es igual a 1: ∑ ( )

Representación gráfica de la binomial.

No existe un único gráfico que identifique la distribución binomial, existen tantos

cuantos valores de n, p y q diferentes se tengan, cada caso particular posee su respectivo gráfico

estadístico. El gráfico se elabora en un plano cartesiano, pero recordando que en el eje X sólo se

toman valores enteros, en el eje Y se ubican los valores de las probabilidades, se desplaza una

línea continua que una cada valor de X con el cruce donde se ubica su respectiva probabilidad.

Para su gráfico se recomienda efectuar con anterioridad las respectivas tabulaciones, tal

como se presenta en el ejemplo a continuación (ver figura 45).


Figura 45. Tabulaciones para el caso particular de una binomial con n = 7, p = 0,30

10.6.2 Distribución Poisson.

La variable aleatoria en la distribución Poisson representa el número de éxitos por

unidad de medición. Cada éxito que se presente es independiente de la ocurrencia de otro.

( ) = ( ) 𝑥

X f(X) Probabilidad

0 (0) = (70) (0,300)(0,707) 0,082354

1 (1) = (71) (0,301)(0,706) 0,247063

2 (2) = (72) (0,302)(0,705) 0,317652

3 (3) = (73) (0,303)(0,704) 0,226895

4 (4) = (74) (0,304)(0,703) 0,097241

5 (5) = (75) (0,305)(0,702) 0,025005

6 (6) = (76) (0,306)(0,701) 0,003572

7 (7) = (77) (0,307)(0,700) 0,000219

0,0000000,0200000,0400000,0600000,0800000,1000000,1200000,1400000,1600000,1800000,2000000,2200000,2400000,2600000,2800000,3000000,3200000,3400000,360000

0 1 2 3 4 5 6 7 8

Binomial para n= 7, p = 0,30

Valores de X

Pro

ba

bil

ida

d f

(X)


El número de éxitos hace referencia al número de veces de la ocurrencia de un evento,

entendiéndose por evento como llegada de personas, clientes, documentos, unidades

defectuosas, piezas examinadas, solicitudes, fallas en una máquina, accidentes, llamadas

telefónicas, entre otras.

La unidad de medición se define dependiendo de las necesidades específicas y

particulares de la situación, algunas unidades de medición que se adoptan son el tiempo

(segundos, minutos, horas, días, semanas, meses), la longitud (centímetros, metros, kilómetros),

el área (cm2, m2, km2), el volumen (cm3, m3, onza, litro, galón).

La distribución Poisson es muy utilizada dentro de la teoría de colas o líneas de espera

para analizar el comportamiento de una variable definida como el número de clientes que

llegan para ser atendidos en determinada unidad de tiempo.

Función de densidad de probabilidad para la Poisson.

La función de densidad de probabilidad para la Poisson está dada por:

( ) 𝑒 ( 𝑡)

para K ≥ 0, y valores enteros Fórmula (51)

Siendo:

λ = Promedio de éxitos (llegadas, clientes) por unidad de tiempo.

t =Unidad de tiempo.

K = Número de éxitos (llegadas, clientes) en el tiempo t.

Parámetros de la distribución Poisson.

𝑡 Fórmula (52)


𝑡 Fórmula (53)

Para t = 1 Una unidad de tiempo, se tiene: µ = λ y σ2 = λ

Representación gráfica de la Poisson.

La representación gráfica de la distribución Poisson depende de los valores particulares

que tomen λ y t. Por tal motivo, no existe una forma única que represente a esta distribución.

A continuación se muestra la representación gráfica de la Poisson para un caso particular

en que:

Número de éxitos: Llegada de clientes.

Unidad de medición: El tiempo en horas.

λ = Número de éxitos por unidad de tiempo. λ = 20 clientes/hora.

t = Tiempo en horas. t = 10 minutos.

Como t en este caso particular se expresa en horas, se tiene: 𝑡

La función de densidad de probabilidad viene dada por:

( ) ( )(

)(

)

( ) (

)

Con K ≥ = 0, además, valores enteros.

A continuación se muestra la tabla con los cálculos de las respectivas probabilidades

utilizando la función de densidad de probabilidad dada para la distribución Poisson (ver figuras

46 y 47).


Figura 46. Cálculo de probabilidades de Poisson para ;

K f(K) Probabilidad

0 (0) =

𝑒 206 (

206)

0

0!

0,035673993

1 (1) =

𝑒 206 (

206)

1

1!

0,118913311

2 (2) =

𝑒 206 (

206)

2

2!

0,198188852

3 (3) =

𝑒 206 (

206)

3

3!

0,220209835

4 (4) =

𝑒 206 (

206)

4

4!

0,183508196

5 (5) =

𝑒 206 (

206)

5

5!

0,122338797

6 (6) =

𝑒 206 (

206)

6

6!

0,067965999

7 (7) =

𝑒 206 (

206)

7

7!

0,032364761

8 (8) =

𝑒 206 (

206)

8

8!

0,013485317

9 (9) =

𝑒 206 (

206)

9

9!

0,004994562

10 (10) =

𝑒 206 (

206)

10

10!

0,001664854

11 (11) =

𝑒 206 (

206)

11

11!

0,000504501

12 (12) =

𝑒 206 (

206)

12

12!

0,000140139

13 (13) =

𝑒 206 (

206)

13

13!

0,000035933


Figura 47. Gráfica de probabilidades de Poisson para ;

10.6.3 Distribución hipergeométrica.

La variable aleatoria X representa el número de éxitos presentes en una muestra de

tamaño n. La palabra éxito hace referencia a la característica de interés estudiada, al suceso o

evento de interés, el cual se denota con la letra mayúscula A. Se tiene una población de tamaño

N, dentro de la cual NA elementos poseen la característica de interés y el resto poseen otra

característica diferente a la de interés, denominada B.

Para calcular la probabilidad de que se encuentren X éxitos en la muestra, se utiliza la

función de densidad de probabilidad hipergeométrica.

0,00000,01250,02500,03750,05000,06250,07500,08750,10000,11250,12500,13750,15000,16250,17500,18750,20000,21250,22500,2375

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Kéxitos

Poisson para λ= 20; t= 1/6

Pro

ba

bil

ida

df(K

)


Función de densidad de probabilidad hipergeométrica.

( ) ( ) ( )

( )

N, n, NA, X, NB, nB enteros positivos X = 0, 1, 2, 3, 4, . . . , NA

X ≤ NA

nB ≤ NB

n ≤ N

Fórmula (54)

Siendo:

N = tamaño de la población.

n = tamaño de la muestra.

NA = número de éxitos en la población, número de elementos que poseen la

característica de interés en la población.

X = número de éxitos en la muestra, número de elementos que poseen la característica

de interés en la muestra.

NB = número de fracasos en la población, número de elementos que no poseen la

característica de interés dentro de la población.

nB = número de fracasos en la muestra, número de elementos que no poseen la

característica de interés A dentro de la muestra.

De acuerdo a la nomenclatura presentada con sus respectivas definiciones, se tiene que:

Las diferentes combinaciones que definen la función de densidad de probabilidad de la

hipergeométrica, se calculan así:


( )

( ) (

)

( ) (

)

( )

Para efectos de calcular la función de densidad de probabilidad f(X) es adecuado

expresar ésta en términos de X, así:

( ) ( ) (

)

( )

Fórmula (55)

Parámetros de la distribución hipergeométrica.

Fórmula (56)

( )( )

( ) Fórmula (57)

Representación gráfica de la distribución hipergeométrica.

La representación gráfica de la distribución hipergeométrica cambia dependiendo de los

valores particulares que asuman los tamaños N, NA, NB y n; por tal motivo no existe una sola

forma de la distribución hipergeométrica.

A continuación se muestra un caso en el cual N = 12, NA = 8, NB = 4 y n = 5, la variable X

puede asumir los valores de 0, 1, 2, 3, 4 y 5. Efectuando la tabulación respectiva e indispensable

para efectuar el gráfico, se tiene (ver figura 48):


Figura 48. Cálculo de probabilidad de la distribución hipergeométrica para N = 12, NA = 8, NB =

4 y n = 5 y gráfica

X f(X)

0

(0) =(

80) (

45)

(125)

No existe porque (45) no está definido, es imposible

calcularlo

0

1 (1) =(

81) (

44)

(125)

0,0101010

2 (2) =(

82) (

43)

(125)

0,1414141

3 (3) =(

83) (

42)

(125)

0,4242424

4 (4) =(

84) (

41)

(125)

0,3535354

5 (5) =(

85) (

40)

(125)

0,0707071

Observar que la sumatoria de las f(X) con X desde 0 hasta 5 vale 1: ∑ ( ) = 15 =0

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 1 2 3 4 5 6

Poisson para N= 12; NA = 8; NB = 4; n = 5

Número de éxitos en la muestra

Pro

ba

bil

ida

d


10.7 Distribuciones de probabilidad continuas.

10.7.1 Distribución normal.

Conocida también con el nombre de distribución Gaussiana. Es una de las distribuciones

de probabilidad más importantes y utilizadas, su campo de aplicación es muy amplio, en

comercio, economía, mercadotecnia, medicina, entre otras ramas; también es indispensable

para el análisis de la estadística inferencial.

Tiene forma de campana (campana de Gauss), es simétrica, sus sesgos se extienden a

través del eje X sin llegarlo a cortar, es por ello que el eje X es una asíntota horizontal.

Función de densidad de probabilidad para la normal.

La función f(X) que representa a la distribución de probabilidad normal está dada por:

( )

√ 𝑒 (

)

Fórmula (58)

µ = media de la variable X

σ = desviación típica o estándar de la variable X

e = base de los logaritmos naturales (ln), equivale a 2, 71828

π = valor de “pi”, equivale a 3,14159265...

─ ∞ ≤ X ≤ + ∞

La forma que toma la campana de Gauss, depende de los valores respectivos de µ y de σ

dentro de la función f(X), siendo su forma simétrica apuntada, achatada o normal.


Los sesgos, donde existen áreas representativas bajo la curva de la normal, se extienden

más o menos a tres desviaciones estándar de la media, sin embargo éstos sesgos continúan

infinitamente acercándose al eje X pero sin tocarlo, las áreas bajo la curva de la normal por

fuera de éste rango de X constituyen áreas demasiado pequeñas y por lo tanto no muy

representativas.

Parámetros de la distribución normal.

Media µ

Varianza σ2

Representación gráfica de la distribución normal.

La representación gráfica de la distribución normal se muestra en la figura a

continuación:

Figura 49. Distribución normal

Distribución normal

Frec

uen

cia

µ µ + σ µ + 2σ µ + 3σ µ - 3σ µ - 2σ µ - σ

68,3%

95,5%

99,7%

X


Las áreas bajo la curva de la distribución normal representan valores de probabilidades,

toda el área bajo la curva de la normal vale 1.

Para calcular áreas bajo la función de la normal se debe desarrollar la integral de la

función respectiva, sin embargo, existe una tabla que puede ser utilizada independientemente

de los valores que tome X, con el único requisito de que la variable X se distribuya normalmente

con una media de µ y una desviación típica o estándar de σ.

La tabla que se puede utilizar recibe el nombre de Tabla de la Normal Estandarizada.

Siempre, antes de buscar el valor de probabilidad dentro de la tabla, se debe haber efectuado

con antelación el proceso de estandarización de la variable X.

Estandarización.

Estandarizar la variable X, consiste en transformarla en otra que recibirá el nombre de Z,

mediante la siguiente operación algebraica:

Fórmula (59)

Los parámetros de la nueva serie de datos Z, están dados por:

La media de Z siempre es igual a cero:

La varianza de Z siempre es igual a uno: 0

Por lo tanto, la desviación típica o estándar de Z siempre es igual a 1:


Representación gráfica de la normal estandarizada.

Siempre que se grafique una función de densidad de probabilidad, es recomendable

tabular la serie de datos para facilitar el gráfico en el plano cartesiano.

En este caso, la función de densidad de probabilidad a graficar está dada por la siguiente

expresión matemático-estadística:

( )

√ 𝑒

Para el gráfico se ubican en la abscisa los valores de Z, y en la ordenada, los valores

arrojados por la función de densidad de probabilidad f(Z), la tabulación está dada por:

Figura 50. Tabulación de la función de densidad de probabilidad f(Z)

Z f (Z ) Z f (Z ) Z f (Z )

-3,5 0,00087268 -1,1 0,21785218 1,3 0,17136859

-3,4 0,00123222 -1 0,24197072 1,4 0,14972747

-3,3 0,00172257 -0,9 0,26608525 1,5 0,1295176

-3,2 0,00238409 -0,8 0,28969155 1,6 0,11092083

-3,1 0,00326682 -0,7 0,31225393 1,7 0,09404908

-3 0,00443185 -0,6 0,3332246 1,8 0,07895016

-2,9 0,00595253 -0,5 0,35206533 1,9 0,06561581

-2,8 0,00791545 -0,4 0,36827014 2 0,05399097

-2,7 0,01042093 -0,3 0,38138782 2,1 0,0439836

-2,6 0,01358297 -0,2 0,39104269 2,2 0,03547459

-2,5 0,0175283 -0,1 0,39695255 2,3 0,02832704

-2,4 0,02239453 0 0,39894228 2,4 0,02239453

-2,3 0,02832704 0,1 0,39695255 2,5 0,0175283

-2,2 0,03547459 0,2 0,39104269 2,6 0,01358297

-2,1 0,0439836 0,3 0,38138782 2,7 0,01042093

-2 0,05399097 0,4 0,36827014 2,8 0,00791545

-1,9 0,06561581 0,5 0,35206533 2,9 0,00595253

-1,8 0,07895016 0,6 0,3332246 3 0,00443185

-1,7 0,09404908 0,7 0,31225393 3,1 0,00326682

-1,6 0,11092083 0,8 0,28969155 3,2 0,00238409

-1,5 0,1295176 0,9 0,26608525 3,3 0,00172257

-1,4 0,14972747 1 0,24197072 3,4 0,00123222

-1,3 0,17136859 1,1 0,21785218 3,5 0,00087268

-1,2 0,19418605 1,2 0,19418605


Figura 51. Representación gráfica de la normal estandarizada

Tabla de la distribución normal estandarizada.

Existen tres tabulaciones o diseños de tablas de normal estandarizada, dependiendo si

los valores de probabilidades que se hallan dentro de la tabla corresponden a áreas a la

izquierda de un valor de Z, área a la derecha de un valor de Z o a un área entre dos valores de Z.

A continuación se presenta la tabla de la normal estandarizada, con el cálculo para áreas

a la izquierda de un valor de Z determinado, esto significa encontrar la probabilidad de que Z

sea menor o igual a un valor particular o específico de ZP, se escribe P(Z ≤ ZP).

Normal estandarizada

Valores de Z

Pro

bab

ilid

ades

f(Z

)


Figura 52. Tabla de la Distribución Normal Estandarizada P(Z ≤ ZP)

( ≤ ) ( )𝑑

( ≤ )

Z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002

-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002

-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003

-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005

-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007

-3 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010

-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014

-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019

-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026

-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036

-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048

-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064

-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084

-2,2 0,0139 0,0163 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110

-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143

-2 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183

-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233

-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294

-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367

-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455

-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559

-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681

-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823

-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985

-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170

-1 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379

-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611

-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867

-0,7 0,2420 0,2389 0,2358 0,2327 0,2297 0,2266 0,2236 0,2206 0,2177 0,2148

-0,6 0,2743 0,2709 0,2679 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451

-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776

-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121

-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483

-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859

-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247

-0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641


10.7.2 Distribución exponencial.

La variable X representa el tiempo transcurrido entre dos eventos, sucesos, llegadas, por

tal motivo se refiere a una variable cuantitativa continua. La distribución exponencial es muy

Z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,695 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224

0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7456 0,7486 0,7517 0,7549

0,7 0,7580 0,7611 0,7642 0,7673 0,7703 0,7734 0,7764 0,7794 0,7823 0,7852

0,8 0,7881 0,791 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177

1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441

1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545

1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633

1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706

1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817

2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857

2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890

2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916

2,4 0,9918 0,992 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

2,5 0,9938 0,994 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952

2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964

2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974

2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981

2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990

3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993

3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995

3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997

3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998


utilizada dentro de la teoría de colas o líneas de espera, para analizar el comportamiento de la

variable tiempo, entre dos llegadas (éxitos).

Función de densidad de probabilidad para la exponencial.

La función de densidad de probabilidad está dada por:

( )

𝑒

Fórmula (60)

( )

𝑒

≥

θ = tiempo promedio entre llegadas

La función de densidad de probabilidad acumulativa se utiliza para calcular la

probabilidad de que X sea menor o igual a determinado tiempo t: P(X ≤ t).

( ≤ 𝑡) ( )𝑑𝑥

Fórmula (61)

( ≤ 𝑡)

𝑒 ( ) 𝑑𝑥 𝑒

( ≤ 𝑡) 𝑒

Se presenta relación entre el número promedio de llegadas en la unidad de tiempo y el

tiempo promedio entre llegadas (ver figura 53), siendo:

λ = promedio de llegadas (clientes, éxitos) por unidad de tiempo.

θ = tiempo promedio entre llegadas.


Figura 53. Relación entre el número promedio de llegadas y el tiempo promedio entre

llegadas, de la función de densidad para la exponencial

Si se toma la unidad de tiempo t = 1 y se divide por el tiempo promedio entre llegadas θ,

se obtiene el número promedio de llegadas λ:

Si se toma el tiempo promedio entre llegadas θ y se multiplica por el número de

llegadas, se obtiene el tiempo total es decir la unidad de tiempo t = 1:

Si se toma la unidad de tiempo t = 1 y se divide por el número promedio de llegadas, se

obtiene el tiempo promedio entre llegadas θ:

Parámetros de la distribución exponencial.

Fórmula (62)

Fórmula (63)

Representación gráfica de la distribución exponencial.

La forma que toma la distribución exponencial cambia dependiendo del valor que

asuman λ y θ. Se grafica, a manera de ejemplo un caso particular (ver figura 54), donde:

λ = 1 éxito/2 minuto (Se presenta 1 éxito cada dos minutos)

1ª llegada 2ª llegada 3ª llegada λª llegada

Unidad de tiempo t = 1


θ = 2 minutos (tiempo entre éxitos o llegadas).

X = tiempo (en minutos)

( )

𝑒

Sustituyendo el valor de θ se tiene:

( )

𝑒

Figura 54. Representación gráfica de la distribución exponencial

10.7.3 Distribución uniforme continua.

La variable aleatoria toma valores dentro de un intervalo finito, distribuyéndose

uniformemente dentro de éste, es decir, el valor de densidad de probabilidad para cualquier

valor X dentro del intervalo siempre es la misma. El límite inferior se identifica con un valor

específico a y el límite superior con b, de tal forma que a ≤ X ≤ b. Esta distribución también se

conoce con el nombre de distribución rectangular.

X f (X )

0,00 0,5

0,25 0,4412485

0,50 0,3894004

0,75 0,3436446

1,00 0,3032653

1,25 0,2676307

1,50 0,2361833

1,75 0,208431

2,00 0,1839397

2,25 0,1623262

2,50 0,1432524

2,75 0,1264198

3,00 0,1115651

3,25 0,0984558

3,50 0,086887

3,75 0,0766775

4,00 0,0676676

Distribución exponencial con θ = 2

X (tiempo)

Pro

ba

bili

da

d


La función de densidad de probabilidad de la distribución uniforme está dada por:

( )

𝑏 para a ≤ X ≤ b Fórmula (64)

La forma que toma la distribución uniforme es una línea recta paralela al eje X, toda el

área bajo función a través de todo el recorrido de X vale uno (1); esto es:

∫ ( )𝑑𝑥

a: valor más pequeño posible de X (límite inferior).

b: valor más grande posible de X (límite superior).

La función de distribución de probabilidad acumulativa viene dada por:

( ≤ 𝑥) ∫ (𝑡)𝑑𝑡 ∫

𝑑𝑡

( ≤ 𝑥)

𝑥

𝑏 Fórmula (65)

La probabilidad de que X se encuentre entre los valores a1 y b1, es:

( ≤ ≤ 𝑏

𝑏 𝑏

Fórmula (66)

Parámetros para la uniforme continua.

Los parámetros, media y varianza, para la distribución uniforme, vienen expresados por:


𝑏

Fórmula (67)

(𝑏 )

Fórmula (68)

Representación gráfica de la distribución uniforme continua.

Un ejemplo de representación gráfica para la distribución uniforme, a través del caso

particular en que la variable tome valores entre 3 y 10.

( )

Se tabula la función f(X) para diferentes valores de X dentro del intervalo, arrojando

siempre el mismo resultado, así:

Figura 55. Representación gráfica para la distribución uniforme

X f (X )

3,0 0,1429

4,0 0,1429

5,0 0,1429

6,0 0,1429

7,0 0,1429

8,0 0,1429

9,0 0,1429

10,0 0,1429

Distribución uniforme con a = 3 y b = 10

Valores de X

Va

lore

s d

e f(

X)


10.7.4 Distribución Chi-cuadrado.

La distribución Chi-cuadrado es muy utilizada para probar o analizar la forma como se

comportan los datos en un proceso, esto se efectúa a través de la prueba para la bondad de

ajuste, la cual se explica y analiza en el acápite sobre de Pruebas de hipótesis.

Definición de la Chi-cuadrado.

Sean X1, X2, X3,..., Xv variables aleatorias independientes que se distribuyen normalmente

con una media de cero (0) y una desviación típica o estándar de uno (1), es decir variables que

se distribuyen como normales estandarizadas; la sumatoria de cada una de estas variables

normales estandarizadas al cuadrado recibe el nombre de Chi-cuadrado (ji-cuadrado) con v

grados de libertad.

La Chi-cuadrado se identifica con el símbolo .

Fórmula (69)

∑

Sumatoria de normales estandarizadas al cuadrado.

La función de densidad de probabilidad de la Chi-cuadrado, está dada por:

( )

( )

( ) 𝑒 (

) Para X > 0 Fórmula (70)


Parámetros de la distribución Chi-cuadrado.

La media y la varianza de la distribución Chi-cuadrado, se expresan en términos de los

grados de libertad, así:

Fórmula (71)

Fórmula (72)

El símbolo Г es la función Gamma definida en cálculo como:

( ) ∫ 𝑒 𝑑𝑥

En caso de desear ampliar información sobre Г(n), remitirse al tema de la distribución t-

student, donde se visualizan algunas explicaciones al respecto.

Representación gráfica de la Chi-cuadrado.

La curva de la función de densidad de probabilidad de la Chi-cuadrado cambia

dependiendo del valor específico que asuma v. Ejemplo: Para la Chi-cuadrado con v = 4 grados

de libertad, la función queda definida así:

( )

(

)

𝑒

( )

( )

𝑒

( )

( ) 𝑒

( ) ( )

( )

𝑒


Se tabula esta función para diferentes valores de X y se obtienen los respectivos valores

de f(X), puntos que se ubican en el plano cartesiano, dando forma a la curva de densidad de

probabilidad de la Chi-cuadrado, así:

Figura 56. Representación gráfica de la densidad de probabilidad de la Chi-cuadrado

La función de distribución de probabilidad acumulativa para la distribución Chi-cuadrado,

se utiliza para calcular áreas bajo la curva a la izquierda de un valor específico de X, las cuales

representan probabilidades, se expresa así:

( ) ( ≤ ) ∫

(

)

𝑒

𝑑𝑥

X f (X )

0,1 0,02378074

0,2 0,04524187

0,3 0,0645531

0,4 0,08187308

0,5 0,0973501

0,6 0,11112273

0,7 0,12332042

0,8 0,13406401

0,9 0,14346633

1 0,15163267

2 0,18393972

3 0,16734762

4 0,13533528

5 0,10260625

6 0,0746806

7 0,05284542

8 0,03663128

9 0,02499524

10 0,01684487

11 0,01123862

12 0,00743626

13 0,00488618

14 0,00319159

15 0,00207407

Distribución Chi-cuadrado para v = 4

Valores de X

Va

lore

s d

e f(

X)


La tabla de la Chi-cuadrado se desprende de la función de distribución de probabilidad

acumulativa y hace referencia específicamente a:

( ≤ ) ( ≤ ) Fórmula (73)

Donde (1 – α) representa el valor de la probabilidad acumulativa o el valor del área bajo

la curva de la Chi-cuadrado a la izquierda del valor específico de χ2.

En la tabla de la Chi, el encabezado de las columnas representa diferentes valores de (1 -

α), el encabezado de las filas representa diferentes valores de v grados de libertad y cada cruce

al interior de la misma representa el valor de una Chi-cuadrado ; datos éstos importantes

para utilizarla acertadamente. Por ejemplo:

( ≤ ) ( ≤ )

( ≤ ) ( ≤ )

Figura 57. Diseño de la tabla de la Chi-cuadrado


Figura 58. Tabla de la distribución de la Chi-cuadrado


10.7.5 Distribución t-student.

La distribución t-student se utiliza para analizar pruebas de hipótesis y calcular intervalos

de confianza. (Para visualizar detalles al respecto, remitirse al acápite sobre pruebas de

hipótesis e intervalos de confianza).

La variable aleatoria t-student se define como el cociente entre la variable aleatoria

normal estandarizada y la raíz cuadrada de la variable aleatoria Chi-cuadrado, dividida en sus

grados de libertad.

𝑡

√

Fórmula (74)

La siguiente es la función de densidad de probabilidad de la variable aleatoria t-student,

para t que toma valores desde menos infinito hasta más infinito y v valores mayores que cero:

─∞ < t < +∞, v > 0.

(𝑡 ) ( )

√ ( )(

𝑡

)

( )

Fórmula (75)

Parámetros de la distribución t-student.

La media y la varianza para esta distribución están dadas por:

para v > 1 Fórmula (76)

para v > 2 Fórmula (77)

En la función dada el símbolo Г identifica a la función Gamma, definida en cálculo como:


( ) ∫

𝑒 𝑑𝑥

Otras fórmulas útiles para calcular Г(n), el valor gamma de un número n, son:

( ) ( ) ( ) para n entero

( ) ( )

(

) √

( ) ( )

( ) para 0 < n < 1

Para calcular (

) se aplica la fórmula para 0 < n < 1, así:

(

) (

)

(

)

(

) (

)

(

)

[ (

)]

[ (

)]

[ (

)]

(

) √

Representación gráfica de la t-student.

La forma que toma la función de densidad de probabilidad de la t-student se asemeja a

la forma de una normal, existen muchas curvas de la t-student dependiendo del valor que

asuma v en un caso específico, y de los valores de Z. Esta función es simétrica respecto a t = 0,

punto de referencia que constituye el punto donde la función se maximiza.


Ejemplo:

Caso particular de la forma que toma la función de densidad de probabilidad de la t-

student, para v = 5 grados de libertad. De igual manera se puede trabajar para cualquier valor

de v.

Se tiene la función definida:

(𝑡 ) (

)

√ (

)(

) ( )

Para v = 5, se tiene:

(

) (

) (

) ( ) ( )

√ √

(

) (

) (

) (

)

(

)

(

) (

)

(

)

√

En resumen, la función t-student a graficar queda definida así:

(𝑡 )

(√ )

(

)

Se tabula la función para diferentes valores de t; los valores de t se ubican en el eje X del

plano cartesiano, y los valores que arroje f(t,5) se ubican en el eje Y.


Figura 59. Tabulación de la función t-student para diferentes valores de t y para v = 5

El gráfico respectivo se observa a continuación, luego de ubicar las coordenadas

indicadas (X, Y).

t f (t )

-10 0,00010798

-9 0,00019652

-8 0,00038051

-7 0,00079383

-6 0,00181367

-5 0,00462963

-4 0,01349746

-3 0,04555394

-2 0,17146776

-1 0,5787037

-0,8 0,69674314

-0,6 0,81173756

-0,4 0,90983137

-0,2 0,97637894

0 1

0,2 0,97637894

0,4 0,90983137

0,6 0,81173756

0,8 0,69674314

1 0,5787037

2 0,17146776

3 0,04555394

4 0,01349746

5 0,00462963

6 0,00181367

7 0,00079383

8 0,00038051

9 0,00019652

10 0,00010798


Figura 60. Gráfica de la función t-student para diferentes valores de t y para v = 5

Figura 61. Tabla de la t-student

Distribución t-student

Valores de t

F(t)

co

n v

= 5



10.8.1 Producción de empaques (unidades defectuosas).

El 20% de los empaques producidos por una máquina son defectuosos. Determinar la

probabilidad de que de cuatro empaques tomados al azar:

a) Exactamente uno sea defectuoso.

b) Ninguno sea defectuoso.

c) Por lo menos uno sea bueno.

d) Entre uno y tres sean buenos.

Solución

Distribución binomial

a) Característica de interés: defectuosos

( ) ( ) ( ) ( ) ( )

La probabilidad de que de cuatro empaques tomados al azar, exactamente uno sea defectuoso es de 0,4096. Si se toman cuatro empaques al azar, el grado de certeza de que exactamente uno sea defectuoso es del 40,96%.

b) Característica de interés: defectuosos

( ) ( ) ( ) ( ) ( )

Si se toman cuatro empaques al azar producidos por esta máquina, la probabilidad de que ninguno sea defectuoso es de 0,4096. Si se toman cuatro empaques al azar producidos por esta máquina, el grado de certeza de que ninguno sea defectuoso es del 40,96%.

c) Característica de interés: buenos


( ≥ ) ( ) ( ) ( ) ( ) ( ≥ ) ( )

( ) ( ) ( ) ( )

( ≥ )

Si se toman cuatro empaques al azar producidos por esta máquina, la probabilidad de que por lo menos un empaque sea bueno es de 0,9984. Si se toman cuatro empaques al azar producidos por esta máquina, el grado de certeza de que por lo menos un empaque sea bueno es del 9,84%.

d) Característica de interés: buenos

( ≤ ≤ ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ≤ ≤ ) ∑ (𝑥)

Si se toman cuatro empaques al azar producidos por esta máquina, la probabilidad de que entre uno y tres empaques sean buenos es de 0,5888. Si se toman cuatro empaques producidos por esta máquina, el grado de certeza de que entre uno y tres empaques sean buenos es de 58,88%.

10.8.2 Venta de seguros de vida.

Un vendedor de seguros vende pólizas a cinco hombres, todos de la misma edad (48

años) y en buen estado de salud. La probabilidad de que un hombre de esa edad viva 30 años

más es de 2/3. Hallar la probabilidad de que dentro de 30 años:

a) Vivan solamente dos de los hombres.

b) Vivan al menos tres de los hombres.


Solución

Distribución binomial

a)

( ) ( ) ( ) ( ) ( )

Si se venden pólizas de seguro de vida a cinco hombres, todos de la misma edad y en buen estado de salud, la probabilidad de que dentro de 30 años vivan solamente dos hombres es de 0,161321; el grado de certeza de que dentro de 30 años vivan solamente dos hombres es del 16,13%.

b)

( ≥ ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ≥ ) ∑ ( )

Si se venden pólizas de seguro de vida a cinco hombres, todos de la misma edad y en buen estado de salud, la probabilidad de que dentro de 30 años vivan como mínimo tres hombres es de 0,795037; el grado de certeza de que dentro de 30 años vivan por lo menos tres hombres es del 79,5%.


10.8.3 Pago de facturas por parte de los usuarios de una compañía de teléfonos

celulares.

Los clientes de una compañía de teléfonos celulares llegan a la caja registradora para

pagar sus facturas con una rapidez promedio de 15 clientes cada media hora.

a) ¿Cuál es la probabilidad de que lleguen más de nueve clientes en 15 minutos?

b) ¿Cuál es la probabilidad de que lleguen entre cinco y ocho clientes en 10 minutos?

Solución

Distribución Poisson

𝑖𝑒 𝑡𝑒 𝑚𝑖 𝑡

Al definir la unidad de tiempo “minuto”, el valor de λ queda expresado así: 𝑖𝑒 𝑡𝑒 𝑚𝑖 𝑡

La conversión de λ se obtiene a través de una regla de tres:

Clientes Minutos

15 30

𝑥 1

a) ( )

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

La probabilidad pedida es ( ) también puede expresarse como ( ≥ )

Metodología 1: Evaluar la función de densidad de probabilidad para 10, 11, 12, 13, 14 y 15 éxitos, efectuar la sumatoria para obtener la probabilidad pedida.

( ) ∑ ( )

( ) ( ) ( ) ( ) ( ) ( )

Metodología 2: Tener presente que la sumatoria de todas las ( ) vale 1, ∑ ( ) , por

tal motivo ( ) ( ≤ ). En este caso, se debe calcular la probabilidad

( ≤ ) ( )


( ≤ ) de la siguiente manera:

( ≤ ) ∑ ( )

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

El resultado obtenido al aplicar cada una de éstas metodologías es el mismo, por tal motivo se puede elegir trabajar con cualquiera de las dos, generalmente se elige la más corta, en este caso sería la metodología 1, sin embargo se muestra el procedimiento de la metodología 2, así:

( ) 𝑒 ( )

𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

( ) 𝑒 ( )

Se obtiene la sumatoria:

∑ ( )

( ≤ ) ( ) ( ≤ ) ( ) ( )

La probabilidad de que lleguen más de nueve clientes en 15 minutos es de 0,22359. El grado de certeza de que lleguen más de nueve clientes en 15 minutos es del 22,4%

b) ( ≤ ≤ ) Con un 𝑡 minutos y un

( ≤ ≤ ) ( ) ( ) ( ) ( )


( )

𝑒 ( )

𝑒 ( )

( )

𝑒 ( )

( )

𝑒 ( )

( )

𝑒 ( )

( ≤ ≤ ) ∑ ( )

( ≤ ≤ )

La probabilidad de que lleguen entre cinco y ocho clientes en 10 minutos es de 0,49141. El grado de certeza de que lleguen entre cinco y ocho clientes en 10 minutos es del 49,14%.

10.8.4 Importación de chapas para puertas de seguridad e inspección de calidad.

Una compañía importadora de chapas para puertas de seguridad recibió un pedido de 25

chapas de las cuales siete son defectuosas. Cada que se recibe un pedido de 25 unidades se

toma una muestra de cinco unidades para inspeccionar la calidad en que llegan. El pedido sólo

es aceptado si la muestra de chapas trae como máximo dos unidades defectuosas. Cuando llega

un lote de 25 unidades, calcular la probabilidad de que éste sea aceptado.

Solución

Distribución hipergeométrica.

Unidad defectuosa se asocia con un éxito.

Tamaño de la población: chapas. Número de éxitos en la población: Número de “no éxitos” en la población: Tamaño de la muestra: Se pide calcular ( ≤ )


( ≤ ) ∑ ( )

( ≤ ) ( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( ≤ )

( ≤ )

La probabilidad de que un lote de 25 unidades sea aceptado es de 0,8869565. El grado de certeza de que un lote de 25 chapas sea aceptado es del 88,70%

10.8.5 Volumen de exportación mensual de una compañía de electrodomésticos.

El volumen de exportación mensual (en millones de pesos) de una compañía de

electrodomésticos presenta un comportamiento normal, con una media de $22.500 y una

desviación típica o estándar de $2.250. Calcular la probabilidad de que:

a) El volumen de exportación mensual sea mayor a $21.000 millones.

b) El volumen de exportación mensual se encuentre entre $24.000 y $26.000 millones.

c) El volumen de exportación mensual no sea superior a $19.000 millones.


Solución

a) ( ≤ ) ( ≤ )

( ≤ ) ( ≤

)

( ≤ ) ( ≤ ) ( ≤ ) ( ≤ )

La probabilidad de que el volumen de exportación mensual sea mayor o igual a $21.000 millones es de 0,7486. El grado de certeza de que el volumen de exportación sea mayor o igual a $21.000 millones es del 74,86%.

b) ( ≤ ≤ ) ( ≤ ) ( ≤ )

( ≤ ≤ ) ( ≤ ) ( ≤ )

( ≤ ≤ )

( ≤ ≤ )


La probabilidad de que el volumen de exportación mensual se encuentre entre $24.000 y $26.000 millones es de 0,1920. El grado de certeza de que el volumen de exportación mensual se encuentre entre $24.000 y $ 26.000 millones es del 19,20%.

c) ( ≤ ) ( ≤ )

( ≤ )

La probabilidad de que el volumen de exportación mensual se encuentre por debajo (menor o igual) de $19.000 millones es de 0,0594. El grado de certeza de que el volumen de exportación sea como máximo de $19.000 millones es del 5,94%.

10.8.6 Vida útil de las pilas de una cierta marca.

La vida útil de las pilas de una cierta marca está distribuida normalmente. Si el 6,68% de

las pilas duran más de 56 horas y el 30,85% duran menos de 52 horas, ¿cuál es la media y la

desviación estándar?

Solución

Distribución normal

vida útil de las pilas (en horas).

( ≥ ) ( ≤ ) ( ≤ )


Estandarizando, se obtienen las siguientes expresiones estadísticas:

( ≤ )

( ≤

)

( ≤ )

( ≤

)

Se busca en la tabla de la normal estandarizada, el valor de la probabilidad 0,9332 y se extrae el valor de , de igual manera se busca la probabilidad 0,3085 y se encuentra un .

Plantear el siguiente sistema de ecuaciones de 2x2, las dos incógnitas son precisamente µ y σ .

Primera ecuación:

Segunda ecuación:

Se resuelve simultáneamente el sistema por algún método algebraico (igualación, sustitución, reducción o determinantes) o por métodos de álgebra lineal (eliminación Gaussiana, Jordan Gauss, pivoteo, entre otros).

Por el método de igualación: se despeja la misma variable en ambas ecuaciones, se iguala quedando una ecuación en términos de una sola variable, se despeja la variable, el valor encontrado se sustituye en alguna de las ecuaciones para hallar el valor de la otra variable.

Igualando se tiene:

Se despeja el valor de σ, así:


Se sustituye el valor de σ en alguna de las ecuaciones, así:

( )

La vida útil media de las pilas y su desviación típica o estándar es de horas y horas.

La representación gráfica se muestra a continuación:

10.8.7 Llegada de clientes a un banco.

Los clientes llegan a un banco con una rapidez promedio de 20 clientes por hora. Si un

cliente acaba de llegar:

a) ¿Cuál es la probabilidad de que el siguiente cliente llegue dentro de 10 minutos?

b) ¿Cuál es la probabilidad de que el siguiente cliente llegue en el lapso de tiempo entre

tres y siete minutos?


Solución

Distribución exponencial

a) clientes/hora

minutos

Se expresa el valor de λ y de X en la misma unidad de tiempo. Para pasar el valor de X dada en minutos, a horas, se puede resolver la siguiente regla de tres simple:

Hora Minutos

1 60

10

( ≤

) 𝑒

( ≤

) 𝑒

La probabilidad de que el siguiente cliente llegue dentro de 10 minutos es de 0,966. El grado de certeza de que el siguiente cliente llegue dentro de 10 minutos es de 96,6%.

b) ( 𝑚𝑖 ≤ ≤ 𝑚𝑖 )

Utilizando regla de tres simple se pasa lo expresado en minutes, a horas.

(

≤ ≤

)

(

≤ ≤

) ( ≤

) ( ≤

)

(

≤ ≤

) [ 𝑒 (

)] [ 𝑒

( )]

(

≤ ≤

) ( 𝑒 ) ( 𝑒 )

La probabilidad de que el siguiente cliente llegue en el lapso de tiempo entre tres y siete minutos es de 0,2706. El grado de certeza de que el siguiente cliente llegue en el lapso de tiempo entre tres y siete minutos es del 27,06%.


10.8.8 Producción de circuitos electrónicos y su vida útil.

El departamento de producción de una compañía efectúa un experimento para analizar

la vida útil (en horas) de un circuito electrónico, para ello somete los circuitos de varios lotes de

producción bajo las mismas condiciones, encontrando que la vida útil se encuentra distribuida

uniformemente entre 2.500 y 3.000 horas. Si se selecciona de manera aleatoria un circuito

electrónico:

a) ¿Cuál es la probabilidad de que dure menos de 2.670 horas?

b) ¿Cuál es la probabilidad de que su vida útil se encuentre entre 2.800 y 2.950 horas?

Solución

Distribución uniforme continua

a) ( ≤ )

Si se selecciona un circuito electrónico de manera aleatoria, el grado de certeza de que éste dure menos de 2.670 horas es del 34%.

b) ( ≤ ≤ )

Si seleccionamos un circuito electrónico de manera aleatoria, el grado de certeza de que dure entre 2.800 y 2.950 horas es del 30%.


10.9.1 Unidades defectuosas en un proceso de manufactura.

Todos los días se seleccionan de manera aleatoria, seis unidades de un proceso de

manufactura, con el propósito de verificar el porcentaje de unidades defectuosas en la


producción. Con base en información pasada, la probabilidad de tener una unidad defectuosa es

de 0,12.

La gerencia ha decidido detener la producción cada vez que una muestra de seis

unidades tenga dos o más defectuosas. ¿Cuál es la probabilidad de que en cualquier día, la

producción se detenga?

10.9.2 Campaña de mercadeo para un club nacional de automovilistas.

Un club nacional de automovilistas comienza una campaña telefónica con el propósito

de mercadear y aumentar el número de personas afiliadas al club. Con base en experiencia

previa se sabe que una de cada 20 personas que reciben la llamada, se une al club.

Si en un día 14 personas reciben la llamada telefónica, ¿cuál es la probabilidad de que

por lo menos tres personas de ellas se unan al club?

10.9.3 Pago de compras con tarjeta de crédito en un almacén.

El 38% de los clientes de un almacén pagan sus compras con tarjeta de crédito, si se

selecciona una muestra aleatoria de 25 clientes:

a) ¿Cuál es la probabilidad de que exactamente cinco clientes paguen con tarjeta de

crédito?

b) ¿Cuál es la probabilidad de que por lo menos ocho clientes paguen con tarjeta de

crédito?

c) ¿Cuál es la probabilidad de que entre cinco y nueve clientes no paguen con tarjeta de

crédito?

d) ¿Cuál es la probabilidad de que a lo sumo (como máximo) dos clientes no paguen con

tarjeta de crédito?


10.9.4 Control de calidad en cajas de bombillas.

Supóngase que en una caja con bombillas, el 10% son defectuosas. Cuál es la

probabilidad de que una muestra al azar de cinco bombillas contenga:

a) Por lo menos una defectuosa.

b) Por lo menos tres defectuosas.

c) Exactamente una defectuosa.

d) Como máximo, una defectuosa.

10.9.5 Asistencia tarde al trabajo por parte de empleados.

El 30% de los empleados de una compañía llegan tarde al trabajo. Si se eligen 10

personas al azar, cuál es la probabilidad de que:

a) Tres lleguen tarde.

b) Como mínimo, tres lleguen tarde.

c) Como máximo, cinco lleguen tarde.

10.9.6 Preferencias por determinado candidato a la presidencia.

El 70% de los antioqueños creen en el candidato A para la presidencia. Si seleccionamos

nueve antioqueños al azar, cuál es la probabilidad de que:

a) Crean tres o menos.

b) Crean más de cuatro.

c) Crean menos de dos.

10.9.7 Hogares con televisión por cable.

El 75% de los hogares del área metropolitana de Medellín tienen televisión por cable. Si

se analizan 18 hogares, cuál es la probabilidad de que el número de ellos que tenga cable sea:


a) Mayor que uno.

b) Cinco o menos.

c) Entre siete y ocho, inclusive.

d) Diecisiete o más.

10.9.8 Tiempo de llegada de estudiantes a una biblioteca.

Los alumnos llegan a la biblioteca con una rapidez promedio de 50 alumnos por hora. Si

un alumno acaba de llegar, cual es la probabilidad de que el siguiente usuario llegue:

a) Dentro de 15 minutos.

b) Dentro de 10 minutos.

c) Después de 12 minutos.

d) Entre en el lapso de tiempo de ocho a 13 minutos.

10.9.9 Número de estudiantes que llegan a una biblioteca.

Los alumnos llegan a la biblioteca con una rapidez promedio de 50 alumnos por hora.

Cuál es la probabilidad de que lleguen:

a) Tres alumnos en los próximos 15 minutos (es decir, dentro de 15 minutos).

b) Dos alumnos en los próximos 10 minutos. c) Entre Tres y seis alumnos en los próximos

10 minutos.

c) Entre 20 y 30 alumnos en los próximos 30 minutos.

d) Menos de tres alumnos en los próximos 12 minutos.

10.9.10 Tiempo de llegada de clientes a la caja registradora.

Los clientes de un supermercado llegan a la caja registradora con una rapidez promedio

de dos clientes por minuto. Si un cliente acaba de llegar, cuál es la probabilidad de que el

siguiente cliente llegue:


a) En medio minuto (es decir, dentro de medio minuto).

b) Dentro de un minuto.

c) Dentro de minuto y medio.

d) Dentro de dos minutos y medio.

e) Entre el lapso de tiempo de uno a 2,5 minutos.

10.9.11 Número de clientes que llegan a la caja registradora.

Los clientes de un supermercado llegan a la caja registradora con una rapidez promedio

de dos clientes por minuto. Cuál es la probabilidad de que lleguen:

a) Tres clientes en el próximo minuto.

b) Cuatro clientes en el próximo minuto.

c) Tres clientes en los próximos dos minutos

d) Cinco clientes en el próximo minuto y medio.

e) Entre uno y tres clientes por minuto.

10.9.12 Tiempo y número de clientes que llegan a una compañía de teléfonos celulares.

Los clientes de una compañía de teléfonos celulares llegan a la caja registradora para

pagar sus facturas con una rapidez promedio de 15 clientes cada media hora.

a) ¿Cuál es la probabilidad de que lleguen más de nueve clientes en 15 minutos?

b) ¿Cuál es la probabilidad de que lleguen entre cinco y ocho clientes en 10 minutos?

c) Si acaba de llegar un cliente, ¿cuál es la probabilidad de que el siguiente cliente llegue

dentro de 5 minutos?

d) Si acaba de llegar un cliente, ¿cuál es la probabilidad de que el siguiente cliente llegue en

el lapso de tres a 10 minutos?


10.9.13 Proceso de selección y contratación de personal en una entidad financiera.

El jefe de personal de una entidad financiera debe contratar ocho personas entre 35

candidatos para el cargo de analista de cartera, 24 de los candidatos tienen título profesional y

el resto son estudiantes de los últimos semestres. ¿Cuál es la probabilidad de que cinco de los

contratados tengan título profesional?

10.9.14 Firma de asesores en comercio internacional para nuevos proyectos.

De los 20 ejecutivos de una firma de asesores en comercio internacional, se seleccionan

12 para ser enviados a Francia a estudiar nuevos proyectos con empresas de ese país. Ocho de

los ejecutivos ya tienen experiencia con casos similares. ¿Cuál es la probabilidad de que cinco de

los enviados tengan experiencia previa en proyectos similares?

10.9.15 Cálculo de áreas bajo la curva de la distribución normal estandarizada.

Hallar el área bajo la curva normal:

a) Entre y

b) Entre y

c) Entre y

d) A la izquierda de

e) A la derecha de

Nota: graficar cada numeral.

10.9.16 Ventas anuales a crédito.

Las ventas anuales a crédito (por club) de un almacén se distribuyen normalmente, con

una media y una desviación típica o estándar de: (millones de pesos) y

(millones de pesos). Calcular las siguientes probabilidades:


a) Probabilidad de que las ventas anuales por club estén por debajo de $38,7 millones.

b) Probabilidad de que las ventas anuales por club sean superiores a $ 31,5 millones.

c) Probabilidad de que las ventas anuales por club se encuentren entre $30,2 y $37,5

millones.

Nota: graficar cada numeral y analizar resultados obtenidos.

10.9.17 Gasto semanal en loncheras para niños.

Si el gasto semanal en loncheras para niños de preescolar se encuentra distribuido

normalmente con una media de $10 mil y una desviación estándar de $2 mil, emplear la tabla y

calcular las siguientes probabilidades:

a) ( )

b) ( )

c) ( )

d) ( )

e) ( )

Nota: graficar cada numeral y analizar los resultados obtenidos.

10.9.18 Estatura de los alumnos de un colegio.

Suponiendo que las estaturas X de los alumnos de un colegio se encuentran distribuidas

normalmente con una media igual a 169 cm y una desviación estándar igual a 3 cm, calcular las

siguientes probabilidades (empleando la tabla):

a) Probabilidad de que un estudiante tenga una estatura inferior a 165 cm.

b) Qué porcentaje de alumnos tendrá una estatura entre 165 y 170 cm.

Nota: graficar y analizar resultados.


10.9.19 Peso promedio de las frutas de un cargamento a transportar.

El peso promedio de las frutas de un gran cargamento es de 15 lb. Con una desviación

estándar de 1,62 lb.; si sus pesos están distribuidos normalmente, ¿qué porcentaje de frutas

tendrá un peso entre 15 lb y 18 lb? Graficar.

10.9.20 Duración de las baterías de una cierta marca.

Si la vida media de cierta marca de baterías es de 30 meses, con una desviación estándar

de seis meses, ¿qué porcentaje de estás baterías puede esperarse que tengan una duración de

24 a 36 meses? Se supone que su duración tiene una distribución normal. Graficar.

10.9.21 Salario medio mensual.

En cierto negocio, el salario medio mensual es de $386.000 y la desviación estándar es

de $4.500. Si se supone que los salarios tienen una distribución normal, ¿qué porcentaje de

empleados percibe salarios entre $380.000 y $385.000? Graficar.

10.9.22 Notas en un examen de legislación.

Dos estudiantes fueron informados de que habían recibido referencias tipificadas de 0,8

y –0,4 respectivamente, en un examen de legislación. Si sus puntuaciones fueron 88 y 64

respectivamente, hallar la media y la desviación típica (o estándar) de las puntuaciones del

examen.


10.9.23 Peso de un grupo de deportistas.

La media del peso de 500 deportistas (mayores de edad) es de 75,5k y la desviación

típica es de 6k. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos

deportistas pesan:

a) Entre 60 y 75,5k.

b) Más de 92,5k.

10.9.24. Gasto semanal en transporte por parte de un grupo de empleados.

El gasto promedio semanal en transporte de un grupo de empleados es de $15.000 y la

desviación estándar es de $3.500. Se sabe que 647 empleados tienen un gasto mayor de

$16.300 ¿Cuál es el número total de empleados?

10.9.25 Publicación sobre los salarios mensuales de contadores.

Una revista publicó un estudio donde se indica que los salarios mensuales para

contadores titulados presenta un comportamiento normal con una media de $2.800.000 y una

desviación típica o estándar de $435.000. Cuál es la probabilidad de que:

a) Un contador titulado gane entre $1.500.000 y $3.000.000.

b) Un contador titulado gane más de $2.598.000.

Graficar cada caso e interpretar.

10.9.26 Fabricación de neumáticos y su vida útil.

Una fábrica de neumáticos produce llantas con una vida útil media de 85.000 Km y una

desviación estándar de 6.800 Km. La vida útil se encuentra distribuida normalmente.

a) ¿Cuál es la probabilidad de que una llanta dure más de 91.000 Km?


b) Hallar el valor del Kilometraje límite donde el 7,3% de los neumáticos duran menos de

dicho valor (en Km).

c) ¿Cuál es la probabilidad de que un neumático dure entre 80.000 Km y 93.000 Km?

Graficar cada caso e interpretar.

10.9.27 Comisión mensual obtenida por un grupo de vendedores.

El nivel de comisión mensual obtenida por un grupo de vendedores se encuentra

distribuido normalmente. El 3,15% ganan por concepto de comisión, más de $980.000; el 85,3%

obtienen menos de $574.000. Determinar la comisión promedio y la desviación estándar.

Graficar.

10.9.28 Vida útil de circuitos electrónicos.

La vida útil media de un circuito electrónico es de 1.200 horas, y la desviación típica o

estándar es de 250 horas. Si la vida útil se distribuye normalmente, ¿cuál es la probabilidad de

que el circuito dure más de 1.300 horas? Graficar e interpretar.

10.9.29 Producción de arandelas: unidades aceptables y defectuosas.

La media de los diámetros de una muestra de arandelas producidas por una máquina es

de 0,502 pulgadas, y la desviación típica, de 0,005 pulgadas. Las arandelas se consideran buenas

o aceptables si su diámetro se encuentra entre 0,496 y 0,508 pulgadas. Determinar el

porcentaje de arandelas defectuosas producidas por la máquina, si se sabe que los diámetros

presentan una distribución normal. Graficar e interpretar.


10.9.30 Costo de trascripción e impresión de trabajo de tesis.

Un digitador estima que el costo de transcribir e imprimir una tesis para obtener título

profesional es una variable aleatoria que se distribuye normalmente con una media de

$1.700.000 y una desviación típica de $95.000. ¿Cuál es la probabilidad de que el costo de

transcribir e imprimir una tesis se encuentre entre $1.320.000 y 1.900.000? Graficar.

10.9.31 Puntaje en proceso de admisión para laborar en una empresa.

El puntaje obtenido en un examen por un grupo de personas durante el proceso de

admisión para laborar en una empresa se distribuye normalmente con una media de 700 puntos

y una desviación típica de 120 puntos. Se decide no tener como referencia de posibles

alternativas de elección al 5% de personas con puntaje más bajo. ¿Cuál es ese puntaje mínimo

necesario para ser tenido en cuenta dentro del proceso de admisión? Graficar.

10.9.32 Tiempo de servicio en una compañía de reparación de fotocopiadoras.

Una compañía de reparación de fotocopiadoras sabe que el tiempo invertido en hacer

un servicio se puede representar como una variable aleatoria normal con una media de 75

minutos y una desviación típica de 20 minutos. ¿Qué proporción de servicios se hacen en menos

de una hora? Graficar.

10.9.33 Tiempo de espera en un restaurante.

El tiempo que tardan en recibir su orden después de hacerla, en un prestigioso

restaurante de la ciudad, promedia 10 minutos. De acuerdo a estudios previos, se sabe que la

distribución del tiempo de espera en ser atendido se distribuye exponencialmente.

a) Calcular la probabilidad de que el tiempo de espera sea mayor de 12 minutos.

b) Probabilidad de que el tiempo de espera sea menor o igual a 10 minutos.


10.9.34 Tiempo de servicio en una agencia de viajes.

El tiempo de servicio en una agencia de viajes se distribuye exponencialmente con una

media de cuatro minutos. Cuál es la probabilidad de que el tiempo de servicio sea:

a) Mayor de cuatro minutos.

b) Menor de cuatro minutos.

c) Menor de dos minutos.

d) Entre dos y cinco minutos.

10.9.35 Control de calidad en producción de bombillas eléctricas.

El departamento de control de calidad de una empresa productora de bombillas

eléctricas efectúa un análisis de la duración del producto que fabrica, encuentra que la vida útil

se distribuye exponencialmente con una media de 1000 horas.

a) ¿Cuál es la probabilidad de que la bombilla falle dentro de 500 horas?

b) Probabilidad de que la bombilla falle dentro de 1000 horas.

c) Probabilidad de que la bombilla falle dentro de 1500 horas.

d) Probabilidad de que la bombilla falle dentro de 2000 horas.

10.9.36 Vida útil de transistores importados por una firma nacional.

Los transistores importados por una firma nacional distribuidora de productos afines

tiene una vida útil media de 25 horas. El jefe de compras de esta empresa desea saber:

a) Cuál es la probabilidad de que un transistor dure más de 30 horas.

b) Si el jefe de compras adquiere 1.720 transistores, ¿cuántos de ellos duran menos de 20

horas?


10.9.37 Transporte de mercancía en camiones hacia una bodega.

A una bodega llegan en promedio cuatro camiones durante una hora para ser

descargados, hallar:

a) El tiempo promedio en minutos entre la llegada de cada camión.

b) Suponga que acaba de llegar un camión. ¿Cuál es la probabilidad de que el tiempo que

transcurra para la llegada del próximo camión sea menor de 10 minutos?

10.9.38 Servicio de taxis en un aeropuerto local.

La empresa “Súper-Taxis” programa la llegada de sus taxis al aeropuerto local con una

tasa media de llegada de 12 taxis por hora. El gerente de una multinacional acaba de arribar al

el aeropuerto y tiene que ir al centro de la ciudad para cerrar un gran negocio, ¿cuál es la

probabilidad de que no tenga que esperar más de cinco minutos para tomar un taxi?

10.9.39 Inducción y entrenamiento a un nuevo empleado.

El tiempo promedio para entrenar a un nuevo empleado como asesor de servicio al

cliente es de dos semanas. ¿Cuál es la probabilidad de que el empleado pueda ser formado

como máximo, en una semana y media (1,5 semanas)?

10.9.40 Tiempo de llegada de clientes para pago de servicios públicos.

Los clientes llegan a pagar sus cuentas de servicios públicos en una caja registradora a

razón de 10 clientes por hora. Si acaba de llegar un cliente, ¿cuál es la probabilidad de que el

siguiente llegue dentro de los próximos 15 minutos?


10.9.41 Contenido de cerveza envasada por botella.

El contenido promedio de cerveza envasado por botella en una compañía es de 17,4

onzas, su contenido se considera aceptable si se encuentra entre 16,3 onzas y 18,5 onzas,

siguiendo una distribución uniforme. Si se selecciona aleatoriamente un envase, ¿cuál es la

probabilidad de que su contenido esté entre 16,8 y 17,2 onzas?

10.9.42 Empaque de leche en polvo en una compañía de procesamiento de lácteos.

Una compañía dedicada al procesamiento de lácteos y sus derivados empaca bolsas de

leche en polvo para la venta, el contenido de las bolsas se encuentra distribuido uniformemente

entre 1,9 y 2,2 libras.

a) ¿Cuál es el peso promedio de la bolsa de leche en polvo?

b) Si se selecciona aleatoriamente una bolsa de leche en polvo, ¿cuál es la probabilidad de

que su peso se encuentre entre 2 y 2,13 libras?

c) Probabilidad de que su peso sea inferior a 2,15 libras.


PARTE IV

11. Muestreo básico

El muestreo es una técnica estadística a través de la cual se trabaja con una parte

representativa de la población, con el objetivo de hacer inferencias para toda la población.

Surgen interrogantes básicos por solucionar como: ¿cuántos elementos de la población se

deben tomar para que conformen la muestra?, ¿cuáles elementos de la población deben ser

elegidos?, ¿cómo debe hacerse el proceso de selección de los elementos?; todos estos

interrogantes se analizan dentro de las técnicas de muestreo para tomar decisiones al respecto.

11.1 Tamaño de muestra.

Al iniciar una investigación aplicando muestreo, una decisión fundamental es determinar

el tamaño óptimo de la muestra, denotado por n, de tal forma que los costos de recolección de

información no sean demasiado altos, y al mismo tiempo, asegurando cierto grado de confianza

en las inferencias o pronósticos para la población elaborados a partir de dicha muestra.

El tamaño de la muestra también se ve afectado por el tiempo predeterminado durante

el cual se debe llevar a buen término los resultados de la investigación, por el recurso humano

(encuestadores) de que se disponga, así como por el recurso económico destinado a la

investigación.

Cálculo del tamaño de muestra.

Fórmula (78)

Fórmula (79)


Cálculo de Z.

Se toma de la tabla de la distribución normal estandarizada acumulativa. El valor de Z

cambia dependiendo de la confianza con que se desee trabajar la investigación.

Los pasos a seguir antes de extraer el valor correspondiente de Z son:

Cuadro 13. Pasos para hallar el valor de Z, para el tamaño de la muestra

Interpolación.

La interpolación de datos es un procedimiento basado en el cálculo de distancias y de

regla de tres proporcional.

Se busca dentro de la tabla de la normal estandarizada, el valor de (

) que

corresponde a una probabilidad, en caso de no encontrarse el valor exacto, ubicamos dos

valores de probabilidades con sus respectivos valores asociados de Z, la única condición es que

dentro del rango de estos dos valores de probabilidades esté el valor de (

).

Paso 1: Definir la confianza, la cual se denota como (1 )

Paso 2: Despejar α (Grado de incertidumbre)

Paso 3: Calcular

2

Paso 4: Calcular 1

2

Paso 5: Buscar el valor de esta probabilidad (1

2) por dentro de la tabla y mirar cuál es

el valor de Z correspondiente (los valores de Z están en el borde de la tabla).

En caso de no encontrarse el valor exacto de (1

2) se ubica el más aproximado, para

identificar luego el valor de Z, sin embargo, para una mayor precisión, se aplica la técnica de interpolación de datos para calcular el Z.


Cuadro 14. Procedimiento para aplicar interpolación para hallar el valor de Z a través de un

ejemplo

Dado el valor de( 𝜶

) = ,𝟗𝟕𝟑𝟒𝟑, hallar el valor de Z correspondiente, de tal forma que

la probabilidad 𝑷(𝒁 ≤? ) = ,𝟗𝟕𝟑𝟒𝟑.

Solución

Paso 1: Se busca en la tabla de la distribución normal estándar acumulativa, el valor de 0,97343 (probabilidad), al no encontrarse, se extraen los siguientes dos valores de probabilidades con sus respectivos valores de Z:

Z Probabilidad

1,93 0,9732

? 0,97343

1,94 0,9738

Paso 2: Calcular las distancias.

Z Probabilidad

1,93 0,9732

? 0,97343

1,94 0,9738

Paso 3: Aplicar la regla de tres proporcional a las distancias y solucionarla.

Distancias Z Dist. Probabilidades

0,01 0,0006

d 0,00023

Se puede leer: 0,01 es a 0,0006, como d es a 0,00023.

Al solucionarla, se encuentra el valor de d, así:

𝑑 =(0,01)(0,00023)

0,0006= 0,003833

Paso 4: Calcular el valor de Z pedido, así:

= 1,93 + 0.003833

= 1,933833

d 0,01 0,00023 0.0006


Cálculo de S2.

El cálculo de S2 (varianza muestral o cuasivarianza), se efectúa de manera diferente,

dependiendo del tipo de variable (cuantitativa o cualitativa) que se considere más importante o

relevante dentro de la investigación.

Si existen estudios preliminares, éste valor se puede sacar del estudio anterior, pero en

caso de no existir, se debe tomar una muestra piloto que sirva de referencia para el cálculo

respectivo de S2.

El tamaño de la muestra piloto (npilot) es generalmente menor o igual al 4% del tamaño

de la población (N), es decir, un porcentaje pequeño del tamaño poblacional.

Para variable cuantitativa:

En datos sin agrupar: ∑( )

Fórmula (80)

En datos agrupados: ∑( )

(𝑖)

Fórmula (81)

El S2 puede ser calculado a través del Excel o también con la utilización de las

calculadoras científicas, ingresando previamente los datos en el modo SD.

Para variable cualitativa.

Fórmula (82)

Fórmula (83)

p = proporción de elementos que poseen la característica de interés. Es un valor entre 0

y 1: ≤ ≤

a = total de elementos que poseen la característica de interés.


Fórmula (84)

𝑏

Fórmula (85)

q = proporción de elementos que no poseen la característica de interés: ≤ ≤

b = total de elementos que no poseen la característica de interés.

𝑏 Fórmula (86)

Cálculo de E.

El margen de error E, se calcula de manera diferente, dependiendo del tipo de variable

(cuantitativa o cualitativa) que se considere más importante o relevante dentro de la

investigación.

Para variable cuantitativa:

= promedio Fórmula (87)

En datos sin agrupar: ∑

Fórmula (88)

En datos agrupados: ∑

Fórmula (89)

Para variable cualitativa:

Fórmula (90)

Nota: En las Fórmulas anteriores se trabaja inicialmente el n como npilot, porque el

tamaño de muestra n es precisamente lo que se está calculando a partir de los datos

recolectados en la muestra piloto.


11.2 Relación entre el tamaño poblacional y el muestral.

Se tiene la creencia de que el tamaño de la muestra n crece indefinidamente a medida

que aumenta el tamaño poblacional, simbolizado por N, esta creencia es errónea, ya que existe

un punto en el cual el tamaño de la muestra permanece constante, aunque el tamaño de la

población aumente.

A continuación, se visualiza el comportamiento del tamaño de la muestra en relación con

el tamaño poblacional, a través de un ejemplo particular.


Cuadro 15. Comportamiento del tamaño de la muestra en relación con el tamaño poblacional:

Ejemplo

Calcular los diferentes tamaños de muestra dependiendo del tamaño poblacional, para una confianza del 95% y un error de estimación del 5%, en una investigación de la cual no existen estudios preliminares y donde la variable más relevante es cualitativa.

Solución

En este caso se tienen los siguientes valores:

= 1,96 2 = (0,5)(0,5) = 0,25 = 5% = 0,05

= 0

1 + 0

0 = 2 2

2

Se sustituyen estos valores en las fórmulas para el cálculo del tamaño de muestra, y se obtienen los resultados siguientes:

Relación entre el tamaño poblacional y el muestral Para el caso de un nivel de confianza del 95%.

Tamaño poblacional N

Tamaño de muestra n

1.000 278

2.000 322

3.000 341

4.000 350

5.000 357

10.000 370

20.000 377

50.000 381

100.000 383

500.000 o más 384

El análisis matemático-estadístico del motivo por el cual el tamaño de la muestra se estabiliza aunque el tamaño de la población aumente, es el siguiente:

= 0

1 + 0

0 =

2 2

2

Cuando N tiende a ser muy grande o tiende a infinito, la división 0

tiende a cero. Por tal

motivo se estabiliza el tamaño de la muestra precisamente en = 0, porque al efectuar

operaciones siempre se estaría dividiendo 0

1 para obtener el valor de n.


11.3 Relación entre nivel de confianza, margen de error y error de estimación.

Figura 62. Relación entre nivel de confianza, margen de error y error de estimación

El nivel de confianza ( ) se refiere a la confianza, probabilidad o grado de certeza de

que la muestra permita estimar el parámetro poblacional.

El margen de error α se refiere al grado de error o probabilidad de que las muestras no

permitan estimar el parámetro poblacional. Conocido también como error de tipo 1, nivel de

significación o probabilidad de rechazar la hipótesis dado que es verdadera, siendo la hipótesis

en este caso, una proposición donde se afirma que el parámetro poblacional esta dado por el

estimador obtenido con la muestra, α es una probabilidad establecida con el objetivo de

minimizar el error de tipo 1, la región α bajo la curva de la distribución normal se denomina

región crítica o zona de rechazo.

Existen muchas posibles muestras que pueden ser seleccionadas de una misma

población, por tal motivo se habla de distribuciones muestrales. Una muestra puede arrojar

resultados diferentes a los obtenidos por otra muestra de la misma población, bajo éstas


circunstancias es posible pensar en muestras que sí estimen el parámetro poblacional y otras

que tal vez no estimen adecuadamente el parámetro poblacional. El valor de α se refiere al

margen de error de las muestras que no permiten estimar el parámetro poblacional.

El error de estimación (E) se refiere a la precisión con que el estimador refleja el

verdadero valor del parámetro poblacional. El estimador es un cálculo estadístico realizado con

la información obtenida en la muestra y es utilizado para estimar el valor del parámetro

poblacional, por ejemplo: para una variable cuantitativa, la media muestral es el estimador de

la media poblacional µ (parámetro); para una variable cualitativa, la proporción muestral es el

estimador de la proporción poblacional p (parámetro).

En términos generales, se denota al estimador con el símbolo y al parámetro

poblacional con el símbolo θ.

Cuanto más cercanos se encuentren entre sí los valores del estimador y del parámetro,

mayor es la precisión, y por lo tanto, menor el error de estimación E, de tal forma que al

restarlos entre sí, esta diferencia tienda a cero.

o también

o también

De manera general, se tiene:

La unidad de medida del error de estimación es diferente dependiendo si se trata de una

variable cuantitativa o una cualitativa. Para el caso de variable cuantitativa, la unidad de medida

para E, se expresa en la misma unidad de medición que tenga la variable ($, Kl, Km, tiempo,

horas, entre otras). Para el caso de variable cualitativa, la unidad de medida para E, se expresa

en términos porcentuales (%).


El nivel de confianza ( ) y el margen de error (α) se complementan (el uno es el

complemento del otro). El nivel de confianza ( ) y el error de estimación (E) no son el

complemento el uno del otro.

11.4 Total de muestras posibles a extraer de una población.

Todas las posibles muestras de tamaño n extraídas de una población de tamaño N,

tienen igual probabilidad de ser seleccionadas.

El total de posibles muestras al emplear muestreo sin reposición (no se repone el

elemento seleccionado) está dado por ( )

( ) , en este caso, la probabilidad de que una

muestra sea seleccionada, está dada por

( ).

El total de posibles muestras al emplear muestreo con reposición (se repone el elemento

seleccionado) está dado por , en este caso, la probabilidad de seleccionar una muestra, está

dada por

.

11.5 Clases de muestreo.

11.5.1 Muestreo aleatorio simple.

Una muestra de tamaño n extraída de una población de tamaño N, es aleatoria cuando

todas las muestras posibles tienen igual probabilidad de ser seleccionadas.

Hay dos aspectos básicos a tener en cuenta, estos son: el tamaño de la muestra n y la

forma de extraer de la población N este tamaño de muestra.


El tamaño de la muestra hace referencia al número de elementos que se han de extraer

de la población. La forma de extraer los elementos hace referencia al proceso de selección, éste

ha de ser aleatorio, que todos y cada uno de los elementos de la población tengan igual

probabilidad de ser seleccionados para formar parte de la muestra, para esto puede utilizarse

una tabla de números aleatorios o generarlos a través del sistema; se recomienda tener a mano

un listado codificado de la población para poder extraer del listado poblacional, el elemento

indicado por la generación de números aleatorios.

El muestreo aleatorio simple puede hacerse con reposición o sin reposición,

dependiendo del caso particular y de las necesidades del investigador.

1. Muestreo aleatorio simple con reposición.

Significa que al extraer un elemento de la población para que forme parte de la muestra,

éste vuelve de nuevo a ser incluido dentro del gran total poblacional (se repone) teniendo la

posibilidad de ser seleccionado en otra oportunidad.

El total de posibles muestras es , todas las posibles muestras tienen igual

probabilidad de ser seleccionadas, ésta probabilidad es de

.

Durante el proceso de selección de las unidades, cada unidad tiene igual probabilidad de

ser seleccionada, cada vez que se extrae una unidad, la probabilidad de ser seleccionada viene

dada por

.

2. Muestreo aleatorio simple sin reposición.

Significa que al extraer un elemento de la población para que forme parte de la muestra,

éste no se incluye de nuevo en el gran total poblacional (no se repone), perdiendo la posibilidad

de ser seleccionado en otra oportunidad.


El total de posibles muestras es ( )

( ) , se lee: combinaciones de N en n.

Todas las muestras tienen igual probabilidad de ser seleccionadas, ésta probabilidad está dada

por

( ).

Durante el proceso de selección de las unidades, cada que se extrae de la población una

unidad para que forme parte de la muestra, la probabilidad de que una unidad sea seleccionada

dentro de las que quedan va cambiando, así:

Figura 63. Cambio de probabilidad de selección de una unidad para la muestra

MMoommeennttoo ddee sseelleecccciióónn oo

eexxttrraacccciióónn ddee llaa uunniiddaadd TToottaall ddee eelleemmeennttooss

eexxiisstteenntteess eenn llaa ppoobbllaacciióónn PPrroobbaabbiilliiddaadd ddee qquuee uunnaa

uunniiddaadd sseeaa sseelleecccciioonnaaddaa

MMoommeennttoo 11.. MMOO11



MMoommeennttoo 44.. MMOO44 𝟑𝟑

𝟑𝟑

……

……

MMoommeennttoo nn--ééssiimmoo.. MMOOnn (( ))

(( ))

11.5.2 Muestreo estratificado.

Se identifica también como muestreo aleatorio estratificado. Una muestra estratificada

es la obtenida mediante la separación de los elementos de la población en grupos que

presentan ciertas características comunes.


Generalmente, dentro de los estratos se presenta homogeneidad y entre estratos,

heterogeneidad.

Se utiliza el procedimiento de afijación proporcional, que fracciona el tamaño de la

muestra n en forma proporcional al tamaño de los estratos en la población.

L = total de estratos

N = tamaño de la población

n = tamaño de la muestra

Ni = tamaño poblacional del estrato i

ni = tamaño muestral del estrato i

Wi = peso o ponderación del estrato i

∑

Fórmula (91)

∑

Fórmula (92)

( ) Fórmula (93)

Fórmula (94)


11.5.3 Muestreo por conglomerados.

Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de

muestreo es un grupo de elementos (llamado conglomerado), los elementos dentro de un

conglomerado generalmente están juntos físicamente.

Una muestra por conglomerados se obtiene seleccionando aleatoriamente un conjunto

de m colecciones muestrales llamados conglomerados y posteriormente, llevando a cabo un

censo en cada uno de los conglomerados. El tamaño m se calcula siguiendo la misma

metodología del cálculo del tamaño de muestra, con la única diferencia de que M es el total

poblacional.

M = número de conglomerados de la población o tamaño poblacional de conglomerados.

m = número de conglomerados de la muestra o tamaño muestral de conglomerados.

ni = número de elementos del i-ésimo conglomerado.

11.5.4 Muestreo sistemático (muestreo tipificado).

La metodología empleada para seleccionar los elementos de la muestra inicia con una

unidad de arranque que es seleccionada de forma aleatoria o al azar, a partir de ésta, los

elementos se seleccionan por intervalos regulares, cada K elementos; por tal motivo se

denomina muestra sistemática de 1 en K.

11.6 Cálculo de estimativos poblacionales.

El objetivo de utilizar el muestreo es precisamente inferir hacia la población, calcular

estimativos de los parámetros poblacionales utilizando los datos muestrales para describir el

comportamiento de la población.


11.6.1 Estimación puntual.

La estimación puntual hace referencia a un valor específico (un punto) y no a un rango

de valores. El estimador se distingue porque en la parte superior se le coloca el símbolo ˆ, para

indicar que fue calculado a través de una muestra y que infiere o habla de la población.

Figura 64. Estimación puntual

EEssttiimmaacciióónn ddee llaa mmeeddiiaa ppoobbllaacciioonnaall EEssttiimmaacciióónn ddeell ttoottaall ppoobbllaacciioonnaall

FFóórrmmuullaa ((9955)) FFóórrmmuullaa ((9966))

== mmeeddiiaa ppoobbllaacciioonnaall

== mmeeddiiaa ppoobbllaacciioonnaall eessttiimmaaddaa,, eessttiimmaaddoorr

ddee llaa mmeeddiiaa ppoobbllaacciioonnaall

== mmeeddiiaa mmuueessttrraall

∑

== ttaammaaññoo ddee llaa mmuueessttrraa

LLaa mmeeddiiaa ppoobbllaacciioonnaall ssee eessttiimmaa ccoonn llaa mmeeddiiaa

mmuueessttrraall..

PPaarráámmeettrroo == mmeeddiiaa ppoobbllaacciioonnaall

EEssttaaddííssttiiccoo == mmeeddiiaa mmuueessttrraall

== ttoottaall ppoobbllaacciioonnaall

== ttoottaall ppoobbllaacciioonnaall eessttiimmaaddoo,, eessttiimmaaddoorr

ddeell ttoottaall ppoobbllaacciioonnaall

== ttaammaaññoo ddee llaa ppoobbllaacciióónn

11.6.2 Estimación por intervalos.

Un intervalo de confianza es un rango de valores dentro del cual se encuentra incluido el

valor del parámetro estimado. Cuenta con un límite inferior y un límite superior, identificados

como los límites de confianza.


Figura 65. Intervalos para estimar la media poblacional

PPaarraa nn ≤≤ 3300 PPaarraa nn >> 3300

√ √ FFóórrmmuullaa ((9977)) 𝒁

√ √ FFóórrmmuullaa ((9988))

tt == vvaalloorr ddee llaa ttaabbllaa ddee llaa ddiissttrriibbuucciióónn ddee

pprroobbaabbiilliiddaadd tt--ssttuuddeenntt

ff == ffrraacccciióónn ddee mmuueessttrreeoo

nn == ttaammaaññoo ddee llaa mmuueessttrraa

NN == ttaammaaññoo ddee llaa ppoobbllaacciióónn

SS22 == ccuuaassiivvaarriiaannzzaa,, vvaarriiaannzzaa mmuueessttrraall

∑( )

∑

EEll vvaalloorr ddee llaa tt--ssttuuddeenntt ccoorrrreessppoonnddee aa

𝑡𝑡

EEjjeemmpplloo::

tt == ??,, ccoonnffiiaannzzaa ddeell 9955%% yy nn == 2288

SSoolluucciióónn

𝟗𝟕 𝟗𝟕

ZZ == vvaalloorr ddee llaa ttaabbllaa ddee llaa ddiissttrriibbuucciióónn ddee

pprroobbaabbiilliiddaadd nnoorrmmaall eessttaannddaarriizzaaddaa

ff == ffrraacccciióónn ddee mmuueessttrreeoo



EEll vvaalloorr ddee ZZ ccoorrrreessppoonnddee aa

EEjjeemmpplloo::

ZZ == ??,, ccoonnffiiaannzzaa ddeell 9955%%..

SSoolluucciióónn

𝒁𝒁 𝟗𝟕 𝟗𝟕 𝟗 𝟗


Figura 66. Intervalos para estimar el total poblacional

PPaarraa nn ≤≤ 3300 PPaarraa nn >> 3300

√ FFóórrmmuullaa ((9999)) 𝒁

√ FFóórrmmuullaa ((110000))

== EEssttiimmaaddoorr ddeell ttoottaall ppoobbllaacciioonnaall




tt == vvaalloorr ddee llaa ttaabbllaa ddee llaa ddiissttrriibbuucciióónn ddee

pprroobbaabbiilliiddaadd tt--ssttuuddeenntt

== EEssttiimmaaddoorr ddeell ttoottaall ppoobbllaacciioonnaall




ZZ == vvaalloorr ddee llaa ttaabbllaa ddee llaa ddiissttrriibbuucciióónn ddee

pprroobbaabbiilliiddaadd nnoorrmmaall eessttaannddaarriizzaaddaa

11.6.3 Estimación puntual y por intervalos para la proporción poblacional.

Estimación puntual.

Fórmula (101)

= total de elementos en la muestra que poseen la característica de interés.

Estimación por intervalo de confianza.

Fórmula (102)

√ ( ) Fórmula (103)

( ) (

) ( ) Fórmula (104)


Fracción de muestreo Fórmula (105)


11.7.1 Tamaño de muestra para una población de padres de familia.

Para una investigación efectuada a padres de familia con hijos cursando secundaria, de

los ocho colegios de una comunidad religiosa, la madre superiora de la comunidad ha

contratado un equipo de investigadores para que apliquen técnicas de muestreo, debido a que

no dispone del suficiente tiempo como para encuestar a todos los padres de familia (censo),

porque ha de tomar una decisión a nivel administrativo en el corto plazo.

Se toma el 0,1952% de la población como muestra piloto, con el objetivo de calcular el

tamaño de muestra definitivo.

( ) ( )

Se eligen aleatoriamente 20 padres de familia como muestra piloto.

ColegioTotal padres

de familia

1 500

2 1200

3 900

4 3000

5 1600

6 800

7 725

8 1520

Colegios de secundaria de una comunidad religiosa


Calcular el tamaño de muestra necesario en caso de que la variable más relevante

dentro de la investigación sea: el ingreso quincenal (en miles de pesos). ¿Cuántos padres de

familia se deben seleccionar en cada uno de los ocho colegios?

Nota: trabajar con un nivel de confianza del 95,56%

Solución

Se recolecta la información necesaria de los 20 padres de familia seleccionados aleatoriamente, estos 20 padres de familia suministraron los siguientes datos respecto al ingreso quincenal (miles de $):

Padre de familia

Ingreso quincenal ($miles)

1 532

2 600

3 1.200

4 700

5 500

6 931

7 605

8 938

9 625

10 734

11 1.129

12 935

13 1.350

14 980

15 820

16 700

17 620

18 535

19 670

20 820

Nivel de confianza 95.56%


Con los valores de la muestra piloto, calcular , y . Se obtienen los siguientes resultados:

( )( )

Los valores calculados se reemplazan en

( ) ( )

( )

El valor de se sustituye en la fórmula para , así:

El tamaño de muestra ha de ser de padres de familia.

Para especificar cuántas unidades van en cada estrato, es decir, cuántos padres de familia se deben encuestar de cada colegio, se calculan las ponderaciones que permitan realizar una afijación proporcional.

Cada ponderación viene dada por:

Colegio

No. de padres de familia

Ponderaciones

1 500 0,0488

2 1.200 0,1171


3 900 0,0878

4 3.000 0,2928

5 1.600 0,1562

6 800 0,0781

7 725 0,0708

8 1.520 0,1484

Total 10.245 1,0000

Aplicar como factor de ponderación, cada una del las , con el objeto de obtener la repartición adecuada de los 179 elementos que conforman la muestra, entre cada uno de los colegios.

Colegio

1 0,0488 9

2 0,1171 21

3 0,0878 16

4 0,2928 52

5 0,1562 28

6 0,0781 14

7 0,0708 13

8 0,1484 27

Total 1,0000 179

El tamaño de la muestra padres de familia, queda distribuido de la siguiente manera:

Colegio No. padres de familia

1 9

2 21

3 16

4 52

5 28

6 14

7 13

8 27

Total 179


11.7.2 Estimativo puntual y por intervalo de confianza para la media del ingreso

poblacional.

Con base en el ejemplo anterior, alusivo a la investigación en padres de familia con hijos

estudiando en colegios pertenecientes a una comunidad religiosa, el Investigador ha de

recolectar información necesaria que sea de utilidad para que la madre superiora del centro

educativo pueda tomar decisiones acertadas, para esto se vale de encuestas y entrevistas

dirigidas a los respectivos padres de familia, sin olvidar que los padres de familia encuestados

han de ser seleccionados de manera aleatoria sin reposición, utilizando la metodología descrita

en el numeral 11.4 de la Parte IV del texto.

La encuesta realizada a padres de familia cuenta con varias preguntas que ayudan a

recolectar la información necesaria para alcanzar los objetivos de la investigación.

Si dos de las preguntas de la encuesta son:

Señale con una X la respuesta que considere adecuada:

1. Su ingreso quincenal en miles de pesos se encuentra entre:

a. De 500 a 700 inclusive ⃝

De 700 a 900 inclusive ⃝

De 900 a 1.100 inclusive ⃝

De 1.100 a 1.300 inclusive ⃝

De 1.300 a 1.500 inclusive ⃝

2. Hace uso del contrato de transporte escolar para su(s) hijo(s):

a. Sí ⃝

b. No ⃝

Utilizando la información recolectada a través de la primera pregunta, se pide:

a) Estimación puntual de la media poblacional para el ingreso quincenal.


b) Intervalo de confianza del 97% para el estimador de la media poblacional referente al

ingreso quincenal.

Solución

Variable: Ingreso quincenal (miles de $) – Variable cuantitativa

Variable: Uso del transporte escolar por parte de los hijos – Variable cualitativa

La información recolectada queda consignada en una base de datos de la investigación, al procesar y organizar las dos variables anteriores se obtuvieron las siguientes tablas de frecuencia:

Ingreso quincenal padre de familia

Ingreso quincenal (miles de $)


500 – 700 20

700 – 900 48

900 – 1.100 65

1.100 – 1.300 31

1.300 – 1.500 15

Total 179

Transporte escolar hijos

Contratan transporte


Sí 125

No 54

Total 179

a) Estimación puntual de la media poblacional para el ingreso quincenal:

Ingreso quincenal

(miles de $)

500 – 700 600 20 12.000

700 – 900 800 48 38.400

900 – 1.100 1.000 65 65.000


1.100 – 1.300 1.200 31 37.200

1.300 – 1.500 1.400 15 21.000

Total - 179 173.600

∑

El promedio del ingreso quincenal estimado de los padres de familia con hijos estudiando en esa comunidad es de $969.830.

b) Intervalo de confianza del 97% para el estimador de la media poblacional referente al ingreso quincenal:

Ingreso quincenal

(miles de $) ( )

500 – 700 600 20 12.000 2735520,11

700 – 900 800 48 38.400 1384466,15

900 – 1.100 1.000 65 65.000 59155,46

1.100 – 1.300 1.200 31 37.200 1642290,81

1.300 – 1.500 1.400 15 21.000 2775662,43

Total - 179 173.600 8597094,97

Confianza del 97%

√

Se sustituyen los valores encontrados en la fórmula del intervalo de confianza para calcular de este modo el límite inferior y superior del intervalo de confianza pedido.


(

√ )√

( )√

𝑖𝑚

𝑖𝑚

Intervalo de confianza para la media poblacional:

[ ]

≤ ≤

Se estima con una confianza del 97%, que el ingreso quincenal de los padres de familia se encuentra entre $934.500 y $1.005.160. Otra forma de interpretar el anterior resultado en términos probabilísticas es: La probabilidad de que el ingreso quincenal se encuentre entre $934.500 y $1.005.160 es de 0,97.

( ≤ ≤ )

11.7.3 Estimación puntual y por intervalo de confianza para la proporción del uso de

transporte escolar.

Utilizando la información recolectada a través de la segunda pregunta planteada en el

ejemplo anterior, se pide:

a) Estimación puntual de la proporción poblacional para la utilización de transporte escolar.

b) Intervalo de confianza del 95% para la proporción poblacional en cuanto al uso del

transporte escolar.

Solución

a) Estimación puntual de la proporción poblacional para la utilización de transporte escolar:


Contratan transporte No. padres de familia

Sí 125

No 54

Total 179

Característica de Interés: Contratar servicio de transporte escolar para sus hijos.

Total de elementos en la muestra con la característica de interés.

La proporción estimada de padres de familia que contratan transporte escolar para sus hijos es de 0,70. Se estima que el 70% de los padres de familia contratan transporte escolar para sus hijos.

b) Intervalo de confianza del 95% para la proporción poblacional en cuanto al uso del transporte escolar:

(

) ( )

Intervalo de confianza para la proporción poblacional:

(

) ( )

𝑖𝑚

𝑖𝑚

Intervalo: [ ]


Se puede estimar con una confianza del 95%, que la proporción de padres de familia que contratan transporte escolar para sus hijos se encuentra entre 0,6988 y 0,7012. Con una confianza del 95%, se puede estimar que el porcentaje de padres de familia que contratan transporte escolar para sus hijos se encuentra entre 69,88% y 70,12%.

La proporción poblacional se encuentra entre 0,6988 y 0,7012, esto es:

≤ ≤

La probabilidad de que la proporción poblacional se encuentre entre 0,6988 y 0,7012 es de 0,95.

( ≤ ≤ )

11.7.4 Tamaño de muestra para un nivel de confianza del 95% y diferentes errores de

estimación.

Dado un tamaño poblacional, un nivel de confianza del 95% y diferentes errores de

estimación, calcular el tamaño de muestra respectivo, suponiendo que no existen estudios

preliminares y que la variable más importante dentro del estudio es cualitativa. Se pide llenar la

siguiente tabla:

Tamaño de muestra para un nivel de confianza del 95% y diferentes errores de estimación

Tamaño de la

población

Error de estimación (E)

1% 2% 3% 4% 5%

1.000

2.000

3.000

4.000

5.000

10.000

20.000

50.000

100.000

500.000 y más


Solución

Nivel de confianza:

( )( )

Para un error de estimación del 4%:

( ) ( )

( )

⇒

⇒

⇒

⇒

⇒

⇒

⇒

⇒


⇒

De igual manera, se obtienen los restantes tamaños de muestra para cada uno de los diferentes errores de estimación, quedando así:

Tamaño de la

población

Error de estimación (E)

1% 2% 3% 4% 5%

1.000 Más de 1/2 1/2 1/2 375 278

2.000 1/2 1/2 696 462 322

3.000 1/2 1.344 787 500 341

4.000 1/2 1.500 842 522 350

5.000 1/2 1.622 879 536 357

10.000 4.899 1.936 964 566 370

20.000 6.489 2.144 1.013 583 377

50.000 8.057 2.291 1.045 593 381

100.000 8.763 3.245 1.056 597 383

500.000 y más 9.423 2.390 1.065 600 384

Nota: ½ significa la mitad de la población

11.7.5 Tamaño de muestra para adelantar un proyecto a cargo de la secretaría de

planeación de un municipio.

La Secretaría de Planeación de un municipio determinado efectúa un estudio en cuatro

zonas rurales (veredas del municipio), respecto a la distribución de familias que viven en casa

propia o arrendada, bajo el supuesto de que en cada casa vive una familia.

Zona rural Total familias

A 52

B 85

C 93

D 24


Calcular el tamaño de muestra si se desea trabajar con un nivel de confianza del 95% y

un error de estimación del 3%. La característica de interés es poseer vivienda propia, además no

existen estudios preliminares al respecto.

Solución

Cuando no existen estudios preliminares al respecto, se trabaja con una muestra piloto para calcular inicialmente los valores de p y de q, aunque también es permisible trabajar asignando para y . En este caso particular se opta por utilizar una muestra piloto del 5% de la población.

( )

La muestra piloto indica que se ha de seleccionar aleatoriamente, 13 familias, para los cálculos de p y de q.

La información recolectada en la muestra piloto es la siguiente:

Familia Vivienda propia

1 Sí

2 Sí

3 No

4 Sí

5 No

6 No

7 Sí

8 Sí

9 Sí

10 Sí

11 No

12 No

13 No

Con la información recolectada se calculan las proporciones respectivas, así:


Los valores de Z, S2 y E son los siguientes:

( )( )

Se sustituyen estos resultados en la fórmula definida para n (tamaño de muestra):

( ) ( )

( )

Se ha de tomar una muestra de 205 familias, para efectuar la distribución de este tamaño de muestra en cada una de las cuatro zonas establecidas, se calculan las ponderaciones Wi respectivas, que constituyen el factor para la repartición proporcional.

Población Ponderaciones

Zona rural No. familias Wi

A 52 0,2047

B 85 0,3346

C 93 0,3661

D 24 0,0945

Total 254 1

Aplicando cada uno de los factores de ponderación sobre el tamaño de muestra se obtiene la siguiente distribución:


Muestra

Zona rural No. familias

A 42

B 69

C 75

D 19

Total 205


11.8.1 Proyecto de capacitación académica para dirigentes gubernamentales.

El gobierno actual de un país está sumamente preocupado por el nivel educativo de sus

dirigentes y líderes políticos. Para adelantar un proyecto de capacitación académica, se

pretende desarrollar una investigación para detectar el porcentaje de profesionales y no

profesionales que ejercen cargos públicos y sus respectivas necesidades de capacitación. Se

tiene una población de 3.785 dirigentes políticos. Calcular el tamaño de muestra utilizando un

nivel de confianza del 97% y un margen para el error de estimación del 4%.

a) ¿Cuál es el procedimiento a seguir en caso de existir estudios preliminares que

contengan la proporción de profesionales?

b) Especificar y efectuar el procedimiento en caso de no existir estudios preliminares al

respecto y de optar por no extraer una muestra piloto.

c) Especificar y efectuar el procedimiento en caso de no existir estudios preliminares al

respecto y de optar por extraer inicialmente una muestra piloto.


11.8.2 Estimación puntual e intervalo de confianza para la proporción de dirigentes

profesionales.

Con base en el ejercicio anterior, efectuar la estimación puntual para la proporción de

dirigentes profesionales y calcular el intervalo de confianza del 95.5%. Especificar el

procedimiento completo.

11.8.3 Plan de mercadeo y ayuda solidaria por parte de una empresa procesadora de

leche: Tamaño de muestra de familias.

Uno de los varios planes de mercadeo de una empresa procesadora de leche y lácteos

consiste en suministrar gratuitamente, litros de leche a familias de estrato 1 con población

infantil. Se dona un litro de leche diario por cada dos niños que existan en la familia. Con este

proyecto, al mismo tiempo se contribuye con programas de solidaridad y aporte alimenticio a la

población más necesitada de la región.

Existe un convenio con una cadena de supermercados reconocida en el medio,

dependiendo de la cantidad de leche donada, se comprometen a distribuir y vender entre la

población con poder adquisitivo, el triple de lo donado. La población ubicada en el estrato 1 del

municipio, está distribuida así:

Región No. familias con

población infantil

Nororiental 120

Suroriental 89

Noroccidental 150

Suroccidental 115

La donación se hará a toda la población, sin embargo, para efectos de planeación en la

producción dentro de la planta procesadora de leche, se requiere calcular un tamaño de


muestra de las familias con población infantil. Se pide: Calcular el tamaño de muestra con una

confianza del 96% y un margen para el error de estimación del 3%, ¿cuántas familias cada

región forman parte de la muestra?

11.8.4 Estimativo del promedio de litros de leche a donar semanalmente por familia.

Utilizar el tamaño de muestra calculado en el ejercicio anterior para estimar el número

promedio de litros semanales que se donarían por familia, y calcular el intervalo de confianza

del 97%. ¿Qué información se necesita recolectar para obtener éstos cálculos? ¿Cuál es el

estimativo para el total de litros a donar semanalmente en la población? Especificar el

procedimiento.

11.8.5 Tamaño de muestra de ejecutivos en diferentes empresas multinacionales.

Una empresa organiza viajes vía aérea para ejecutivos de tres empresas multinacionales

diferentes que requieren desplazarse a otros países para asistir a seminarios y juntas de

negocios. Cada ejecutivo efectúa en promedio, tres viajes semestrales, el gasto promedio por

viaje de cada ejecutivo, en cuanto a pasaje y estadía, es de $2.800.000,00 dinero que ingresa a

la agencia de viajes por concepto de prestación de servicios.

El total de la población de ejecutivos de las tres multinacionales es el siguiente, de los

cuales algunos tienen asignadas labores dentro de la misma ciudad y otros viajan al extranjero:

Empresa multinacional No. ejecutivos

A 320

B 125

C 238

Calcular el tamaño de muestra de ejecutivos con un nivel de confianza del 95% y un

margen para el error de estimación del 3%.


11.8.6 Estimativo de la proporción poblacional de ejecutivos que viajan.

Haciendo uso del cálculo del tamaño de muestra hallado en el ejercicio anterior, estimar

la proporción poblacional de ejecutivos que viajan frecuentemente como una de sus actividades

laborales. ¿Cuál es el número estimado de ejecutivos que efectúan viajes laborales? Especificar

el estimativo por empresa multinacional.

11.8.7 Intervalo de confianza para la proporción poblacional de ejecutivos que viajan.

Con base en el ejercicio anterior, se pide: Calcular el intervalo de confianza del 98% para

la proporción poblacional de ejecutivos que viajan por cuestiones laborales.

11.8.8 Estimativo del gasto total por concepto de viajes y estadía.

Con base en el ejercicio anterior, se pide: ¿Cuál es el gasto total estimado

semestralmente para toda la población en cuanto al rubro de viajes y estadía? Especificar qué

cantidad del gasto total le corresponde a cada una de las empresas multinacionales.

11.8.9 Tamaño de muestra para una población de empresas de una región

determinada.

Para una investigación en el área económico-administrativa se requiere calcular el

tamaño de muestra de las empresas de una región clasificadas en grandes, medianas y

microempresas. Es de anotar que no existen estudios preliminares en esa región respecto a la

temática. La población de empresas de la región es la siguiente:


Clasificación No. empresas

Grande 140

Mediana 520

Micro 1.743

a) Justifique si se recomienda trabajar con una muestra piloto para calcular el tamaño de

muestra, ¿qué aspectos se necesita conocer para tal fin?

¿Cuál sería el procedimiento a seguir, en caso de que la variable más importante dentro

del estudio fuese el nivel de exportación semestral?

¿Cuál sería el procedimiento a seguir, en caso de que la variable más importante dentro

del estudio fuese el atributo de existencia de buen clima laboral en la empresa?

b) En caso de optar por calcular el tamaño de muestra sin utilizar una muestra piloto,

¿cómo se calcularía el tamaño de muestra? ¿Qué cantidad de empresas forman parte de

la muestra dentro de cada clasificación?

11.8.10 Tamaño de muestra para una población universitaria.

En una institución universitaria se sabe, por estudios preliminares, que el 75% de las

personas (entre empleados y alumnos) asisten a los eventos programados por Bienestar

Institucional. Para adelantar una investigación con el objetivo de analizar los logros de cada uno

de los eventos culturales, así como las sugerencias a tener en cuenta para futuras

programaciones, se requiere calcular un tamaño de muestra con un nivel de confianza del 96% y

un margen para el error de estimación del 5%. La población universitaria cuenta con 130

empleados y 2.415 alumnos.

11.8.11 Tamaño de muestra de televidentes para mercadear un producto.

Una empresa de utensilios plásticos para el hogar contrata los servicios de una empresa

publicitaria para analizar si se justifica o no, mercadear su producto a través de la televisión en

el canal regional, durante las horas de la noche entre las 7:00 p.m. y las 10:00 p.m.


La investigación se delimita físicamente a toda la zona de cobertura del canal regional,

esta zona se encuentra divida en siete sectores, el número de viviendas por sector es el

siguiente:

Sector No. viviendas

S1 68

S2 95

S3 158

S4 67

S5 256

S6 147

S7 93

a) Tomar una muestra piloto y calcular la proporción de viviendas en las cuales existe un

adulto responsable viendo la televisión en el canal regional durante ese lapso de tiempo.

b) Utilizar el resultado de esa proporción como herramienta para calcular el tamaño de

muestra para la investigación definitiva con un nivel de confianza del 95% y un margen

para el error de estimación del 3%.

¿Cuántas viviendas dentro de cada sector forman parte del tamaño de la muestra?


12. Pruebas de hipótesis

Una hipótesis estadística es una afirmación que se hace en la cual se involucra un

parámetro poblacional o la distribución de una serie de datos, para probar a través de cálculos

estadísticos y haciendo uso de la muestra si la hipótesis es verdadera o falsa. La decisión de

aceptar o rechazar una hipótesis se toma dependiendo de la probabilidad calculada para el caso

específico.

Se plantean dos hipótesis, la una recibe el nombre de hipótesis nula y la otra, hipótesis

alternativa, generalmente se identifican con H0 y H1 (en algunas ocasiones, como H1 y H2).

H0: hipótesis nula

H1: hipótesis alternativa

La hipótesis nula (H0) es aquella afirmación donde se plantea que el valor del parámetro

poblacional es igual (=) a un valor específico.

La hipótesis alternativa (H1) es aquella afirmación donde se plantea que el valor del

parámetro poblacional es diferente (≠), mayor (>) o menor (<) que un valor específico.

Dentro del análisis de pruebas de hipótesis, interviene como criterio de decisión el

estadístico de la prueba, el cual es un valor resultado de operaciones aritméticas donde

intervienen términos o factores hallados preliminarmente con cálculos estadísticos.

Se plantea la región de rechazo, ésta es un área bajo una función de densidad de

probabilidad definida (en su dominio) por un intervalo de valores (abscisa) que se utiliza como

marco de referencia para analizar si el estadístico se encuentra incluido en dicho intervalo o no.

Se asumen los siguientes criterios de decisión:


Si el estadístico de la prueba cae en la región de rechazo, la decisión es rechazar H0

(hipótesis nula).

Si el estadístico de la prueba no cae en la región de rechazo, se deduce que cae en la

región de aceptación, en este caso la decisión es aceptar H0 (hipótesis nula).

En el análisis de prueba de hipótesis existe la probabilidad de cometer errores como los

siguientes:

Error de tipo I. Rechazar H0 dado que H0 es cierta o verdadera. Rechazar H0 / H0 es cierta.

Error de tipo II. Aceptar H0 dado que H0 es falsa. No rechazar H0 / H0 es falsa.

La probabilidad de cometer el error de tipo I se denota con α, también llamado nivel de

significación de la prueba. El nivel de significancia generalmente es menor o igual al 5%, es

decir, α ≤ 0,05, valor de probabilidad que se fija con el objeto de minimizar el error de tipo I.

La probabilidad de cometer el error de tipo II se denota con β.

12.1 Prueba de hipótesis para la media.

Nomenclatura.

Hipótesis nula

Hipótesis alternativa

Procedimiento.

1. Calcular el estadístico de la prueba.

2. Analizar si el estadístico cae en la región de rechazo.


3. Tomar la decisión:

Si el estadístico cae en la región de rechazo: rechazar H0 y aceptar H1.

Si el estadístico no cae en la región de rechazo significa que el estadístico cae en la

región de aceptación: aceptar H0 y rechazar H1.

Descripción de la prueba.

≠ ⇒ ≤ ≥

⇒ ≥

⇒ ≤

Estadístico:

√

Región de rechazo


Figura 67. Representaciones gráficas


12.2 Prueba de hipótesis para la proporción.

Nomenclatura.

Hipótesis nula

Hipótesis alternativa

Procedimiento.

1. Calcular el estadístico de la prueba.

2. Analizar si el estadístico cae en la región de rechazo.

3. Tomar la decisión:

Si el estadístico cae en la región de rechazo: rechazar H0 y aceptar H1.

Si el estadístico no cae en la región de rechazo significa que el estadístico cae en la

región de aceptación: aceptar H0 y rechazar H1.

Descripción de la prueba.

⇒ ≤ ≥

⇒ ≥

⇒ ≤

Estadístico:

√

Región de rechazo


12.3 Prueba Chi-cuadrado para la bondad de ajuste.

La prueba Chi-cuadrado es utilizada para analizar la forma como se distribuye una serie

de datos, certificando si los datos se ajustan a una distribución supuesta. Este procedimiento

estadístico busca probar la hipótesis de que una variable aleatoria X presenta una distribución

específica como la normal, Poisson, exponencial, entre otras; aceptando o rechazando la

hipótesis al final del estudio. Para esto, se hace indispensable comparar las frecuencias

observadas o reales, con las frecuencias teóricas o esperadas.

El siguiente cuadro muestra el procedimiento para la aplicación de la prueba Chi-

cuadrado:

Cuadro 16. Pasos a seguir para aplicar la prueba Chi-cuadrado.

Paso 1: Establecer la hipótesis de la distribución de probabilidades que se va a ajustar a los datos. Los valores de cada parámetro de la distribución (media, varianza) se deben colocar como hipótesis, o estimarlos con datos reales. Así:

Hipótesis 1: La variable aleatoria X (escribir nombre de la variable), se distribuye como una (escribir nombre de la distribución de probabilidad), con una media de (escribir el valor de µ) y una desviación de (escribir el valor de σ).

Hipótesis 2: La variable aleatoria X (escribir nombre de la variable), no se distribuye como una (escribir nombre de la distribución de probabilidad), con una media de (escribir el valor de µ) y una desviación de (escribir el valor de σ).

Paso 2: Utilizar la distribución de probabilidad hipotética específica para calcular las probabilidades Pj, para cada intervalo.

Paso 3: Calcular las frecuencias teóricas ftj, para cada intervalo, utilizando la siguiente fórmula:

𝑡 Con j … m

∑ Con foj = frecuencia real u observada

Siendo m el número de intervalos, y n el total de datos reales u observaciones.

Es importante tener en cuenta que la sumatoria de las frecuencias teóricas debe ser aproximadamente igual a la sumatoria de las frecuencias reales.


∑ 𝑡

∑

También hay que tener presente para aplicar esta prueba, que las frecuencias teóricas de cada intervalo sean mayores o iguales a cinco (5), de lo contrario, se deben agrupar con aquellos intervalos consecutivos que cumplan la condición.

Paso 4: Obtener el estadístico Chi-cuadrado “calculado” de la prueba de la siguiente manera:

( )

∑ ( 𝑡 )

∑ 𝑡

Fórmula (106)

Siendo k = número de intervalos resultantes después de analizar la condición de las frecuencias teóricas.

Paso 5: Obtener el estadístico Chi-cuadrado “tabulado” de la prueba, buscando el valor correspondiente en la tabla de la distribución Chi-cuadrado. Este estadístico se identificará como ( )

.

Los grados de libertad = k – p – 1

p = número de parámetros estimados con los datos.

α error que se est dispuesto a tolerar al tomar una decisión sobre aceptar o rechazar alguna hipótesis.

Confianza = (1 – α)

Paso 6: Utilizar el criterio o regla de decisión que posee la prueba Chi-cuadrado de bondad de ajuste, para seleccionar la hipótesis adecuada, así:

Si ( ) ≤ ( )

⇒ Aceptar la H1 y rechazar H2.

Si ( ) ( )

⇒ Rechazar la H1 y aceptar H2.

Gráficamente:



12.4.1 Proceso de producción: Prueba de bondad de ajuste.

En un proceso de producción de un artículo para piezas interiores de rodamiento, se

toman las medidas del diámetro interior en mm. para efectuar un mejor control de calidad. Se

hace indispensable analizar si presenta un comportamiento normal con una media de 3,476mm.

y una desviación típica de 0,065mm. Trabajar con una confianza del 95%.

A continuación se muestran los datos reales u observados durante el proceso de

producción del lote:

Intervalo (Diámetro en mm.)

Frecuencias reales

3,275 – 3,325 3

3,325 – 3,375 3

3,375 – 3,425 9

3,425 – 3,475 32

3,475 – 3,525 38

3,525 – 3,575 10

3,575 – 3,625 3

3,625 – 3,675 1

3,675 – 3,725 1

Total 100

Solución:

Paso 1: Establecer las hipótesis.

H1 = El diámetro de las piezas se distribuye normalmente con una media de µ = 3,476mm. y una desviación de σ = 0,065.

H2 = El diámetro de las piezas no se distribuye normalmente con una media de µ = 3,476 mm. y


una desviación de σ = 0,065.

Paso 2: Utilizar la distribución hipotética, en este caso, la distribución normal, para calcular las diferentes probabilidades Pj, para cada intervalo.

Para el primer intervalo se tiene:

( ≤ ≤ ) ( ≤ ) ( ≤ )

( ≤

) ( ≤

)

( ≤ ) ( ≤ )

Luego,

Para el segundo intervalo se tiene:

( ≤ ≤ ) ( ≤ ) ( ≤ )

( ≤

) ( ≤

)

( ≤ ) ( ≤ )

Luego,

Para el resto de los intervalos se sigue la misma metodología.

Paso 3: Calcular las frecuencias teóricas para cada intervalo.

𝑡 ( )

𝑡 ( )

De igual manera para los intervalos siguientes, siendo ∑

Se revisa que la sumatoria de las frecuencias reales sea aproximadamente igual a la sumatoria de las frecuencias teóricas.

Señalar aquellas frecuencias teóricas ft ≤ 5, y agruparlas con las frecuencias vecinas, de tal forma que se cumpla la condición, de esta manera surge una nueva tabla con un menor número de intervalos (k intervalos).

Intervalos fo Pj ft No condición

3,275 - 3,325 3 0,0092 0,92 *

3,325 - 3,375 3 0,0504 5,04

3,375 - 3,425 9 0,1571 15,71

3,425 - 3,475 32 0,2743 27,43

3,475 - 3,525 38 0,2814 28,14


3,525 - 3,575 10 0,1623 16,23

3,575 - 3,625 3 0,0533 5,33

3,625 - 3,675 1 0,0099 0,99 *

3,675 - 3,725 1 0,0011 0,11 *

Total 100 99,90

Intervalos fo Pj ft

3,275 - 3,375 6 0,0596 5,96

3,375 - 3,425 9 0,1571 15,71

3,425 - 3,475 32 0,2743 27,43

3,475 - 3,525 38 0,2814 28,14

3,525 - 3,575 10 0,1623 16,23

3,575 - 3,725 5 0,0643 6,43

Total 100 99,9

Paso 4: Obtener el estadístico Chi-cuadrado “calculado”.

( )

∑ ( 𝑡)

∑ 𝑡

( )

Intervalos fo ft (fo – ft)2

3,275 - 3,375 6 5,96 0,002

3,375 - 3,425 9 15,71 45,024

3,425 - 3,475 32 27,43 20,885

3,475 - 3,525 38 28,14 97,220

3,525 - 3,575 10 16,23 38,813

3,575 - 3,725 5 6,43 2,045

Total 100 99,9 203,988

Paso 5: Obtener el estadístico Chi-cuadrado “tabulado”.

Grados de libertad = k – p – 1 = 6 – 2 – 1 = 3

Confianza (1 – α) = 0,95

Se busca en la tabla y se obtiene:

Paso 6: Utilizar el criterio o regla de decisión de la prueba de bondad de ajuste de la Chi-cuadrado.

Si ( ) ≤ ( )

⇒ Aceptar H1


≤

Decisión: Se acepta H1.

Se puede asegurar con una confianza del 95%, que los diámetros tienen una distribución normal con una µ = 3,476mm. y una desviación σ = 0,065mm.

12.4.2 Prueba de hipótesis para el promedio de exportación semestral.

Se efectúa una investigación en una población de empresas de un departamento

determinado del país, destinadas a la producción y exportación de ropa interior para dama, el

nivel de exportación semestral (en millones de pesos) de cada una de las empresas que

conforman la muestra se visualiza a continuación:

Elaborar la siguiente prueba de hipótesis con un nivel de significancia del 4%:

Código

empresaExportación

E-014 120

E-236 235

E-025 113

E-526 381

E-087 187

E-189 309

E-358 126

E-249 335

E-731 103

E-825 380

Código

empresaExportación

E-991 343

E-803 250

E-484 164

E-132 335

E-047 281

E-101 288

E-329 304

E-575 228

E-229 249

E-275 284

Código

empresaExportación

E-329 284

E-574 306

E-206 328

E-759 200

E-464 183

E-673 209

E-485 364

E-160 387

E-688 129

E-827 296

Código

empresaExportación

E-026 295

E-609 145

E-610 338

E-034 163

E-796 268

E-310 184

E-143 240

E-298 213

E-876 160

E-154 252


H0: µ = 215

H1: µ > 215

Solución

√

√

≥

≥

El estadístico de la prueba cae en la región de rechazo (RR).

Decisión: Rechazar H0 y aceptar H1.

El promedio de exportación semestral de las empresas del departamento es mayor a $215 millones.

12.4.3 Prueba de hipótesis para la proporción poblacional de cajas de CD-ROM en un

proceso de producción.

Por estudios preliminares, se sabe que el porcentaje de artículos defectuosos de un

proceso de producción de cajas para CD-Room, es del 16%, el jefe de producción implantó

medidas más drásticas para el control del proceso de producción con el objeto de disminuir este

porcentaje. Se efectúa una investigación para analizar si la proporción poblacional de artículos

defectuosos es menor a 0,10, con un nivel de significancia del 5%. Se tomó una muestra de 370

unidades y se detectó que de éstas, 32 presentaban defectos.


Solución

H0: p = 0,10

H1: p < 0,10

(pasado)

Estadístico:

√

√( )( )

RR: ≤

≥

El estadístico no cae en la región de rechazo (RR).

Decisión: Como el estadístico no cae en la RR, se acepta H0 y se rechaza H1.

La proporción de cajas de CD-Room defectuosas en el proceso de producción es igual a 0,10.

Gráficamente:



12.5.1 Número de empleados con trabajo pendiente para el día siguiente: Prueba de

bondad de ajuste.

Los empleados de una empresa han presentado quejas frente al director de personal,

argumentando que la cantidad de actividades diarias es extremadamente alta, por tal motivo se

efectúa una investigación para analizar la proporción de empleados por día que se ven

obligados a dejar trabajo pendiente para el día siguiente.

Cada día se toma una muestra aleatoria de 15 empleados, y al finalizar el día se observa

el número de empleados con trabajo pendiente. Los datos reales se visualizan a continuación:

Día No. empleados con trabajo pendiente

1 5

2 4

3 3

4 10


5 5

6 4

7 3

8 3

9 4

10 9

11 7

12 3

13 3

14 4

15 2

Contrastar la siguiente prueba de hipótesis:

H1: El número de empleados con trabajos pendientes para el día siguiente se distribuye

binomialmente con un promedio de tres empleados y una desviación típica o estándar de 0,36.

H2: El número de empleados con trabajos pendientes para el día siguiente no se

distribuye como una binomial con un promedio de tres empleados y una desviación típica o

estándar de 0,36.

12.5.2 Prueba de hipótesis para la proporción de población potencial que rechaza un

nuevo producto.

Una compañía de gaseosas pretende sacar al mercado un producto nuevo, con un alto

contenido de nutrientes y zumos naturales, bebida destinada especialmente para jóvenes entre

ocho y 18 años. Se efectúa un estudio preliminar para detectar el porcentaje de consumidores

entre ocho y 18 años que no les agrada por algún motivo (sabor, diseño del empaque, olor,

color, precio, entre otros). El porcentaje de jóvenes que no aceptaron la bebida fue alto, por tal

motivo, los aspectos negativos consignados en las encuestas, se tomaron como punto de

referencia para iniciar un plan de mejoramiento en el proceso de la producción. El gerente ha


decidido lanzar definitivamente el producto sólo si el porcentaje máximo de rechazo es inferior

al 8% de la población joven con edad entre ocho y 18 años.

Se tomó una muestra de 278 jóvenes del área metropolitana y se encontró que 25

jóvenes no aceptaron el producto. Se pide:

Elaborar un estudio de prueba de hipótesis para determinar si el porcentaje de no

aceptación es menor al 8%. Utilizar un nivel de significancia del 4%.

12.5.3 Prueba de hipótesis para el contenido promedio de latas de atún.

Una empresa procesadora de atún enlatado ha sido demandada bajo el supuesto de que

sus latas presentan un contenido inferior al impreso en el empaque. La compañía detiene la

producción y con la ya existente, pretende demostrar que es falsa la acusación, conjuntamente

con un grupo de auditores, inicia una investigación. Se toma una muestra de 400 latas con un

contenido impreso en el empaque de 380gr cada una.

Con la muestra recolectada se calculó el peso promedio y la desviación típica o estándar,

siendo X = 382 y S = 5,3.

a) Probar la hipótesis de que el peso promedio de las latas producidas por la empresa es

igual a 380gr. Trabajar con un nivel de significancia del 5%.

b) Probar la hipótesis de que el peso promedio de las latas producidas por la empresa es

superior a 380gr. Trabajar con un nivel de significancia del 5%.

12.5.4 Prueba de hipótesis para el tiempo promedio de duración de velones especiales.

Una industria productora de velas con aroma destinadas para estudios de velomancia

detecta que la demanda de su producto ha aumentado en los últimos años. Los consumidores


prefieren velas con duración superior a cinco horas. El gerente de producción inicia una

investigación con el propósito de analizar si su producto cumple con las expectativas del cliente

en cuanto a tiempo de duración y en caso de no ser así, optar por medidas correctivas en el

proceso. Se toma una muestra de 90 velones medianos para mirar el tiempo de duración:

Probar la hipótesis de que el tiempo promedio de duración de los velones es superior a

cinco horas. Trabajar con un nivel de significancia del 3%.


PARTE V

13. Análisis de regresión y correlación

El objetivo principal de la regresión y correlación es identificar el tipo de relación y

asociación entre variables. La regresión se encarga de determinar el tipo de relación entre las

variables y la correlación determina qué tan intensa es dicha relación.


Regresión. Es una técnica estadística que estudia la relación entre variables

cuantitativas.

Con base en el número de variables que se relacionan dentro del estudio, la regresión se

clasifica en simple (dos variables) o múltiple (más de dos variables). La regresión múltiple

también se conoce como análisis multivariante.

Con base en el tipo de asociación existente entre las variables tratadas, la regresión

puede ser lineal, parabólica, exponencial, logarítmica, entre otras.

Diagrama de dispersión. (Nube de puntos). Es la representación gráfica de la

información original en un plano. Cuando se estudia la relación entre dos variables, se utiliza el

plano cartesiano, dentro del cual se ubican los puntos, cada uno con sus respectivas

coordenadas (X, Y), los puntos que se localizan en el plano constituyen los datos reales u

originales, siendo X la variable independiente y Y la variable dependiente, identificadas como la

abscisa y la ordenada.


El objetivo de elaborar la nube de puntos es visualizar la tendencia que siguen los datos

originales, y de esta forma, decidir cuál de los tipos de asociación utilizar para el cálculo de la

función de ajuste.

Función de ajuste. Corresponde a la función matemática empleada para el ajuste o

representación matemática de la relación existente entre las variables.

La función de ajuste es utilizada para efectuar pronósticos, los cuales se identifican como

los datos pronosticados.

Los datos reales y los pronosticados deben ser semejantes, parecidos, con valores muy

cercanos, porque de lo contrario, no tiene sentido utilizar la función de ajuste hallada para

pronosticar, debido a que los pronósticos no presentarían alta confiabilidad.

13.2 Ajuste lineal.

Es utilizada cuando la tendencia que presentan los datos reales u originales es una línea

recta, tendencia no significa que todos y cada uno de los puntos reales ubicados en el plano

formen exactamente una línea recta, sino que mirándolos de manera conjunta o global, se

pueda determinar un comportamiento lineal, de tal forma que pueda ser calculada la función de

una línea recta que pase muy cerca de la mayoría de datos originales, quedando algunos puntos

sobre la línea ajustada, otros por debajo, e incluso, algunos sobre la misma línea.

Algunas nubes de puntos que representan tendencia lineal se presentan a continuación:


Figura 68. Ejemplos de nubes de puntos con tendencia lineal

En el análisis de la regresión lineal se calcula la función de ajuste Y = a + bX, hallando los

valores de los parámetros a y b a partir de los datos reales u originales. La función Y = a + bX, es

conocida en cálculo como la función lineal. Luego de hallar los valores de a y de b, se escribe

estadísticamente:

𝑏 Fórmula (107)

a = Término independiente. Intercepto con el eje Y. Es aquel valor que toma la variable

dependiente Y cuando la variable independiente X se hace cero.

b = Pendiente de la línea recta. Es el grado de incremento o de disminución de la variable

dependiente Y, cuando la variable independiente X se incrementa en una unidad.

La pendiente es positiva (+) cuando la relación entre las variables X y Y es directamente

proporcional; es decir, al aumentar el valor de la variable X también aumenta el valor de la

variable Y.


La pendiente es negativa (─) cuando la relación entre X y Y es inversamente

proporcional; es decir, al aumentar el valor de la variable X el valor de la variable Y disminuye.

13.2.1 Estimación de los parámetros.

Para estimar o calcular los parámetros a y b, se utiliza el método de los mínimos

cuadrados, de la siguiente manera:

𝑏 𝑏

∑ ∑ 𝑏 ∑ ∑( 𝑏 )

∑ ∑ ∑𝑏 ∑ ∑ ∑𝑏

∑ ∑ 𝑏∑ ∑ ∑ 𝑏∑

Se llega a un sistema de dos ecuaciones con dos incógnitas, siendo las incógnitas los

valores de a y de b:

Ecuación 1: ∑ ∑ 𝑏∑

Ecuación 2: ∑ ∑ 𝑏∑

Para encontrar los valores de a y de b, se soluciona simultáneamente este sistema por

alguno de los métodos de solución simultánea de ecuaciones, igualación, sustitución, reducción,

determinantes o con la utilización de álgebra lineal como eliminación Gaussiana, Gauss-Jordan,

pivoteo, entre otros.

Por ejemplo, si utilizamos determinantes, llegamos a los siguientes valores de a y de b:


|∑ ∑

∑ ∑ |

| ∑ ∑ ∑

| (∑ )(∑ ) (∑ )(∑ )

∑ (∑ )(∑ ) (∑ )(∑ ) (∑ )(∑ )

∑ (∑ ) Fórmula (108)

𝑏 | ∑ ∑ ∑

|

| ∑ ∑ ∑

| ∑ (∑ )(∑ )

∑ (∑ )(∑ ) ∑ (∑ )(∑ )

∑ (∑ ) Fórmula (109)

Otra alternativa que agiliza el cálculo, es hallar el valor de b mediante determinantes y

luego el de a, despejándolo de la Ecuación 1, así:

∑ ∑

Todo lo que se necesita conocer para calcular los valores de a y de b, es obtenido a partir

de los puntos (X, Y) reales u originales, siendo n el total de datos o puntos originales que han

sido recolectados para el estudio.

Se recomienda elaborar una tabla que facilite la obtención de los valores necesarios para

el cálculo de los parámetros de a y b; ésta puede ser diseñada con las siguientes columnas:

Figura 69. Diseño de tabla para el cálculo de los parámetros de a y b, para el ajuste lineal

XX YY XXYY XX22

∑∑XX ∑∑YY ∑∑XXYY ∑∑XX22


Luego de conocer los valores respectivos de a y de b, se concluye que la función de

ajuste está dada por:

𝑏

Este ajuste es considerado óptimo porque hace mínima la suma de los cuadrados de los

errores.

13.2.2 Cálculo del pronóstico.

El cálculo del pronóstico ( ) para la variable Y, dado (conociendo) un valor de X, se

obtiene sustituyendo los valores respectivos de a, b y X en la función de ajuste hallada:

𝑏

13.3 Error residual (ei).

Es cada una de las distancias verticales entre el dato real y el dato pronosticado. Todos

los datos pronosticados caen sobre la recta ajustada y los datos reales algunos se ubican por

encima, por debajo o sobre la línea de ajuste; entre más pequeña sea esta distancia, el

pronóstico será más confiable.

𝑒 ( ) Fórmula (110)

Ésta distancia debe ser mínima para que exista un buen ajuste o una buena bondad de

ajuste; la sumatoria de todos los residuales debe ser igual a cero o muy cercana a cero: ∑𝑒

Un error es positivo cuando el dato real se ubica por encima de la función de ajuste, es

decir, el dato real es mayor al dato pronosticado:


Un error es negativo cuando el dato real se ubica por debajo de la función de ajuste, es

decir, el dato real es menor al dato pronosticado:

Un error es igual a cero cuando el dato real se ubica exactamente sobre la función de

ajuste, es decir, cuando el dato real es igual al dato pronosticado:

La recta ajustada minimiza la sumatoria de los errores residuales cuadráticos, en otras

palabras: la función 𝑏 minimiza ∑( ) ∑𝑒

La figura a continuación ilustra lo mencionado:

Figura 70. Representación gráfica de error residual

13.4 Coeficiente de correlación (r).

Definición y características.

El coeficiente de correlación se denota con la letra r. Es aquel valor que se encarga de

dar el grado de asociación entre la variable dependiente Y y la variable independiente X.

El rango de valores dentro del cual siempre se encuentra el coeficiente de correlación es:

límite inferior ─ 1 y límite superior 1, así: ≤ ≤


El signo del coeficiente de correlación debe coincidir siempre con el signo del parámetro

b. El signo del coeficiente de correlación indica si la relación entre las variables es inversamente

o directamente proporcional.

El valor en absoluto del coeficiente de correlación indica el grado de asociación entre las

variables, es la fuerza de la relación entre las variables y la confiabilidad en los pronósticos.

Si r = 1, la relación entre X y Y es directamente proporcional en un 100%. En este caso,

todos los datos reales caen sobre la línea ajustada, todos los datos reales son idénticos a los

pronosticados, por lo tanto, al utilizar la función de ajuste para efectos de pronósticos, la

confiabilidad es del 100%.

Si r = ─ 1, la relación entre X y Y es inversamente proporcional en un 100%. En este caso,

todos los datos reales caen sobre la línea ajustada, todos los datos reales son idénticos a los

pronosticados, por lo tanto, al utilizar la función de ajuste para efectuar pronósticos, la

confiabilidad es del 100%.

Si r = 0, no existe relación lineal entre las variables, la función lineal de ajuste no puede

ser utilizada para pronosticar.

Entre más cercano se encuentre el valor de r de ─ 1 o de 1, implica un grado mayor de

asociación y relación entre las variables, y entre más cercano se encuentre a cero menor será el

grado de relación.

Cálculo del coeficiente de correlación: Método 1.

( )

√ ( ) ( ) Fórmula (111)


Cov (XY) = covarianza de XY

Var (X) = varianza de X

Var (Y) = varianza de Y

Las varianzas siempre son valores positivos, la covarianza puede ser positiva o negativa,

por tal motivo, el signo de r depende del signo que tenga la covarianza.

La covarianza se calcula como el promedio del producto de las desviaciones respecto a la

media para cada variable, así:

( ) ∑( )( )

Fórmula (112)

= media de la variable X

= media de la variable Y

Otra forma de calcular la covarianza es:

( ) ( ) ( ) ( )

Fórmula (113)

( )

La covarianza de X, Y es igual a la media de (XY) menos la media de X por la media de Y.

( ) ∑

( ) ∑

( ) ∑

Las varianzas para cada variable se calculan así:


( ) ∑( )

( ) ( ) [ ( )]

( ) ∑( )

( ) ( ) [ ( )]

Cálculo del coeficiente de correlación: Método 2.

Para este método, se hace necesario conocer las medidas de variación en la regresión.

Estas son: la variación total, la variación no explicada y la variación explicada.

VT = variación total

VNE = variación no explicada

VE = variación explicada

√

Fórmula (114)

√

Fórmula (115)

Al utilizar este método, el signo del coeficiente de correlación se le asigna dependiendo

del signo que tenga el parámetro b.

13.5 Medidas de variación en la regresión.

Existen tres medidas de variación básicas dentro del estudio de la regresión, éstas son:

variación total, variación no explicada y variación explicada.


13.5.1 Variación total (VT).

Es la suma de cuadrados totales (SCT). Es la sumatoria de las desviaciones cuadráticas

respecto a la media, para la variable Y.

∑( ) Fórmula (116)

Figura 71. Representación gráfica de la variación total

13.5.2 Variación no explicada (VNE).

Es la suma de los cuadrados del error (SCE). Es la sumatoria de las desviaciones

cuadráticas de los valores reales con respecto a los valores pronosticados, para la variable Y.

∑( ) ∑𝑒

Fórmula (117)


Figura 72. Representación gráfica de a variación no explicada

13.5.3 Variación explicada (VE).

Es la suma de los cuadrados de la regresión (SCR). Es la sumatoria de las desviaciones

cuadráticas de los valores pronosticados respecto a la media de los valores reales, para la

variable Y.

∑( ) Fórmula (118)

13.5.4 Propiedades de las medidas de variación en la regresión.

Propiedad 1. Las medidas de variación en la regresión siempre son valores positivos.

≥ , ≥ , ≥

Propiedad 2. La variación total es igual a la sumatoria de la variación no explicada con la

variación explicada.


∑( ) ∑( )

∑( )

Fórmula (119)

Nota:

, por lo tanto,

De aquí se tiene que:

13.6 Coeficiente de determinación (D).

Es el coeficiente de correlación cuadrado.

Fórmula (120)

Este coeficiente determina la bondad de ajuste, es decir, determina si la función

matemática aplicada representa en forma adecuada los datos originales.

El rango de valores dentro del cual siempre se encuentra el coeficiente de determinación

es: límite inferior, cero (0), y límite superior, uno (1); siempre es un valor positivo menor o igual

a uno (1), así: ≤ ≤

𝑅

∑( )

∑( ) Fórmula (121)

Nota: El coeficiente de correlación es la raíz cuadrada del coeficiente de determinación,

así:


√ √

Fórmula (122)

Mientras que el coeficiente de correlación mide el grado de asociación lineal, el

coeficiente de determinación es aquel valor que determina la bondad del ajuste (ajustes no

lineales), determina si la función matemática aplicada representa en forma adecuada los datos

originales, determina el grado de representatividad del ajuste efectuado.

13.7 Ajuste parabólico.

El ajuste de regresión parabólico es utilizado cuando la nube de puntos o diagrama de

dispersión presenta una tendencia parabólica. El ajuste parabólico esta dado por la función

cuadrática:

𝑏 Fórmula (123)

Con los datos originales o reales (X, Y) se plantea el siguiente sistema de tres ecuaciones

con tres incógnitas:

(1) ∑ 𝑏∑ ∑

(2) ∑ ∑ 𝑏∑ ∑

(3) ∑ ∑ 𝑏∑ ∑

Se soluciona simultáneamente por algún método: igualación, sustitución, reducción,

determinantes o algún método de algebra lineal.

Para facilitar el planteamiento del anterior sistema, se puede optar por elaborar una

tabla con las siguientes columnas, de tal forma que se puedan obtener las sumatorias

necesarias.


Figura 73. Diseño de tabla para el cálculo de valores del sistema de ecuaciones para el ajuste

parabólico

Luego de encontrar los respectivos valores de a, b y c, se sustituyen en la función de

ajuste 𝑏

Se concluye que esta función representa de manera adecuada a los datos originales, y

por tal motivo, puede ser utilizada para pronosticar Y dado un valor respectivo de X, el cálculo

del pronóstico se efectúa sustituyendo X en la función de ajuste para hallar el valor de .

Cuando el valor de c, coeficiente en X2 es negativo (─), la función de ajuste parabólica

abre hacia abajo, y en caso de ser positivo (+) la parábola abre hacia arriba.

Figura 74. Representación gráfica del ajuste parabólico

XX YY XX22 XX33 XX44 XXYY XX22YY

∑∑XX ∑∑YY ∑∑XX22 ∑∑XX33 ∑∑XX44 ∑∑XXYY ∑∑XX22YY


13.8 Ajuste exponencial.

El ajuste de regresión exponencial es utilizado cuando el comportamiento de la nube de

puntos o diagrama de dispersión presenta una tendencia exponencial. La función de ajuste

exponencial está dada por:

𝑏

En esta función se tiene:

a = es el intercepto en el eje Y

b = indica si la función es creciente o decreciente, siempre b ≠ 1

Si 0 < b < 1 la función es decreciente

Si b > 1 la función es creciente

Figura 75. Representación gráfica del ajuste exponencial

Para encontrar los valores de a y de b, se toma como base la serie de datos original con

los valores respectivos de X y de Y, para plantear un sistema de dos ecuaciones con dos

incógnitas.


Se parte de: 𝑏

Se saca logaritmo a ambos lados de la igualdad: log log( 𝑏 )

Se aplican propiedades de los logaritmos, y se obtiene:

og log log 𝑏

og log log 𝑏

Se plantean las dos ecuaciones con dos incógnitas, utilizando el método de los mínimos

cuadrados.

og log log 𝑏 log (log log 𝑏)

∑log ∑(log ) log 𝑏 log log log 𝑏

∑log ∑log ∑ log 𝑏 ∑ log ∑( log log 𝑏)

∑log log log 𝑏 ∑ ∑ log ∑ log ∑ log 𝑏

∑ log log ∑ log 𝑏∑

Las dos ecuaciones resultantes son:

(1) ∑ log log log 𝑏 ∑

(2) ∑ log log ∑ log 𝑏 ∑

Las dos incógnitas son: log a y log b, por tal motivo, luego de solucionar

simultáneamente el sistema de ecuaciones, se debe sacar antilogaritmo a ambos resultados

para hallar los valores de a y de b, respectivamente.


Se recomienda elaborar una tabla a partir de los datos originales, que contenga las

siguientes columnas, para efecto de facilitar el cálculo de las sumatorias necesarias para el

planteamiento del sistema de ecuaciones.

Figura 76. Diseño de tabla para el cálculo de valores del sistema de ecuaciones para el ajuste

exponencial

13.9 Análisis de regresión en una serie de tiempo.

Una serie de tiempo nos muestra el comportamiento de una variable a través del

tiempo. Utilizando la regresión como aplicación dentro de las series temporales se cuenta con

dos variables, donde una de ellas es el tiempo.

La variable X siempre se asocia con el tiempo, y la variable Y es aquella que se desea

analizar a través del tiempo. Como el tiempo es identificado en este tema con días, meses,

semestres, bimestres, años, entre otros; es en este sentido que se hace indispensable asignarle

a cada identificación del tiempo un número, y de ahí en adelante, consecutivos. Es muy

importante tener en cuenta los consecutivos de X en el momento de efectuar un pronóstico.

XX YY XX22 lloogg YY XX ⋅⋅ lloogg YY

∑∑XX -- ∑∑XX22 ∑∑lloogg YY ∑∑XX ⋅⋅ lloogg YY


A continuación se muestran varios ejemplos de asignación de valores consecutivos para

X, dado una identificación de tiempo mensual; de igual manera se aplica para las otras

identificaciones del tiempo.

Figura 77. Ejemplos de asignación de valores consecutivos para el análisis de regresión en una

serie de tiempo


13.10.1 Ajuste de regresión entre el precio y la demanda de un producto.

El departamento de investigaciones económicas de una compañía desea realizar un

estudio sobre los precios y la demanda de su principal producto. Para ello cuenta con la

siguiente información:

Variable X: Precio (miles de $)

Variable Y: Demanda (número de unidades)

TTiieemmppoo

((mmeesseess)) XX XX XX XX XX

EEnneerroo 00 --33 00 11 --44

FFeebbrreerroo 11 --22 33 22 --22

MMaarrzzoo 22 --11 66 33 00

AAbbrriill 33 00 99 44 22

MMaayyoo 44 11 1122 55 44

JJuunniioo 55 22 1155 66 66

JJuulliioo 66 33 1188 77 88

AAggoossttoo 77 44 2211 88 1100

SSeeppttiieemmbbrree 88 55 2244 99 1122

…… …… …… …… …… ……


X Y

5 100

7 90

9 86

12 72

17 60

23 55

30 43

Se pide:

a) Elaborar el diagrama de dispersión o nube de puntos. ¿Qué tendencia se visualiza en el

gráfico?

b) Calcular la función de ajuste y graficarla sobre el diagrama.

c) Pronosticar el número de unidades demandadas para un precio de $15.000.

d) Calcular el coeficiente de correlación e interpretarlo.

Solución

a) Diagrama de dispersión:

Los datos originales o reales presentan una tendencia lineal, por tal motivo, el análisis de regresión y correlación se efectúa con ajuste lineal.

Nube de puntos

Precio (miles $)

Un

idad

es d

eman

dad

as


b) Cálculo de la función de ajuste:

X Y X2 XY

5 100 25 500

7 90 49 630

9 86 81 774

12 72 144 864

17 60 289 1.020

23 55 529 1.265

30 43 900 1.290

103 506 2.017 6.343

El sistema de ecuaciones que se plantea es el siguiente:

Ecuación 1. ∑ 𝑏∑

Ecuación 2. ∑ ∑ 𝑏∑

𝑏

𝑏

Se soluciona simultáneamente el sistema de ecuaciones y se encuentra que el valor de las incógnitas esta dado por: a = 104,64 y b = -2,2; por lo tanto, la función de ajuste que representa de manera adecuada a los datos originales está dada por la siguiente expresión matemática:

Gráfica de la función de ajuste sobre el diagrama de dispersión:

Nube de puntos

Precio (miles $)

Un

idad

es d

eman

dad

as


c) Pronóstico del número de unidades demandadas para un precio de $15.000:

, para un valor de

( )

unidades

d) Coeficiente de correlación:

( )

√ ( ) ( )

Se elabora una tabla con las columnas necesarias para calcular la covarianza y las varianzas respectivas.

( ) ( )

( )( )

5 100 94,37 768,08 -269,22

7 90 59,51 313,80 -136,65

9 86 32,65 188,08 -78,37

12 72 7,37 0,08 0,78

17 60 5,22 150,94 -28,08

23 55 68,65 298,80 -143,22

30 43 233,65 857,65 -447,65

103 506 501,43 2.577,43 -1.102,43

Media de X: 14,71

Media de Y: 72,29

Var(X): 71,63

Var(Y): 368,20

Cov(XY): -157,489796

Coeficiente de correlación: -0,97

∑

∑

( )


( )

( )

𝟕 𝟒𝟗

√𝟕 𝟑 𝟑 𝟗𝟕

La relación entre el precio y el número de unidades demandadas es inversamente proporcional en un 97%. Los pronósticos que se efectúen utilizando la función de ajuste hallada, tendrán un grado de confiabilidad del 97%, ya que el grado de asociación lineal entre las variables es del 97%.

Otra forma de calcular el coeficiente de correlación:

√

√

Para calcular el coeficiente de correlación utilizando el coeficiente de determinación, se debe tener presente que al resultado hallado siempre se le pone el signo que tenga el parámetro b (coeficiente en X) de la función de ajuste hallada.

Se elabora una tabla que sea de utilidad para hallar la variación explicada (VE) y la variación total (VT).

( ) ( )

5 100 93,643305 768,08 456,15

7 90 89,246154 313,80 287,66

9 86 84,849003 188,08 157,84

12 72 78,253276 0,08 35,61

17 60 67,260399 150,94 25,25

23 55 54,068946 298,80 331,85

30 43 38,678917 857,65 1.129,42

103 506 - 2.577,428571 2.423,772446

∑

∑( )


∑( )

√ √

El coeficiente de correlación lleva el signo de b, en este caso, negativo (-), por lo tanto, se concluye que

13.10.2 Comportamiento de la captación de una cooperativa a través del tiempo:

Enfoque de regresión y correlación.

Analizar el comportamiento de la captación anual en millones de pesos de una

cooperativa, utilizar el ajuste que se considere adecuado, para tal fin, visualizar a través del

diagrama de dispersión cuál es la tendencia de la nube de puntos.

Año Captación

(millones $)

1996 1,3

1997 3,5

1998 14,5

1999 27,1

2000 41,3

2001 70,3

2002 87,1

2003 130,5

2004 150,3

a) Elaborar el diagrama de dispersión, visualizar la tendencia de los datos originales, ¿Cuál

tipo de ajuste es conveniente efectuar?


b) Efectuar un ajuste lineal y graficar la función de ajuste sobre el diagrama. Calcular

pronósticos y compararlos con el valor original o real. Calcular el coeficiente de

correlación y el de determinación e interpretar resultados.

c) Efectuar un ajuste parabólico y graficar la función de ajuste sobre el diagrama. Calcular


determinación e interpretarlo.

d) Efectuar un ajuste exponencial y graficar la función de ajuste sobre el diagrama. Calcular


determinación e interpretarlo.

e) Luego de realizar los numerales b), c) y d), ¿cuál ajuste elige dentro del análisis de esta

serie de datos como representativo? Comparar la elección realizada con el ajuste

propuesto en el numeral a).

Solución

a) Diagrama de dispersión o nube de puntos:

Año X Y

1996 0 1,3

1997 1 3,5

1998 2 14,5

1999 3 27,1

2000 4 41,3

2001 5 70,3

2002 6 87,1

2003 7 130,5

2004 8 150,3


Al visualizar el gráfico, la tendencia de los puntos originales parece ser lineal, sin embargo también se asemeja a la mitad derecha de una parábola que abre hacia arriba, o también a una exponencial creciente. ¿Qué decisión tomar, si los tres ajustes se acercan a la tendencia?

A continuación se efectúan los tres ajustes para analizar resultados y poder tomar la decisión sobre el tipo de ajuste adecuado que se ha de aplicar en esta serie de datos en particular.

Nota: Cuando se tienen dudas respecto a la tendencia de los datos originales en una serie de tiempo, se puede suavizar la serie utilizando el método de los promedios móviles, a través del cual se seleccionan períodos de determinada longitud y luego se calculan medias aritméticas sucesivas, posteriormente, se grafican y se puede mirar con mayor claridad cuál es la tendencia. Si los datos son pocos no se recomienda este método, además, con este método se pierden datos al principio y al final de la serie.

b) Ajuste lineal:

Año X Y XY X2

1996 0 1,3 0 0

1997 1 3,5 3,5 1

1998 2 14,5 29 4

1999 3 27,1 81,3 9

2000 4 41,3 165,2 16

2001 5 70,3 351,5 25

2002 6 87,1 522,6 36

2003 7 130,5 913,5 49

2004 8 150,3 1.202,4 64

Total 36 525,9 3.269 204

Se plantea el siguiente sistema de ecuaciones:

Diagrama de dispersión

Año

Cap

taci

ón


(1) ∑ 𝑏∑

(2) ∑ ∑ 𝑏∑

𝑏

𝑏

Al solucionar simultáneamente este sistema de ecuaciones se obtiene:

y 𝑏

La función de ajuste lineal está dada por:

Gráfica de la función de ajuste lineal sobre el diagrama de dispersión:

Cálculo de los pronósticos utilizando la función de ajuste lineal:

Año X Y

1996 0 1,3 -19,26 20,56 422,7136

1997 1 3,5 0,16333333 3,336666667 11,1333444

1998 2 14,5 19,5866667 -5,086666667 25,8741778

1999 3 27,1 39,01 -11,91 141,8481

2000 4 41,3 58,4333333 -17,13333333 293,551111

2001 5 70,3 77,8566667 -7,556666667 57,1032111

2002 6 87,1 97,28 -10,18 103,6324

2003 7 130,5 116,703333 13,79666667 190,348011

2004 8 150,3 136,126667 14,17333333 200,883378

Total - - - - 1447,08733

Ajuste lineal

Año

Cap

taci

ón


Los valores reales no tienen similitud con los datos pronosticados.

La sumatoria de los errores residuales cuadráticos es ∑𝑒 , no tiende a ser un

valor pequeño. Más adelante se comparan las sumatorias de los errores residuales cuadráticos para mirar cuál es el menor.

Coeficiente de correlación lineal:

Año X Y ( )

( )

1996 0 1,3 -19,26 6.036,254044 3.264,217778

1997 1 3,5 0,16333333 3.395,3929 3.017,671111

1998 2 14,5 19,5866667 1.509,063511 1.930,137778

1999 3 27,1 39,01 377,2658778 981,7777778

2000 4 41,3 58,4333333 4,54384 293,5511111

2001 5 70,3 77,8566667 377,2658778 140,8177778

2002 6 87,1 97,28 1.509,063511 821,7777778

2003 7 130,5 116,703333 3.395,3929 5.193,604444

2004 8 150,3 136,126667 6.036,254044 8.439,484444

Total - 525,9 - 22.635,95267 24.083,04

Media de Y: 58,4333333

Coeficiente de determinación D = 0,9399126

Coeficiente de correlación r = 0,9694909

Más adelante se comparan los coeficientes de determinación para analizar cuál de los tres ajustes presenta el coeficiente D más alto, es decir, el más cercano al valor de 1.

En este ajuste, el coeficiente de correlación lineal es r = 0,9694909, lo que significa que la función de ajuste hallada tiene un grado de representatividad del 96,9% para efectuar los pronósticos, sin embargo, aunque este porcentaje parezca alto, no es confiable, porque como se detectó anteriormente, los valores pronosticados son muy diferentes a los datos reales.

c) Ajuste parabólico:

Año X Y X2 X3 X4 XY X2Y

1996 0 1,3 0 0 0 0 0

1997 1 3,5 1 1 1 3,5 3,5

1998 2 14,5 4 8 16 29 58

1999 3 27,1 9 27 81 81,3 243,9

2000 4 41,3 16 64 256 165,2 660,8

2001 5 70,3 25 125 625 351,5 1.757,5


2002 6 87,1 36 216 1.296 522,6 3.135,6

2003 7 130,5 49 343 2.401 913,5 6.394,5

2004 8 150,3 64 512 4.096 1.202,4 9.619,2

Total - 525,9 204 1.296 8.772 3.269 21.873

Se soluciona simultáneamente el siguiente sistema de 3x3:

(1) ∑ 𝑏∑ ∑

(2) ∑ ∑ 𝑏∑ ∑

(3) ∑ ∑ 𝑏∑ ∑

𝑏

𝑏

𝑏

La solución de este sistema está dada por:

𝑏

La función de ajuste parabólica está dada por:

𝑏

Gráfico de la función de ajuste parabólico sobre el diagrama de dispersión:

Al visualizar este gráfico se detecta que los puntos reales se encuentran más cercanos a la función de ajuste parabólica que en el caso anterior, del ajuste lineal.

Ajuste parabólico

Año

Cap

taci

ón


Cálculo de los Pronósticos utilizando la función de ajuste parabólica:

Año X Y

1996 0 1,3 -0,18727276 1,487272758 2,21198026

1997 1 3,5 4,93151514 -1,431515144 2,04923561

1998 2 14,5 14,137316 0,362683974 0,13153967

1999 3 27,1 27,4301299 -0,330129889 0,10898574

2000 4 41,3 44,8099567 -3,509956732 12,3197963

2001 5 70,3 66,2767966 4,023203445 16,186166

2002 6 87,1 91,8306494 -4,730649359 22,3790434

2003 7 130,5 121,471515 9,028484856 81,5135388

2004 8 150,3 155,199394 -4,899393909 24,0040607

Total - - - - 160,904346

Los pronósticos calculados con el ajuste parabólico se encuentran más cercanos a los datos originales que en el caso del ajuste lineal, también se puede observar que la sumatoria de los errores residuales cuadráticos es menor a la arrojada en el ajuste lineal.

Cálculo del coeficiente de Determinación en el ajuste parabólico:

Año X Y ( )

( )

1996 0 1,3 -0,18727276 3.436,37546 3.264,21778

1997 1 3,5 4,93151514 2.862,44455 3.017,67111

1998 2 14,5 14,137316 1.962,13715 1.930,13778

1999 3 27,1 27,4301299 961,198624 981,777778

2000 4 41,3 44,8099567 185,59639 293,551111

2001 5 70,3 66,2767966 61,5199153 140,817778

2002 6 87,1 91,8306494 1.115,38072 821,777778

2003 7 130,5 121,471515 3.973,81237 5.193,60444

2004 8 150,3 155,199394 9.363,67048 8.439,48444

Total - 525,9 - 23.922,1356 24.083,04

Media de Y = 58,4333333

Coeficiente de determinación D = 0,99331877

En el presente ajuste parabólico, el coeficiente de determinación es más alto que el hallado en el ajuste lineal, por lo tanto, este ajuste representa mucho mejor a la serie de datos original.


d) Ajuste exponencial:

Año X Y X2

1996 0 1,3 0 0,11394335 0

1997 1 3,5 1 0,54406804 0,54406804

1998 2 14,5 4 1,161368 2,322736

1999 3 27,1 9 1,43296929 4,29890787

2000 4 41,3 16 1,61595005 6,46380021

2001 5 70,3 25 1,84695533 9,23477663

2002 6 87,1 36 1,94001816 11,6401089

2003 7 130,5 49 2,11561051 14,8092736

2004 8 150,3 64 2,17695898 17,4156718

Total - 525,9 204 12,9478417 66,7293431

Se plantea el siguiente sistema de ecuaciones:

(1) ∑ log log log 𝑏 ∑

(2) ∑ log log ∑ log 𝑏 ∑

log log 𝑏

log log 𝑏

Al solucionar simultáneamente el sistema, se obtiene como resultado:

log

log 𝑏

Para hallar los valores de a y de b, se aplica antilogaritmo:

𝑏

Recordar que el logaritmo de un número es el exponente al cual hay que elevar la base para que dé dicho número, es decir:

log

log 𝑏 𝑏

La función de ajuste exponencial está dada por:

𝑏

( )

La función de ajuste exponencial también puede ser expresada como:


𝑒

Para hallar el valor de c y poder expresarla con la base (e) de los logaritmos naturales (ln), tenemos presente el siguiente análisis matemático:

𝑏 𝑒

⇩

𝑏 𝑒

ln 𝑏 ln 𝑒

ln 𝑏 ln 𝑒

ln 𝑏

ln 𝑏

ln 𝑏

En este caso específico, se tiene que:

ln

Por tal motivo, la función de ajuste exponencial también puede quedar expresada así:

𝑒

Gráfica de la función de ajuste exponencial sobre el diagrama de dispersión:

Ajuste exponencial

Año

Cap

taci

ón


Cálculo de los pronósticos utilizando la función de ajuste exponencial:

Año X Y

1996 0 1,3 2,77194109 -1,471941086 2,16661056

1997 1 3,5 4,91756678 -1,417566783 2,00949558

1998 2 14,5 8,72401769 5,775982311 33,3619717

1999 3 27,1 15,4768584 11,62314163 135,097421

2000 4 41,3 27,4567468 13,84325317 191,635658

2001 5 70,3 48,7096883 21,59031173 466,141561

2002 6 87,1 86,4135051 0,686494939 0,4712753

2003 7 130,5 153,302025 -22,80202516 519,932351

2004 8 150,3 271,965718 -121,6657176 14.802,5469

Total - - - - 16.153,3632

Los datos pronosticados utilizando la función de ajuste exponencial indican que ésta no es adecuada, porque no presentan semejanza o similitud con los datos reales u originales, además, la sumatoria de los errores residuales cuadráticos es alta.

Cálculo del Coeficiente de determinación en el ajuste exponencial:

Para calcular el coeficiente de determinación en un ajuste exponencial se debe elaborar preliminarmente la siguiente tabla:

( )

( )

2,77194109 0,442784 0,11394335 0,991747265 1,754845263

4,91756678 0,69175027 0,54406804 0,557857836 0,800275228

8,72401769 0,94071654 1,161368 0,247936816 0,076884796

15,4768584 1,18968281 1,43296929 0,061984204 3,226E-05

27,4567468 1,43864908 1,61595005 0 0,031435635

48,7096883 1,68761535 1,84695533 0,061984204 0,16671399

86,4135051 1,93658162 1,94001816 0,247936816 0,25137095

153,302025 2,18554789 2,11561051 0,557857836 0,458276781

271,965718 2,43451416 2,17695898 0,991747265 0,54510151

Total 12,9478417 12,9478417 3,719052243 4,084936413

log

log


∑(log log )

∑(log log )

El valor de este coeficiente de determinación es inferior a los arrojados en los dos anteriores ajustes.

d) Decisión del tipo de ajuste:

El ajuste más adecuado para esta serie de datos es el ajuste parabólico.


13.11.1 Análisis de regresión entre el precio de entrada a una sala de videos y el

número de estudiantes que entran.

La junta de estudiantes de una institución educativa intenta determinar si el precio de

entrada a la sala de videos ejerce algún efecto sobre el número de estudiantes que utilizan la

instalación. Se cuenta con la siguiente información sobre el precio (en miles de pesos por hora)

y el número de estudiantes que entran al recinto:

Precio 1,25 1,5 1,75 2 2,1 1 2,5 1,1

No. Estudiantes 95 83 75 72 69 101 65 98

a) Graficar el diagrama de dispersión (probar visualmente que los datos originales

presentan una tendencia lineal).

b) Calcular la función de ajuste y graficarla sobre el diagrama de dispersión.

c) Calcular el coeficiente de correlación.

d) Pronosticar cuál es el número de estudiantes que ingresan al recinto si el precio es de

$1.900.

Interpretar resultados.


13.11.2 Análisis de regresión entre la utilidad y el gasto en publicidad.

Una empresa descubre que sus utilidades netas (en millones de $) se incrementan al

aumentar la cantidad gastada en publicidad (en millones de $) del producto. La empresa

dispone de los siguientes registros:

Gasto en publicidad 10 11 12,3 13,5 15 15,5 17

Utilidades netas 50 63 68 73 75 77 83

a) Graficar el diagrama de dispersión y probar visualmente que la nube de puntos presenta

una tendencia lineal.

b) Calcular la función de ajuste lineal y graficarla sobre el diagrama.

c) Pronosticar de cuánto es la utilidad si el gasto en publicidad es de $14 millones.

d) Calcular el coeficiente de correlación.

Interpretar resultados.

13.11.3 Análisis de regresión entre el nivel de ahorro y el ingreso.

El departamento de personal de una compañía desea analizar el comportamiento del

ahorro mensual de sus empleados en relación con el salario devengado por los mismos, para

ello cuenta con la siguiente información:

Ingreso mensual

(miles $)

Ahorro mensual

(miles $)

500 100

600 80

550 90

700 200

720 120

730 150

800 200


820 180

830 210

850 220

a) Graficar el diagrama de dispersión y visualizar cuál es la tendencia que siguen los datos

originales.

b) Elaborar diferentes tipos de ajuste, para cada uno de ellos: calcular la función de ajuste y

graficarla sobre el diagrama; calcular pronósticos; errores residuales; coeficiente de

determinación.

13.11.4 Análisis de regresión: Utilidad a través del tiempo en una compañía

distribuidora de computadores.

La utilidad de una compañía dedicada a distribuir equipos de computador para oficinas

presenta las siguientes utilidades en cada uno de los años respectivos:

Año 2000 2001 2002 2003 2004 2005 2006 2007 2008

Utilidades (millones $) 6 6,5 7 7,2 7,3 7,6 8 8,1 7,9

a) Graficar el diagrama de dispersión y analizar visualmente cuál es la tendencia que siguen

estos datos.

b) Elaborar el ajuste lineal y el parabólico, ¿cuál considera más adecuado?, explicar.

Para cada uno de los dos tipos de ajuste analizar: función de ajuste y gráfica de la función

de ajuste; cálculo de pronósticos; coeficiente de correlación lineal; coeficiente de

determinación.


13.11.5 Análisis de regresión: Ventas versus espacio asignado.

Un comerciante desea analizar si las ventas semanales (en miles de $) tienen relación

alguna con el espacio asignado para vender (en metros cuadrados). De acuerdo a eventos

pasados se recopiló la siguiente información:

Ventas semanales Espacio disponible

m2

635 7

528 6

456 4,5

654 6,3

498 5

539 5,2

580 7

620 8

472 6

587 6,8

a) Graficar el diagrama de dispersión, analizar visualmente cuál es la tendencia de esta

serie de datos.

b) Analizar dos tipos de ajuste diferentes y justificar cuál de ellos elige.

13.11.6 Análisis de regresión: Pasivo pensional a través del tiempo.

El pasivo pensional de una entidad estatal viene presentando el siguiente

comportamiento:

Año 2003 2004 2005 2006 2007

Semestre I II I II I II I II I II

Pasivo pensional (millones $)

7 8 10,8 13 14,8 21,1 26,5 30 30,2 31


a) Graficar el diagrama de dispersión. Analizar visualmente la tendencia que siguen los

datos.

b) Efectuar el ajuste lineal, el parabólico y el exponencial. Analizar cada uno de ellos y

justificar cuál de éstos considera más adecuado.

Para cada uno de los ajustes se pide: calcular la función de ajuste y graficarla sobre el

diagrama de dispersión; calcular pronósticos; errores residuales; coeficiente de determinación y

en el caso del ajuste lineal, el coeficiente de correlación lineal.

13.11.7 Análisis de regresión: Presupuesto ejecutado de egresos a través del tiempo.

El presupuesto ejecutado de egresos de una caja de compensación familiar viene

mostrando el siguiente comportamiento en los últimos años:

Año 2001 2002 2003 2004 2005 2006 2007 2008

Presupuesto ejecutado

de egresos (millones $) 114 144 177,2 191 311,5 314,1 426 555

a) Graficar el diagrama de dispersión, analizar visualmente la tendencia de los datos

originales.

b) Efectuar ajuste lineal, parabólico y exponencial. Analizar y justificar cuál de ellos

considera de mayor pertinencia.




13.11.8 Análisis de regresión: Crecimiento de la población a través del tiempo.

La población (en millones de habitantes) de una zona determinada del país viene

presentando el siguiente comportamiento a través del tiempo:


Año 2001 2002 2003 2004 2005 2006 2007 2008

Población (millones

de habitantes) 1,7 5,95 20,83 72,89 255,11 892,87 3.125,05 10.937,68

a) Graficar el diagrama de dispersión y visualizar cuál es la tendencia que sigue la población

a través del tiempo.

b) Efectuar diferentes tipos de ajuste y analizar cuál de ellos es el más adecuado.

Para cada uno de los ajustes aplicados, calcular: función de ajuste y graficarla sobre el

diagrama de dispersión; calcular pronósticos; errores residuales; coeficiente de determinación.

13.11.9 Análisis de regresión: Utilidad semestral.

Los siguientes datos se refieren al comportamiento de la utilidad semestral (millones de

pesos) de una empresa dedicada a la fabricación de artículos de cuero:

Año 2005 2006 2007 2008 2009

Semestre I II I II I II I II I II

Pasivo pensional (millones $)

2,07 2,14 2,23 2,34 2,57 2,63 2,85 3,01 3,67 4,1

a) Graficar el diagrama de dispersión y visualizar cuál es la tendencia que siguen las

utilidades a través del tiempo.

b) Efectuar ajuste lineal, parabólico y exponencial. Analizar y justificar cuál de ellos

considera de mayor pertinencia.





Referencias

David R., A. (2005). Estadística para administración y economía. México: Editorial Thomson.

Douglas, L. (2008). Estadística aplicada a los negocios y la economía. México: Editorial McGraw-

Hill.

Canavos, G. C. (1987). Probabilidad y estadística. México: Editorial McGraw-Hill.

Levine, D. M. (2006). Estadística para administración. México: Editorial Pearson.

Martínez Bencardino, C. (2008). Estadística y Muestreo. Bogotá, Colombia: Editorial ECOE.

Stevenson, W. J. (2006). Estadística para administración y economía. México: Alfaomega Grupo

Editor OXFORD University Press.

Wackerly, D. (2007). Estadística matemática con aplicaciones. México: Editorial Thomson.

ESTADÍSTICA PARA EDUCACIÓN SUPERIOR SEGUNDA EDICIÓN · 9.5 Probabilidad simple y conjunta, y su...

Documents

Transcript of ESTADÍSTICA PARA EDUCACIÓN SUPERIOR SEGUNDA EDICIÓN · 9.5 Probabilidad simple y conjunta, y su...