Apuntes de Analisis Cuantitativo

240
1 DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA UNIVERSIDAD DE GRANADA TÉCNICAS PARA EL ANÁLISIS DEL MERCADO TEORÍA, EJERCICIOS Y PRÁCTICAS

description

Apuntes universitarios de analisis cuantitiativos de estadística descriptiva

Transcript of Apuntes de Analisis Cuantitativo

Page 1: Apuntes de Analisis Cuantitativo

1

DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA E MPRESA

UNIVERSIDAD DE GRANADA

TÉCNICAS PARA EL ANÁLISIS DEL MERCADO

TEORÍA, EJERCICIOS Y PRÁCTICAS

Page 2: Apuntes de Analisis Cuantitativo

2

Page 3: Apuntes de Analisis Cuantitativo

3

INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . .

APUNTES:

1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . . 1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . .

1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . . 1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . .

2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas

aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . .

2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .

2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . . 2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . . 2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . . 3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . .

3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . .

4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .

4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .

4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .

6

11 11 12 13 13 15 16 16 16 17

18

18 19

19

23 23 24 25 27 30

38 38 39 42 43 43 44 44 50 52

63 63 64 65 68 69 70 71 72 72 74

Page 4: Apuntes de Analisis Cuantitativo

4

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . . 5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas,

aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . . 6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . . 6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . .

7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Muestreo por cuadros.

7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . . 7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . . 7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. Análisis cluster. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Medidas de similaridad. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8.2.1 Medidas de similaridad para variables métricas. . . . . . . . . . . . 8.2.2 Medidas de similaridad para datos binarios. . . . . . . . . . . . . .

8.3 Estandarización de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Formación de grupos: Clusters jerárquicos y clusters no jerárquicos. . . . .

8.4.1 Clusters jerárquicos. . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Clusters no jerárquicos. . . . . . . . . . . . . . . . . . . . . . . . .

8.5 Elección entre los distintos tipos de análisis cluster. . . . . . . . . . . . . .

9. Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . .

9.2.1. Componentes principales a partir de variables estandarizadas . . . .

EJERCICIOS: Ejercicios del capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

82 82 84

86

88

89

92 92 92 92 97 98

108 108 109

110 112 112 114

117 117 118 120 121 122 125 125 132 136

137 137 138 145

156 162 173 183 186 196

Page 5: Apuntes de Analisis Cuantitativo

5

Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . PRÁCTICAS: Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FORMULARIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

200 202

204 218 230 239

Page 6: Apuntes de Analisis Cuantitativo

6

INFORMACIÓN GENERAL Licenciatura: Administración y Dirección de Empresas Carácter: Optativo Créditos: 6 Periodo lectivo: Segundo cuatrimestre Departamento: Métodos Cuantitativos para la Economía y la Empresa

Objetivos de la Asignatura:

o Completar los conocimientos previos de estadística con el estudio de nuevas técnicas de muestreo en poblaciones finitas y análisis multivariante, dotando al alumno de las herramientas estadísticas e informáticas necesarias para poder abordar la resolución de supuestos prácticos.

o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de

los conceptos, la capacidad de elección del método en la resolución de los problemas prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo Excel y el paquete estadístico SPSS así como la interpretación de los resultados.

o Una hora de clase a la semana será en el aula de informática donde se utilizarán los

programas Excel y SPSS.

Sistema de Evaluación:

• En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos pruebas, una escrita (valorada en al menos el 70% de la calificación) y otra con ordenador (valorada como máximo en el 30% de la calificación). Siendo necesario un mínimo del 35% de la calificación en cada una de estas dos partes, para realizar la media ponderada entre ambas calificaciones y así obtener la calificación global. En ambas pruebas los alumnos podrán utilizar el “formulario” (con todas las expresiones utilizadas en la asignatura), dicha información se facilitará por internet y/o en la fotocopiadora del centro. También se permite el uso de calculadora no programable en la prueba escrita.

• Los alumnos que reúnan determinados requisitos de seguimiento de la asignatura, que

oportunamente se expondrán en clase, serán evaluados mediante exámenes previos a la convocatoria oficial de Junio. La superación en estos exámenes de la prueba escrita y/o con ordenador eximirá de la realización del examen final (escrito y ordenador) o de alguna de las pruebas en la convocatoria de Junio (no se guardará el aprobado en la parte escrita o con ordenador para posteriores convocatorias: Septiembre, …)

Page 7: Apuntes de Analisis Cuantitativo

7

TEMARIO 1. Elementos del problema de muestreo.

1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo.

2. Muestreo aleatorio simple.

2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas.

2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.

2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral.

2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral.

3. Muestreo aleatorio estratificado.

3.1 Selección de una muestra aleatoria estratificada. 3.2 Estimación de la media, proporción y total poblacionales. 3.3 Determinación del tamaño muestral. 3.4 Asignación de la muestra.

3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional.

3.5 Estratificación después de seleccionar la muestra. 4. Muestreo con información auxiliar.

4.1 Introducción. 4.2 Estimación de razón.

4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral.

4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral.

4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral.

5. Muestreo sistemático.

5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias

y periódicas.

Page 8: Apuntes de Analisis Cuantitativo

8

5.4 Determinación del tamaño muestral. 6. Muestreo por conglomerados.

6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. 6.3 Estimación de la media, proporción y total poblacionales. 6.4 Determinación del tamaño muestral.

7. Estimación del tamaño de la población.

7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros.

7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados.

8. Análisis cluster. 8.1 Introducción. 8.2 Medidas de similaridad. 8.2.1 Medidas de similaridad para variables métricas 8.2.2 Medidas de similaridad para datos binarios 8.3 Estandarización de datos. 8.4 Formación de grupos: Clusters jerárquicos y clusters no jerárquicos. 8.4.1 Clusters jerárquicos. 8.4.2 Clusters no jerárquicos. 8.5 Elección entre los distintos tipos de análisis cluster.

9. Componentes principales.

9.1 Introducción. 9.2 Componentes principales. 9.2.1. Componentes principales a partir de variables estandarizadas.

Page 9: Apuntes de Analisis Cuantitativo

9

Bibliografía: Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.

Palacios, F. Callejón, J. (2004). Técnicas Cuantitativas para el Análisis Regional. Editorial

Universidad de Granada. Manuales Ciencias Económicas y Empresariales.

Fernández García, Mayor Gallego (1995). Ejercicios y prácticas de muestreo en

poblaciones finitas. EUB.

Lohr, S.L. (1999). Muestreo: Diseño y Análisis. International Thomson Editores

Luque, T. (2000). Técnicas de Análisis de Datos en Investigación de Mercados. Pirámide.

Hair, J. F. (2001). Análisis Multivariante. Prentice-Hall.

Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill.

Uriel, E. Aldás, J. (2005). Análisis Multivariante Aplicado. International Thomson Editores.

Información en la WEB: En la página web de la Universidad (www.ugr.es/local/jhermoso) se facilitará información a los alumnos sobre:

� Profesores que imparten la asignatura, despacho, correo electrónico, horario de tutorías...

� Programa de la asignatura � Bibliografía � Apuntes de clase � Relaciones de ejercicios � Prácticas de ordenador � Sistema de evaluación � Fechas de exámenes � Calificaciones � Revisión de exámenes � Cualquier otra información que se considere importante.

Page 10: Apuntes de Analisis Cuantitativo

10

Page 11: Apuntes de Analisis Cuantitativo

11

Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error.

1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo.

1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo.

El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base

en la información contenida en una muestra representativa.

La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de

nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad

comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones

sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente

tomadas sobre la base de la información de encuestas por muestreo.

1.1 Definiciones básicas

En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas

nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra

perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las

características de toda la población. Una buena muestra reproduce las características de interés

que existen en la población de la manera más cercana posible.

Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas

que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se

quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes

que apoyarán a un determinado candidato

Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro

ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no

al candidato.

La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe

contener:

� una descripción de los elementos que serán incluidos, y

� una especificación de las mediciones que se van a considerar.

Page 12: Apuntes de Analisis Cuantitativo

12

Una muestra es un subconjunto de la población.

El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir

información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un

candidato en una votación, la información disponible para el muestreo puede ser el censo de

residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona

muestreada es un votante censado o no.

La población muestreada es la colección de todos los elementos posibles que podrían

seleccionarse para la muestra.

Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que

cubren la población completa.

Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los

teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las

familias sirven como unidades de muestreo y los elementos son los individuos que viven en

una familia.

El marco de muestreo es la lista de las unidades de muestreo.

Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos

los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan

inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin

embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño

como para permitir que se hagan inferencias acerca de la población basándose en una muestra

obtenida del marco.

1.2 Selección de la muestra

Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se

puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de

información contenida en una muestra se controla por medio del número de datos muestrales y

por el método usado para seleccionar los datos muestrales.

Veamos algunos métodos:

1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo.

Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de

tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base

de otros diseños de muestreo.

2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se

pueden dividir en grupos con diferentes opiniones sobre un determinado candidato.

Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se

Page 13: Apuntes de Analisis Cuantitativo

13

divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria

simple de cada grupo. A la muestra resultante se le llama muestra aleatoria

estratificada.

3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que

componen una población se reúnen en unidades de muestreo de mayor tamaño,

llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar

de votantes individuales. En este caso las familias forman los conglomerados y los

miembros de las familias son las unidades de muestreo.

4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como

sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al

comienzo de una lista de la población y luego se selecciona cada un número fijo de

posiciones el resto de elementos.

1.3 Fuentes de error

1.3.1 Errores de muestreo

El error de muestreo es el que surge al considerar una muestra y no examinar toda la

población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso

de la muestra.

Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de

una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la

audiencia televisiva una determinada noche, la intención de voto de una región,....

Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello

es preferible utilizar un subconjunto pequeño de la población, la muestra.

Denotando por θ̂ a un estimador de la característica θ , definimos el error de estimación como

θθ -ˆestimación deerror =

Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el

estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso

ocurre con una determinada probabilidad

ˆ 1 ,0 1P Bθ θ α α − ≤ = − < <

donde

Límite para el Error de Estimación (LEE) con nivel de confianza 1

Cota para el error de estimación con nivel de confianza 1-

Error de estimación máximo con nivel de confianza 1-

B

αα

α

−=

Page 14: Apuntes de Analisis Cuantitativo

14

A continuación veremos que forma tiene B bajo distintas hipótesis sobre el estimador:

1. θ̂ es un estimador insesgado de θ y tiene una distribución Normal ( )( )θσθθ ˆ,ˆ N→ .

Dado que ( )θσθθ ˆ,0ˆ N→− , entonces

ˆ ˆ

ˆ ˆ

1

P B P B B

B BP Z

θ θ

θ θ θ θ

ασ σ

− ≤ = − ≤ − ≤

= − ≤ ≤ = −

donde ɵ

ɵ

(0,1)Z Nθ

θ θσ−= → . Por tanto,

21

ˆα

θσ −= z

B (podemos obtenerlo en una tabla de

probabilidades de la N(0,1)) y el límite del error de estimación es θα σ ˆ

21−

= zB . Como

se puede observar, el límite del error de estimación dependerá del nivel de confianza y

de la desviación típica del estimador (esto último dependerá de la variabilidad de la

muestra y del tipo de muestreo).

Tomando una confianza del 95% el límite del error de estimación será:

θθθ σσσ ˆˆˆ975,0 296,1 ≅== zB . Entonces

ˆˆ 2 0,95P θθ θ σ − ≤ =

Es decir, con una confianza del 95%, el límite del error de estimación es dos veces la

desviación típica del estimador. (En muchos textos se denomina error típico a la

desviación típica del estimador)

2. θ̂ es un estimador insesgado de θ con desviación típica (error típico) θσ ˆ .

Por la desigualdad de Tchebyshev:

( ) ˆ 2

1ˆ ˆ 1 , 1P E k kkθθ θ σ − ≤ ≥ − ≥

Dado que el estimador es insesgado y tomando 2=k ,

ˆ 2

1ˆ 2 1 0,752

P θθ θ σ − < ≥ − =

Luego, con una confianza mayor del 75%, el límite del error de estimación es dos

veces la desviación típica del estimador.

Resumiendo, el límite del error de estimación es dos veces la desviación típica del estimador

con una confianza del 95% si el estimador tiene distribución Normal y con una confianza

Page 15: Apuntes de Analisis Cuantitativo

15

mayor del 75% si no tiene esa distribución. Además, si el tamaño muestral es mayor que 30,

los estimadores que usaremos tendrán una distribución aproximadamente Normal, en virtud

del Teorema central del límite.

La expresión ˆ 1P Bθ θ α − ≤ = −

tiene una segunda lectura. Dado que

ˆ ˆ ˆ ˆ 1P B P B B P B Bθ θ θ θ θ θ θ α − ≤ = − ≤ − ≤ = − ≤ ≤ + = −

el verdadero valor del parámetro se encuentra entre los extremos del intervalo ( )BB +− θθ ˆ,ˆ

con una confianza de α−1 .

1.3.2 Errores de no muestreo

Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se

llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa

encuesta puede ser despreciable en comparación con los errores que no son de muestreo.

Los errores de no muestreo más comunes son:

1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no

está en la población muestreada. Una muestra así obtenida no es representativa de la

población objetivo.

2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren

del valor verdadero. La obtención de respuestas precisas en las encuestas es

fundamental pero esto a veces no se consigue por diversos motivos:

- A veces, las personas no dicen la verdad.

- Las personas no siempre comprenden las preguntas.

- Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera

equivocada.

- La formulación y el orden de las preguntas tiene un gran efecto sobre las respuestas

obtenidas.

3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la

muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección.

Puede ocurrir que las personas que respondan no representen a la población bajo

estudio.

Los errores de no muestreo pueden controlarse con las siguientes acciones:

1. Reentrevistas.

Page 16: Apuntes de Analisis Cuantitativo

16

2. Recompensas e incentivos.

3. Entrevistadores adiestrados.

4. Verificación de datos.

(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott

(2006). Elementos de muestreo. International Thomson Editores.)

1.4 Métodos de recolección de datos

También el método de recolección de datos es fundamental en la reducción de los errores de

no muestreo. Destacamos como métodos más habituales:

(A) Entrevista personal.

(B) Entrevista por teléfono.

(C) Cuestionarios autoaplicados.

(D) Observación directa.

(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott

(2006). Elementos de muestreo. International Thomson Editores.)

1.5 Diseño del cuestionario

Uno de los objetivos en cualquier diseño de encuesta es minimizar los errores de no muestreo

que pueden ocurrir. Algunos consejos interesantes para la construcción del cuestionario son

los siguientes:

- Decidir lo que se quiere descubrir.

- Verificar las preguntas antes de realizar la encuesta.

- Elaborar las preguntas de manera sencilla y clara.

- Prestar atención al orden de las preguntas.

- Decida si desea utilizar preguntas abiertas o cerradas.

- Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar.

- Utilice preguntas de opción forzosa.

(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott

(2006). Elementos de muestreo. International Thomson Editores.)

1.6 Planificación de la encuesta

Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse

en cuenta en la planificación de una encuesta:

1. Establecer objetivos.

2. Población objetivo.

Page 17: Apuntes de Analisis Cuantitativo

17

3. El marco.

4. Diseño del muestreo.

5. Método de recolección de datos.

6. Instrumentos de recolección de datos.

7. Selección y preparación de investigadores de campo.

8. Prueba piloto.

9. Organización del trabajo de campo.

10. Organización de la administración de datos.

11. Análisis de los datos.

(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott

(2006). Elementos de muestreo. International Thomson Editores.)

1.7 Razones para el uso del muestreo

Entre otras muchas razones, destacamos:

(a) Evitar la destrucción de la población. En algunos casos, una unidad de observación

debe ser destruida para ser observada. En ese caso, un censo destruiría a toda la

población. Por ejemplo el muestreo en el control de calidad.

(b) Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se

pueden publicar de una manera programada. Por ejemplo las elecciones.

(c) Economía y precisión. El muestreo puede proporcionar información fiable con costes

mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus

respectivas muestras son, con frecuencia, más precisas que las basadas en un censo,

pues los investigadores pueden tener más cuidado al reunir los datos. Un censo

completo necesita, por lo regular, de una gran organización administrativa e implica a

muchas personas en la recolección de los datos. Con tal complejidad administrativa y

la presión por producir las estimaciones a tiempo, se pueden cometer muchos errores

en la elaboración del censo. En una muestra, se puede dedicar más atención a la

calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no

contestan la encuesta.

Page 18: Apuntes de Analisis Cuantitativo

18

2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas.

2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.

2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.

2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas.

2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral.

2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.

Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el

procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así

seleccionada se le llama muestra aleatoria simple.

En el muestreo aleatorio con reemplazamiento el comportamiento de cada observación da

lugar a variables aleatorias independientes e idénticamente distribuidas.

El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus

distribuciones marginales (no así las condicionadas) son idénticamente distribuidas pero falla

la hipótesis de independencia.

Si el número de elementos de la población es muy grande (poblaciones infinitas) la anterior

distinción es irrelevante.

En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona más

información. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin

reemplazamiento.

En la práctica, la condición de que cada muestra tenga la misma probabilidad de ser

seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la

muestra. Para ello la selección de cada elemento de la muestra se hace sobre la base de un

sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo

aleatorio existen lo que se conoce como tablas de números aleatorios y que, junto con otras

tablas, suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más,

estas tablas de números aleatorios son sustituidas por la generación de números aleatorios

mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números

aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso

contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan

sencillo. Una alternativa a la formación de una lista numerada para la selección mediante

números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según

Page 19: Apuntes de Analisis Cuantitativo

19

este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el

elemento de la muestra. Veamos cómo se aplicaría este método con un sencillo ejemplo:

Se ha seleccionado el número aleatorio 11071032, las dos primeras cifras (11) indican el

distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el

número de la calle, la siguiente (3) la planta del edificio y la última (2) la letra B de dicha

planta.

En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica,

sobretodo si la entrevista es por teléfono, así el número aleatorio 7836 podría interpretarse

como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que

aparece en el lugar 36 de dicha página.

Otros tipos de muestreo que se utilizan con cierta frecuencia son:

� Muestreo causal, usamos nuestro criterio para seleccionar aleatoriamente la muestra.

� Muestreo por cuotas (o representativo), seleccionamos una muestra que consideramos

representativa de la población, respetando el tamaño relativo de los grupos que la

integran. Por ejemplo si en la población hay un 65% de mujeres y un 35% de hombres,

tomamos una muestra que respete esos tamaños.

Estos muestreos están sujetos al sesgo del investigador y conducen a estimadores cuyas

propiedades no pueden ser evaluadas estadísticamente (incurrimos en errores de no muestreo),

la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de números

aleatorios.

EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE

MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA.

2.2 Muestreo aleatorio simple en poblaciones infinitas.

Supongamos que la característica en estudio de la población está representada por la variable

Y (con media µ y varianza σ2), una muestra aleatoria simple de tamaño n estará representada

por n variables: Y1,..., Yn, independientes e idénticamente distribuidas (i.i.d.). (Observaciones

en poblaciones infinitas y también en poblaciones finitas si se hacen con reemplazamiento nos

conducen a variables i.i.d.)

2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.

Como estimador de la media de la población, µ, se utiliza la media muestral, y .

Page 20: Apuntes de Analisis Cuantitativo

20

1

1 n

ii

y yn =

= ∑

Un valor aislado y del estimador revela poco acerca de la media poblacional, deberíamos

evaluar también su bondad.

Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza

( ) ( )2

E y V yn

σµ= =

Como estimador de la varianza de la población, 2σ , se utiliza la cuasivarianza muestral, 2S .

( )22

1

1

1

n

ii

S y yn =

= −− ∑�

que también tiene la propiedad de ser insesgado

( )2 2E S σ=

de forma que la varianza de la media muestral se estima de forma insesgada por

�2

( )S

V yn

=

Cuando las variables Y, Y1, ..., Yn son dicotómicas, sólo toman dos valores (0 y 1), su media µ

representa una proporción y se nota como p y el estimador de la misma, la proporción

muestral, por �p

1

1, 0,1

n

i ii

p y yn =

= =∑

Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas

antes.

La varianza de la población es en este caso 2 pqσ = , donde q=1-p. Como antes, el estimador

insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a

� ɵ2

1

nS pq

n=

Si conocemos más características de las variables aleatorias Y, Y1,..., Yn, conoceremos más

propiedades de la media muestral, aparte de las mencionadas. Así,

si 2 2( , )Y N conocidaµ σ σ→

(0,1)y

N

n

µσ− →

Page 21: Apuntes de Analisis Cuantitativo

21

si 2 2( , )Y N desconocidaµ σ σ→

1 (0,1) ( , )n

yt N en la práctica para n 30

S

n

µ−

− → ≈ >

si Y →cualquier distribución (por el Teorema Central del Límite) cuando n → ∞

(0,1)y y

NS

n n

µ µσ− −≈ → (en la práctica, para n>30)

un caso particular del anterior es cuando (1, )Y B p→ , donde �p y pµ = =

� �

� ɵ

� ɵ(0,1)

1 1

p p p p p pN

pq n pq pqn n n n

− − −≈ = →

− −

(en la práctica, para n>30)

Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y ,

o dicotómicas, �p ) sigue o se puede aproximar, si el tamaño de la muestra es suficientemente

grande, por una distribución normal. De forma que podemos conocer la probabilidad de que

dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores

expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras)

1,96 1,96 0,95y

P

n

µσ

−− ≤ ≤ =

o en un caso más general

2 21

yP Z Z

n

α αµ ασ

−− ≤ ≤ = −

α=nivel de significación 1-α=nivel de confianza

Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor

1,96≈2

De las probabilidades anteriores se puede hacer dos lecturas. La primera:

2 2 0,95 2 0,95P y P yn n n

σ σ σµ µ − ≤ − ≤ = ⇒ − ≤ =

Page 22: Apuntes de Analisis Cuantitativo

22

En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de

estimación:

1-α=0,95= nivel de confianza del 95%.

y µ− = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero

valor del parámetro que se quiere estimar, µ.

2n

σ= cota o límite para el error de estimación, es el máximo error de estimación que se

puede estar cometiendo, con una confianza del 95%. En la práctica se estima por 2S

n.

La segunda lectura:

2 2 0,95P y yn n

σ σµ − ≤ ≤ + =

expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre

entre los extremos del intervalo 2 , 2y yn n

σ σ − +

.

Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande,

n>30. Pero qué ocurre si no es así. En ese caso la desigualdad de Tchebychev nos da la

respuesta.

La desigualdad de Tchebychev dice que si X es una variable aleatoria con media ( )E X µ= y

varianza 2( )V X σ= , entonces

2

11P X k

kµ σ − ≤ ≥ −

Aplicando lo anterior, en particular, a la media muestral para k=2 se obtiene

12 1 0,75

4P y

n

σµ − ≤ ≥ − =

resultado parecido al que obteníamos anteriormente

2 0,95P yn

σµ − ≤ =

salvo que en este caso lo más que podemos asegurar es que la probabilidad de que

2yn

σµ− ≤ es mayor de 0,75.

Page 23: Apuntes de Analisis Cuantitativo

23

2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.

Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una

determinada muestra el estimador asociado, hacemos una estimación puntual.

Si dicha estimación puntual se acompaña de un margen de error (límite para el error de

estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de

confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el

intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es

2 , 2S S

y yn n

− +

En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de

que el verdadero valor de un parámetro de la población sea un determinado valor, por

ejemplo, se quiere contrastar la hipótesis nula 0 0:H µ µ= con un nivel de significación del

5%. Lo anterior equivale a comprobar si

0 2 , 2S S

y yn n

µ ∈ − +

en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario.

2.2.3 Determinación del tamaño muestral.

En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a

aceptar en una estimación, 2 Bn

σ = . La cantidad de información necesaria para conseguir lo

anterior depende del tamaño de la muestra según la siguiente expresión

2 2 2 22

24 ,4

4

BB n D

Bn D

σ σ σ= ⇒ = = =

El caso de la proporción es análogo al de la media, teniendo en cuenta que 2 pqσ =

2

,4

pq Bn D

D= =

Ejemplo 2.1. (ejercicio 13, relación tema 2) Un hipermercado desea estimar la proporción de

compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron

al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta.

a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.

Page 24: Apuntes de Analisis Cuantitativo

24

b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la

proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una

muestra previa)

c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas

compras deberíamos observar para asegurar que la anterior estimación se realiza con un

error inferior al 3%.

d) Este mismo hipermercado desea estimar también el valor medio de las compras

realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos se observa que

el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza

de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error

de estimación asociado.

Solución:

a)

� ɵ � �� ɵ

1

1 350,175 200 1 0,175 0,825 ( ) 0,000726

200 1

n

ii

pqp y n q V p

n n=

= = = = = − = = =−∑

� � ( )2 ( ) 0,0539 12,11% , 22,89%B V p p= = ∈

b)

2

0,03 0,000225 641,6 6424

B pqB D n

D= = = = = ≈

c)

2

0,03 0,000225 0,5 1111,1 11124

B pqB D p q n

D= = = = = = = ≈

d)

1

1 560035 160€

35

n

ii

n y yn =

= = = =∑

� �2

2 625625 ( ) 17,8571 2 ( ) 8,45€

35

SS V y B V y

n= = = = = = �

2.3 Muestreo aleatorio simple en poblaciones finitas.

Suponemos que la población es finita, tiene N elementos, y además que la muestra se

selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo

aleatorio simple en poblaciones infinitas con variables i.i.d.)

Page 25: Apuntes de Analisis Cuantitativo

25

2.3.1 Estimación de la media, proporción y total poblacionales.

(A) Estimación de la media poblacional.

Para estimar la media poblacional, µ, se utiliza la media muestral

1

1 n

ii

y yn

µ=

= = ∑

Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra

( ) ( )2

1

N nE y V y

n N

σµ − = = −

En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la

varianza de la población

( )2 2 2 21

1

N NE S E S

N Nσ σ− = = −

De lo anterior se sigue que la varianza de la media muestral puede ser estimada

insesgadamente por

� ( )2

21 1

1

N N n S N nV y S

N n N n N

− − − = = −

expresión igual a la del caso de poblaciones infinitas, �2

( )S

V yn

=

, salvo el coeficiente

N n

N

que se denomina coeficiente corrector para poblaciones finitas (c.p.f.).

En la práctica el coeficiente c.p.f. suele despreciarse si 0,95N n

N

− ≥

o lo que es equivalente

si 1

5%20

n N N≤ = . En muchos casos N no está claramente definido o se desconoce, pero si

N se supone suficientemente grande el c.p.f. se omite, 1N n

N

− ≅

.

Para calcular el límite para el error de estimación , con un 95% de confianza, se halla

�2 ( )V y . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del

95% cuando trabajamos con el coeficiente 1,96≈2. Pero en algunos casos, según la

desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor de un 75%.

Page 26: Apuntes de Analisis Cuantitativo

26

(B) Estimación del total poblacional.

Para estimar el total poblacional, τ, dado que NN

τµ τ µ= ⇒ = utilizaremos el estimador

1

n

ii

NN y y

== = ∑ɵ �.

Para hallar su varianza, recordemos las propiedades de la varianza

2( ) ( )V kX k V X=

( ) ( ) ( ) ( )V X Y V X V Y X e Y incorreladas+ = +

Varianza estimada de τɵ

� � �2 2

2 2( ) ( ) ( ) ( )S N n S

V V N y N V y N N N nn N n

τ −= = = = −ɵ

Como en el caso de la media, el límite para el error de estimación con una confianza del 95%

está dado por �2 ( )V τɵ . Valiendo comentarios análogos a los hechos anteriormente.

En lo sucesivo se dará el valor de la varianza del estimador para los distintos tipos de

muestreo, omitiéndose, para no repetirnos más, la referencia al límite para el error de

estimación.

Ejemplo 2.2. (ejercicio 1, relación tema 2) Un auditor examina las cuentas abiertas con

diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se

examinan 300. La media muestral de las cuentas fue 1.040€y = y la varianza muestral

(“cuasivarianza”) es S2=45.000€2. Estime el promedio de la deuda y el total de la deuda por

cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%.

Solución:

�2

1 45000 1000 300( ) 105

300 1000nS N n

V yn N

− − −= = = �2 ( ) 2 105 20,49€V y = =

( ) ( )1.040 20,49 1.019,51 , 1.060,49=∓

1000 1040 1.040.000€N yτ = = × =ɵ

� �2 ( ) 2 ( ) 1000 20,49 20.490€ ( 20.493,9)V N V y valor exactoτ = = × =ɵ

( ) ( )1.040.000 20.490 1.019.510 ,1.060.490=∓ �

(C) Estimación de la proporción poblacional.

Para estimar la proporción poblacionalp , dado que se trata de una media usaremos la media

muestral que tiene la siguiente notación en este caso

Page 27: Apuntes de Analisis Cuantitativo

27

1

1, 0,1

n

i ii

p y yn =

= =∑

su varianza estimada, teniendo en cuenta que � ɵ

2

1

n pqS

n=

−, es igual a

� �� ɵ2

( )1

S N n pq N nV p

n N n N

− −= =−

Para estimar el total poblacional de una variable dicotómica usamos

�N pτ =ɵ � � � � �� ɵ

2( ) ( ) ( ) ( )1

pqV V N p N V p N N n

nτ = = = −

−ɵ � � �2 ( ) 2 ( )V N V pτ =ɵ

Ejemplo 2.3. (ejercicio 2, relación tema 2) Se toma una muestra aleatoria simple de 100

estudiantes de un centro con 900 estudiantes para estimar

• La proporción que votarán a un determinado representante de centro.

• La proporción de ellos que tienen algún tipo de trabajo.

Sean , ( 1,...,100)i iy z i = las respuestas del i-ésimo estudiante seleccionado ( 0iy = cuando

responden NO, 1iy = cuando responden SI, análogamente para iz ).

Según la muestra 100 100

1 1

70 25i ii i

y z= =

= =∑ ∑� �

Usando los datos de la muestra, estime 1p (proporción de estudiantes que votarán a un

determinado representante) 2p (proporción y número de estudiantes con algún tipo de trabajo)

y los límites para los errores de estimación correspondientes.

Solución:

� �

100 100

1 11 20,70 (70%) 0,25 (25%)

100 100

i ii i

y zp p= == = = =

∑ ∑� �

� �� ɵ

� �� ɵ

1 1 2 21 2( ) 0,0018855 ( ) 0,0016835

1 1

p q p qN n N nV p V p

n N n N

− −= = = =− −

� � � �1 22 ( ) 0,0868 (8,68%) 2 ( ) 0,0821 (8,21%)V p V p= =

� �2 22 900 0,25 225 2 ( ) 900 0,0821 73,89N p Vτ τ= = × = = × =ɵ ɵ ����

2.3.2 Determinación del tamaño muestral.

El número de observaciones necesarias para estimar µ con un límite para el error de

estimación de magnitud B se obtiene resolviendo 2 ( )V y B=

Page 28: Apuntes de Analisis Cuantitativo

28

( )2

2 ( )4

BV y B V y D= ⇔ = =

2 2

2( )

1 ( 1)

N n NV y D n

n N N D

σ σσ

−= = ⇒ =− − +

Para estimar el total poblacional con un límite para el error de estimación B, dado que

� �2 ( ) 2 ( )V N V y Bτ = =ɵ , se llega a la misma expresión de n pero con 2

24

BD

N=

En la práctica la varianza poblacional 2σ es desconocida. Si disponemos de 2S de un estudio

anterior podemos obtener el valor de n sustituyendo en la anterior expresión 2σ por 2S ,

2 21aunque la estimación insesgada de es

NS

Nσ −

.

Si no se dispone de información previa para estimar la varianza podemos usar que en variables

normales el rango de la muestra es aproximadamente cuatro veces su desviación típica

22

4 16

R Rσ σ≅ ⇔ ≅

La proporción poblacional p es la media µ de una variable dicotómica ((1, )B p , ( )E X p= ,

( )V X pq= ), luego el problema de determinar el tamaño muestral se hace de forma análoga

sustituyendo 2σ por pq, obteniéndose

( 1)

Npqn

N D pq=

− +

2

( )4

BD proporcion=

2

2( )

4

BD total

N=

En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el

valor estimado �p obtenido en encuestas preliminares. Si no se cuenta con información

anterior, suponiendo 1

2p = se obtiene un tamaño muestral conservador (mayor que el

requerido para obtener la cota del error de estimación prefijada).

Ejemplo 2.4. (ejercicio 3, relación tema 2) Encuentre el tamaño de muestra necesario para

estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de

10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero

se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400).

Page 29: Apuntes de Analisis Cuantitativo

29

Solución:

2 22

2 2

10.00025 4 800 200 40.000

4 4 1.000

BD

Nσ σ σ= = = ≅ ⇒ ≅ ⇒ ≅

×

2

2615,62 616

( 1)

Nn

N D

σσ

= = ≈− +

����

Si se realizan dos preguntas (o más) a cada elemento de la muestra, se calcularán los tamaños

muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y

finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites.

Ejemplo 2.5. (ejercicio 4, relación tema 2) Los alumnos de TAM de una facultad con 3.000

estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que

están a favor de hacer los exámenes en sábado con un límite para el error de estimación del

10%. La información previa disponible indica que el 60% preferían los exámenes en sábado.

También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un

error de estimación del 5%. Determínese el tamaño muestral que se requiere para estimar

ambas proporciones con los límites de error especificados.

Solución:

1p = proporción de estudiantes que prefieren los exámenes en sábado.

2 21

1

(0,10)0,0025

4 4

BD = = =

1 11

1 1 1

3.000 0,60 0,4093,05 94

( 1) (2.999 0,0025) (0,60 0,40)

Np qn

N D p q

× ×= = = ≈− + × + ×

2p = proporción de estudiantes que apoyan al equipo decanal.

2 22

2

(0,05)0,000625

4 4

BD = = =

2 22

2 2 2

3.000 0,50 0,50353,04 354

( 1) (2.999 0,000625) (0,50 0,50)

Np qn

N D p q

× ×= = = ≈− + × + ×

para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de

la estimación de 1p disminuiría (con un 95% de confianza) hasta:

� �� ɵ

1 11

0,60 0,40 3.000 3542 ( ) 2 2 0,0489 ( 4,9%)

1 353 3.000

p q N nV p

n N

− × −= = = ≅−

o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho

mayor

Page 30: Apuntes de Analisis Cuantitativo

30

� �1

2 2 2( ) 0,10 0,02445 0,10 4,09Z V p Z Zα α α= ⇒ = ⇒ =

buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad

comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prácticamente del 100%. ����

EJERCICIOS RESUELTOS

1. (Ejercicio 19, relación tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un

centro comercial para estimar el valor medio de las compras por cliente.

VALOR en € 33,5 32 52 43 40 41 45 42,5 39

a) Obtener un intervalo de confianza para el valor medio de las compras.

b) ¿Podemos aceptar que la compra media es de 45€?

c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€?

SOLUCIÓN:

a) �33,5 ... 39

40,89 €9

yµ + += = =

( ) ( )( )2 22 133,5 40,89 ... 39 40,89 35,67

9 1S = − + + − =

� ( ) � ( )2

3,963 2 3,98 €S

V y B V yn

= = = =

( ) ( )40,89 3,98 ; 40,89 3,98 36,91; 44,87− + =

b) No, porque ( )45 36,91; 44,87∉

c) 2 2

2 2

35,6735,67 36

14 4

Sn compras

B B

σ= ≅ = = ≈

2. (Ejercicio 17, relación tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente

entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los

nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la

proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite

para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en

contra?

Page 31: Apuntes de Analisis Cuantitativo

31

SOLUCIÓN:

� �6550,655 65,5%

1.000p p= = ⇒ =

� �� ɵ 0,655 (1 0,655)

( ) 0,00022620121 999

pqV p

n

× −= = =−

� �2 ( ) 0,0301 3,01%V p = ⇒

(65,5% 3,01% , 65,5% 3,01%) (62,49% , 68,51%)− + =

(62,49% , 68,51%) 50%p p sí se puede afirmar que la mayoría de los

habitantes están en contra

∈ ⇒ > ⇒

3. (Ejercicio 18, relación tema 2) El Centro de Estadística desea estimar el salario medio de

los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos,

los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los

contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los

contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser

el tamaño muestral total y su asignación para que se estime el salario medio de los

contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales

con un error inferior a 120€?`

SOLUCIÓN:

iR 4

ii

R σ≈ 2iσ

2.200-1.200=1000 1.700-500=1.200

250 300

62.500 90.000

2 21 1

1 2 211

62.500 62.50025

10.00010044 4

nBD

σ σ= = = = =

2 22 2

2 2 222

90.000 90.00025

14.40012044 4

nBD

σ σ= = = = =

1 2 50n n n= + =

4. (Ejercicio 14, relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se

tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el

préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000

Page 32: Apuntes de Analisis Cuantitativo

32

euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos

parámetros:

- la cuantía media de los prestamos cometiendo un error de estimación menor de 400

euros y

- la proporción de préstamos pendientes de amortizar más de la mitad de la deuda

cometiendo un error máximo del 5%?

SOLUCIÓN: 2.000N =

211.000 1.200 9.800 2450 6.002.5004

RR σ σ= − = ⇒ ≅ = ≅

2 240040.000

4 4

BD = = =

2

2139,65 140

( 1)

Nn

N D

σσ

= = ≈− +

2 20.050,000625

4 4

BD = = =

0,5 333,47 334( 1)

Npqp q n

N D pq= = = = ≈

− +

Para conseguir estimar los dos parámetros con los niveles de error especificados

necesitamos un tamaño muestral igual al máximo de 140 y 334. 334n = .

5. (Ejercicio 15, relación tema 2) Se desea estimar el salario medio de los empleados de una

empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene

110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros

mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota

de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual

directiva el error máximo cometido sea del 2%?

SOLUCIÓN: 2110 1.800 1.500 300 75 5625

4

RN R σ σ= = − = ⇒ ≅ = ≅

2 21025

4 4

BD = = =

2

274,1 75

( 1)

Nn

N D

σσ

= = ≈− +

2 20.02

0,00014 4

BD = = =

Page 33: Apuntes de Analisis Cuantitativo

33

0,5 105,4 106( 1)

Npqp q n

N D pq= = = = ≈

− +

6. (Ejercicio 16, relación tema 2) Una empresa de trabajo temporal quiere investigar las

necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una

muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último

año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los

servicios de la empresa de trabajo temporal fueron los siguientes:

Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No

a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el

límite para el error de estimación.

b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite

para el error de estimación.

SOLUCIÓN: a) 25 5N n= =

2

142,8 70

5

12,7( ) ( ) 25 20 1270

5

2 ( ) 71,2741

y N y

SV N N n

n

B V

τ

τ

τ

= = ⇒ = =

= − = × =

= =

ɵ

ɵ

ɵ

Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por

conglomerados. Véase ejercicio 10 de la relación del capítulo 6)

b)

� �

�� ɵ

20,4 10

5

0,24( ) ( ) 25 20 30

1 4

2 ( ) 10,9545

p N p

pqV N N n

n

B V

τ

τ

τ

= = ⇒ = =

= − = × =−

= =

ɵ

ɵ

ɵ

7. (Ejercicio 21, relación tema 2) El consumo medio de combustible de los taxis de una

ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado

elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se

Page 34: Apuntes de Analisis Cuantitativo

34

toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo.

El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla

Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.4 6 6.3 11 3.6 16 5.4 2 5.5 7 5.4 12 6.7 17 4.8 3 6.9 8 5 13 5.2 18 4.7 4 3.9 9 4.5 14 5.1 19 5.8 5 4.5 10 4.4 15 5.4 20 6.2

a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo

inferior a 5.6 litros/100 Km.

b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error

menor o igual que un 10%?

SOLUCIÓN:

a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km, por tanto

� 150'75

20p = = � �

� ɵ 0'75 0 '25 580( ) 0 '00954

1 19 600

pq N nV p

n N

− ×= = =−

� �2 ( ) 0 '1953V p =

( ) ( )0'75 0 '1953 , 0 '75 0 '1953 0'5547 , 0 '9453− + = ( )55'47% , 94'53%

b) ( )20'10

0 '10 0 '00254

B D= = =

( ) ( )600 0'75 0 '25

66'77 67( 1) 599 0'0025 0'75 0 '25

Npqn

N D pq

× ×= = = ≈− + × + ×

8. (ejercicio 1, práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una

farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas

abiertas. Los valores de la muestra para estas seis cuentas son los siguientes:

Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50

Estime el total del dinero adeudado y establezca un límite para el error de estimación.

Page 35: Apuntes de Analisis Cuantitativo

35

SOLUCIÓN:

iy 2iy

35,50 32,00 43,00 41,00 44,00 42,50

1260,25 1024,00 1849,00 1681,00 1936,00 1806,25

1

238,00n

ii

y=

=∑� 2

1

9556,50n

ii

y=

=∑�

1

100238=3966,6

6

n

ii

NN y y

== = =∑

⌢ɵ �

( )

2

2 122

2 1

1

1 1 2389556,50 23,1667

1 1 5 6

n

ini

ini

ii

y

yn

S y yn n

=

=

=

= − = = − = − −

∑∑

�2 23,1667

2 ( ) 2 ( ) 2 100(100 6) 381,026

SV N N n

nτ = − = − =ɵ

Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica

se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas

calculadoras nos proporcionan los valores de un grupo de funciones estadísticas

21n nx xx x x s Sσ σ −= =∑ ∑ de forma inmediata.

1n nx xs desviación típica S cuasidesviación típicaσ σ −= = = =

9. (Ejercicio 16, relación tema 2) En un estudio sociológico, realizado en una pequeña

ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde

habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares,

según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue

seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares

muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis

de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65

años.

Page 36: Apuntes de Analisis Cuantitativo

36

SOLUCIÓN: N=5000, n=300

� ɵ � � �� ɵ

� �510,17 1 0,83 ( ) 0,00044359197 2 ( ) 0,0421

300 1

pq N np q p V p V p

n N

−= = = − = = = =−

( ) ( )25% 17% 4,21% 12,79%, 21,21%∉ =∓

luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al

menos una persona mayor de 65 años.

10. (Ejercicio 8, relación tema 2) El gerente de un taller de maquinaria desea estimar el

tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45

operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los

resultados obtenidos son los siguientes:

Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del

taller para terminar dicha tarea es inferior a 6 minutos?

SOLUCIÓN: ( )con las funciones del modo SD de la calculadora

N=45, n=5 ( )22

1 1

1 15,26 2,563

1

n n

i ii i

y y S y yn n= =

= = = − =−∑ ∑�

� � ( )2

( ) 0,4556 2 ( ) 1,35 . .: 3,91 min., 6,61 min.S N n

V y V y INTERV CONFn N

−= = =

Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no

podemos aceptar esa hipótesis.

11. (Ejercicio 11, relación tema 2) Con objetivos benéficos, una asociación filantrópica ha

solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para

40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el

número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los

siguientes resultados:

50 502

1 1

1.450; 54.496i ii i

Y Y= =

= =∑ ∑

¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas

recogidas para la petición?

SOLUCIÓN: N=700, n=50

2

2 1

2 1

1

1 145029 254

50 1

n

ini

ini

ii

y

yn

y y Sn n

=

=

=

= = = = =−

∑∑

Page 37: Apuntes de Analisis Cuantitativo

37

� �2

20.300 ( ) ( ) 2.311.400 2 ( ) 3.040,66S

N y V N N n B Vn

τ τ τ= = = − = = =ɵ ɵ ɵ

( ) ( )20.300 3.040,66 17.259,34 , 23.340,66=∓

Previsión más optimista: 23.340; previsión más pesimista: 17.259

Page 38: Apuntes de Analisis Cuantitativo

38

3. Muestreo aleatorio estratificado. 3.1 Selección de una muestra aleatoria estratificada. 3.2 Estimación de la media, proporción y total poblacionales. 3.3 Determinación del tamaño muestral. 3.4 Asignación de la muestra.

3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional.

3.5 Estratificación después de seleccionar la muestra. 3.1 Selección de una muestra aleatoria estratificada.

Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la

población en conjuntos que no presenten intersección, llamados estratos, y la selección

posterior de una muestra aleatoria simple en cada estrato.

Los estratos deben formarse de manera que los elementos de cada estrato sean lo más

homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las

diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los

estratos conduce a muestras con poca variabilidad entre las mediciones que producirán

pequeñas varianzas de los estimadores y por tanto menores límites para los errores de

estimación que con otros diseños de la muestra.

Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes:

� A veces los estratos se corresponden con zonas compactas bien definidas con lo que se

reduce el coste (en tiempo y/o dinero) de la muestra.

� Además de las estimaciones para toda la población, este muestreo permite hacer

estimaciones de los parámetros poblacionales para los estratos.

Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población, a

la derecha para la muestra):

L = número de estratos

N = tamaño de la población n = tamaño de la muestra

iN = tamaño del estrato in = tamaño de la muestra del estrato i

1

L

ii

N N=

=∑� 1

L

ii

n n=

=∑�

iµ = media poblacional del estrato i iy = media muestral del estrato i

iτ = total poblacional del estrato i

Page 39: Apuntes de Analisis Cuantitativo

39

2iσ = varianza poblacional del estrato i 2

iS = varianza muestral del estrato i

ip = proporción poblacional del estrato i �ip = proporción muestral del estrato i

ic = coste de una observación del estrato i

3.2 Estimación de la media, proporción y total poblacionales.

En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato

i iN y es un estimador insesgado del total iτ , parece razonable estimar 1

L

ii

τ τ=

=∑� por

1

L

st i ii

N yτ=

=∑ɵ � y la media poblacional N

τµ = mediante 1

1 L

ist ii

y N yN =

= ∑�

NOTA: sty y≠ en general (y = media muestral de las n observaciones)

stτ τ≠ɵ ɵ en general ( N yτ =ɵ = estimador del total según un M.A.S.)

Varianza estimada de sty

� �2

2 22 2

1 1

1 1( ) ( )

L Li i i

i ist ii i i i

S N nV y N V y N

N N n N= =

−= =∑ ∑� �

(se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2)

Varianza estimada de stτɵ

� �2

2 2

1

( ) ( )L

i i ist ist

i i i

S N nV N V y N

n Nτ

=

−= =∑ɵ �

En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así

como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación

vistas en el capítulo anterior.

Estimador de la proporción poblacional p

� �

1

1 L

ist ii

p N pN =

= ∑

Varianza estimada de � stp

� � � �� ɵ

2 22 2

1 1

1 1( ) ( )

1

L Li i i i

i ist ii i i i

p q N nV p N V p N

N N n N= =

−= =−∑ ∑� �

Estimador del total poblacional τ

� �

1

L

st ist ii

N p N pτ=

= =∑ɵ

Page 40: Apuntes de Analisis Cuantitativo

40

Varianza estimada de stτɵ

� � �� ɵ

2 2

1

( ) ( )1

Li i i i

st isti i i

p q N nV N V p N

n Nτ

=

−= =−∑ɵ �

Ejemplo 3.1. (Ejercicio 1, práctica 3) Se está interesado en determinar la audiencia de la

publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por

muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas

del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que

afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el

barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30

hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B,

y 9 del barrio C.

Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados,

con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la

siguiente tabla:

BARRIO A BARRIO B BARRIO C 36 39 38 28 29

34 38 37 41 37

26 32 29 35 41

20 30 14 41 39

25

14 15 21 20 24

22 17 11 14

Estime el tiempo medio que se ve la televisión, en horas por semana, para:

a) Los hogares del barrio A.

b) Los hogares del barrio B.

c) Los hogares del barrio C.

d) Todos los hogares

Para todos los casos fije un límite para el error de estimación.

Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato

2 2 21 2 31 2 3

2

34,67 / 28,17 / 17,56 / 23,24 112,57 19,28

28,23 92,74

y horas semana y h s y h s S S S

y S

= = = = = =

= =

A partir de estos valores calculamos las varianzas de los estimadores de la media en cada

estrato y los límites para los errores de dichas estimaciones

1 2 3 1 2 3210 84 126 420N N N N N N N= = = = + + =

1 2 3 1 2 315 6 9 30n n n n n n n= = = = + + =

Page 41: Apuntes de Analisis Cuantitativo

41

� � �22 23 3 31 1 1 2 2 2

1 2 31 1 2 2 3 3

( ) 1,44 ( ) 17,42 ( ) 1,99S N nS N n S N n

V y V y V yn N n N n N

−− −= = = = = =

� � �1 2 32 ( ) 2,40 / 2 ( ) 8,35 / 2 ( ) 2,82 /V y h s V y h s V y h s= = =

Para el conjunto de todos los hogares el estimador de la media es

3

1

128,23 /ist i

i

y N y h sN =

= =∑

y la varianza de este estimador la podemos calcular basándonos en las varianzas de los

estimadores de la media en cada estrato mediante

� �3

22

1

1( ) ( ) 1,24ist i

i

V y N V yN =

= =∑�

o, si se prefiere, utilizando

�23

22

1

1( ) i i i

isti i i

S N nV y N

N n N=

−= ∑�

el error para la estimación de la media para todos los hogares está dado por

�2 ( ) 2,22 /stV y h s= �

Ejemplo 3.2. (Ejercicio 2, práctica 3) En el caso anterior, también se desea saber qué

proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar

un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho

programa por los hogares de la muestra anterior se recoge a continuación:

BARRIO A BARRIO B BARRIO C SI SI NO NO SI

NO SI

NO SI

NO

SI SI NO NO NO

SI NO SI SI SI

SI

NO SI SI NO SI

SI SI SI

NO

Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el

programa.

Solución: en primer lugar se calculan las proporciones muestrales en cada estrato

� � �1 2 3

7 5 60,4667 0,8333 0,6667

15 6 9p p p= = = = = =

La estimación puntual de la proporción de hogares del municipio donde se ve el programa es

� �3

1

10,60ist i

i

p N pN =

= =∑

la varianza y error de estimación asociados son

� �� ɵ

� �3

22

1

1( ) 0,00748 2 ( ) 0,173

1i i i i

ist sti i i

p q N nV p N V p

N n N=

−= = =−∑�

y el intervalo de confianza expresado en porcentajes es

Page 42: Apuntes de Analisis Cuantitativo

42

( ) ( )60% 17,3% 42,7%, 77,3%=∓ �

3.3 Determinación del tamaño muestral.

El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene

dado por 2 ( )stV y B= donde 2

22

1

1( )

1

Li i i

isti i i

N nV y N

N n N

σ=

−=−∑� .

No podemos despejar el valor de todos los in de una sola ecuación a menos que conozcamos

la relación entre los in y n . Hay diversas formas de asignar el tamaño muestral n en los

diferentes estratos i in nω= (problema de la asignación de la muestra que estudiaremos más

adelante) , sustituyendo lo anterior en ( )stV y se puede despejar n en función de los iω

obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para

el error de estimación B (aproximado porque se hacen algunas modificaciones como

1i iN N− ≅ , ... para resolver la anterior ecuación).

2 2

1

2 2

1

Li i

i iL

i ii

N

nN D N

σω

σ

=

=

=+

2

4

BD = y la misma expresión vale para el total tomando

2

24

BD

N= .

Al igual que en el M.A.S. para poder usar la anterior ecuación necesitamos conocer las

varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden

usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las

observaciones dentro de cada estrato.

En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que

en este caso particular 2i i ip qσ =

2

1

2

1

Li i i

i iL

i i ii

N p q

nN D N p q

ω=

=

=+

2

4

BD = (para estimar p) y la misma expresión vale para el total tomando

2

24

BD

N= .

Page 43: Apuntes de Analisis Cuantitativo

43

3.4 Asignación de la muestra.

Hay diversas formas de asignar el tamaño muestral n en los distintos estratos.

El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza

pequeña (por tanto, pequeño error de estimación) al menor coste posible.

El mejor esquema de asignación está influido por:

• El número total de elementos en cada estrato.

• La variabilidad de las observaciones en cada estrato.

• El coste de obtener una observación en cada estrato.

3.4.1 Asignación óptima.

La asignación que minimiza el coste para un límite para el error de estimación fijado se

denomina asignación óptima y está dada por

1

j j

j

j Li i

i i

N

c

N

c

σ

ωσ

=

=∑

sustituyendo los jω en la expresión que obteníamos antes para n se tiene el tamaño total de la

muestra según la asignación óptima

1 1

2 2

1

L Li i

i i ii i i

L

i ii

NN c

cn

N D N

σσ

σ

= =

=

=+

∑ ∑

� �

En el caso dicotómico las anteriores expresiones toman los valores

1

j jj

j

j Li i

ii i

p qN

c

p qN

c

ω

=

=

1 1

2

1

L Li i

i i i i ii i i

L

i i ii

p qN p q c N

cn

N D N p q

= =

=

=+

∑ ∑

� �

En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación

para un coste fijo de obtención de la muestra, en este caso la asignación óptima también es la

respuesta y la elección de n viene dada por

Page 44: Apuntes de Analisis Cuantitativo

44

1

1

Li i

i iL

i i ii

NC

cn

N c

σ

σ

=

=

=∑

donde C representa el coste total de obtención de la muestra (véase ejemplo 3.3).

Análogamente para el caso dicotómico sustituyendo i i ip qσ = .

3.4.2 Asignación de Neyman.

Cuando los costes de observación de cada estrato son los mismos, las expresiones de la

asignación óptima se simplifican y transforman en:

Caso numérico

1

j jj L

i ii

N

N

σω

σ=

=∑

2

1

2 2

1

( )L

i ii

L

i ii

Nn

N D N

σ

σ=

=

=+

Caso dicotómico

1

j j j

j L

i i ii

N p q

N p qω

=

=∑

2

1

2

1

( )L

i i ii

L

i i ii

N p qn

N D N p q

=

=

=+

A este tipo de asignación se le denomina de Neyman, que como acabamos de decir coincide

con la asignación óptima cuando los costes de observación son iguales en todos los estratos.

Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún

cuando los costes de observación no son idénticos, a veces, sencillamente porque no se

conocen.

3.4.3 Asignación proporcional.

Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las

expresiones de la asignación óptima se simplifican y reducen a

Page 45: Apuntes de Analisis Cuantitativo

45

Caso numérico

jj

N

Nω =

2

1

2

1

1

L

i ii

L

i ii

Nn

ND NN

σ

σ=

=

=+

Caso dicotómico

jj

N

Nω =

1

1

1

L

i i ii

L

i i ii

N p qn

ND N p qN

=

=

=+

La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de

observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las

ventajas que presenta frente a los anteriores tipos de asignaciones:

Cuando se utiliza la asignación proporcional el estimador sty coincide con la media muestral

de toda la muestra, sty y= (análogamente para � stp y el total).

Cuando se toma más de una medición en cada unidad muestral para estimar más de un

parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño

muestral. En la práctica se usa la asignación proporcional cuando se observan varias variables

porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos

distintas asignaciones para cada variable que se mide. Con la asignación proporcional y

tomando como n el máximo de los valores encontrados para cada estimación, estaremos

utilizando estimadores, en muchos casos, con un límite para el error mucho más pequeño que

el establecido.

Aclarémoslo con un ejemplo. En la asignación óptima y en la de Neyman los iω dependen de

las varianzas y pueden ser distintos de una variable a otra

1ª estimación: 1 1 2 2100 0,10 10 0,90 90n n nω ω= = ⇒ = = ⇒ =

2ª estimación: 1 1 2 240 0,50 20 0,50 20n n nω ω= = ⇒ = = ⇒ =

Page 46: Apuntes de Analisis Cuantitativo

46

Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos

del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación

fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato.

En la asignación proporcional no ocurre lo anterior pues los jj

N

Nω = son iguales para todas

las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de

error requeridos tenemos lo siguiente

1ª estimación: 1 1 2 2100 0,30 30 0,70 70n n nω ω= = ⇒ = = ⇒ =

2ª estimación: 1 1 2 240 0,30 12 0,70 28n n nω ω= = ⇒ = = ⇒ =

tomando como n el máximo de los dos (o de los k si hay k variables que se observan), se

tiene garantizado que se cumple con los límites para el error fijados para todas las

estimaciones.

Ejemplo 3.3 (Ejercicio 1, práctica 3) Continuando con el ejemplo 3.1

a) ¿Qué tipo de asignación se ha utilizado?

Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un

barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€

para el barrio B y 4€ para el barrio C.

b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la

semana que se ve la televisión en los hogares del municipio con un error inferior a 1

hora. (Tómese los anteriores datos como una muestra previa para estimar los

parámetros necesarios).

c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la

muestra y la asignación que minimizan el error de estimación. (Como en el apartado

anterior, tómese los datos de la tabla como una muestra previa para estimar las

varianzas de los estratos).

Solución:

a) Podemos comprobar que se cumple que i in Ni

n N= ∀

15 210 6 84 9 1260,5 0,2 0,3

30 420 30 420 30 420= = = = = =

luego la asignación utilizada ha sido la proporcional.

b) Según los datos anteriores estimaremos las varianzas de cada estrato por

� � �2 2 2

2 2 21 2 31 2 323,24 112,56 19,28S S Sσ σ σ= = = = = =

Page 47: Apuntes de Analisis Cuantitativo

47

iN

ic

i i iN cσ i i

i

N

c

σ

2

i iNσ

210 84 126

4,8208 10,6094 4,3909

1 3 2

1012,368 2673,5688 1106,5068

1012,368 297,0632 276,6267

4880,4 9455,04 2429,28

420 4792,4436 1586,0579 16764,72

2 10,25

4 4

BD = = =

( )

3 3

1 1

3 22 2

1

4792,4436 1586,0579124,89

420 0,25 16764,72

i ii i i

i i i

i ii

NN c

cn

N D N

σσ

σ

= =

=

×= = =× ++

∑ ∑

� �

1 1

11 2 33

1

0,6383 0,1873 0,1744i i

i i

N

c

N

c

σ

ω ω ωσ

=

= = = =∑

1 1 2 2 3 379,71 80 23,39 24 21,78 22n n n n n nω ω ω= = ≈ = = ≈ = = ≈

80 24 22 126n = + + =

c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio

3

1

3

1

600600 1586,0679

198,574792,4436

i i

i i

i i ii

N

cn

N c

σ

σ

=

=

×= = =∑

y los tamaños de la muestra en cada estrato están dados por la asignación óptima

1 2 30,6383 126,75 126 0,1873 37,19 37 0,1744 34,63 34n n n n n n= = ≈ = = ≈ = = ≈126 37 34 197n = + + =

o bien resolviendo la ecuación

1 1 2 2 3 3 600c n c n c n+ + =

donde i in nω=

1 1 2 2 3 3 600c n c n c nω ω ω+ + =

1 1 2 2 3 3

600 600198,57

3,0216n

c c cω ω ω= = =

+ +

A partir de n se obtienen los i in nω= según la asignación óptima. �

Page 48: Apuntes de Analisis Cuantitativo

48

Ejemplo 3.4 (Ejercicio 2, práctica 3) Continuando con el ejemplo 3.2

a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un

error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de

las observaciones es el mismo para todos los casos al no ser necesarios los traslados.

Tómese los anteriores datos como una muestra previa para estimar los parámetros

necesarios)

b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna

información previa sobre la proporción de hogares donde se ve el programa.

Solución: a)

iN ip iq i i iN p q i i iN p q

210 84 126

0,4667 0,8333 0,6667

0,5333 0,1667 0,3333

52,2671 11,6685 27,9986

104,7669 31,3075 59,3955

420 91,9342 195,4699 2 20,05

0,0006254 4

BD = = =

( )

23

21

3 22

1

195,4699188,98

420 0,000625 91,9342

( )i i ii

i i ii

N p qn

N D N p q

=

=

= = =× ++

1 1 11 1 3

1

104,7669188,98 101,29 102

195,4699i i i

i

N p qn n n

N p qω

=

= = = = ≈∑

análogamente 2 330,27 31 57,42 58 102 31 58 191n n n= ≈ = ≈ ⇒ = + + =

b)

iN ip iq i i iN p q

210 84 126

0,5 0,5 0,5

0,5 0,5 0,5

52,5 21

31,5 420 105

( )1

1

105204,878

1051 420 0,000625420

L

i i ii

L

i i ii

N p qn

ND N p qN

=

=

= = =× ++

1

210204,878 102,439 103

420n = = ≈ análogamente 2 340,98 41 61,46 62n n= ≈ = ≈

103 41 62 206n = + + = �

Page 49: Apuntes de Analisis Cuantitativo

49

El muestreo estratificado no siempre conduce a un estimador con menor error de

estimación, esto suele ocurrir cuando los estratos no incluyen datos homogéneos.

Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada

estrato (por ejemplo, en un estudio regional también se quieren obtener estimaciones a nivel

provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema

queda bien ilustrado con el siguiente ejemplo.

Ejemplo 3.5 (Ejercicio 1, relación tema 3) Un distribuidor de productos de limpieza desea

conocer el consumo por hogar durante un año de un determinado producto en una comarca

formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio

decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el

20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25%

en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes

para controlar y obtener datos sobre el consumo anual de 20 hogares.

Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste

del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce

a

11 20 0,20 4

Nn n

N= = × = de forma similar 2 3 46 5 5n n n= = = .

Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).

Estrato 1 Estrato 2 Estrato 3 Estrato 4 470 510 500 550

490 500 470 520 550 500

540 480 500 470 470

450 560 460 440 580

211 507,5 1091,67y S= = 2

22 505 750y S= = 233 492 870y S= = 2

44 498 4420y S= =

Estime el consumo anual medio por hogar y fije un límite para el error de estimación.

Solución: 31 2 40,20 0,30 0,25 0,25NN N N

N N N N= = = =

( ) ( ) ( ) ( )4 4

1 1

10,20 507,5 0,30 505 0,25 492 0,25 498 500,5€i

ist i ii i

Ny N y y

N N= == = = × + × + × + × =∑ ∑

Obsérvese que cuando se utiliza la asignación proporcional sty y= , efectivamente

20

1

1 10010500,5€

20ii

y yn =

= = =∑

Page 50: Apuntes de Analisis Cuantitativo

50

En la siguiente expresión consideramos los c.p.f. en cada estrato iguales a la unidad

�22 2 2 24 4 2

22 2

1 1 1

1( ) i i i i i i i

isti i ii i i i

S N n N S N SV y N

N n N N n N n= = =

−= = = =

∑ ∑ ∑� � �

2 2 2 21091,67 750 870 44200,20 0,30 0,25 0,25 88,29

4 6 5 5 = + + + =

�2 ( ) 18,79 €stV y =

Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20

hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es

20

1

1500,5 €i

i

y yn =

= =∑

que coincide con el estimador del muestreo estratificado por las razones mencionadas

anteriormente, pero la varianza estimada y error de estimación asociados toman los valores

(se omite el c.p.f.):

21 1520,79nS − =

�2

1 1520,79( ) 76,04

20nS N n

V yn N

− −= = =

�2 ( ) 17,44 €V y =

Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto

es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del

cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al

tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los

medianos en otro, ... �

3.5 Estratificación después de seleccionar la muestra.

A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p.e. estratos según

sexo y entrevista telefónica).

Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede

ser dividida en 1n masculinos y 2n femeninos después de que ha sido realizada. Entonces en

lugar de usar y para estimar µ , podemos usar sty siempre que iN

N sea conocido para todo i.

Obsérvese que en esta situación los in son aleatorios, ya que varían de una muestra a otra

aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido,

Page 51: Apuntes de Analisis Cuantitativo

51

pero si iN

N es conocido y 20in ≥ i∀ , entonces este método de estratificar después de la

selección es casi tan exacto como el muestreo aleatorio estratificado con asignación

proporcional. Si iN

N se desconoce o no se puede tener una buena aproximación de su valor,

este método no debe usarse.

Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares

tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en

euros de la factura bimensual) se obtuvieron los siguientes resultados:

Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90

Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un

límite para el error de estimación.

Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica

(0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la

estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el

procedimiento se justifica pues tanto 1n como 2n superan 20.

1 2

5730 208095,5€ 52€

60 40y y= = = =

2 2

1 1

1(0,30 95,5) (0,70 52) 65,05€i

ist i ii i

Ny N y y

N N= == = = × + × =∑ ∑

�2 2 22 2

22 2

1 1

1( ) i i i i i i i

isti ii i i i

S N n N S N nV y N

N n N N n N= =

− −= =∑ ∑� �

omitiendo el coeficiente corrector por poblaciones finitas se tiene

�22 2 2 2 22 2

2 22

1 1

200 90( ) 0,30 0,70 159,225

60 40i i i i

sti ii i

N S N SV y

N n N n= =

= = = + =

∑ ∑� �

�2 ( )stV y =25,24€ �

A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si

muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la

proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador

ajustado mediante la estratificación después del muestreo.

Page 52: Apuntes de Analisis Cuantitativo

52

Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y

la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio

de las facturas si se utiliza m.a.s. y no se ajusta la estimación de la media con la estraficación

después de seleccionar la muestra:

5730 2080 781078,10€

60 40 100y

+= = =+

EJERCICIOS RESUELTOS

1. (Ejercicio 10, relación tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas

tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en

kilovatios-hora) se obtuvieron los siguientes resultados:

Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721

a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la

ciudad. Dé un límite para el error de estimación.

b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las

casas que no tienen calefacción eléctrica. Dé un límite para el error de

estimación.

SOLUCIÓN: a.

iN in iy 2

iS i iN y i i

i

N n

N

22 i i ii

i i

S N nN

n N

164 186

24 36

972 463

202,396 96,721

159.408 86.118

0,854 0,806

193.699,13 74.925,32

350 245.526 268.624,45

1

1 245.526701,50

350

L

ist ii

y N yN =

= = =∑

�2

22 2

1

1 268.624,45( ) 2,19

350

Li i i

isti i i

S N nV y N

N n N=

−= = =∑�

2 2,19 2,96=

Page 53: Apuntes de Analisis Cuantitativo

53

b.

2 463y =

�22 2 2

22 2

96,721 186 36( ) 2,17

36 186

S N nV y

n N

− −= = =

2 2,17 2,94= 2. (Ejercicio 11, relación tema 3) Un analista de la opinión pública tiene un presupuesto de

20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se

sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por

teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros

por hogar visitado. Suponga que las varianzas en los estratos con y sin teléfono son

iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares

deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico

son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente?

SOLUCIÓN:

1 1 1 1

1 1 1 1

20.000 3.028,6241784,81

33.937,726

L L L Li i i i i

i i i ii i i iL L L L

i i i i i i i i ii i i i

N N N NC C C C

c c c cn

N c N c N c N c

σ σ σ

σ σ σ

= = = =

= = = =

×= = = = = =∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

� � � �

� � � �

1 1

2 2

1 2

1.784,81 0,9397 1677,2 1677

1.784,81 0,0603 107,59 107

1784

n n

n n

n n n

ωω

= = × = ≈= = × = ≈

= + =

O bien

1 1 2 2

1 1 2 2

20.000

20.000

9,397 1,809 11,206 20.000

20.0001.784,8

11,206

c n c n

c n c n

n n n

n

ω ω+ =

+ =+ = =

= =

Y a partir de n se obtienen n1 y n2 como antes.

iN ic i

i

N

c i iN c iω

9.000 1.000

10

30

2.846,05 182,574

28.460,5 5.477,226

2.846,05/3.028,624=0,9397 182,574/3.028,624=0,0603

10.000 3.028,624 33.937,726 1,0000

Page 54: Apuntes de Analisis Cuantitativo

54

3. (Ejercicio 12, relación tema 3) Se desea conocer el número de fines de semana que las

familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen

de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un

muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana

que pasan fuera, obteniéndose los siguientes datos:

Número de hijos in ∑=

n

iiy

1

2iS

0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24

Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y

dar el límite de error de estimación. Omitir el corrector por población finita.

SOLUCIÓN:

1 2 3

239 174 789,56 9,16 4,87

25 19 16y y y= = = = = =

( ) ( ) ( )1 1

10,425 9,56 0,30 9,16 0,275 4,87 8,15

L Li

ist i ii i

Ny N y y

N N= == = = × + × + × =∑ ∑

�22 2 2 2 2

2 22 2 2

1 1 1 1

2 2 2

1 11 ( )

60,77 63,01 78,240,425 0,30 0,275 1,107

25 19 16

L L L Li i i i i i i i i i

i isti i i ii i i i i i

N n S N n S N S N SSi V y N N

N N n N N n N n N n= = = =

− − = ⇒ = = = = =

= + + =

∑ ∑ ∑ ∑� � � �

2 1,107 2,1=

4. (Ejercicio 6, relación tema 3) Una compañía de autobuses está planeando una nueva ruta

para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada

barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1

(totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los

resultados se resumen en la tabla adjunta:

Barrio 1 2 3 4

iN 240 190 350 220 in 25 25 25 25 iy 3,5 3,6 3,9 3,8 iS 0,8 0,9 1,2 0,7

a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del

nuevo servicio.

b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos

pertenecerían al barrio 3. (Suponga iguales los costes de observación)

Page 55: Apuntes de Analisis Cuantitativo

55

SOLUCIÓN: a)

�2

22

1 1 1

1 11000 3,725 ( ) 0,00973

L L Li i i

i i ist i sti i i i i

S N nN N y N y V y N

N N n N= = =

−= = = = = =∑ ∑ ∑�

� ( )2 ( ) 0,1973 3,5277 , 3,9223stB V y µ= = ∈

b)

3 33 3 4

1

350 1,2100 100

(240 0,8) (190 0,9) (350 1,2) (220 0,7)

100 0,4482 44,82 45

i ii

Nn n

N

σωσ

=

×= = = =× + × + × + ×

= × = ≈

5. (Ejercicio 20, relación tema 3) Una empresa especializada en seguros está pensando en

ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para

ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento

(objeto del seguro) de dichas empresas. Se clasifican las empresas en función de su

tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en

cada empresa así como los valores mínimos, medios y máximos de un estudio similar

hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados

en euros)

Tipo de empresa

Número de empresas

Costes de observación

Gastos de reparación Mínimo Media Máximo

A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130

Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas

empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de

estimación asociado?

SOLUCIÓN:

La asignación que minimiza la cota del error de estimación para un coste fijo es la

asignación óptima.

Usamos que R≈4σ y por tanto estimamos que 4

Rσ ≈ .

iN

ic

ic

iR

i i

i

N

c

σ

100 500 700

16 9 4

4 3 2

600-400 360-240 130-70

50 30 15

1250 5000 5250

0’1087 0’4348 0’4565

11500 1 600 = 16n1 + 9n2 + 4n3 ( ni = ωin ) 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n

Page 56: Apuntes de Analisis Cuantitativo

56

n = 600/7’4784 = 80’231

n1 = ωωωω1n = 8’72 ≈≈≈≈ 8 n2 = ωωωω2n = 34’88 ≈≈≈≈ 34 n3 = ωωωω3n = 36’63 ≈≈≈≈ 36

C = (16×8) + (9×34) + (4×36) = 578 < 600 pero

C’ = (16×9) + (9×35) + (4×37) = 607 > 600

6. (Ejercicio 13, relación tema 3) En una población compuesta por aproximadamente igual

número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante

en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de

500 números de teléfono del citado municipio. Después de obtenidos los datos se observa

que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide

llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los

siguientes datos

HOMBRES MUJERES

iN 2.500 2.700

in 100 400

iy 120 250

2iS 9.000 16.000

Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante

muestreo aleatorio estratificado después de seleccionar la muestra.

SOLUCIÓN:

iN in iy 2

iS i iN y i i

i

N n

N

22 i i ii

i i

S N nN

n N

2.500 2.700

100 400

120 250

9.000 16.000

300.000 675.000

0,96 0,85185

540.000.000 248.399.460

5.200 500 975.000 788.399.460

1

1 975.000187,5

5.200

L

ist ii

y N yN =

= = =∑

�2

22 2

1

1 788.399.460( ) 29,16

5.200

Li i i

isti i i

S N nV y N

N n N=

−= = =∑�

2 29,16 10,8= 7. (Ejercicio 14, relación tema 3) En una población compuesta por aproximadamente igual

número de hombres que de mujeres se desea estimar la proporción de individuos que ven

un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante

Page 57: Apuntes de Analisis Cuantitativo

57

una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos

se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se

decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los

siguientes datos

HOMBRES MUJERES Encuestados 50 250

Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error,

mediante muestreo aleatorio estratificado después de seleccionar la muestra.

SOLUCIÓN :

� � ɵ �1 2

12 1300,24 0,52 1

50 250 i ip p q p= = = = = −

� � � ( ) ( ) �

1 1

10,50 0,24 0,50 0,52 0,38 38%

L Li

ist i i sti i

Np N p p p

N N= == = = × + × = ⇒ =∑ ∑

� �� ɵ � ɵ � ɵ � ɵ22

2 22 2 2

1 1 1 1

2 2

1

1 1( )

1 1 1 1

0,24 0,76 0,52 0,480,50 0,50 0,0011812146

49 249

i i

i

L L L Li i i i i i i i i i i i

i isti i i ii i i i i

N nSi

N

p q p q p q p qN n N NV p N N

N n N N n N n N n= = = =

− = ⇒

− = = = = = − − − −

× × = + =

∑ ∑ ∑ ∑� � � �

� �2 ( ) 0,0687 6,87%stV p = ⇒

8. (Ejercicio 15, relación tema 3) Una corporación desea estimar el número total de horas

perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los

obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación

decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años

previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas

perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de

los estratos. No habiendo diferencia entre los costes de observación de cada grupo,

determine la mejor asignación para una muestra de 40 empleados.

Obreros Técnicos Administrativos 2iS 36 25 9

iN 132 92 27

Page 58: Apuntes de Analisis Cuantitativo

58

SOLUCIÓN:

iN i iSσ ≈ i iNσ iω

132

92

27

6 5 3

792

460

81

792 0,59411.333=

460 0,34511.333=

81 0,06081.333=

1.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales:

1

j jj L

i ii

N

N

σω

σ=

=∑

1

2

3

40 0,5941 23,8 24

40 0,3451 13,8 14

40 0,0608 2,4 2 40

n

n

n n

= × = ≈= × = ≈= × = ≈ =

9. (Ejercicio 16, relación tema 3) Se dispone de la siguiente información sobre tamaños

poblacionales de los estratos, costes de observación y estimaciones de las proporciones

Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70

Determine la mejor asignación para una muestra de 200 observaciones.

SOLUCIÓN:

iN ic �

ip ɵiq � ɵ

i ip q � ɵi i i

i

N p qc

5.000

2.000

3.000

3 5 4

0,90

0,55

0,70

0,10

0,45

0,30

0,3

0,4975

0,45826

500

199

343,695

500 0,47951.042,695=

199 0,19091.042,695=

343,695 0,32961.042,695=

1.042,695 1 Donde se ha aplicado la asignación óptima:

1

j jj

j

j Li i

ii i

p qN

c

p qN

c

ω

=

=

1

2

3

200 0,4795 95,9 96

200 0,1909 38,2 38

200 0,3296 65,9 66

200

n

n

n

n

= × = ≈= × = ≈= × = ≈

=

10. (Ejercicio 19, relación tema 3) La producción de piezas de una factoría se realiza en dos

máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B.

Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas

resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas

defectuosas. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de

error de estimación. Omita el coeficiente corrector por población finita.

Page 59: Apuntes de Analisis Cuantitativo

59

SOLUCIÓN:

Estrato

iN

in �

ip

� ɵ

1i i

i

p q

n −

A B

0.40 N× 0.60 N×

67 133

2/67=0.030 6/133=0.045

0.000441 0.000326

N 200

� ( ) ( )( ) ( ) ( )( ) ( )10.40 0.030 0.60 0.045 0.40 0.030 0.60 0.045 0.039 3.9%p N N

N= × × + × × = × + × =

� �( ) ( ) ( )( )2 2 2 22

10.40 0.000441 0.60 0.000326V p N N

N= × × + × × =

( ) ( )( )2 20.40 0.000441 0.60 0.000326 0.000188= × + × =

( )2 0.000188 0.0274 2.74%B = =

11. (Como ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la

proporción de circuitos integrados de ordenador defectuosos que provienen de dos

diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van

a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación

de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20

provienen de la operación A y 80 de la operación B. De entre los circuitos integrados

muestreados de la operación A, 3 son defectuosos. De entre las piezas muestreadas de la

operación B, 13 son defectuosas. Estime la proporción de los defectuosos en la población,

y fije un límite para el error de estimación.

SOLUCIÓN

� � � ( )1 1

1 3 130,60 0,40 0,155 15,5%

20 80

L Li

ist i ii i

Np N p p

N N= =

= = = + =

∑ ∑

� �� ɵ � ɵ � ɵ22

22 2

1 1 1

1( )

1 1 1

L L Li i i i i i i i i i

isti i ii i i i

p q p q p qN n N NV p N

N n N N n N n= = =

−= = = = − − − ∑ ∑ ∑� � �

( ) ( )2 20,15 0,85 0,1625 0,83750,60 0,40 0,00267

19 79

× ×= + =

� � ( )2 ( ) 0,103 10,3%stV p =

12. (Ejercicio 18, relación tema 3) Para la comercialización de un producto se le clasifica,

atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento

dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso

total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas

de todas las categorías, resultando

Page 60: Apuntes de Analisis Cuantitativo

60

Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34

Considerando los anteriores datos como una muestra previa, obtenga el número de

unidades que cada categoría debe aportar a la muestra para que el error en la estimación

del peso total no supere el medio kilo.

SOLUCIÓN:

Peso en gramos ( )con las funciones del modo SD de la calculadora

12, 14, 12, 15, 12 21 11,4142 2S S= =

16, 22, 24, 20, 20, 18 22 22,8284 8S S= =

30, 33, 31, 34 23 31,8257 3,3333S S= =

iN iσ 2iσ i iNσ 2

i iNσ

1

j jj L

i ii

N

N

σω

σ=

=∑

71,66i in ω=

300 500 200

1,4142 2,8284 1,8257

2 8

3,3333

424,26 1414,2 365,14

600 4000

666,66

0,1925 0,6418 0,1657

13,79 14≈ 45,99 46≈ 11,87 12≈

1000N = 2203,6 5266,66 1 72n =

2

2

250.0000,0625

4 4.000.000

BD

N= = =

2

1

2 2

1

71,66( )L

i ii

L

i ii

Nn

N D N

σ

σ=

=

= =+

13. (Ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la

proporción de circuitos integrados de ordenador defectuosos que provienen de dos

diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van

a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación

de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20

provienen de la operación A y 80 de la operación B. De entre los circuitos integrados

muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la

operación B, 16 son defectuosas.

a. Considerando únicamente la muestra aleatoria simple de 100 circuitos

integrados, estime la proporción de los defectuosos en el lote, y establezca un

límite para el error de estimación.

Page 61: Apuntes de Analisis Cuantitativo

61

b. Estratifique la muestra, después de la selección, en circuitos integrados

provenientes de la operación A y B, estime la proporción de los defectuosos en

la población, y fije un límite para el error de estimación.

c. ¿Qué respuesta encuentra más aceptable? ¿Por qué?

SOLUCIÓN:

a. �18

0,18 (18%)100

p = = � �� ɵ

( ) 0,0014911

pqV p

n= =

− � � ( )2 ( ) 0,0772 7,72%V p =

b. � � � ( )1 1

1 2 160,60 0,40 0,14 14%

20 80

L Li

ist i ii i

Np N p p

N N= =

= = = + =

∑ ∑

� �� ɵ � ɵ � ɵ22

22 2

1 1 1

1( )

1 1 1

L L Li i i i i i i i i i

isti i ii i i i

p q p q p qN n N NV p N

N n N N n N n= = =

−= = = = − − − ∑ ∑ ∑� � �

( ) ( )2 20,10 0,90 0,20 0,800,60 0,40 0,00203

19 79

× ×= + =

� � ( )2 ( ) 0,0901 9,01%stV p =

c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%)

que de B (40%), la muestra global no representa adecuadamente este hecho,

predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el

apartado a. la estimación esté sesgada hacia el valor de B (� 2 0,20p = ) frente al de A

( �1 0,10p = ). En el apartado b. este hecho se corrige dando a �1p y � 2p las

ponderaciones 0,60 y 0,40 respectivamente para estimar p.

14. (Ejercicio 4, relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en

Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo

producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en

el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de

Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla,

respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos

de este producto recibidos por restaurante en las tres ciudades durante una semana fueron:

1 1

2 2

3 3

21,2 12

13,3 11

26,1 9

y S

y S

y S

= == == =

a. Estimar el número medio de pedidos semanales por restaurante para los

restaurantes de la cadena. Dar un límite del error de estimación.

Page 62: Apuntes de Analisis Cuantitativo

62

b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior

cometiendo un error inferior a 3 pedidos.

SOLUCIÓN:

a. 1

1 383419,17 /

200

L

ist ii

y N y pedidos semanaN =

= = =∑

� �2

22

1

1( ) 6,2965 2 ( ) 5,02 /

Li i i

ist sti i i

S N nV y N V y pedidos semana

N n N=

−= = =∑�

b.

iN iσ 2iσ i iNσ 2

i iNσ

1

j jj L

i ii

N

N

σω

σ=

=∑

43,52i in ω=

100 70 30

12 11 9

144 121 81

1200 770 270

14400 8470 2430

0,5357 0,3438 0,1205

23,31 24≈ 14,96 15≈ 5,24 6≈

200N = 2240 25300 1 45n =

2 92,25

4 4

BD = = =

2

1

2 2

1

43,52( )L

i ii

L

i ii

Nn

N D N

σ

σ=

=

= =+

Page 63: Apuntes de Analisis Cuantitativo

63

4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón.

4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral.

4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral.

4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral.

4.1 Introducción.

Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que

de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar

la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende

estimar el total sin conocer el número de elementos de la población y sí el valor total de la

variable que proporciona la información auxiliar

Denotemos por

→Y Variable bajo estudio

→X Variable que proporciona la información auxiliar

Y supongamos que tenemos una muestra constituida por n pares:

( ) ),(,...,, 11 nn yxyx

A través de los datos muestrales se puede estimar la relación existente entre ambas variables.

Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar.

Aquí suponemos que el muestreo que se emplea es el aleatorio simple

Ejemplo 4.1. Ya que existe una fuerte relación entre renta y ahorro, se puede estimar el valor

total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas

de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se

dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la décima parte

del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el

número de empleados de la empresa. �

Dependiendo de la relación entre las variables X e Y utilizaremos:

• Estimadores de razón ( )y bx=

Page 64: Apuntes de Analisis Cuantitativo

64

• Estimadores de regresión ( )y a bx= +

• Estimadores de diferencia ( )y a x= +

Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una

fuerte relación lineal positiva (2

1>xyr ).

4.2 Estimación de razón

Dada una población de tamaño N en la que se consideran las variables X e Y , se define la

razón como el cociente:

x

yRττ

=

Es decir, la proporción del total de Y respecto del total de X . Puesto que yy Nµτ = y

xx Nµτ = , obtenemos

X

YRµµ

=

De estas definiciones se deduce que

xy

xy

R

R

µµττ

=

=

Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para

estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como

�R r= ):

ˆ

ˆy x

y x

r

r

τ τµ µ

=

=

Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra

aleatoria simple: ( ) ( )nn xyxy ,,...,, 11 , podemos estimar R tomando el cociente entre las

medias muestrales:

• ESTIMADOR DE LA RAZÓN: 1 1

1 1

1

1

n n

i ii in n

i ii i

y yy n

rx

x xn

= =

= =

= = =∑ ∑

∑ ∑

• VARIANZA ESTIMADA DE r : 2

2

1ˆ( ) r

x

S N nV r

n Nµ− =

, ( )∑

=

−−

=n

iiir rxy

nS

1

22

1

1

Page 65: Apuntes de Analisis Cuantitativo

65

4.2.1 Estimación de la media y el total poblacionales

Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el

modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen,

( ),y bx en este contexto se nota b r dado su significado= =

• ESTIMADOR DE LA MEDIA: xy rµµ =ˆ

• VARIANZA ESTIMADA DE yµ̂ : ( )

−==N

nN

n

SrVV r

xy

22 )(ˆˆˆ µµ

• ESTIMADOR DEL TOTAL: xy rττ =ˆ

Observemos que no es necesario conocer el tamaño de la población N.

• VARIANZA ESTIMADA DE yτ̂ :

−==N

nN

n

SrVV r

x

xxy

2

2

22 )(ˆ)ˆ(ˆ

µτττ

Comentarios sobre el uso de estos estimadores:

• Cuando N es desconocido y si estimamos que Nn %5≤ (el tamaño poblacional es

más de 20 veces el tamaño de la muestra), es decir que 95,0≥−N

nN, entonces

1≅−N

nN. (Véase ejercicio resuelto 4)

• De la relación N

xx

τµ = , conociendo dos de esos elementos se puede calcular el

tercero.

• A la hora de obtener ( )yV τ̂ˆ , si xµ es desconocida y no podemos utilizar la relación

anterior entonces xx ≅µ . Sin embargo, para estimar yµ̂ necesitamos conocer el

verdadero valor de xµ .

• Son estimadores sesgados.

• A la hora de estimar el total, aún conociendo el tamaño de la población, cuando existe

una fuerte correlación entre las variables se comporta mejor el muestreo con

información auxiliar ( )xy rττ =ˆ que el m.a.s ( )yN=τ̂ .

Ejemplo 4.2 (Ejercicio 2, relación tema 4, apartado (a))

Mediante una tasación previa se desea estimar la producción media y la producción total de

los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de

Page 66: Apuntes de Analisis Cuantitativo

66

3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les

preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron:

Superficie Producción 3,7 12 4,3 14 4,1 11 5 15

5,5 16 3,8 12 8 24

5,1 15 5,7 18 6 20 3 8 7 20

5,4 16 4,4 14 5,5 18 5 15

5,9 18 5,6 17 5 15

7,2 22 Estime la producción media y total mediante los estimadores de razón y m.a.s., calcule sus

respectivos límites para el error de estimación y compárelos.

Solución " producción (toneladas, tm)"

X "superficie plantada (hectáreas, ha)"

Y ==

ix iy

2ix

2iy

i ix y

3,7 12 13,69 144 44,4 4,3 14 18,49 196 60,2 4,1 11 16,81 121 45,1 5 15 25 225 75 5,5 16 30,25 256 88 3,8 12 14,44 144 45,6 8 24 64 576 192 5,1 15 26,01 225 76,5 5,7 18 32,49 324 102,6 6 20 36 400 120 3 8 9 64 24 7 20 49 400 140 5,4 16 29,16 256 86,4 4,4 14 19,36 196 61,6 5,5 18 30,25 324 99

Page 67: Apuntes de Analisis Cuantitativo

67

5 15 25 225 75 5,9 18 34,81 324 106,2 5,6 17 31,36 289 95,2 5 15 25 225 75 7,2 22 51,84 484 158,4

TOTALES 105,2 320 581,96 5398 1770,2

Del enunciado y de la tabla anterior obtenemos

20 750 socios 3.840 haxn N τ= = =

2 2

1 1 1 1 1

105,2 320 581,96 5398 1770,2n n n n n

i i i i i ii i i i i

x y x y x y= = = = =

= = = = =∑ ∑ ∑ ∑ ∑

( )2 22 2 2

1 1 1

1 105,2 1 1 581,965,26 5,26 1,4304

20 20

n n n

i x i ii i i

x x s x x x xn n n= = =

= = = = − = − = − =∑ ∑ ∑

( )2 22 2 2

1 1 1

1 320 1 1 539816 16 13,9

20 20

n n n

i y i ii i i

y y s y y y yn n n= = =

= = = = − = − = − =∑ ∑ ∑

( ) ( ) ( )1 1

1 1 1770,25,26 16 4,35

20

n n

xy i i i ii i

s x x y y x y x yn n= =

= − − = − = − × =∑ ∑

Si queremos calcular las cuasivarianzas, a partir de las varianzas se tiene:

2 2 2 220 201,4304 1,5057 13,9 14,6316

1 19 1 19x x y y

n nS s S s

n n= = = = = =

− −

y hallando las raíces cuadradas obtenemos las desviaciones ( ),x ys s y cuasidesviaciones

típicas ( ),x yS S .

Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se

simplifican notablemente si utilizamos una calculadora científica de uso común. Estas

calculadoras nos proporcionan los valores de un grupo de funciones estadísticas

21n nx xx x x s Sσ σ −= =∑ ∑ de forma inmediata.

1n nx xs desviación típica S cuasidesviación típicaσ σ −= = = =

La relación entre las variables es alta 4,35

0,97561,196 3,728

xyxy

x y

sr

s s

= = = ×

. Esto junto con la

información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón.

Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de

superficie le corresponde una producción de 0 tm).

Page 68: Apuntes de Analisis Cuantitativo

68

20

120

1

3203,042 tm/ha

105,2

ˆ 3,042 3.840 11.680,6 tm

ii

ii

y x

yr

x

rτ τ

=

=

= = =

= = × =

38405,12 /

750x ha socio

x N

τµ = = =

ˆ 3,042 5,12 15,57 tm/socioy xrµ µ= = × =

( )20 20 20 20

22 2 2 2

1 1 1 1

1 12 0,706

1 1r i i i i i ii i i i

S y rx y r x r x yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

( ) ( )2

ˆ ˆˆ ˆ0,0344 2 0,37 tm/sociory y

S N nV B V

n N µµ µ− = = ⇒ = =

2 2 22

2ˆ ˆˆ ˆ( ) 19.326,75 2 ( ) 278,04 tmx r r

y yx

S N n S N nV N B V

n N n N τττ τµ

− − = = = ⇒ = =

o 750 750 0,37 277,5B B tmτ µ= × = × = (no coinciden los dos procedimientos por los errores

de redondeo en el valor de Bµ ).

A continuación lo estimaremos utilizando muestro aleatorio simple.

( )2320 14,63 750 20ˆ16 / 0,712

20 20 750

S N ny tm socio V y

n N

− − = = = = =

2 0,712 1,69 /B tm socioµ = =

320ˆ 750 12.000

20Ny tmτ = = =

( ) 400.539,47750

20750

20

63,14750ˆˆ 2

22 =

−=

−=N

nN

n

SNV τ

2 400.539,47 1.265,76B tmτ = = o 750B Bτ µ= ×

Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando

estimadores de razón. �

4.2.2 Determinación del tamaño muestral

Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una

cota de error de magnitud B

ND

Nn

r

r

+=

2

2

σσ

Page 69: Apuntes de Analisis Cuantitativo

69

donde para estimar:

• la razón: 4

22xB

=

• la media: 4

2BD =

• el total: 2

2

4N

BD =

Comentarios:

• 2rσ se estima utilizando una muestra previa (tamaño 'n ): 22ˆ rr S=σ .

• Si xµ es desconcocido, 22ˆ xx =µ

Ejemplo 4.3 (Ejercicio 2, relación tema 4, apartado (b))

Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a

0,25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar

su producción antes de realizar una nueva estimación?

Solución

MEDIA: 2

2

22

750 0,706

0,250,706 750

4

42,6 43 socios

4

r

r

Nn

BN

σ

σ

×=

+ ×

= = ≅+

TOTAL: 2 2

2 2 22 2

2

750 0,70637,7 38 socios

2000,706

4 4 4 750

r r

r r

N Nn

B BN

N N

σ σ

σ σ

×= = = = ≅ + + + ×

Necesitamos al menos 43 socios para cumplir con ambos niveles de error. �

4.3 Estimación de regresión

El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es

lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados).

En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar

estimadores de regresión.

En el modelo lineal simple bXaY += , el método de mínimos cuadrados permite estimar a y

b de la siguiente forma:

Page 70: Apuntes de Analisis Cuantitativo

70

( )( )

( )1

2 22

1

ˆ

ˆˆ

n

i ixy xy i

nx x

ii

y y x xs S

bs S

x x

a y bx

=

=

− −= = =

= −

donde

( ) ( )

( )( ) ( )( )

2 22 2

1 1

1 1 1

1 1;

1

1 1 1

1

n n

x i x ii i

n n n

xy i i xy i i i ii i i

S x x s x xn n

S x x y y s x x y y x y x yn n n

= =

= = =

= − = −−

= − − = − − = −−

∑ ∑

∑ ∑ ∑

4.3.1 Estimación de la media y el total poblacionales

• ESTIMADOR DE LA MEDIA: ( )ˆ ˆ ˆ ˆˆ ˆyL x x xa b y bx b y b xµ µ µ µ= + = − + = + −

• VARIANZA ESTIMADA DE yLµ̂ : ( )

−=N

nN

n

SV L

yL

2

ˆˆ µ

siendo 2LS la varianza residual en el modelo lineal simple:

( )( )( ) ( )22

2 2 2 22

1

1 ˆ 12 2 2

nxy

L i i y y xyi x

sn nS y y b x x s s r

n n s n=

= − + − = − = − − − −

• ESTIMADOR DEL TOTAL: yLyL Nµτ ˆˆ =

• VARIANZA ESTIMADA DE ˆyLτ : ( ) ( )yLyL VNV µτ ˆˆˆˆ 2=

Comentario. En este caso para estimar el total es necesario conocer el tamaño de la población

N. No se puede estimar como xyL ba ττ ˆˆˆ += ya que la recta de regresión no pasa por el punto

( )yx ττ , .

Ejemplo 4.4 (Ejercicio 3, relación tema 4, apartado (a))

Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre las

ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5

euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en

publicidad y ventas diarios. Los resultados son:

Gastos Ventas 3,7 120 4,3 140 4,1 135

Page 71: Apuntes de Analisis Cuantitativo

71

5 150 5,5 160 3,8 120 8 160

5,1 150 5,7 125 6 130 0 80 7 150

5,4 150 4,4 120 5,5 140 5 150

5,9 150 6,6 170

Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el

límite para el error de estimación.

Solución

Denotamos (euros)" publicidaden diarios gastos" ;(euros)" diaria ventas" == XY

Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos:

18 establecimientos 1.000 establecimientos 5€xn N µ= = =

5,0556€ 138,889€x y= = 21,6375 2,6814x xs s= ⇒ =

2 2 220,314 412,654 436,9281y y y y

ns s S s

n= ⇒ = = =

27,7284xys =

La relación entre las variables es fuerte: 0,8336xyr = .

( )2

ˆˆ

27,7284ˆ 10,3412,6814

ˆ ˆ ˆ138,314€ 138.314€

yL x

xy

x

yL yL yL

y b x

sb

s

N

µ µ

µ τ µ

= + −

↓ = = =

= = =

( )2 2 211 141,6

2L y xy

nS S r

n

−= − =−

( )2

ˆ ˆ 7,73LyL

S N nV

n Nµ − = =

( )ˆ ˆ2 5,56yLB Vµ µ= = 1.000 5,56 5.560€B N Bτ µ= × = × = �

4.3.2 Determinación del tamaño muestral

Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la

cota de error no supere la magnitud B

Page 72: Apuntes de Analisis Cuantitativo

72

ND

Nn

L

L

+=

2

2

σσ

donde para estimar:

• la media: 4

2BD =

• el total: 2

2

4N

BD =

2Lσ se estima utilizando una muestra previa (tamaño 'n ): 22ˆ LL S=σ

Ejemplo 4.5 (Ejercicio 3, relación tema 4, apartado (b))

Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere

los 1.000 euros ¿cuál debe ser el tamaño muestral?

Solución 2

2 22

2 2

1000 141,6361,6 362

1000141,6 1000

4 4 1000

L

L

Nn

BN

N

σ

σ

×= = = ≅ + + ×

establecimientos.

4.4 Estimación de diferencia

El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja)

cuando la relación entre las variables es lineal y la pendiente del modelo es uno.

( )( )y a x ó y y x x a y x d= + = + − = − =

Comúnmente se emplea en procedimientos de auditoría.

4.4.1 Estimación de la media y el total poblacionales

• ESTIMADOR DE LA MEDIA: ( ) dxy xxyD +=−+= µµµ̂ xyd −=

• VARIANZA ESTIMADA DE yDµ̂ : ( )

−=N

nN

n

SV D

yD

2

ˆˆ µ

( )( ) ( )∑∑==

−−

=+−−

=n

ii

n

iiiD dd

ndxy

nS

1

2

1

22

1

1

1

1, donde iii xyd −= , por tanto 2

DS es la

cuasivarianza de los id .

• ESTIMADOR DEL TOTAL: yDyD Nµτ ˆˆ =

Page 73: Apuntes de Analisis Cuantitativo

73

• VARIANZA ESTIMADA DE YDτ̂ : ( ) ( )yDyD VNV µτ ˆˆˆˆ 2=

Ejemplo 4.6 (Ejercicio 4, relación tema 4, apartado (a))

Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se

tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una

muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:

X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460

Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo

aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso.

(Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de

diferencia)

Solución

Denotamos "gasto diario (euros)"

" "ingresos diarios (euros)

Y

X

= =

Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos:

2

2

2

10 establecimientos 200 establecimientos 500€

516€ 453,5€

115,797 13.409

115,738 13.395,3

14883,7

13.396,5

x

x x

y y

y

xy

n N

x y

s s

s s

S

s

µ= = = = = = ⇒ = = ⇒ = = =

La relación entre las variables es muy fuerte: 20,99958 0,99916xy xyr r= = .

MUESTREO ALEATORIO SIMPLE

2

2y

14883,7

ˆ ˆ453,5€ 90.700€

Sˆ ˆˆ ˆV( ) 1.413,94 B 2 V( ) 75,20€ B 200 B =15.040,97€

yS

y Ny

N n

n N µ τ µ

µ τ

µ µ

=

= = = =

− = = = = = ×

Page 74: Apuntes de Analisis Cuantitativo

74

ESTIMADORES DE RAZÓN

ˆ ˆ0,879 200 100.000 87.900€ 439,5€x x y x y x

yr r r

xτ µ τ τ µ µ= = = = = = = =

( )22 2 2 2

1 1 1 1

1 12 227,717

1 1

n n n n

r i i i i i ii i i i

S y rx y r x r x yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

( )2

ˆ ˆ 21,63 9,3€ry

S N nV B

n N µµ − = = ⇒ =

=1.860€B N Bτ µ= ×

ESTIMADORES DE REGRESIÓN

( )2

ˆˆ

13.396,5ˆ 0,9990713.409

ˆ ˆ ˆ437,515€ 87.503€

yL x

xy

x

yL yL yL

y b x

sb

s

N

µ µ

µ τ µ

= + −

↓ = = =

= = =

( )

( )

2 2 2

2

11 14,05

2

ˆ ˆ 1,33 2,3104€ 462,09€

L y xy

LyL

nS S r

n

S N nV B B NB

n N µ τ µµ

−= − =−

− = = ⇒ = = =

ESTIMADORES DE DIFERENCIA

ˆ

62,5

ˆ ˆ ˆ437,5€ 87.500€

yD x

yD yD yD

d

d

N

µ µ

µ τ µ

= +

↓ = −= = =

(con la calculadora hallamos 1nσ − sobre las diferencias id y lo elevamos al cuadrado)

( )2

2

1

112,5

1

n

D ii

S d dn =

= − =− ∑

( ) ( )2

ˆ ˆˆ ˆ1,1875 2 2,179 435,8899DyD yD

S N nV B V B NB

n N µ τ µµ µ− = = = = = =

4.4.2 Determinación del tamaño muestral

Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al

estimar la media y el total poblacionales

ND

Nn

D

D

+=

2

2

σσ

Page 75: Apuntes de Analisis Cuantitativo

75

donde para estimar:

• la media: 4

2BD =

• el total: 2

2

4N

BD =

2Dσ se estima utilizando una muestra previa (tamaño 'n ): 22ˆ DD S=σ

Ejemplo 4.7 (Ejercicio 4, relación tema 4, apartado (b))

Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un

error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral?

Solución 2

2 22

2

200 12,520 establecimientos

30012,5

4 4 200

D

D

Nn

BN

N

σ

σ

×= = =+ +

×

EJERCICIOS RESUELTOS

1. (ejercicio 9, relación tema 4) En una población de 500 hogares, para la que es conocido

que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto

total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple

de 4 hogares que proporciona los siguientes valores anuales en €:

Gasto en alimentación 12.500 15.000 10.000 17.500

Gasto general 24.000 31.000 20.000 36.000

Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?,

justifíquese.

Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo

de confianza.

SOLUCIÓN (trabajaremos en cientos de euros)

ix iy 2ix 2

iy i ix y

240 310 200 360

125 150 100 175

57.600 96.100 40.000

129.600

15.625 22.500 10.000 30.625

30.000 46.500 20.000 63.000

1110 550 323.300 78.750 159.500

Page 76: Apuntes de Analisis Cuantitativo

76

1

1

550500 4 0,4955 0,4955 150.000 74.325 €

1110

n

ii

y xn

ii

yN n r r cientos de

xτ τ=

=

= = = = = = = × =∑

∑ɵ

7.432.500 €yτ =ɵ

( )2

2 2 2 2

1 1 1 1

1 1 62,22 20,73

1 1 3

n n n n

r i i i i i ii i i i

S y rx y r x r x yn n= = = =

= − = + − = = − − ∑ ∑ ∑ ∑

� �2

( ) ( ) 1.285,4667 2 ( ) 2.267,568ry y

SV N N n V

nτ τ= − = =ɵ ɵ

( )72.057,432 ; 76.592,568 €y en cientos deτ ∈

Para expresarlo en € hay que multiplicarlo por cien.

2. (Ejercicio 17, relación tema 4) Un trabajador social quiere estimar la ratio

personas/habitación en un determinado barrio. El trabajador social selecciona una muestra

aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en

cada vivienda e y el número de habitaciones por vivienda. A partir de los datos

siguientes:

25 25 252 2

1 1 1

9,1; 2,6; 2240; 169; 522i i i ii i i

x y x y x y= = =

= = = = =∑ ∑ ∑

Estime la razón personas/habitación en el barrio y establezca el límite para el error de

estimación con una confianza del 95%.

SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones

del formulario)

22 21

1

275 25 3,5 . / . 2,6 6,76

n

ii

yn

ii

xx

N n r pers hab yyy

µ=

=

= = = = = ≅ = =∑

( )2

2 2 2 2

1 1 1 1

1 12 27,34375

1 1

n n n n

r i i i i i ii i i i

S x ry x r y r x yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

� �2

2

1 ( )( ) 0,1471 2 ( ) 0,767r

y

N n SV r V r

N nµ−= = =

3. (Ejercicio 12, relación tema 4) Se desea estimar el agua utilizada en la presente campaña

por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10

parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla

3m 600 1800 750 900 1100 1400 950 700 1000 720

Hectáreas 50 150 60 70 100 120 80 60 90 60

Page 77: Apuntes de Analisis Cuantitativo

77

Estime la media de 3m /hectárea que utiliza la comunidad de regantes y la cota del error de

dicha estimación.

SOLUCIÓN:

y = consumo de 3m litros de agua, x = tamaño de la parcela en hectáreas

X Y x2 y2 xy 50 600 2500 360000 30000

150 1800 22500 3240000 270000 60 750 3600 562500 45000 70 900 4900 810000 63000

100 1100 10000 1210000 110000 120 1400 14400 1960000 168000 80 950 6400 902500 76000 60 700 3600 490000 42000 90 1000 8100 1000000 90000 60 720 3600 518400 43200

840 9920 79600 11053400 937200

31

1

992011'81 /

840

n

iin

ii

yr m hectarea

x

=

=

= = =∑

( )22 2 2 2

1 1 1 1

1 12

1 1

n n n n

r i i i i i ii i i i

S y rx y r x r x yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑� � � �

( )111053400 11102297 '56 22136664 2114'84

9= + − =

� 84084

10x xµ = = =

�2

2 2

1 1 240 2114'84( ) 0 '02877

84 250 10r

x

N n SV r

N nµ−= = =

�2 ( ) 0 '3392V r =

4. (Ejercicio 1, relación del tema 4) Se desea estimar el consumo mensual de una ciudad. Se

sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530

euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados

de renta y consumo se recogen en esta tabla.

Renta Consumo 1.702,44 1.204 1.339,56 1.000

981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600

Page 78: Apuntes de Analisis Cuantitativo

78

1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000

Estime el consumo total mensual para todos los hogares de la ciudad mediante el

estimador de razón. Obtenga el límite para el error de estimación.

SOLUCIÓN: Denotemos por

" consumo mensual"

X "ingresos mensuales"

Y ==

De la información muestral obtenemos

=

=

=

=

=

12

1

12

1

euros 46,629.22

euros 808.16

12

ii

ii

x

y

n

y como información auxiliar sabemos que 1.502.530xτ = euros.

Podemos comprobar que el coeficiente de correlación lineal es alto ( 9677,0==yx

xyxy ss

sr ).

Esto junto con la información auxiliar nos permite utilizar muestreo con información

auxiliar, en concreto utilizaremos estimadores de razón.

1 2

11 2

1

0 , 7 4 2 7

ˆ 1 .1 1 6 .0 0 2 , 0 7 €

ii

ii

y x

yr

x

rτ τ

=

=

= =

= =

22

2ˆ ˆ( ) x r

Yx

S N nV

n N

ττµ

− =

( )12

i 1

No conocemos , pero en la ciudad hay muchos hogares, observando < 5% i xN x τ=

↓ ∑

( )estimamos que < 5% 1 N n

n NN

−↓ ⇒ ≅

� 1.885,79€x xµ↓ = =

( )12 12 12 12

22 2 2 2

1 1 1 1

1 12 16.479,7

1 1r i i i i i ii i i i

S y rx y r x r x yn n= = = =

↓ = − = + − = − − ∑ ∑ ∑ ∑

ˆ ˆˆ ˆ( ) 871.825.002,67 2 ( ) 59.053,37€Y YV B Vτ τ= ⇒ = =

Page 79: Apuntes de Analisis Cuantitativo

79

5 (Ejercicio 10, relación tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250

oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros)

570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime

el total de ingresos y el límite para el error de estimación.

SOLUCIÓN:

N=250, n=5, 12764xµ = , X=gastos, Y=ingresos

( )con las funciones del modo SD de la calculadora: 2632 4095,5Dd S= =

� 13396 €yD x dµ µ= + = � 3349000 €yD yDNτ µ= =ɵ

� ( ) �2 2

2 2( ) 50169875 € 2 ( ) 14166,14 €D DyD yD

N n S SV N N N n V

N n nτ τ−= = − = =ɵ ɵ

6. (Ejercicio 6, relación del tema 4) Una cadena de electrodomésticos está interesada en

estimar el total de ganancias por las ventas de televisores al final de un periodo de tres

meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese

mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €.

Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena

resultando los datos de la siguiente tabla:

Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600

Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza.

SOLUCIÓN:

N=123, n=5, 128200 €xτ = , X=del año anterior, Y=del año actual

( )con las funciones del modo SD de la calculadora:

5 52

1 1

5 52

1 1

882 4410 4495700

924 4620 4961400

i ii i

i ii i

x x x

y y y

= =

= =

= = =

= = =

∑ ∑

∑ ∑

i ix y

335500 561600 2400000 1050600 372000

5

1

4719700i ii

x y=

=∑

Page 80: Apuntes de Analisis Cuantitativo

80

1

1

1,047619

n

iin

ii

yy

rxx

=

=

= = =∑

134304,76 €y xrτ τ= =ɵ

( )5 5 5 5

22 2 2 2

1 1 1 1

1 12 1640,25

1 1r i i i i i ii i i i

S y rx y r x r x yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

� ( ) �2

( ) 4761314,071 2 ( ) 4364,09ry y

SV N N n V

nτ τ= − = =ɵ ɵ

( )129940,67 ,138668,85yτ ∈

7. (Como ejercicio 7, relación del tema 4) Una agencia de publicidad está interesada en el

efecto de una nueva campaña de promoción regional sobre las ventas totales de un

producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452

tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales

son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a

la nueva campaña.

Tienda Ventas antes de la campaña

Ventas actuales

1 208 239 2 400 428 3 440 472 4 259 276 5 351 363

Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño

de la muestra para estimar Yτ̂ con un límite para el error de estimación de 2.000€,

cuando se utiliza el estimador de razón.

SOLUCIÓN:

N=452, n’=5, X=ventas antes, Y=ventas actuales

( )con las funciones del modo SD de la calculadora:

5 52

1 1

5 52

1 1

331,6 1658 587146

355,6 1778 671034

i ii i

i ii i

x x x

y y y

= =

= =

= = =

= = =

∑ ∑

∑ ∑

5

15

1

1,072376i

i

ii

yy

rxx

=

=

= = =∑

i ix y

49712 171200 207680 71484 127413

5

1

627489i ii

x y=

=∑

Page 81: Apuntes de Analisis Cuantitativo

81

( )5 5 5 5

22 2 2 2

1 1 1 1

1 12 109,4775

' 1 ' 1r i i i i i ii i i i

S y rx y r x r x yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

2

24,8947

4

BD

N= = �

22 109,4775r rSσ = =

2

221,3 22r

r

Nn

ND

σσ

= = ≈+

Page 82: Apuntes de Analisis Cuantitativo

82

5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias

y periódicas.

5.4 Determinación del tamaño muestral.

5.1 Selección de una muestra sistemática. Usos. Ventajas.

En el muestreo aleatorio simple, la selección de los elementos se efectúa con total

aleatoriedad, todas las muestras posibles son igualmente probables y, para ello, se enumeran

los N elementos de la población y después se seleccionan al azar los n elementos que han de

formar la muestra. Esto, en general, complica el proceso de selección de la muestra.

En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una

muestra sistemática de “1 en k” es la que se extrae de la siguiente forma:

1. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k

elementos de la población.

2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de

tamaño n .

En general, k se toma como el número entero menor o igual que el cociente n

N:

n

Nk ≤

Nos podemos encontrar con las siguientes situaciones:

1. n

Nk = entero. Entonces se obtienen exactamente n observaciones.

Por ejemplo si 100=N y 5=n , entonces 20=k y aún tomando la ultima

observación del primer intervalo (20º), obtenemos 5 observaciones: 20º, 40º,…, 100º.

2. n

N no es entero. Veámoslo con un ejemplo.

Por ejemplo si 103=N y 5=n , entonces 6,20=n

N y tomamos 20=k . Según el

punto inicial nos podemos encontrar con estas situaciones:

a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos:

2º, 22º, 42º, 62º, 82º, ...

Page 83: Apuntes de Analisis Cuantitativo

83

Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Si no hay

problema de coste podríamos elegir también el 102º y la muestra sería de

tamaño 6.

b. Si se elige, por ejemplo, la observación 18º como la inicial obtendríamos una

muestra de tamaño 5:

18º, 38º, 58º, 78º, 98º

3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma

que se asegure el número mínimo deseado de elementos de la muestra. N se estima

por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será

mayor o igual de lo requerido.

Ventajas del muestreo sistemático frente al aleatorio simple:

• En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a

menos errores del encuestador. (En el m.a.s. se nos juntaría el trabajo si dos números

aleatorios fueran consecutivos o muy próximos).

Por ejemplo, sería difícil escoger una m.a.s. de 50 personas entre las que pasan por la

esquina de una calle, porque no se conoce el tamaño poblacional N hasta que no pasen

todas las personas; entonces seleccionaríamos n elementos al azar menores o iguales a N.

Pero sí sería fácil, por ejemplo, coger 1 de cada 20 personas que pasen hasta completar

la muestra ( 50=n )

• Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona

más información que el muestreo aleatorio simple. Esto se debe a que la muestra

sistemática se extiende uniformemente a lo largo de toda la población, mientras que en

el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se

concentre en una zona y descuide otras.

Por ejemplo, supongamos que en una fábrica los primeros 500 tubos de escape se

fabrican correctamente y los últimos 500 son defectuosos por un problema en la

maquinaria. Una muestra aleatoria simple podría seleccionar un gran número o incluso

todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El

muestreo sistemático, en cambio, selecciona el mismo número de tubos de ambos

grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un

orden en la población, el muestreo sistemático es mejor que el m.a.s.

Page 84: Apuntes de Analisis Cuantitativo

84

Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de

calidad dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de

apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en

movimiento.

5.2 Estimación de la media, proporción y el total poblacionales

• ESTIMADOR DE LA MEDIA POBLACIONAL: ( 1)1

n

sy i j kj

y yn

µ + −=

= = ∑

• VARIANZA ESTIMADA DE syy : ( )

−=N

nN

n

SyV sy

Comentarios.

- Si se desconoce el tamaño poblacional por su gran magnitud, entonces .1≅−N

nN

- Cuando N no es múltiplo exacto de n , el estimador es sesgado.

Como se puede observar la varianza estimada del estimador de la media es igual que en el

muestreo aleatorio simple (véase 5.3 Comparación con el muestreo aleatorio simple). Esto no

implica que las varianzas reales sean iguales:

( )1

2

−−=

N

nN

nyV

σ y ( ) ( )[ ]ρσ

112

−+= nn

yV sy

donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática.

El tamaño poblacional se desconoce en muchas situaciones prácticas, en las que se sugiere el

uso del muestreo sistemático. Cuando N es conocida, podemos estimar el total poblacional.

• ESTIMADOR DEL TOTAL POBLACIONAL: syyN=τ̂

• VARIANZA ESTIMADA DE τ̂ : ( ) ( )

−==N

nN

n

SNyVNV sy

222 ˆˆˆ τ

Ejemplo 5.1 (Ejercicio 3, relación tema 5)

Los funcionarios de un museo están interesados en el número total de personas que visitaron

el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo

en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los

Page 85: Apuntes de Analisis Cuantitativo

85

funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra

sistemática de 1 en 10 se resume en esta tabla

Día Nº personas que visitan el museo 3 160 13 350 23 225 ⋮ ⋮ 173 290

∑ ∑ === =

18

1

18

1

2 450.321.1;868.4i i

ii yy

Use estos datos para estimar el número total de personas que visitaron el museo durante el

periodo especificado. Establezca un límite para el error de estimación.

Solución

680.4818

868.4180ˆ === syyNτ visitantes

( )

( )

( )

22

2

2

S N nˆ ˆV Nn N

N 180

48681.321.450

nS 289,79

n 1ˆ ˆV 469.461,18

τ

τ

− =

↓ =

↓ = =

−=

B 1.370,34τ = �

Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son

análogas a las propiedades de la media muestral:

• ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: ( 1)1

1ˆ , 0,1

n

sy i j k ij

p y yn + −

=

= =∑

• VARIANZA ESTIMADA DE syp̂ : ( )

−−

=N

nN

n

qppV sysy

sy 1

ˆˆˆˆ

Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio

simple. Esto no quiere decir que las varianzas reales lo sean.

Ejemplo 5.2 (Ejercicio 2 (a), relación tema 5)

La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el

permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un

conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de

Page 86: Apuntes de Analisis Cuantitativo

86

conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga

que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo.

Automóvil Respuesta 1 1 8 1 15 0 ⋮ ⋮ 2794 1

∑ ==

400

1324

iiy

Solución

81,0400

324ˆ === sysy yp

( ) 0364,0B20,00033061800.2

400800.2

1400

)81,01(81,0

1

ˆˆˆˆ =⇒=

−−

−=

−−

=N

nN

n

qppV sysy

sy �

Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse

dentro de cada estrato en lugar del m.a. simple, aplicándose las fórmulas del m.a. estratificado

análogamente a como se han utilizado las del m.a. simple para aproximar el comportamiento

del muestreo sistemático.

5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y

periódicas

Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo

sistemático se puede suponer igual a la del m.a. simple.

Según las expresiones

( )1

2

−−=

N

nN

nyV

σ y ( ) ( )[ ]ρσ

112

−+= nn

yV sy

éstas serán similares cuando 11

N n

N

− ≅−

y 0ρ ≅ , pero en otros casos no.

Distinguimos los siguientes casos:

A. Población ordenada ( )0≤ρ

Una población es ordenada cuando los elementos que la constituyen están ordenados

de acuerdo con los valores, crecientes o decrecientes, de una determinada

característica. En este caso es preferible el uso del muestreo sistemático, ya que la

muestra se extiende uniformemente a lo largo de la población:

Page 87: Apuntes de Analisis Cuantitativo

87

( ) ( )yVyV sy ≤

Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor

cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza

menor que las de una muestra aleatoria simple (es posible que ésta última contenga

solo cantidades grandes o cantidades pequeñas).

Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemático

conseguimos una estimación conservadora del error (mayor que el error real que

cometemos en el m. sistemático).

B. Población aleatoria ( )0≅ρ

Se dice que una población es aleatoria cuando sus elementos están ordenados al azar.

En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo

sistemático ya que

( ) ( )yVyV sy ≅ .

Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus

calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen

del apellido del estudiante.

C. Población periódica ( )0≥ρ

Una población es periódica cuando los valores de la variable objeto de estudio tienen

una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que

( ) ( )yVyV sy > .

Por ejemplo:

a. Supongamos que tenemos una lista en la que los nombres de mujeres y

hombres se alternan. Una muestra sistemática con k par proporcionaría solo

una lista de mujeres o de hombres.

b. Ventas diarias de un supermercado con 7=k

Para evitar este problema, el investigador puede cambiar varias veces el punto de

inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y

comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del

m.a.s. en el m. sistemático estaría justificado.

Page 88: Apuntes de Analisis Cuantitativo

88

5.4 Determinación del tamaño muestral

El tamaño muestral requerido para estimar la media poblacional con un límite B para el error

de estimación se obtiene despejando el tamaño muestral de la ecuación:

( )2 syV y B=

Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones

del muestreo aleatorio simple. Lo anterior conduce a obtener muestras más grandes de las

necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas

(si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no

tendremos problemas.

Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación

2

2

)1( σσ

+−=

DN

Nn con

2

2

2

B para estimar la media

4D

B para estimar el total

4N

=

Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación

Npqn

(N 1)D pq=

− + con

2

2

2

B para estimar p

4D

B para estimar el total

4N

=

Ejemplo 5.3 (Ejercicio 2 (b), relación tema 5)

En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por

el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error

inferior al 2%.

Solución

� ɵ �0,81 1 0,19p q p= = − =

( )2 2

5.000 0,81 (1 0,81)1.176,97 1.177

0,02( 1) (5.000 1) 0,81 (1 0,81)4 4

Npqn automóviles

BN pq

× × −= = = ≅ − + − + × −

4,25N

kn

≤ =

Page 89: Apuntes de Analisis Cuantitativo

89

Si tomáramos k=5 5000

10005

n⇒ = = . Tomando k=4 5000

1250 11774

n⇒ = = ≥ . �

EJERCICIOS RESUELTOS

1. (Ejercicio 7, relación tema 5) La gerencia de una compañía privada con 2.000 empleados

está interesada en estimar la proporción de empleados que favorecen una nueva política de

inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del

edificio al final de un día de trabajo (las respuestas a favor se han representado como 1)

Empleado muestreado

Respuesta

3 1 13 0 23 1 ⋮ ⋮

1993 1 200

1

110ii

y=

=∑

Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando

la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué

tipo de muestra sistemática deberá obtenerse? (indique n y k).

SOLUCIÓN

� ɵ �2110 0,05

2.000 0,55 1 0,45 0,000625200 4

N p q p D= = = = − = = =

330,7 331 6,04 6( 1)

Npq Nn k k

N D pq n= = ≈ ≤ = ⇒ =

− +

2. (Ejercicio 8, relación tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por

cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000

€. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a

1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de

1 en k . Determine el valor de k.

SOLUCIÓN 2 2

22 2

21.000 1.000.0001.000 21.000 27.562.500 250.000

4 4 1.000N R Dσ= = ≅ = = =

×

2

299,39 100 10

( 1)

N Nn k

N D n

σσ

= = ≈ = =− +

Page 90: Apuntes de Analisis Cuantitativo

90

3. (Ejercicio 5 (a), relación tema 5) La tabla anexa muestra el número de nacimientos y la

tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años

seleccionados sistemáticamente.

Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9

Estime el número medio de varones nacidos por año para el periodo 1955-1980, y

establezca un límite para el error de estimación.

SOLUCIÓN

1

1 1ˆ 11.561.610 1.926.935

6

n

sy ii

y yn

µ=

= = = =∑

( )

( ) 957,854.860.693.ˆ

.871,2037.913.412

años 26

ˆ

2

2

=

=↓

=↓

−=

sy

sy

yV

S

N

N

nN

n

SyV

139.437,35B =

4. (Como ejercicio 1, relación tema 5) La sección de control de calidad de una empresa usa el

muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen

de una línea de producción. Los datos de la tabla adjunta representan una muestra

sistemática 1 en 300 de una producción diaria de 1800 latas.

Cantidad de llenado en cl

33 32,5 33,5 33 32 31

Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un

error de estimación inferior a 0,42 cl, considerando la muestra anterior como una muestra

previa para estimar los parámetros necesarios.

SOLUCIÓN:

N=1800, n’= 6,

( )con las funciones del modo SD de la calculadora: �2 2 2' 1 ' 10,8n nS Sσ− −= =

2

0,04414

BD = =

2

2

180017,97 18 100

( 1) 18

Nn k

N D

σσ

= = ≈ = =− +

Page 91: Apuntes de Analisis Cuantitativo

91

5. (Ejercicio 9, relación tema 5) Los funcionarios de cierta sociedad profesional desean

determinar la proporción de miembros que apoyan varias enmiendas propuestas en las

prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a

partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47

estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un

error de estimación inferior al 5%. Considerando la muestra anterior como una muestra

previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá

obtenerse? (indique n y k).

SOLUCIÓN:

N=650, n’=65, � ɵ470,7231 1 0,7231 0,2769

65p q= = = − =

2

0,05 0,0006254

BB D= = =

650214,8 215 3,02 3

( 1) 215

Npqn k k

N D pq= = ≈ ≤ = =

− +

Page 92: Apuntes de Analisis Cuantitativo

92

6. Muestreo por conglomerados. 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. 6.3 Estimación de la media, proporción y total poblacionales. 6.4 Determinación del tamaño muestral.

6.1 Necesidad y ventajas del muestreo por conglomerados.

Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo

es una colección (o conglomerado) de elementos.

El muestreo por conglomerados es útil para obtener información en las siguientes situaciones:

� Es complicado disponer de una lista de los elementos de la población, mientras que es

fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase =

elemento, aulas = conglomerados)

� El coste de obtención de las observaciones es menor debido al agrupamiento de los

elementos.

6.2 Formación de los conglomerados. Conglomerados y estratos.

Lo primero que debemos hacer es especificar los conglomerados apropiados. Si los elementos

dentro de un conglomerado presentan características similares, entonces tomar muchas

observaciones dentro de un conglomerado sería un trabajo no productivo. Sin embargo, si los

elementos de un conglomerado son diferentes entre sí, una muestra con pocos conglomerados

recogería gran cantidad de información sobre un parámetro poblacional.

Nótese que los estratos deben ser tan homogéneos como sea posible, pero un estrato debe

diferir tanto como se pueda de otro con respecto a la característica que está siendo medida.

Los conglomerados, por otro lado, deben ser tan heterogéneos dentro de ellos como sea

posible y un conglomerado debe ser muy similar a otro para que el muestreo por

conglomerados esté indicado.

Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de

conglomerados.

6.3 Estimación de la media, proporción y total poblacionales.

Vamos a utilizar la siguiente notación:

N = conglomerados en la población. n = conglomerados en la muestra.

Page 93: Apuntes de Analisis Cuantitativo

93

im = elementos en el conglomerado i

iy = suma de las observaciones en el conglomerado i

1

N

ii

M m=

= =∑� elementos en la población (con frecuencia es desconocido)

1

n

ii

m m=

= =∑� elementos en la muestra

1

1 N

ii

M mN =

= =∑� tamaño medio de los conglomerados de la población (con frecuencia es

desconocido).

1

1 n

ii

m mn =

= =∑� tamaño medio de los conglomerados de la muestra (se

utililza para estimar M .

(A) Estimación de la media.

El estimador de la media poblacional µ es la media y ,

� 1

1

1

1

n

ini

i ni

ii

yy y

mm

µ =

=

=

= = =∑

∑∑

La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y

toma la forma de la varianza de un estimador de razón.

�2

2

1( ) cSN n

V yN nM

−= donde ( )22

1

1

1

n

c i ii

S y ymn =

= −− ∑�

( M puede ser estimado por m , si se desconoce)

La varianza estimada es sesgada y sería un buen estimador de ( )V y si n es grande ( 20n ≥ ).

El sesgo desaparece cuando los tamaños de los conglomerados son iguales

( 1 2 ... Nm m m= = = )

Notas:

• La expresión de �2

2

1( ) cSN n

V yN nM

−= no se suele simplificar pues como ocurre en el

ejercicio 4, relación del tema 6, a veces N no se conoce y en otras ocasiones como en

este último ejemplo porque M es desconocido y M debe ser estimada por m .

Page 94: Apuntes de Analisis Cuantitativo

94

• Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción

poblacional p y de la proporción muestral �p . En este caso al número total de elementos

en el conglomerado i que poseen la característica de interés se nota como ia en lugar de

iy como es habitual en variables numéricas. Así tendremos que

� 1

1

n

iin

ii

ap y

m

=

=

= =∑

Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables

numéricas es válido para variables dicotómicas.

(B) Estimación del total.

De la relación entre la media y el total poblacional M

τµ = se sigue que Mτ µ= , siendo el

estimador del total poblacional τ

M yτ =ɵ

y la varianza estimada del mismo

� �2

2( ) ( ) ( ) cSV M V y N N n

nτ = = −ɵ

(sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque sí al valor

del estimador del total)

(C) Estimación del total cuando se desconoce el tamaño de la población.

Frecuentemente el número de elementos en la población no es conocido en problemas donde

se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del

total M yτ =ɵ , debemos construir un estimador del total que no dependa de M . La cantidad

1

1 n

iti

y yn =

= ∑ , es el promedio de los totales de los conglomerados de la muestra y por tanto un

estimador insesgado del promedio de los N totales de los conglomerados de la población. Por

el mismo razonamiento empleado en el muestreo aleatorio simple, tN y es un estimador

insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total

poblacional τ .

Page 95: Apuntes de Analisis Cuantitativo

95

En resumen

t tN yτ =ɵ

� �2

2( ) ( ) ( ) tt t

SV N V y N N n

nτ = = −ɵ

donde �2

( ) tt

SN nV y

N n

−= , ( )22

1

1

1

n

t i ti

S y yn =

= −− ∑�

Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños

están altamente correlacionados con los totales de los conglomerados, la varianza de tN y es

generalmente mayor que la varianza de M y . Esto es debido a que el estimador tN y no usa la

información proporcionada por los tamaños de los conglomerados y por ello puede ser menos

preciso.

Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden,

además el estimador de la media, y , es un estimador insesgado de la media poblacional, µ , y

también es insesgado el estimador de su varianza, �( )V y (lo mismo se extiende al total).

Ejemplo 6.1 (como ejercicio 13, relación tema 6, pero con menos datos) En una ciudad se

quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital,

para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una

muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en

contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla:

Manzana Nº hogares en la manzana Nº hogares interesados

1 8 2 2 7 2 3 9 3 4 6 3 5 5 3

a) Estime la proporción de hogares interesados en contratar el sistema de televisión

digital. Calcule el límite para el error de estimación.

b) Con un intervalo de confianza estime el número de hogares interesados en

contratar dicho sistema.

c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es

1500.

Page 96: Apuntes de Analisis Cuantitativo

96

SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la

notación ai en lugar de yi , utilizaremos esta última para unificar la notación a emplear en el

muestreo por conglomerados

im iy 2im 2

iy i im y

8 2 64 4 16 7 2 49 4 14 9 3 81 9 27 6 3 36 9 18 5 3 25 9 15

35 13 255 35 90

a) � �1

1

130,3714 37,14%

35

n

iin

ii

yp y p

m

=

=

= = = = =∑

( )2 22 2

1 1 1 1

2 3,3222n n n n

i i i i i ii i i i

y ym y y y m y m= = = =

− = − + =∑ ∑ ∑ ∑� � � �

2 2

1 1 1

35 255 90n n n

i i i ii i i

y m y m= = =

= = =∑ ∑ ∑� � �

( )22

1

1 3,32220,8306

1 4

n

c i ii

S y ymn =

= − = =− ∑�

Ya que M es desconocido, M debe ser estimada por m

1

1 357 /

5

n

ii

m m hogares manzanan =

= = =∑�

�2

2

1( ) 0,003305cSN n

V yN nm

−= = �2 ( ) 0,115 11,5%V y =

b) 1

1 132,6

5

n

iti

y yn =

= = =∑ 520t tN yτ = =ɵ

( )2

2 2

1 12 1

1

0,31 1

n nn

i ii ti ii

t

y yy yn

Sn n

= ==

−− = = =

− −

∑ ∑∑ � ��

�2( )

( ) 2.340tt

N N n SV

nτ −= =ɵ

�2 ( ) 96,75tV τ =ɵ ( )423,25 , 616,75

c)

557,14M yτ = =ɵ 1500

7,5200

M = = �2

2

1( ) 0,0028795cSN n

V yN nM

−= =

Page 97: Apuntes de Analisis Cuantitativo

97

� �2( ) ( ) 6478,8V M V yτ = =ɵ �2 ( ) 160,98V τ =ɵ ( )396,16 , 718,12

Como puede observarse, el límite para el error de estimación es más pequeño en b) que en c),

debido a que los tamaños de los conglomerados no están altamente correlacionados con los

totales de los conglomerados en este ejemplo (2 0,08myr = ). En otras palabras, los tamaños de

los conglomerados proporcionan poca información referente a los totales de los

conglomerados.

6.4 Determinación del tamaño muestral.

Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de

conglomerados n para conseguir un determinado límite para el error de estimación B

2

2c

c

Nn

ND

σσ

=+

donde 2cσ se estima mediante ( )2

2

1

1

1

n

c i ii

S y ymn =

= −− ∑� de una muestra previa, siendo

22

4

B MD = para la estimación de la media y

2

24

BD

N= para la estimación del total.

Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y

tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa.

Cuando se utiliza tN y para estimar el total, el número de conglomerados en la muestra para

obtener un determinado límite para el error de estimación B viene dado por

2

2t

t

Nn

ND

σσ

=+

2

24

BD

N= y 2

tσ se estima mediante ( )22

1

1

1

n

t i ti

S y yn =

= −− ∑� de una muestra previa (o a partir

de una estimación del rango de los valores de iy como �22

16t

Rσ = ).

Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cómo

debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un

límite para el error de estimación del 1%.

Page 98: Apuntes de Analisis Cuantitativo

98

SOLUCIÓN

2 0,8306cS = 1

1 357

5

n

ii

M m mn =

≅ = = =∑� 22 2 20,01 7

0,0012254 4

B MD

×= = =

2

2154,4 155c

c

Nn

ND

σσ

= = ≈+

EJERCICIOS RESUELTOS

1. (Ejercicio 6, relación tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio

de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se

selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se

tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se

entrevistaron a todas las familias, obteniéndose los siguientes resultados:

Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva

muestra si se quiere estimar los libros comprados cada mes con un error de estimación

inferior a 140 unidades.

SOLUCIÓN

im iy 2im 2

iy i im y

10 8

11 7

13 9

15 8

100 64

121 49

169 81

225 64

130 72

165 56

36 45 334 539 423

21

2

1

6.200 700 1,25 0,014

n

iin

ii

yB

M N y DNm

=

=

= = = = = =∑

( )2

22 2 2 2

1 1 1 1

1 12 1,125

1 1

n n n n

c c i i i i i ii i i i

S y ym y y m y m yn n

σ= = = =

≅ = − = + − = − − ∑ ∑ ∑ ∑

2

296,92 97c

c

Nn

ND

σσ

= = ≈+

manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3

Page 99: Apuntes de Analisis Cuantitativo

99

2. (Ejercicio 2, relación tema 6 pero con menos datos) Una industria está considerando la

revisión de su política de jubilación y quiere estimar la proporción de empleados que

apoyan la nueva política. La industria consta de 57 plantas. Se selecciona una muestra

aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas

a través de un cuestionario. Los resultados se presentan en esta tabla:

Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63

a. Estime la proporción de empleados en la industria que apoyan la nueva política de

jubilación y establezca un límite para el error de estimación.

b. La industria modificó su política de jubilación después de obtener los resultados de la

encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política

modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el

error de estimación? Use los datos anteriores para aproximar los resultados de la nueva

encuesta.

SOLUCIÓN: a) 57 5N n= =

im iy 2im 2

iy i im y

51 62 49 73 101

42 53 40 45 63

2601 3844 2401 5329 10201

1764 2809 1600 2025 3969

2142 3286 1960 3285 6363

336 243 24376 12167 17036

� �1

1

2430,7232 72,32%

336

n

iin

ii

yp p

m

=

=

= = = ⇒ =∑

�( ) � �2 2

2 2 2

1 1 1 1

1 12 68,7

1 1

n n n n

c i i i i i ii i i i

S y pm y p y m p mn n= = = =

= − = − + = − − ∑ ∑ ∑ ∑� � � �

22 2 336

4515,845

M m ≈ = =

� �2

2

1( ) 0,00278cSN n

V pN nM

−= = � �2 ( ) 0,1054 10,54%V p = ⇒

b) 22 2

2 20,05 4515,842,8224

4 4 c c

B MD Sσ×= = = ≈

2

217,06 18c

c

Nn

ND

σσ

= = ≈+

Page 100: Apuntes de Analisis Cuantitativo

100

3. (Ejercicio 7, relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en

cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta

razón para el diseño de la encuesta utiliza muestreo por conglomerados. Se divide la

ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser

considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El

investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25

conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan

aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos:

Conglomerado (i) Nº de residentes (mi) Ingreso total por

conglomerado en € (yi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8

96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000

151 residentes 1329000 €

a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de

estimación.

b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de

estimación, suponiendo que M es desconocido.

c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los

residentes de la ciudad mediante un intervalo de confianza.

Page 101: Apuntes de Analisis Cuantitativo

101

NOTA: Repetir este ejemplo con todos los im iguales (por ejemplo, 6im i= ∀ ,

supongamos conocido 6 415 2.490M = × = ) y estime el total por los dos métodos

estudiados ( )t tM y N yτ τ= =ɵ ɵ . Observe como coinciden las dos estimaciones así como

la varianza del estimador y el límite para el error de estimación.

d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en

una encuesta futura para estimar el ingreso promedio por persona con un límite para el

error de estimación de 500€.

SOLUCIÓN:

a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta

por la dificultad de trabajar con cantidades muy grandes)

� 1

1

1.329.0008.801,32 € /

151

n

iin

ii

yy residente

mµ =

=

= = = =∑

( )2 22 2

1 1 1 1

2n n n n

i i i i i ii i i i

y ym y y y m y m= = = =

− = − +∑ ∑ ∑ ∑� � � �

2 2

1

96.000 ... 82.039.000.000n

ii

y=

= + =∑�

2 2

1

8 ... 1.047n

ii

m=

= + =∑�

( )1

96.000 8 ... 8.403.000n

i ii

y m=

= × + =∑�

( )22

1

1 15.227.502.247634.501.213,40

1 24

n

c i ii

S y ymn =

= − = =− ∑�

Ya que M es desconocido, M debe ser estimada por m

1

1 1516,04 /

25

n

ii

m m residente bloquen =

= = =∑�

�2

2

1( ) 653.785,19cSN n

V yN nM

−= = �2 ( ) 1.617,14€V y =

b)

1

1 1.329.00053160 € /

25

n

iti

y y bloquen =

= = =∑ 22.061.400 €t tN yτ = =ɵ

Page 102: Apuntes de Analisis Cuantitativo

102

( )2

22 2

1 1 1

1 182.039.000.000 (1.329.000) 11.389.360.000

25

n n n

i i iti i i

y y y yn= = =

− = − = − =

∑ ∑ ∑� � �

�( )2

1( )( ) 3.072.279.860.000

1

n

i ti

t

y yN N n

Vn n

τ =

−−= =

∑ɵ

�2 ( ) 3.505.584,04 €tV τ =ɵ

c)

2500415 25 6,0241

415N n M= = = = 22.003.311,26€M yτ = =ɵ

�2

22

1634.501.213,40 ( ) 657.240,9482c

c

SN nS V y

N nM

−= = =

� �2( ) ( ) 4.107.755.926.250V M V yτ = =ɵ �2 ( ) 4.053.519,92V τ =ɵ

( )17.949.791,34€ , 26.056.831,18€

Como puede observarse el límite para el error de estimación es más pequeño en b) que en

c) debido a que los tamaños de los conglomerados no están altamente correlacionados con

los totales de los conglomerados en este ejemplo (2 0,0919myr = ). En otras palabras, los

tamaños de los conglomerados proporcionan poca información referente a los totales de

los conglomerados.

d)

2 634.501.213,40cS = 22 2 2500 6,04

2.280.1004 4

B MD

×= = =

2

2166,58 167c

c

Nn

ND

σσ

= = ≈+

4. (Ejercicio 10, relación tema 6) Una empresa de trabajo temporal quiere investigar las

necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una

muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último

año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los

servicios de la empresa de trabajo temporal fueron los siguientes:

Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si

Page 103: Apuntes de Analisis Cuantitativo

103

(a) Estime el número de bajas en el último año en las empresas del pueblo. Dé el límite

del error de estimación.

(b) Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del

error de estimación.

SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde

no se conoce el número total de empleados para toda la población, por tanto para estimar

el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales

las empresas.

iy ( )2

i ty y−

1 2 9 0 2 0 1 0 4 6

2.25 0.25 42.25 6.25 0.25 6.25 2.25 6.25 2.25 12.25

25 80.5 25

2.5 /10ty bajas empresa= = 85 2.5 212.5t bajasτ = × =ɵ

� � �2 280.5 85 10 8.948.94 ( ) 0.7892157 ( ) 85 ( ) 5702.08

9 85 10tt t tS V y V V yτ− = = ⇒ = = ⇒ = =

⌢⌢

ɵ

2 5702.08 151.024B bajasτ = =

b)

� 40.40 (40%)

10p = =

� � 85 10 0.4 0.6( ) 0.02353

85 10 1V p

− ×= =−

2 0.02353 0.3068 (30.68%)B = =

5. (Como ejercicio 3, relación tema 6) Se diseña una encuesta económica para estimar la

cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares.

Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los

entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados;

los gastos totales se muestran en esta tabla:

Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430

Page 104: Apuntes de Analisis Cuantitativo

104

Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el

error de estimación.

SOLUCIÓN:

i im y

121550 143400 153090

1

418040n

i ii

m y=

=∑

2

1 1

2

1 1

360060 3 60 178 10594

60

7030 16501100

n n

i ii i

n n

i ii i

N n M m m

y y

= =

= =

= = = = = =

= =

∑ ∑

∑ ∑

� 1

1

39,49 €

n

iin

ii

yy

mµ =

=

= = =∑

( )2 22 2 2

1 1 1 1

1 12 2612,04

1 1

n n n n

c i i i i i ii i i i

S y ym y y m y m yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

� �2

2

1( ) 0,23 2 ( ) 0,96 €cN n S

V y V yN nM

−= = =

6. (Como ejercicio 4, relación del tema 6) En un proceso de control del volumen envasado

por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno

de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las

observaciones se presentan en la tabla adjunta:

Paquete nº Volumen envasado en cl

1 33,5 32,5 31 34 2 32,5 32 33 32,5 3 30,5 33 33 33,5

Estime el volumen medio de los envases y la cota del error de estimación.

SOLUCIÓN:

N=40, n=3,

( )con las funciones del modo SD de la calculadora:

3 32

1 1

4 12 48i ii i

M m m m= =

= = = =∑ ∑

im iy i im y

4 4 4

131 130 130

524 520 520

3

1

1564i ii

m y=

=∑

Page 105: Apuntes de Analisis Cuantitativo

105

3 32

1 1

130,33 391 50961i iti i

y y y= =

= = =∑ ∑

3

13

1

32,5833i

i t

ii

yy

y clmm

µ =

=

= = = =∑

( )3 3 3 32 22 2 2

1 1 1 1

1 12 0,3333

1 1c i i i i i ii i i i

S y ym y y m y m yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

� �2

2

1( ) 0,006423 2 ( ) 0,1603cSN n

V y V y clN nM

−= = =

7. (Como ejercicio 1, relación del tema 6) Un fabricante de sierras quiere estimar el coste

medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El

fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la

cantidad total gastada en reparación y el número de sierras que tiene cada industria.

Entonces decide usar muestreo por conglomerados, con cada industria como un

conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100

industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y

el número de sierras son:

Industria Nº sierras Costo total de reparación para el mes pasado (€)

1 3 50 2 7 110 3 11 230 4 9 140 5 2 60

Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error

de estimación.

SOLUCIÓN: N=100, n=5,

( )con las funciones del modo SD de la calculadora:

� 2

1 1

6,4 32 264n n

i ii i

M m m m= =

= = = =∑ ∑

i im y

150 770 2530 1260 120

1

4830n

i ii

m y=

=∑

Page 106: Apuntes de Analisis Cuantitativo

106

2

1 1

118 590 90700n n

i iti i

y y y= =

= = =∑ ∑

5

15

1

18,4375 €i

i t

ii

yy

ymm

µ =

=

= = = =∑

( )2 22 2 2

1 1 1 1

1 12 584,57

1 1

n n n n

c i i i i i ii i i i

S y ym y y m y m yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

� �2

2

1( ) 2,7116 2 ( ) 3,2934 €cSN n

V y V yN nM

−= = =

8. (Como ejercicio 5, relación del tema 6) Un periódico quiere estimar la proporción de

votantes que apoyan a cierto candidato A, en una elección estatal. Ya que la selección y

entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se

utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una

muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El periódico quiere

hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de

los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada

distrito en la muestra, para obtener la información pertinente directamente de los votantes.

Los resultados se muestran en esta tabla:

Nº votantes Nº votantes A 1290 680 1170 631 840 475

1620 935 1381 472

Estime la proporción de votantes que apoyan al candidato A y el límite para el error de

estimación.

SOLUCIÓN:

N=495, n=5,

i im y

877200 738270 399000 1514700 651832

1

4181002n

i ii

m y=

=∑

Page 107: Apuntes de Analisis Cuantitativo

107

( )con las funciones del modo SD de la calculadora:

� 2

1 1

2

1 1

1260,2 6301 8270161

638,6 3193 2183195

n n

i ii i

n n

i iti i

M m m m

y y y

= =

= =

= = = =

= = =

∑ ∑

∑ ∑

� � ( )

5

15

1

0,506745 50,67%i

i t

ii

yy

pmm

µ =

=

= = = =∑

( )2 22 2 2

1 1 1 1

1 12 17372,505

1 1

n n n n

c i i i i i ii i i i

S y ym y y m y m yn n= = = =

= − = + − = − − ∑ ∑ ∑ ∑

� � � ( )2

2

1( ) 0,00216573 2 ( ) 0,0930748 9,31%cSN n

V p V yN nM

−= = =

Page 108: Apuntes de Analisis Cuantitativo

108

7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros.

7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados.

7.1 Estimación del tamaño de la población usando muestreo directo

En el muestreo directo se realizan los siguientes pasos:

1. Se selecciona una muestra aleatoria de tamaño t , se marcan y se devuelven a la

población.

2. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de

antemano) de la misma población y se observa cuántos de ellos están marcados

( s=número de elementos marcados en esta 2ª muestra)

Sea p = proporción de elementos marcados en la población, N

tp = ,

p

tN = , pero p es

desconocido. Entonces estimamos p mediante la proporción muestral:

n

sp =ˆ = proporción de elementos marcados en la 2ª muestra

Por tanto,

• ESTIMADOR DE N : s

nt

ns

t

p

tN ===

/ˆˆ

==aleatoria

constantes ,

s

tn

• VARIANZA ESTIMADA DE N̂ : ( )3

2 )(ˆˆs

snntNV

−=

Comentarios

� s= número de elementos marcados en la 2ª muestra, ha de ser mayor que 0 para que

las fórmulas estén bien definidas. Si en la segunda muestra no aparece ningún

elemento marcado, se aumenta el tamaño muestral.

� N̂ no es un estimador insesgado de N :

[ ] Nnt

tNNNNE ≠−+= )(ˆ

Cuanto mayor sean n y t menor será el sesgo ( )N t

Nnt

−.

Page 109: Apuntes de Analisis Cuantitativo

109

� N̂ tiende a sobreestimar el valor real de N .

Ejemplo 7.1 (Ejercicio 1, relación tema 7)

Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un

periodo de varios días se atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese

que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado que ya hubiera

sido marcado se devolvía inmediatamente. Varias semanas después se atrapó una muestra de

120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27

en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de

error de estimación.

Solución

120 100ˆ 444,427

ntN

s

×= = =

( )2 2

3 3

( ) 100 120(120 27)ˆ ˆ 5.669,8727

t n n sV N

s

− × −= = =

( )ˆ ˆ2 150,60B V N= = �

7.2 Estimación del tamaño de la población usando muestreo inverso

La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está

fijado (es aleatorio), lo que se fija es s= número de elementos marcados en la segunda

muestra.

Los pasos para realizar este método son:

1. Se selecciona una muestra inicial de t elementos, se marcan y se devuelven a la

población.

2. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos

marcados (sea n el tamaño final de dicha muestra).

• ESTIMADOR DE N : s

nt

ns

t

p

tN ===

/ˆˆ

==aleatoria

constantes ,

n

st

• VARIANZA ESTIMADA DE N̂ : ( ))1(

)(ˆˆ2

2

+−=

ss

snntNV

Comentario. N̂ es un estimador insesgado de N , por ello, si se pueden aplicar ambos tipos

de muestreo se prefiere el inverso.

Page 110: Apuntes de Analisis Cuantitativo

110

Ejemplo 7.2 (Ejercicio 5, relación tema 7)

Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área

geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una

muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y

liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta

que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas.

Estime el tamaño total de la población de tortugas y establezca un límite de error de

estimación.

Solución

160 100ˆ 1.066,6715

ntN

s

×= = =

( )2 2

2 2

( ) 100 160(160 15)ˆ ˆ 64.444,44( 1) 15 (15 1)

t n n sV N

s s

− × −= = =+ +

( )ˆ ˆ2 507,72B V N= = �

7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por

cuadros

Con este método se estudia el tamaño de la población contenida en un área delimitada A

conocida. Los pasos a seguir son:

1. Dividir a la población en N cuadros de igual área a . Sea

im = número de elementos en el cuadro i -ésimo

2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total

de elementos que contiene la muestra:

∑=

=n

iimm

1

3. Calcular la densidad de elementos en la muestra (densidad muestral):

na

m==muestra la de área

muestra laen elementos nºλ̂

4. La densidad poblacional es

nº elementos en la población

área de la población

M M

Na Aλ = = =

entonces λAM = . Por tanto:

• ESTIMADOR DE LA DENSIDAD: na

m=λ̂

Page 111: Apuntes de Analisis Cuantitativo

111

• VARIANZA ESTIMADA DE λ̂ : nana

mV

1ˆ)ˆ(ˆ22

λλ ==

• ESTIMADOR DEL TAMAÑO POBLACIONAL: ˆˆ m NmM A A

na nλ= = =

• VARIANZA ESTIMADA DE M̂ : 2 2

22 2 2

ˆˆ ˆ ˆ( ) ( )A m N m

V M A Va n n

λ= = =

Ejemplo 7.3 (Ejercicio 3, práctica 7)

La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en

torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede

conocer la cuantía de medios materiales y humanos (policía, protección civil, personal

sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de

aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza

sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada

uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por

último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados,

obteniéndose los resultados de la tabla:

Nº del cuadro Número de aficionados

en el cuadro Nº del cuadro

Número de aficionados

en el cuadro

1

2

3

4

5

6

7

8

9

10

193

216

250

163

209

195

232

174

215

198

11

12

13

14

15

16

17

18

19

20

160

220

163

306

319

289

205

210

209

198

a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo

de confianza.

b) Estime el número total de aficionados concentrados en la plaza de Neptuno y

obtenga su intervalo de confianza.

Page 112: Apuntes de Analisis Cuantitativo

112

Solución:

a) 10 10 100a = × = 4324ˆ 2,162

20 100

m

naλ = = =

×

ˆ 2,162ˆˆ( ) 0,001081 2 0,001081 0,0662000

V Bna

λλ = = = ⇒ = =

ɵ 22,162 (2,096 , 2,228)aficionados mλ =

b) 2300 100 30.000A m= × =

ˆˆ 30.000 2,162 64.860M A aficionadosλ= = × = 30.000 0,066 1.980B ABλ= = × =

(62.880 , 66.840) �

7.3.2 Muestreo en el espacio temporal

En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo

con un ejemplo.

Ejemplo 7.4 (Ejercicio 7, relación tema 7)

Se desea estimar el número total de personas que diariamente solicitan información en una

oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de

5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la

oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del

error de estimación.

Solución

8=A horas= 480 minutos n=12 intervalos =a 5 minutos m=114 personas

ɵ 1141,9 /

5 12personas minutoλ = =

× ˆ 912

mM A personas

na= =

2

2 2ˆ ˆ( ) 7.296 170,8

A mV M B

a n= = ⇒ = �

7.3.3 Cuadros cargados

En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza

cuando después de hecha la división son muchos los cuadros que no contienen elementos y

otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy

pequeña.

Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en

cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos

un elemento objeto de estudio.

Page 113: Apuntes de Analisis Cuantitativo

113

Los pasos a seguir son:

1. Se divide a la población en N cuadros de igual área a .

2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total

de cuadros no cargados de la muestra, a este número de cuadros sin presencia de

elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero

ni n ( ny <<0 ). Si una vez observada la muestra 0=y ó ny = , ampliaremos el

tamaño muestral

3. La densidad poblacional se estima como

1ˆ lna

y

nλ = −

y su varianza como

ny

yn

aV

−=2

1)ˆ(ˆ λ

Dado que λAM = obtenemos

• ESTIMADOR DEL TAMAÑO POBLACIONAL:

−==n

y

a

AAM lnˆˆ λ

• VARIANZA ESTIMADA DE M̂ : ny

yn

a

AMV

−=2

2

)ˆ(ˆ

Ejemplo 7.5 (Ejercicio 4, práctica 7)

Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo,

circulan por un determinado punto kilométrico de una carretera. La observación se realiza

mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio.

En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en

cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las

24 horas. Dar un límite de error de estimación.

Solución

=A 24-6=18 horas=1.080 minutos n = 40 intervalos a=10 minutos

y =18 intervalos sin autobuses 1.080 18ˆ ln ln 86,24

10 40

A yM

a n = − = − =

�2 2

2 2

1.080 40 18ˆ( ) 356,4 37,810 40 18

A n yV M B

a ny

− −= = = ⇒ =⋅

Page 114: Apuntes de Analisis Cuantitativo

114

EJERCICIOS RESUELTOS

1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la

densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros

de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles

infectados por cuadro.

a) Estime la densidad de árboles infectados y establezca un límite de error de

estimación.

b) Estime el total de árboles infectados en los 200 acres de la plantación y

establezca un límite de error de estimación.

SOLUCIÓN:

a) 2,8 10ˆ 5,6 . /10 0,5

marb infectados acre

naλ ×= = =

×;

1 1ˆ ˆˆ( ) 5,6 1,12 2,110 0,5

V Bna

λ λ= = = ⇒ =×

b) ˆˆ 200 5,6 1.120;M Aλ= = × = 200 2,1 423,32B ABλ= = × =

2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un

modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real.

Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de

duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes

resultados:

Control Número de vehículos de ese modelo que usan el

aparcamiento 1 0 2 1 3 2 4 0 5 3

Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.

Dé el límite del error de estimación.

SOLUCIÓN:

ɵ6720 1 5 . 0 1 2 0 3 6 . 1.2 1.2 ./

5

mA h a h n contr m veh m veh h

aλ= = = = + + + + = = = = =

� ɵ 1.2 720 864 .M A vehλ= = × =

Page 115: Apuntes de Analisis Cuantitativo

115

� �( ) ɵ2124416

AV M

an

λ= = 2 124416 705.45 .B veh= =

3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en

abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta

inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M.

conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de

clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos

periodos de igual duración, obteniendo los datos de la siguiente tabla

clientes 10:00-10:30 14:00-14:30 18:00-18:30 22:00-22:30 02:00-02:30 06:00-06:30

15 13 18 8 2 4

Estime el número de clientes diarios de la farmacia observada y el correspondiente límite

para el error de estimación.

SOLUCIÓN :

24 0.5 48 6 60 10A h a h N n m m= = = = = =

� ɵ 480m

M A A clientesa

λ= = = � �( ) ɵ� �( )

2 2

23840 2 123,94

A A mV M V M clientes

an a n

λ= = = =

4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en

conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo

campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por

40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que

el número de personas era 1.100.

Estime el número total de asistentes y el límite para el error de estimación.

SOLUCIÓN:

4000 40 100 20 1100 55A a N n m m= = = = = =

� ɵ 5500m

M A Aa

λ= = = � �( ) ɵ� �( )

2 2

227500 2 331,66

A A mV M V M

an a n

λ= = = =

5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos

que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una

conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la

Page 116: Apuntes de Analisis Cuantitativo

116

Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide

contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue

necesario contar hasta 382 alumnos.

Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la

Facultad.

SOLUCIÓN : muestreo inverso

500 382 100t n s= = =

��

1910t nt

N alumnossp

= = =

� �( ) � �( )2

2

( )26664,35643 2 326,58

( 1)

t n n sV N V N alumnos

s s

−= = =+

( )1910 326,58∓

Page 117: Apuntes de Analisis Cuantitativo

117

8. Análisis cluster. 8.1 Introducción. 8.2 Medidas de similaridad.

8.2.1 Medidas de similaridad para variables métricas 8.2.2 Medidas de similaridad para datos binarios

8.3 Estandarización de datos. 8.4 Formación de grupos: Clusters jerárquicos y clusters no jerárquicos.

8.4.1 Clusters jerárquicos. 8.4.2 Clusters no jerárquicos.

8.5 Elección entre los distintos tipos de análisis cluster.

8.1 Introducción

Supongamos que el responsable de marketing de una empresa tiene una base de datos con las

características sociodemográficas de sus clientes: edad, nivel educativo, nivel de ingresos,

estado civil, tipo de ocupación, número de hijos, etc. Este directivo se plantea si puede dividir

a sus clientes en subgrupos con características sociodemográficas similares entre sí, pero lo

más diferente posible unos subgrupos de otros. Si esto fuera así, el directivo podría, por

ejemplo, diseñar campañas de publicidad distintas para cada grupo, con creatividades

diferentes.□

El término análisis cluster se utiliza para definir una serie de técnicas que tienen por objeto la

búsqueda de grupos similares de individuos o de variables. Dada una muestra de individuos,

de cada uno de los cuales se dispone de una serie de observaciones, el análisis cluster sirve

para clasificarlos en grupos de tal forma que:

o Cada grupo (cluster o conglomerado) sea lo más homogéneo posible en base a las

variables observadas, es decir, cada observación contenida en él sea parecida a todas

las que estén incluidas en ese grupo.

o Los grupos sean lo más distintos posible unos de otros respecto a las variables

consideradas.

Los grupos no son conocidos de antemano pero serán sugeridos por la propia esencia de los

datos (a partir de las observaciones).

Además de encontrar agrupaciones “naturales” entre los elementos de la muestra, el análisis

cluster es útil para reducir la información e, incluso, si el análisis genera agrupaciones

inesperadas, nos puede sugerir nuevas relaciones a investigar entre los elementos.

Page 118: Apuntes de Analisis Cuantitativo

118

Inicialmente, el investigador dispone de n observaciones (individuos, empresas, etc.) de los

que tiene información sobre k variables (edad, estado civil, etc.). Los pasos lógicos que se

efectúan al realizar un análisis cluster son:

1. Establecer un indicador que nos diga en que medida cada par de observaciones se

parecen entre sí. A esta medida se le denomina distancia o similaridad.

2. El siguiente paso consiste en crear grupos, de forma que cada grupo contenga aquellas

observaciones que más se parezcan entre sí, de acuerdo con la medida de similaridad

calculada antes.

3. Finalmente, el investigador debe describir los grupos que ha obtenido y compararlos

unos con otros. Para ello es útil ver qué valores promedio toman las variables

utilizadas en cada uno de los grupos creados.

La única información requerida en el análisis cluster es una medida cuantitativa con la que se

pueda medir la asociación o similitud entre elementos.

Para llevar a cabo el paso 2, existen dos tipos de técnicas para realizar este análisis:

� Técnicas jerárquicas. Configuran grupos con estructura arborescente, de forma

que clusters de niveles más bajos van siendo englobados en otros niveles

superiores.

� Técnicas no jerárquicas. Asignan los casos a un número de grupos que se fijan

inicialmente.

A su vez, en cada técnica se pueden utilizar distintos métodos de agrupación.

8.2 Medidas de similaridad

Ejemplo 8.1 (Ejercicio 1, Relación Tema 8)

Un investigador tiene información sobre el presupuesto que un conjunto de empresas ha

destinado a publicidad en el último año y de las ventas que han logrado en ese mismo

ejercicio:

Nombre Empresa Inversión en publicidad Ventas E1 16 10 E2 12 14 E3 10 22 E4 12 25 E5 45 10 E6 50 15 E7 45 25 E8 50 27

Estudie si estas empresas pueden agruparse en función de la rentabilidad en términos de

ventas que han sido capaces de generar con su inversión publicitaria.

Page 119: Apuntes de Analisis Cuantitativo

119

Solución

La siguiente figura ilustra gráficamente los datos anteriores

10 20 30 40 50

Inversion

10,00

15,00

20,00

25,00

30,00

Ven

tas

E1

E2

E3

E4

E5

E6

E7

E8

Al haber utilizado solo dos variables se pueden distinguir de forma clara cuatro grupos de

empresa:

o Grupo E1-E2: Con una pequeña inversión han obtenido pocas ventas

o Grupo E3-E4: Pese haber invertido tan poco como las empresas anteriores, han

obtenido una gran rentabilidad, en términos de ventas, a estas inversiones.

o Grupo E5-E6: Pese a haber realizado un gran esfuerzo publicitario no han sido capaz

de obtener unas ventas razonables.

o Grupo E7-E8: Con inversiones elevadas han rentabilizado su inversión en términos de

ventas.□

¿Cómo se han obtenido los grupos anteriores? De forma intuitiva hemos visto que la empresa

E1 está a una distancia menor de E2 que de E3 o de cualquiera de las empresas restantes, y las

hemos puesto en el mismo grupo. De manera análoga hemos procedido con las demás

empresas. Pero ¿qué hubiera ocurrido si en vez de tener dos variables tuviésemos 5 o 50? En

estos casos, debemos formalizar la expresión “más cerca” y traducirla en alguna medida de

proximidad o similaridad entre cada par de observaciones. En función del tipo de variables

que se utilicen, las medidas adecuadas serán diferentes.

Page 120: Apuntes de Analisis Cuantitativo

120

8.2.1 Medidas de similaridad para variables métricas

En el caso en que las variables que se utilicen para caracterizar las observaciones sean

métricas se pueden utilizar algunas de las siguientes medidas.

(A) Distancia euclídea

Si consideramos dos observaciones i y j de las n posibles y si llamamos ipx y jpx al valor

que toma la variable px de las k existentes, la distancia euclídea entre ambas se calcula del

siguiente modo:

( )2

1

k

ij ip jpp

D x x=

= −∑

Ejemplo 8.2 (continuando con los datos del ejemplo 8.1)

La distancia euclídea entre E1 y E2 toma el siguiente valor:

( ) ( )2 2

12 16 12 10 14 5,66D = − + − =

El programa SPSS calcula las distancias entre todos los pares de observaciones como paso

inicial del análisis cluster:

Matriz de distancias euclideas

Caso

distancia euclídea

1:E1 2:E2 3:E3 4:E4 5:E5 6:E6 7:E7 8:E8 1:E1 ,00 5,66 13,42 15,52 29,00 34,37 32,65 38,01 2:E2 5,66 ,00 8,25 11,00 33,24 38,01 34,79 40,16 3:E3 13,42 8,25 ,00 3,61 37,00 40,61 35,13 40,31 4:E4 15,52 11,00 3,61 ,00 36,25 39,29 33,00 38,05 5:E5 29,00 33,24 37,00 36,25 ,00 7,07 15,00 17,72 6:E6 34,37 38,01 40,61 39,29 7,07 ,00 11,18 12,00 7:E7 32,65 34,79 35,13 33,00 15,00 11,18 ,00 5,39 8:E8 38,01 40,16 40,31 38,05 17,72 12,00 5,39 ,00

Esta es una matriz de disimilaridades

(B) Distancia euclídea al cuadrado

El cálculo de la raíz cuadrada al que obliga la aplicación de la distancia euclídea puede ser

demasiado exigente en términos de capacidad de computo del ordenador. Una forma de

reducir los cálculos consiste en tomar como medida de similaridad el cuadrado de la distancia

euclídea:

( )2

1

k

ij ip jpp

D x x=

= −∑

Page 121: Apuntes de Analisis Cuantitativo

121

(C) Distancia de Minskowski

La distancia euclídea es un caso particular de la distancia de Minskowski:

1

1

k nn

ij ip jpp

D x x=

= − ∑

Tomando 2n = se obtiene la distancia euclídea.

8.2.2 Medidas de similaridad para datos binarios

En algunas ocasiones, las variables utilizadas son dicotómicas, tomando valores 0 y 1.

Ejemplo 8.3

Consideremos una base de datos formada por 5 observaciones de 4 variables dicotómicas:

Observaciones Variables X1 X2 X3 X4

E1 1 1 0 0 E2 0 1 1 1 E3 1 1 0 1 E4 0 0 0 1 E5 1 1 1 0

Para calcular las medidas de similaridad se construye en primer lugar una matriz 2×2 para

cada par de observaciones. En ella se recogen las coincidencias y las divergencias entre las

distintas variables correspondientes a las dos observaciones comparadas. Por ejemplo, para las

observaciones E1 y E2:

E1 1 0

E2 1 1 2 0 1 0

E1 1 0

E2 1 a b 0 c d

Dado que la observación E1 presenta un 1 a la vez que E2 en una sola ocasión (para la

variable X2), la celda a que recoge este hecho aparece como 1. Como para las variables X3 y

X4 el atributo está presente en E2 y ausente en E1, en la casilla b aparece un 2.

Análogamente se calculan c y d . De este modo calcula el SPSS distintas medidas de

similitud.□

Page 122: Apuntes de Analisis Cuantitativo

122

Las medidas de similitud más utilizadas, para dos observaciones i y j cualquiera, son las

siguientes:

(A) Distancia euclídea al cuadrado

ijD b c= +

(B) Distancia euclídea

ijD b c= +

(C) Diferencia de tamaño

( )( )

2

2ij

b cD

a b c d

−=

+ + +

Ejemplo 8.4

Con los datos del ejemplo 8.3, calculamos la distancia “diferencia de tamaño” entre las

observaciones E1 y E2:

( )( )

2

12 2

2 10,0625

1 2 1 0D

−= =

+ + +

La salida del SPSS para un análisis cluster que utiliza como distancia la diferencia de tamaño

es la siguiente:

Matriz de distancias

Caso

diferencia de tamaño

1:E1 2:E2 3:E3 4:E4 5:E5 1:E1 ,000 ,063 ,063 ,063 ,063 2:E2 ,063 ,000 ,000 ,250 ,000 3:E3 ,063 ,000 ,000 ,250 ,000 4:E4 ,063 ,250 ,250 ,000 ,250 5:E5 ,063 ,000 ,000 ,250 ,000

Esta es una matriz de disimilaridades□ 8.3 Estandarización de los datos

Si se analizan las medidas de distancia presentadas en la pregunta anterior, se puede

comprobar que todas ellas están basadas en la sustracción, para cada par de observaciones, de

los valores de las variables utilizadas en su caracterización. Por ello, se puede esperar que las

medidas de similaridad sean muy sensibles a las unidades en que estén medidas dichas

variables. Si pretendemos agrupar empresas en función de dos variables como el tamaño de su

activo y el número de trabajadores, la primera variable contribuirá mucho más a establecer los

Page 123: Apuntes de Analisis Cuantitativo

123

grupos que la segunda. Y esto no se debe a que, conceptualmente, una es mucho más

importante que la otra, sino a que, con esas unidades, su valor absoluto será siempre muy

superior.

Ejemplo 8.5

En el siguiente cuadro se recoge el tamaño de los activos y el número de trabajadores de 8

empresas:

Nombre Empresa Activos Trabajadores E1 10.000.000.000 100 E2 10.050.000.000 90 E3 10.000.000.000 200 E4 10.050.000.000 190 E5 20.000.000.000 200 E6 20.050.000.000 190 E7 20.000.000.000 100 E8 20.050.000.000 90

Si efectuamos un análisis cluster con estos datos, la matriz de distancias que se obtiene es:

Matriz de distancias

,000 5,0E+07 100,000 5,0E+07 1,0E+10 1,0E+10 1,0E+10 1,0E+10

5,0E+07 ,000 5,0E+07 100,000 1,0E+10 1,0E+10 1,0E+10 1,0E+10

100,000 5,0E+07 ,000 5,0E+07 1,0E+10 1,0E+10 1,0E+10 1,0E+10

5,0E+07 100,000 5,0E+07 ,000 1,0E+10 1,0E+10 1,0E+10 1,0E+10

1,0E+10 1,0E+10 1,0E+10 1,0E+10 ,000 5,0E+07 100,000 5,0E+07

1,0E+10 1,0E+10 1,0E+10 1,0E+10 5,0E+07 ,000 5,0E+07 100,000

1,0E+10 1,0E+10 1,0E+10 1,0E+10 100,000 5,0E+07 ,000 5,0E+07

1,0E+10 1,0E+10 1,0E+10 1,0E+10 5,0E+07 100,000 5,0E+07 ,000

Caso1:E1

2:E2

3:E3

4:E4

5:E5

6:E6

7:E7

8:E8

1:E1 2:E2 3:E3 4:E4 5:E5 6:E6 7:E7 8:E8

distancia euclídea

Esta es una matriz de disimilaridades

Este matriz muestra que los dos grupos obtenidos responden exclusivamente a la variable

“activos” puesto que sitúa en un mismo grupo a aquellas con cifras que rondan los 10.000

millones (E1, E2, E3, E4) y en otro grupo a las que tienen activos en torno a los 20.000

millones (E5, E6, E7, E8). Es decir, la influencia del número de trabajadores es prácticamente

nula.□

Para evitar esta influencia no deseable de una variable debida exclusivamente a la unidad en

que viene medida, es necesario corregir el efecto de los datos recurriendo a un proceso de

estandarización. El programa SPSS ofrece distintas posibilidades, de las que detallamos las de

uso más frecuente:

Page 124: Apuntes de Analisis Cuantitativo

124

o Puntuaciones Z. Los datos son estandarizados restando al valor de cada observación la

media del conjunto de observaciones y dividiendo el resultado por su desviación típica.

De esta forma, la variable estandarizada tiene media 0 y varianza 1.

o Rango 1. El valor de la variable en cada observación es dividido por el rango de esa

variable para el conjunto de observaciones. De esta manera, el rango de variación de la

variable así estandarizada queda reducido a un intervalo de valor 1.

o Rango 0 a 1. El valor de una variable para cada observación es estandarizado

sustrayéndole el valor mínimo que toma esa variable en el conjunto de las

observaciones y a continuación se divide por el rango. De esta forma, el valor mínimo

de la variable será 0 y el máximo 1.

Ejemplo 8.6

Estandarizamos los datos del ejemplo 8.5 utilizando el procedimiento de las puntuaciones Z:

Nombre Empresa Activos (Pesetas)

Trabajadores Valores estand. Activos

Valores estand. Trabajadores

E1 10.000.000.000 100 -1,00 -0,90 E2 10.050.000.000 90 -0,99 -1,09 E3 10.000.000.000 200 -1,00 1,09 E4 10.050.000.000 190 -0,99 0,90 E5 20.000.000.000 200 0,99 1,09 E6 20.050.000.000 190 1,00 0,90 E7 20.000.000.000 100 0,99 -0,90 E8 20.050.000.000 90 1,00 -1,09

Media Desv. Típica

15.025.000.000 5.000.062.499

145 50,24

0 1

0 1

Si efectuamos un análisis cluster con los datos tipificados, la matriz de distancias es:

Matriz de distancias

Caso

distancia euclídea

1:E1 2:E2 3:E3 4:E4 5:E5 6:E6 7:E7 8:E8 1:E1 ,000 ,186 1,862 1,675 2,639 2,518 1,871 1,889 2:E2 ,186 ,000 2,048 1,862 2,767 2,639 1,871 1,871 3:E3 1,862 2,048 ,000 ,186 1,871 1,889 2,639 2,780 4:E4 1,675 1,862 ,186 ,000 1,871 1,871 2,504 2,639 5:E5 2,639 2,767 1,871 1,871 ,000 ,186 1,862 2,048 6:E6 2,518 2,639 1,889 1,871 ,186 ,000 1,675 1,862 7:E7 1,871 1,871 2,639 2,504 1,862 1,675 ,000 ,186 8:E8 1,889 1,871 2,780 2,639 2,048 1,862 ,186 ,000

Esta es una matriz de disimilaridades Esta matriz muestra cómo ahora aparecen 4 grupos. Por ejemplo, E1 y E2. Tiene activos en

torno a los 10.000 millones pero los separa del grupo formado por E3 y E4 porque estas

últimas les doblan en términos de número de trabajadores.□

Page 125: Apuntes de Analisis Cuantitativo

125

8.4 Formación de los grupos: Clusters jerárquicos y clusters no jerárquicos

Una vez que, mediante el cálculo de la matriz de distancias, se sabe qué observaciones están

más próximas entre si, es necesario formar los grupos. Esto implica tomar dos decisiones:

o Seleccionar el algoritmo de agrupación.

o Determinar un número de grupos razonables.

Adoptar estas decisiones no es sencillo dado que existen decenas de algoritmos de agrupación.

La mayoría de los autores aconsejan utilizar diversos procedimientos y comparar resultados.

Si distintos métodos aportan agrupaciones similares será razonable suponer que existe una

agrupación natural objetiva. Si no fuera así, habría que examinar las distintas agrupaciones a

la luz de un marco teórico o de trabajos precedentes para elegir el resultado más razonable.

Los algoritmos de agrupación se clasifican, como se adelantaba en la introducción, en dos

clases:

� Técnicas jerárquicas.

� Técnicas no jerárquicas.

8.4.1 Clusters jerárquicos

Los principales algoritmos de agrupamiento jerárquico son:

(A) Método de agrupación de centroides

Este método comienza uniendo las dos observaciones que estén más cercanas. A continuación,

el grupo formado es sustituido por una observación que lo representa y en la que las variables

toman los valores medios de todas las observaciones que constituyen el grupo representado

(centroide). En ese momento se recalcula la matriz de distancias, se unen entonces las dos

observaciones más cercanas y se repite el proceso. Éste termina cuando todas las

observaciones están en un solo grupo

Ejemplo 8.7

Utilizando los datos sobre las 8 empresas del ejemplo 8.1, calculamos la matriz de distancias,

en este caso euclídea al cuadrado:

Page 126: Apuntes de Analisis Cuantitativo

126

Matriz de distancias

Caso

distancia euclídea al cuadrado

1:E1 2:E2 3:E3 4:E4 5:E5 6:E6 7:E7 8:E8 1:E1 0 32 180 241 841 1181 1066 1445 2:E2 32 0 68 121 1105 1445 1210 1613 3:E3 180 68 0 13 1369 1649 1234 1625 4:E4 241 121 13 0 1314 1544 1089 1448 5:E5 841 1105 1369 1314 0 50 225 314 6:E6 1181 1445 1649 1544 50 0 125 144 7:E7 1066 1210 1234 1089 225 125 0 29 8:E8 1445 1613 1625 1448 314 144 29 0

Esta es una matriz de disimilaridades El método de agrupación de centroides comienza uniendo las observaciones más cercana, en

este caso E3 y E4 (13). A continuación, el grupo formado es sustituido por una observación

que lo representa y en la que las variables toman los valores medios de todas las

observaciones que forman el grupo representado (centroide). En este caso, E3 y E4 se

sustituyen por una empresa promedio que llamaremos E3-4 para la que el gasto en publicidad

y las ventas toman los siguientes valores:

Publicidad de E3-410 12

112

+= =

Ventas de E3-422 25

23,52

+= =

Por tanto, los datos actualizados son:

Nombre Empresa Inversión en publicidad Ventas E1 16 10 E2 12 14

E3-4 11 23,5 E5 45 10 E6 50 15 E7 45 25 E8 50 27

La matriz de distancias, ahora es

Matriz de distancias

Caso distancia euclídea al cuadrado

1:E1 2:E2 3:E3-4 5:E5 6:E6 7:E7 8:E8 1:E1 ,0 32,0 207,3 841,0 1181,0 1066,0 1445,0 2:E2 32,0 ,0 91,3 1105,0 1445,0 1210,0 1613,0 3:E3-4 207,3 91,3 ,0 1338,3 1593,3 1158,3 1533,3 5:E5 841,0 1105,0 1338,3 ,0 50,0 225,0 314,0 6:E6 1181,0 1445,0 1593,3 50,0 ,0 125,0 144,0 7:E7 1066,0 1210,0 1158,3 225,0 125,0 ,0 29,0 8:E8 1445,0 1613,0 1533,3 314,0 144,0 29,0 ,0

Esta es una matriz de disimilaridades Donde, por ejemplo, la distancia entre E1 y E3-4 se ha calculado sobre el centroide de éste último grupo:

Page 127: Apuntes de Analisis Cuantitativo

127

( ) ( )2 2

1, 3 4 16 11 10 23,5 207,3E ED − = − + − =

El programa SPSS recoge el historial de conglomeración:

Historial de conglomeración

Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado

aparece por primera vez Próxima

etapa

Conglomerado

1 Conglomerado

2 Conglomerado

1 Conglomerado

2 1 3 4 13,000 0 0 5 2 7 8 29,000 0 0 6 3 1 2 32,000 0 0 5 4 5 6 50,000 0 0 6 5 1 3 141,250 3 1 7 6 5 7 182,250 4 2 7 7 1 5 1227,250 5 6 0

En las cuatro primeras etapas se fusionan empresas individuales. En la etapa 5 se fusionan dos

grupos E1-2 y E3-4, aunque estos aparecen etiquetados con el nombre de uno solo de sus

integrantes (E1-2 se representa por 1, E3-4 se representa por 3). La columna de coeficientes

refleja las distancias a las que estaban los grupos que se van fusionando en cada etapa.

El historial de agrupación tiene una traducción gráfica que es de gran utilidad para determinar

el número razonable de grupos que debe retenerse. A este grafico se le denomina

dendograma:

* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Centroid Method Rescaled Distance Cluster Com bine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+------ ---+---------+ E3 3 òûòòòø

E4 4 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø

E1 1 òûòòò÷ ó

E2 2 ò÷ ó

E7 7 òûòòòòòø ó

E8 8 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

E5 5 òûòòòòò÷

E6 6 ò÷

¿Cómo sirve el dendograma para determinar el número razonable de grupos que debe

retenerse? Como hemos señalado, el análisis de conglomerados jerárquicos comienza

Page 128: Apuntes de Analisis Cuantitativo

128

considerando a cada individuo como un grupo independiente y sucesivamente se van

fusionando a los más cercanos hasta que todos forman un solo grupo. Pero cada etapa une

individuos más distantes, es decir, más diferentes, menos susceptibles de formar un grupo.

En nuestro ejemplo, en la primera etapa se fusionan observaciones que distan 13 unidades y

en la etapa 5 observaciones que distan 141 unidades. ¿Dónde cortar y dejar de fusionar? En

aquel momento en que la fusión siguiente va a unir individuos muy distintos, es decir, donde

el dendograma dé un gran salto. Por tanto, en este ejemplo, formaríamos dos grupos: (E3,

E4, E1, E2) (E7, E8, E5, E6) o cuatros: (E3, E4), (E1, E2), (E7, E8), (E5, E6). □

(B) Método del vecino más cercano (vinculación simple)

En este método la distancia entre dos grupos es la distancia entre los miembros más cercanos

de ese grupo.

Ejemplo 8.8

Con el ejemplo anterior, la distancia entre los grupos E1-2 y E3-4 estará representada por la

distancia entre E2 y E3, que son los más cercanos. El historial de conglomeración que

proporciona el SPSS es el siguiente:

Historial de conglomeración

Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado

aparece por primera vez Próxima

etapa

Conglomerado

1 Conglomerado

2 Conglomerado

1 Conglomerado

2 1 3 4 13,000 0 0 5 2 7 8 29,000 0 0 6 3 1 2 32,000 0 0 5 4 5 6 50,000 0 0 6 5 1 3 68,000 3 1 7 6 5 7 125,000 4 2 7 7 1 5 841,000 5 6 0

En la etapa 5 el coeficiente es 68 que se corresponde con la distancia entre E2 y E3 que son

los vecinos más cercanos de sus respectivos grupos. En la etapa 6 el coeficiente es 125 que se

corresponde con la distancia entre E6 y E7 que son los vecinos más cercanos de sus

respectivos grupos...□

Page 129: Apuntes de Analisis Cuantitativo

129

10 20 30 40 50

Inversion

10,00

15,00

20,00

25,00

30,00

Venta

s

E1

E2

E3

E4

E5

E6

E7

E8

1

3

4

2

5

7

6

(C) Método del vecino más lejano (vinculación completa)

En este método la distancia entre grupos se mide por la distancia entre sus miembros más

alejados.

Ejemplo 8.9

El historial de conglomeración, utilizando SPSS, es:

Historial de conglomeración

Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado

aparece por primera vez Próxima

etapa

Conglomerado

1 Conglomerado

2 Conglomerado

1 Conglomerado

2 1 3 4 13,000 0 0 5 2 7 8 29,000 0 0 6 3 1 2 32,000 0 0 5 4 5 6 50,000 0 0 6 5 1 3 241,000 3 1 7 6 5 7 314,000 4 2 7 7 1 5 1649,000 5 6 0

El coeficiente de la etapa 5 es 241, que corresponde con la distancia entre las empresas E1 y

E4.

Page 130: Apuntes de Analisis Cuantitativo

130

10 20 30 40 50

Inversion

10,00

15,00

20,00

25,00

30,00

Venta

s

E1

E2

E3

E4

E5

E6

E7

E8

1

3

4

2

5

7

6

(D) Método de la vinculación promedio (vinculación inter-grupos)

En este procedimiento, la distancia entre dos grupos se obtiene calculando la distancia

promedio entre todos los pares de observaciones que pueden formarse tomando un miembro

de un grupo y otro miembro del otro grupo.

Ejemplo 8.10

El historial de conglomeración con este procedimiento es:

Historial de conglomeración

Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado

aparece por primera vez Próxima

etapa

Conglomerado

1 Conglomerado

2 Conglomerado

1 Conglomerado

2 1 3 4 13,000 0 0 5 2 7 8 29,000 0 0 6 3 1 2 32,000 0 0 5 4 5 6 50,000 0 0 6 5 1 3 152,500 3 1 7 6 5 7 202,000 4 2 7 7 1 5 1323,625 5 6 0

Podemos observar como en la etapa 5 se fusiona el grupo formado por las empresas E1 y E2

(etiquetado por 1) con el formado por las empresas E3 y E4 (etiquetado por 3). El coeficiente,

es decir, la distancia entre ambos grupos es 152’5, que se obtiene de la siguiente manera.

Page 131: Apuntes de Analisis Cuantitativo

131

Todas las posibles combinaciones entre pares de puntos de estos dos grupos, su distancia y la

distancia promedio son:

Pares de observaciones Distancia Promedio E1, E3 180

152,5 E1, E4 241 E2, E3 68 E2, E4 121

Aunque en nuestro ejemplo los cuatro métodos de agrupación nos han conducido al mismo

historial de conglomeración (salvo los coeficientes) esto no ocurre siempre, pudiéndose

presentar distintas jerarquías de agrupación para los diferentes métodos.

Selección del número de conglomerados de la solución

Como hemos visto, el análisis cluster jerárquico ofrece al investigador la posibilidad de elegir

entre muchas opciones que difieren en cuanto al número de conglomerados finales que las

conforman: desde un grupo por cada observación, hasta un único grupo que integraría todas

las observaciones. Debemos decidir, entonces, cuál es el número de conglomerados que

conforman una solución razonable.

El SPSS solo ofrece el dendograma como herramienta de apoyo para tomar esta decisión.

Debe detenerse el proceso cuando los grupos que se han de unir están a una distancia

significativamente mayor que los que previamente se han fusionado. Algunos autores

proponen realizar el cálculo de las tasas de variación entre los coeficientes de

conglomeración obtenidos en etapas sucesivas. Así, cuando una tasa sea drásticamente

superior a la anterior, será el momento de detener las fusiones. Esta tasa no es calculada por el

SPSS, pero es fácil obtener a partir de la información de sus salidas.

Ejemplo 8.11

A partir de los coeficientes que se obtienen utilizando el método de la vinculación promedio

(véase ejemplo 8.10), las tasas de variación son:

Etapa Observaciones que se fusionan

Grupos Resultantes

Número de

grupos Coeficiente

Tasa de Variación

1 [E3,E4] [E3,E4],E1,E2,E5,E6,E7,E8 7 13 1,23 2 [E7,E8] [E3,E4][E7,E8],E1,E2,E5,E6 6 29 0,10 3 [E1,E2] [E1,E2][E3,E4][E7,E8],E5,E6 5 32 0,56 4 [E5,E6] [E1,E2][E3,E4][E5,E6][E7,E8] 4 50 2,05 5 [E1,E2][E3,E4] [E1,E2,E3,E4][E5,E6][E7,E8] 3 152,5 0,32 6 [E5,E6][E7,E8] [E1,E2,E3,E4][E5,E6,E7,E8] 2 202 5,55 7 [E1,E2,E3,E4][E5,E6,E7,E8] [E1,E2,E3,E4,E5,E6,E7,E8] 1 1323,625 -

Page 132: Apuntes de Analisis Cuantitativo

132

Cálculo de la primera tasa de variación:

1

29 131,23

13T

−= =

Hay dos opciones razonables: no ejecutar la séptima etapa del análisis jerárquico, dado que el

coeficiente da un salto del 555%, y dividir las empresas en dos grupos

[E1,E2,E3,E4][E5,E6,E7,E8] o no ejecutar la quinta etapa del análisis, pues el coeficiente da

un salto del 205% y dividir las empresas en cuatro grupos [E1,E2][E3,E4][E5,E6][E7,E8].

8.4.2 Clusters no jerárquicos

El análisis cluster no jerárquico se caracteriza porque, a diferencia del jerárquico, se conoce a

priori el número h de grupos que se desea, y las observaciones son entonces asignadas a cada

uno de esos h conglomerados de tal forma que se maximiza la homogeneidad de los sujetos

asignados a un mismo grupo y la heterogeneidad entre los distintos conglomerados.

En la realización de un análisis no jerárquico debemos dar estos pasos:

1. Determinar los centroides iniciales de los h grupos, esto es, los valores de las

variables que caracterizan las observaciones en cada uno de esos grupos. Estos

centroides iniciales, que se conocen como semillas, pueden ser fijados por el

investigador de acuerdo con información previa (por ejemplo, el resultado de un

cluster jerárquico) o dejar que sea el ordenador quien decida sus valores.

2. Una vez establecidas las semillas, cada observación se asigna a aquel conglomerado,

de entre los h existentes, cuyo centroide esté más cercano a esa observación.

3. Se recalculan entonces los centroides de los h grupos de acuerdo con las

observaciones que han sido clasificadas en cada uno de ellos. Si el cambio en los

centroides (distancia entre nuevos y viejos centroides) es mayor que un criterio de

convergencia preestablecido, entonces se vuelve al paso 2, finalizando el proceso

cuando se cumpla el criterio de convergencia o se supere un número prefijado de

iteraciones.

Formación de los grupos

El programa SPSS utiliza el método de las K-medias para formar los grupos. A continuación

se detallan los pasos para su desarrollo incluyendo a lo largo de la exposición su aplicación

para los datos del ejemplo 8.1.

1. Calcular la distancia de cada observación a los h centroides iniciales (E6, E4). Cada

observación se asigna al conglomerado al que esté más cercano (utilizando distancias

euclideas)

Page 133: Apuntes de Analisis Cuantitativo

133

Ejemplo 8.12

Observación Inversión Ventas Distancias Centroide 1

Distancias Centroide 2

Conglomerado asignado

E1 16 10 34,37 15,52 2 E2 12 14 38,01 11 2 E3 10 22 40,61 3,61 2 E4 12 25 39,29 0 2 E5 45 10 7,07 36,25 1 E6 50 15 0 39,29 1 E7 45 25 11,18 33 1 E8 50 27 12 38,05 1

2. Una vez efectuada la asignación de observaciones a conglomerados, se recalculan los

centroides

Ejemplo 8.13

45 50 45 50 10 15 25 2747,5 19,25

4 4

+ + + + + += =

16 12 10 12 10 14 22 2512,5 17,75

4 4

+ + + + + += =

Centroides iniciales Centroides finales Conglomerado Publicidad Ventas Publicidad Ventas

1 50 15 47,5 19,25 2 12 25 12,5 17,75

3. Se repite el paso 1 clasificando cada observación en el conglomerado del que dista

menos. El proceso se detiene cuando no se produce ninguna reasignación de

observaciones a conglomerados o hasta que se alcance un determinado número de

iteraciones que se puede establecer como opción al ejecutar el análisis.

Ejemplo 8.14

Observación Inversión Ventas Distancias Centroide 1

Distancias Centroide 2

Conglomerado asignado

E1 16 10 32,83 8,50 2 E2 12 14 35,89 3,78 2 E3 10 22 37,60 4,93 2 E4 12 25 35,96 7,27 2 E5 45 10 9,58 33,41 1 E6 50 15 4,93 37,60 1 E7 45 25 6,27 33,30 1 E8 50 27 8,14 38,62 1

En este caso, no se produce ninguna reasignación, por lo que el proceso se detiene. El

conglomerado 1 estará formado por [E5,E6,E7,E8] y el segundo por [E1,E2,E3,E4]. □

En el siguiente ejemplo comentamos algunas de las salidas que ofrece el SPSS.

Page 134: Apuntes de Analisis Cuantitativo

134

Ejemplo 8.15

Además de mostrar los centroides iniciales:

Centros iniciales de los conglomerados

Conglomerado

1 2 Inversión 50 12 Ventas 15 25

También indica qué cambios, en términos de distancia euclídea entre los centroides iniciales y

finales, se producen en cada una de las etapas

Historial de iteraciones(a)

Iteración

Cambio en los centros de los conglomerados

1 2 1 4,931 7,267 2 ,000 ,000

a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,000. La iteración actual es 2. La distancia mínima entre los centros iniciales es de 39,294. Podemos observar que, en la primera etapa, el centroide final del conglomerado 1 dista del

inicial 4,931 unidades:

2 2(47,5 50) (19,25 15) 4,931d = − + − =

donde

45 50 45 5047,5

410 15 25 27

19,254

+ + +=

+ + +=

En la segunda iteración, como no ha habido reasignación, los centroides no cambian y las

distancias son 0, por lo que el proceso se detiene. En la salida también se indica cuál es la

distancia entre las observaciones más cercanas (en este caso solo hay 2) que conformaban el

grupo de centroides iniciales:

2 2(50 12) (15 25) 39,29d = − + − =

La salida del programa indica también a qué conglomerado se ha asignado cada observación,

señalando además lo que dista cada observación del centro de ese conglomerado:

Page 135: Apuntes de Analisis Cuantitativo

135

Pertenencia a los conglomerados

Número de caso VAR00001 Conglomerado Distancia 1 E1 2 8,504 2 E2 2 3,783 3 E3 2 4,931 4 E4 2 7,267 5 E5 1 9,582 6 E6 1 4,931 7 E7 1 6,270 8 E8 1 8,143

También se obtiene la salida con los centroides finales:

Centros de los conglomerados finales

Conglomerado

1 2 Inversión 47,50 12,50 Ventas 19,25 17,75

Esta información es fundamental para caracterizar a los grupos obtenidos, ya que la misión del

analista no es sólo determinar qué observaciones van a cada conglomerado, sino obtener las

características de los mismos. El cuadro anterior nos indica que hay dos tipos de empresas que

se diferencian porque unas, las del conglomerado 1 necesitan mucha más inversión

publicitaria para alcanzar niveles similares de ventas, es decir, obtienen mucha menor

rentabilidad de su inversión que las del conglomerado 2.

El SPSS ofrece también una serie de ANOVAS donde el factor es la pertenencia al

conglomerado y las variables dependientes son, sucesivamente, cada una de las utilizadas para

caracterizar a los grupos:

ANOVA

Conglomerado Error

F Sig. Media

cuadrática gl Media

cuadrática Gl Inversión 2450,000 1 7,333 6 334,091 ,000 Ventas 4,500 1 56,917 6 ,079 ,788

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales. Por las razones expuestas al pie de la tabla, estas pruebas solo deben utilizarse con finalidad

descriptiva. Se puede observar que las diferencias entre las inversiones publicitarias de los dos

grupos son muy grandes, pero no así las ventas. Esto confirma la interpretación de los

conglomerados expuesta anteriormente.□

Nota: En el ejemplo que hemos utilizado, el número de observaciones en cada conglomerado

es pequeño y la media de cada variable en los dos conglomerados es información suficiente

Page 136: Apuntes de Analisis Cuantitativo

136

para caracterizarlos. Sin embargo, si contásemos con muchas más observaciones tendría

interés tratar de determinar qué variables toman valores medios claramente distintos en los

diferentes conglomerados y utilizar sólo esas variables para efectuar la caracterización.□

8.5 Elección entre los distintos tipos de análisis cluster.

Como se ha comentado a lo largo del capítulo, existen dos grandes enfoques en el análisis

cluster (jerárquicos y no jerárquicos) y, dentro de los jerárquicos existen distintos métodos de

conglomeración, pero ¿cuál ofrece mejores resultados?¿cuál es más adecuado para los

objetivos de una investigación determinada? Responder a estas preguntas no es sencillo y no

existe respuestas categóricas, ya que ésta depende de los objetivos del estudio y de las

propiedades de los distintos métodos. Sin embargo, se pueden dar algunas indicaciones

Elección entre análisis cluster jerárquico y no jerárquico

La decisión entre ambos tipos de análisis no debe ser disyuntiva, pues un enfoque

complementa al otro. Si el investigador sospecha de cuál puede ser el número de grupos

naturales en los que se unen sus observaciones, el análisis no jerárquico sería una buena

opción. Sin embargo, este enfoque requiere que se suministren los centroides iniciales de esos

grupos y éstos rara vez están disponibles. Existen varios trabajos que demuestran que el

resultado final de un análisis cluster no jerárquico depende de lo cercana a la realidad que sea

la semilla inicial, no siendo siempre recomendable que el ordenador la elija aleatoriamente.

La mejor forma de obtener una buena aproximación de cuál es el número razonable de

conglomerados (si el investigador no tiene ninguna opción a priori) y de conseguir

simultáneamente una semilla fiable, pasa por efectuar en primer lugar un análisis jerárquico,

utilizar las herramientas que éste nos ofrece para seleccionar el número de grupos y alimentar

con esta información la realización de un análisis no jerárquico que nos permitirá maximizar

la homogeneidad dentro de cada grupo y la heterogeneidad entre grupos.

Elección entre los distintos métodos de agrupación en el análisis jerárquico

Aunque se han realizado numerosos estudios comparando los distintos procedimientos de

agrupación, los resultados a los que se han llegado no son concluyentes. Esto nos lleva a ser

partidarios de probar varios métodos en un mismo estudio. Si los resultados son coherentes,

habremos dado con agrupaciones naturales, si no es así, habrá que elegir entre los distintos

resultados reteniendo aquel que le parezca más razonable al investigador o esté de acuerdo

con trabajos previos.

Page 137: Apuntes de Analisis Cuantitativo

137

9. Componentes principales. 9.1 Introducción. 9.2 Componentes principales.

9.2.1 Componentes principales a partir de variables estandarizadas.

9.1 Introducción.

El análisis de componentes principales (ACP) es un método estadístico multivariante de

simplificación o reducción de la dimensión de una tabla de variables cuantitativas, obteniendo

otra de menor número de variables, combinación lineal de las primitivas, que se denominan

componentes principales. Su aplicación es directa sobre cualquier conjunto de variables sin

que el investigador haya previamente establecido jerarquías entre ellas (var. dependientes o

independientes), normalidad de su distribución, ...

Podría decirse que el objetivo principal que persigue el ACP es la representación de las

medidas numéricas de varias variables en un espacio de pocas dimensiones donde nuestros

sentidos puedan percibir relaciones que de otra manera permanecerían ocultas en dimensiones

superiores. Dicha representación debe ser tal que al desechar dimensiones superiores la

pérdida de información sea mínima.

La utilidad de la técnica de componentes principales es doble:

1. Por un lado, el análisis de componentes principales permite resumir de forma óptima la

información proporcionada por las variables originales mediante las componentes.

El número total de posibles componentes coincide con el número total de variables.

Quedarse con todas las componentes no simplificaría el problema, por lo que el

investigador deberá seleccionar el número de ellas que expliquen una proporción aceptable

de la información global (o varianza de la nube de puntos).

2. Permite transformar las variables originales, en general correladas (solapamiento en la

información), en nuevas variables incorreladas, facilitando la interpretación de los

datos. Un análisis de componentes principales a menudo revela relaciones que

previamente no se sospechaban y permiten interpretaciones que no resultan de forma

ordinaria.

La reducción de muchas variables a pocas componentes puede simplificar la aplicación sobre

estas últimas de otras técnicas multivariantes (regresión, clusters,…)

Page 138: Apuntes de Analisis Cuantitativo

138

9.2 Componentes principales.

En el análisis de componentes principales se dispone de una muestra de tamaño n acerca de

p variables numéricas aleatorias pXXX ,...,, 21 inicialmente correladas, para posteriormente

obtener a partir de ellas un número q p≤ de variables incorreladas iY .

Como veremos, las componentes principales dependen sólo de la matriz de covarianza S (o

de la matriz de correlación, R ) de pXXX ,...,, 21 . Su desarrollo no requiere una hipótesis de

normalidad multivariante.

Sea un vector aleatorio [ ]pXXXX ,...,,' 21= con matriz de covarianzas S con valores propios

1 2 0pλ λ λ≥ ≥ ≥ ≥⋯ y vectores propios 1 2, , , pφ φ φ⋯ ( )1,...,i i ipφ φ φ′ = . Habitualmente, para

evitar el peso excesivo de alguna de las variables en el análisis, se trabaja con variables

tipificadas (o estandarizadas), y por tanto S R= .

Consideremos las combinaciones lineales

'1 1 11 1 12 2 1

'2 2 21 1 22 2 2

'1 1 2 2

p p

p p

p p p p pp p

Y X X X X

Y X X X X

Y X X X X

φ φ φ φ

φ φ φ φ

φ φ φ φ

= = + + +

= = + + +

= = + + +

Se puede demostrar que

'

'

( ) , 1,2,...,

( , ) 0, , 1,2,...,i i i i

i k i k

Var Y S i p

Cov Y Y S i k p

φ φ λφ φ

= = =

= = = (9-1)

Las componentes principales son aquellas combinaciones lineales incorreladas pYYY ,...,, 21

cuyas varianzas en (9-1) son las mayores posibles, es decir, reúnen la máxima cantidad de

información posible.

Por tanto, definimos:

• Primera componente principal = combinación lineal '1Xφ que maximiza

'1( )Var Xφ sujeta a '

1 1 1.φ φ =

• Segunda componente principal = combinación lineal '2Xφ que maximiza

'2( )Var Xφ sujeta a '

2 2 1φ φ = y ' '1 2( , ) 0Cov X Xφ φ = .

Page 139: Apuntes de Analisis Cuantitativo

139

• Y en el paso i-ésimo: i-ésima componente principal = combinación lineal 'i Xφ que

maximiza '( )iVar Xφ sujeta a ' 1i iφ φ = y ' '( , ) 0i kCov X X k iφ φ = < .

Resultado 9.1 Sea S la matriz de covarianza asociada con el vector aleatorio

[ ]pXXXX ,...,,' 21= . Supongamos que S tiene pares de valores y vectores propios

( ) ( ) ( )1 1 2 2, , , ,..., ,p pλ φ λ φ λ φ donde .021 ≥≥≥≥ pλλλ ⋯ La i-ésima componente principal está

dada por

'1 1 2 2 , 1,2,...,i i i i ip pY X X X X i pφ φ φ φ= = + + + =⋯

con esta elección

'

'

( ) , 1,2,...,

( , ) 0,i i i i

i k i k

Var Y S i p

Cov Y Y S i k

φ φ λφ φ

= = =

= = ≠•

NOTA: Si hay iλ iguales, la elección de los correspondientes vectores de coeficientes iφ , y

por tanto las iY no son únicos.

Resultado 9.2 Sea [ ]pXXXX ,...,,' 21= con matriz de covarianzas S , con pares de valores y

vectores propios ( ) ( ) ( )1 1 2 2, , , ,..., ,p pλ φ λ φ λ φ donde .021 ≥≥≥≥ pλλλ ⋯ Sean

' ' '1 1 2 2, , ..., p pY X Y X Y Xφ φ φ= = = las componentes principales. Entonces

11 22 1 21 1

( ) ( )p p

pp i p ii i

s s s Var X Var Yλ λ λ= =

+ + + = = + + + =∑ ∑⋯ ⋯ .

La proporción de la varianza total explicada por la k -esima componente principal es

pkp

k ,...,2,1,1

=++ λλ

λ⋯

Si mucha (por ejemplo, 80% o 90%) de la varianza total, puede ser atribuida a la primera, a las

dos primeras o a las tres primeras de las componentes, entonces estas componentes pueden

“reemplazar” las p variables originales sin mucha perdida de información (varianza).

Cada componente del vector de coeficientes ( )'1,..., ,...,i i ik ipφ φ φ φ= también merece atención.

La magnitud de ikφ mide la importancia de la k -esima variable en la i -ésima componente. En

particular, si las variables iX están tipificadas, ikφ es proporcional al coeficiente de

correlación entre iY y kX .

Page 140: Apuntes de Analisis Cuantitativo

140

Resultado 9.3 Si ' ' '1 1 2 2, ,..., p pY X Y X Y Xφ φ φ= = = son las componentes principales

obtenidas a partir de la matriz de covarianza S , entonces

, , , 1,2,...,i k

ik iY X

kk

r i k ps

φ λ= =

es el coeficiente de correlación entre la componente iY y la variable kX .•

Ejemplo 9.1

Veamos cómo se aplica la transformación de componentes principales a un conjunto de datos

que presentan cierta correlación. En la siguiente figura mostramos los datos sobre los que se

va a efectuar la transformación. Como se observa, las variables 1X y 2X presentan una

correlación positiva.

Calculamos el vector medio y de la matriz de covarianza de los datos.

3.50 1.9 1.1;

3.50 1.1 1.1x S

= =

Calculamos los valores propios de S . Como p = 2 habrá dos valores propios asociados a la

matriz de covarianza (1λ , 2λ ), que serán las soluciones de la ecuación 0S Iλ− = . En

particular,

1.9 1.1 1 0 1.9 1.10 0

1.1 1.1 0 1 1.1 1.1

λλ

λ−

− = ⇔ = −

o lo que es igual,

2 3 0.88 0λ λ− + =

y las soluciones son: 1λ = 2.67 y 2λ = 0.33

Page 141: Apuntes de Analisis Cuantitativo

141

Calculamos los vectores propios asociados a esos valores. El vector propio 1φ ,

correspondiente a 1λ = 2.67 se calcula como sigue. El vector propio 1φ es la solución a

( )1 1 0.S Iλ φ− = Esto es,

11 11

12 12

1.9 1.1 1 0 0.77 1.12.67 0 0

1.1 1.1 0 1 1.1 1.57

φ φφ φ

− − = ⇔ = −

o lo que es igual,

11 12

11 12

0.77 1.10 0

1.10 1.57 0

φ φφ φ

− + =− =

Tomando cualquiera de ellas se deduce que 11 121.43 .φ φ=

Como nos hemos restringidos a vectores con longitud 1 ( )1 1 1φ φ′ = , imponemos también que

2 211 12 1φ φ+ = , por lo que el sistema de ecuaciones a resolver es:

11 121.43 .φ φ=

2 211 12 1φ φ+ =

y su solución 1

0.82

0.57φ

=

El vector propio 2φ , correspondiente a 2 0.33λ = se calcula de manera similar: 2

0.57

0.82φ

− =

.

Como hemos impuesto, los vectores propios son de longitud 1. Efectivamente,

2 2 2 211 12

2 2 2 221 22

0.82 0.57 1

( 0.57) 0.82 1

φ φφ φ

+ = + =

+ = − + =

Las componentes de un vector propio indican la dirección de los nuevos ejes respecto al

sistema de coordenadas original. La interpretación geométrica del nuevo sistema de

coordenadas ( )1 2,Y Y respecto al original ( )1 2,X X en base a los vectores propios 1φ y 2φ se

detalla en la siguiente figura

Page 142: Apuntes de Analisis Cuantitativo

142

Calculamos las componentes principales.

( )

( )

1 11 1 1 2

2 2

12 1 2

2

' 0.82 0.57 0.82 0.57

0.57 0.82 0.57 0.82

X XY X X

X X

XY X X

X

φ = = = +

= − = − +

Aplicamos esta transformación a los datos. El resultado se muestra en la siguiente figura.

Por último, observemos que la matriz de covarianza YS es diagonal y contiene los valores

propios asociados a S .

2.67 0

0 0.33YS

=

Al comparar las dos matrices de covarianza: 1.9 1.1 2.67 0

;1.1 1.1 0 0.33YS S

= =

observamos que:

Page 143: Apuntes de Analisis Cuantitativo

143

a) Las variables 1Y e 2Y están incorreladas ( )1 2

0y yr = mientras que las variables 1X y 2X

están (fuertemente) correladas:

1 2

12

11 22

( ) 1.10.76

( ) ( ) 1.9 1.1x x

s Xr

s X s X= = =

b) La transformación aplicada ha tenido el efecto de maximizar la varianza. La varianza

en el primer eje principal, 1Y , es 2.67, bastante mayor que en 1X , 1.9. Además, no

existe ningún otro eje en el que haya una varianza mayor.

De manera gráfica puede verse como en la componente se maximiza la variabilidad.

Aunque servirían cualquier par de puntos, en la siguiente figura, hemos proyectado los

datos con menor y mayor valor de la variable X1 sobre los ejes X1 e Y1.

c) La transformación realizada preserva la varianza global:

( )2

1

2 2

1 1

( ) 1.9 1.1 3

( ) ( ) 2.67 0.33 3

i xi

i Y ii i

Var X tr S

Var Y tr S λ

=

= =

= = + =

= = = + =

∑ ∑

d) La proporción de la varianza total explicada por la primera componente es

1

1 2

2.670.89

3

λλ λ

= =+

En este caso la primera componente podría reemplazar a las dos variables originales con

una pequeña perdida de información.

Además, dado que

1 1

1 2

11 1,

11

12 1,

22

0.82 2.670.97

1.9

0.57 2.670.89

1.1

Y X

Y X

rs

rs

φ λ

φ λ

= = =

= = =

Page 144: Apuntes de Analisis Cuantitativo

144

concluimos que 1X y 2X son importantes en la primera componente principal. Las

correlaciones con la segunda componente no se calculan porque ésta componente no es

importante•

Para la obtención de las componentes principales mediante el paquete estadístico SPSS se

realiza con los comandos del análisis factorial. Los pasos a seguir son:

1. Elije en los menús Analizar→Reducción de datos→Analisis factorial y selecciona las

variables y las especificaciones para el análisis.

2. En el botón Descriptivos podemos:

a. Elegir los Estadísticos: Descriptivos univariados

b. Elegir en Matriz de correlaciones, la opción Coeficientes.

3. En el botón Extracción:

a. En Método elegimos Componentes principales

b. En Analizar elegimos la Matriz de correlaciones o la Matriz de covarianza

c. En Mostrar elegimos Solución factorial sin rotar

Una vez realizadas las especificaciones se pulsa en el botón Aceptar.

Ejemplo 9.2

Las salidas que nos interesan del SPSS con los datos del ejemplo anterior son las siguientes:

Estadísticos descriptivos

Media Desviación

típica N del análisis VAR00001 3,5000 1,37840 6 VAR00002 3,5000 1,04881 6

Varianza total explicada

Componente Autovalores iniciales(a)

Total % de la varianza % acumulado

Bruta 1 2,670 89,016 89,016 2 ,330 10,984 100,000

Método de extracción: Análisis de Componentes principales. En la tabla anterior encontraremos los valores propios de la matriz de covarianza y el

porcentaje de varianza total explicado por las dos componentes.

Page 145: Apuntes de Analisis Cuantitativo

145

Matriz de componentes(a)

Bruta Reescalada

Componente Componente

1 1 VAR00001 1,338 ,971 VAR00002 ,938 ,894

Método de extracción: Análisis de componentes principales. a 1 componentes extraídos

Para obtener los coeficientes de la primera componente ikφ (que es la que explica el 89,016%

de la varianza) hay que dividir los números de la tabla de Matriz de componentes, columna

Bruta, entre la raiz cuadrada del valor propio de la componente, dado que la componente bruta

es igual a ik iφ λ . En nuestro caso:

11

12

1,3380,82

2,67

0,9380,57

2,67

φ

φ

= =

= =

La columna Reescalada nos da las correlaciones entre la primera componente y las variables

originales, 1

1 1, k

kY X

kk

rs

φ λ= , por tanto es igual a la columna Bruta dividida por la desviación

típica de las variables kX . Por ejemplo, 1.338/1.378=0,971.

NOTA: Cuando trabajamos con la matriz de correlación de las variables kX , SPSS sólo da

una columna por componente. La Bruta y la Reescalada coinciden y los coeficientes dados

son las correlaciones entre las componentes y las variables originales.

9.2.1 Componentes principales a partir de variables estandarizadas

Las componentes principales pueden ser obtenidas a partir de variables estandarizadas

( )

( )

( )

1 11

11

2 22

22

p p

p

pp

XZ

s

XZ

s

XZ

s

µ

µ

µ

−=

−=

−=

Page 146: Apuntes de Analisis Cuantitativo

146

Se puede demostrar que [ ] 0E Z = y ( )Cov Z R= . Las componentes principales de Z pueden

ser obtenidas a partir de los vectores propios de la matriz de correlación R de X . Todos los

resultados previos se pueden aplicar, con algunas simplificaciones ya que la varianza de cada

iZ es la unidad. Denotaremos las componentes principales muestrales de igual manera que

antes ( iY ), sin distinguir si es obtenida a partir de S o de R . Las componentes construidas a

partir de S y R no son las mismas, pero será claro, según el contexto, la matriz usada.

También es conveniente etiquetar los valores y vectores propios por ( ),i iλ φ para ambas

situaciones.

Resultado 9.4 La i-esima componente principal de las variables estandarizadas ( )pZZZ ,...,' 1=

con ( )Cov Z R= , está dada por

1 1 2 2 , 1,...,i i i ip pY Z Z Z i pφ φ φ= + + + =⋯

Además,

∑ ==∑==

p

iii

p

ipZVarYVar

11)()(

y

, , , 1,...,i kY Z ik ir i k pφ λ= =

En este caso ( ) ( )1 1, ,..., ,p pλ φ λ φ son los pares de valores y vectores propios para R con

01 ≥≥≥ pλλ ⋯ .•

La varianza total es p , la suma de los elementos diagonales de la matriz R . En este caso, la

proporción de varianza total explicada por la k -esima componente principal de Z es pkλ ,

para pk ,...,1= , donde kλ son los valores propios de R .

Ejemplo 9.3

Consideremos la matriz de covarianzas

1 4

4 100S

=

y la matriz de correlación derivada de ella

1 0.4

0.4 1R

=

.

Se van a obtener las componentes principales utilizando estas dos matrices.

Page 147: Apuntes de Analisis Cuantitativo

147

Los valores y vectores propios de S son

( )( )

'1 1

'2 2

100.16 0.040, 0.999

0.84 0.999, 0.040

λ φλ φ

= == = −

Por tanto, las componentes principales son:

1 1 2

2 1 2

0.040 0.999:

0.999 0.040

Y X XS

Y X X

= += −

Ya que su varianza es mayor, 2X domina completamente la primera componente determinada

por S . Además la primera componente explica una proporción de

1

1 2

100.160.992

101

λλ λ

= =+

de la varianza total.

Veamos la correlación de las componentes y las variables originales:

1 1

1 2

11 1,

11

12 1,

22

0.4

0.999 100.160.999

100

Y X

Y X

rs

rs

φ λ

φ λ

= =

= = =

Los valores y vectores propios de R son

( )( )

'1 1

'2 2

1.4 0.707, 0.707

0.6 0.707, 0.707

λ φλ φ

= == = −

y las componentes principales utilizando la matriz de correlación son:

( ) ( )

( ) ( )

1 1 2 21 1 2

1 1 2 2

1 1 2 22 1 2

1 1 2 2

0.707 0.707 0.707 0.7071 10

0.707 0.0707:

0.707 0.707 0.707 0.7071 10

0.707 0.0707

X XY Z Z

X XR

X XY Z Z

X X

µ µ

µ µµ µ

µ µ

− − = + = +

= − + −

− − = − = −

= − − −

Cuando las variables están estandarizadas, sin embargo, las variables resultantes contribuyen

de igual forma a las componentes principales determinadas a partir de R . Veámoslo:

1 1

1 2

, 11 1

, 12 1

0.707 1.4 0.837

0.707 1.4 0.837

Y Z

Y Z

r

r

φ λ

φ λ

= = =

= = =

Page 148: Apuntes de Analisis Cuantitativo

148

En este caso, la primera componente explica una proporción de 1 1.40.7

2p

λ = = de la varianza

total.

Vemos entonces que la importancia relativa de las variables sobre, por ejemplo, la primera

componente principal está muy afectada por la estandarización. Cuando la primera

componente obtenida a partir de R se expresa en términos de 1X y 2X , las magnitudes

relativas de las ponderaciones 0.707 y 0.0707 están en directa oposición con las ponderaciones

0.040 y 0.999 conseguidas en las componentes principales de S •

El ejemplo anterior demuestra que las componentes principales derivadas de S son diferentes

de las derivadas de R . Esto sugiere que la estandarización no es intrascendente.

Las variables deberían ser estandarizadas si son medidas en escalas con rangos muy diferentes

o si las unidades de medidas no son proporcionadas. Por ejemplo, si 1X representa las ventas

anuales en el rango 10.000€ y 350.000€ y 2X es la razón ingresos anuales netos / valores

totales, que caen en el rango 0.01 y 0.6, entonces la variación total será dada casi

exclusivamente por los euros de las ventas. En este caso, podríamos esperar una única

componente principal con una ponderación muy fuerte de 1X . Alternativamente, si las dos

variables están estandarizadas, sus magnitudes subsecuentes estarán en el mismo orden y 2X

(o 2Z ) jugará un papel importante en la construcción de las componentes. Este

comportamiento fue observado en el ejemplo 9.3.

Ejemplo 9.4

Un censo reciente proporciona información sobre 5 variables socio-económicas. Los datos

sobre 14 regiones están dados en la siguiente tabla:

Regiones Población total

(miles)

Años medios

en escuela

Empleo total

(miles)

Empleo en Sanidad (cientos)

Ingresos medios en hogar

(10.000€) 1 5,935 14,2 2,265 2,27 2,91 2 1,523 13,1 0,597 0,75 2,62 3 2,599 12,7 1,237 1,11 1,72 4 4,009 15,2 1,649 0,81 3,02 5 4,687 14,7 2,312 2,50 2,22 6 8,044 15,6 3,641 4,51 2,36 7 2,766 13,3 1,244 1,03 1,97 8 6,538 17,0 2,618 2,39 1,85 9 6,451 12,9 3,147 5,52 2,01 10 3,314 12,2 1,606 2,18 1,82 11 3,777 13,0 2,119 2,83 1,80

Page 149: Apuntes de Analisis Cuantitativo

149

12 1,530 13,8 0,798 0,84 4,25 13 2,768 13,6 1,336 1,75 2,64 14 6.585 14.9 2.763 1.91 3.17

Estos datos proporcionan los siguientes estadísticos:

[ ]' 4.32 14.01 1.95 2.17 2.45

4.308 1.683 1.803 2.155 0.253

1.683 1.768 0.588 0.177 0.176

1.803 0.588 0.801 1.065 0.158

2.155 0.177 1.065 1.970 0.357

0.253 0.176 0.158 0.357 0.504

x

S

=

− = − − − − −

¿Se puede resumir la variación muestral mediante una o dos componentes principales?

Como los valores de las variables se mueven en un rango parecido, utilizaremos la matriz de

covarianzas.

COEFICIENTES PARA LAS COMPONENTES PRINCIPALES (Coeficiente correlación entre paréntesis) Variable

1φ 2φ 3φ 4φ 5φ

Población Total 0.781 (0.99) -0.71 (-0.04) 0.004 0.542 -0.302

Años medios Escuela 0.306 (0.61) -0.764 (-0.76) -0.162 -0.545 -0.010

Empleo Total 0.334 (0.98) 0.083 (0.12) 0.015 0.050 0.937

Empleo Sanidad 0.426 (0.80) 0.579 (0.55) 0.220 -0.636 -0.173

Ingresos Medios -0.054 (-0.20) -0.262 (-0.49) 0.962 -0.051 0.024

Varianza ( iλ ) 6.931 1.786 0.390 0.230 0.014

Porcentaje acumulado de la varianza total

74.1 93.2 97.4 99.9 100

La primera componente principal explica el 74.1% de la varianza muestral total. Las dos

primeras componentes explican el 93.2%. En consecuencia, la variación muestral se resume

muy bien mediante dos componentes y la reducción en los datos va de 14 observaciones de 5

variables a 14 observaciones de dos componentes.

Fijándonos en los coeficientes, la 1ª componente es una media ponderada de las 4 primeras

variables. En la 2ª componente aparece contraste entre el empleo en sanidad y una media

ponderada de la población total, los años medios en el colegio y los ingresos medios.

Las salidas del SPSS, utilizando la matriz de covarianza, son las siguientes:

Page 150: Apuntes de Analisis Cuantitativo

150

Matriz de componentes(a)

Bruta Reescalada

Componente Componente

1 1 PobTotal 2,057 ,991 AñosMedios ,805 ,605 EmpleoTotal ,881 ,984 EmpleoSanidad 1,122 ,799 IngresosMedios -,143 -,201

Método de extracción: Análisis de componentes principales. a 1 componentes extraídos Dividiendo estas cantidades entre la raíz cuadrada de primer valor propio (6,931) obtenemos

los coeficientes de la primera componente principal. La correlación entre la primera

componente y las variables originales la podemos leer en la columna denominada

“reescalada”. El porcentaje de varianza que explica esta variable es el siguiente:

Varianza total explicada

Componente

Sumas de las saturaciones al cuadrado de la extracción

Total % de la varianza % acumulado

Bruta 1 6,931 74,133 74,133 Método de extracción: Análisis de Componentes principales. •

Si centramos la atención en una interpretación de las componentes principales, las

correlaciones ,i ky xr pueden ser una guía más fiable que los coeficientes de las componentes.

Por ejemplo, en el ejemplo 9.3 el coeficiente de 2Z en 1Y es muy pequeño 0,0707 pero sin

embargo el coeficiente de correlación lineal entre ambas variables es 0,837.

Ejemplo 9.5

En un estudio de tortugas se les mide la longitud, la anchura y la altura del caparazón (en

milímetros). Los datos son los siguientes:

Longitud Anchura Altura 98 81 38 103 84 38 103 86 42 105 86 42 109 88 44 123 92 50 123 95 46 133 99 51 133 102 51 133 102 51 134 100 48 136 102 49

Page 151: Apuntes de Analisis Cuantitativo

151

138 98 51 138 99 51 141 105 53 147 108 57 149 107 55 153 107 56 155 115 63 155 117 60 158 115 62 159 118 63 162 124 61 177 132 67

Los datos sugieren un análisis en términos de logaritmos (suaviza la serie).

Las salidas del SPSS son:

Estadísticos descriptivos

Media Desviación

típica N del análisis lnLONGITUD 4,9007 ,16250 24 lnANCHURA 4,6229 ,12724 24 lnALTURA 3,9403 ,15792 24

Varianza total explicada

Componente Autovalores iniciales(a)

Total % de la varianza % acumulado

Bruta 1 ,066 98,060 98,060 2 ,001 1,134 99,194 3 ,001 ,806 100,000

Método de extracción: Análisis de Componentes principales. Matriz de componentes(a)

Bruta Reescalada

Componente Componente

1 2 1 2 lnLONGITUD ,161 ,015 ,992 ,094 lnANCHURA ,126 ,008 ,987 ,059 lnALTURA ,156 -,022 ,990 -,138

Método de extracción: Análisis de componentes principales.

Resumimos a continuación los resultados para la primera componente:

COEFICIENTES DE LAS COMPONENTES PRINCIPALES (Entre paréntesis los coeficientes de correlación)

Variable 1φ (

1 iY Xr )

Ln(longitud) 0.627 (0.99) Ln(anchura) 0.490 (0.99) Ln(altura) 0.607 (0.99) Varianza ( iλ ) 0,066

Porcentaje acumulado de la varianza total

98.06

Page 152: Apuntes de Analisis Cuantitativo

152

La 1ª componente principal, que explica el 98,06% de la varianza total, tiene una interesante

interpretación:

( )1

0.627 0.490 0.603

0.627 ln( ) 0.490ln( ) 0.603ln( )

ln

y long anchura altura

long anchura altura

= + +

=

La primera componente principal puede ser vista como el ln(volumen) de una caja con

dimensiones ajustadas. Por ejemplo, la altura ajustada es 0.607altura , lo cual tiene en cuenta,

en algún sentido, la forma redondeada del caparazón.•

Es muy frecuente que la primera componente haga referencia al tamaño (todos los coeficientes

de la combinación lineal son posistivos) y la segunda a la forma (se enfrentan coeficientes

negativos y positivos en la combinación lineal, como ocurre aquí con la segunda componente).

Un inusual valor pequeño en el último valor propio para la matriz de covarianzas o la matriz

de correlación puede indicar una dependencia lineal no anunciada en el conjunto de los datos.

Si esto ocurre, una o más de las variables son redundantes y pueden ser eliminadas.

Consideremos una situación donde 21,xx y 3x son puntuaciones de test y la puntuación total

4x es la suma 321 xxx ++ . Entonces, aunque la combinación lineal 1 2 3 4x x x x+ + − es siempre

cero, errores de redondeo en los cálculos pueden dar valores pequeños distintos de cero. Si la

expresión lineal que relaciona 4x con ),,( 321 xxx se obvió inicialmente, el valor propio menor

podría dar una pista de su existencia.

Por ello, aunque los valores propios grandes y sus vectores son importantes en un análisis de

componentes principales, los valores propios muy cercanos a cero no deben ser ignorados. Los

vectores propios asociados a estos valores cercanos a cero pueden reflejar dependencias

lineales en el conjunto de datos que pueden causar problemas computacionales e

interpretativos en análisis posteriores.

Ejemplo 9.6

Veamos un caso en el que uno de los autovalores es cero y estudiaremos sus consecuencias.

Supongamos que la matriz de covarianza ya está calculada, y es:

4.5 1.5

1.5 0.5S

=

Sus valores propios son 1 5λ = y 2 0λ = . Los vectores propios asociados a estos valores son:

1

0.95

0.32φ

=

2

0.32

0.95φ

= −

Page 153: Apuntes de Analisis Cuantitativo

153

La interpretación geométrica del nuevo sistema de coordenadas (1Y , 2Y ) respecto al original

( 1X , 2X ) en base a los vectores propios se detalla en la siguiente figura

Calculamos las componentes principales:

1 1 2

2 1 2

0.95 0.32

0.32 0.95

Y X X

Y X X

= += −

Observemos que la matriz de covarianza de Y es diagonal y contiene los valores propios

asociados a S :

5 0

0 0YS

=

Las componentes principales preservan la varianza global:

( )( )

4.5 0.5 5

5 0 5Y

tr S

tr S

= + =

= + =

Observe que en este caso, al ser 2 0λ = significa que la varianza de los datos en 2Y es cero lo

que se interpreta como que los datos están perfectamente alineados en la dirección de 1Y . En

otras palabras, el eje 2Y es innecesario.

Page 154: Apuntes de Analisis Cuantitativo

154

Page 155: Apuntes de Analisis Cuantitativo

155

EJERCICIOS

Page 156: Apuntes de Analisis Cuantitativo

156

2. Muestreo Aleatorio Simple

1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga

que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas

fue 1.040€y = y la varianza muestral (“cuasivarianza”) es S2=45.000€2. Estime el

promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con

un intervalo de confianza al 95%.

Solución: ( ) ( )1.040 20,49 1.019,51 , 1.060,49µ ∈ =∓

( ) ( )1.040.000 20.490 1.019.510 ,1.060.490τ ∈ =∓

2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes

para estimar

• La proporción que votarán a un determinado representante de centro.

• La proporción de ellos que tienen algún tipo de trabajo.

Sean , ( 1,...,100)i iy z i = las respuestas del i-ésimo estudiante seleccionado ( 0iy =

cuando responden NO, 1iy = cuando responden SI, análogamente para iz ).

Según la muestra 100 100

1 1

70 25i ii i

y z= =

= =∑ ∑� �

Usando los datos de la muestra, estime 1p (proporción de estudiantes que votarán a un

determinado representante) 2p (proporción y número de estudiantes con algún tipo de

trabajo) y los límites para los errores de estimación correspondientes.

Solución � �

100 100

1 11 20,70 (70%) 0,25 (25%)

100 100

i ii i

y zp p= == = = =

∑ ∑� �

� � � �1 22 ( ) 0,0868 (8,68%) 2 ( ) 0,0821 (8,21%)V p V p= =

� �2 22 900 0,25 225 2 ( ) 900 0,0821 73,89N p Vτ τ= = × = = × =ɵ ɵ

3. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por

cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con

datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las

cuentas caen dentro del intervalo (600, 1.400).

Solución: 615,62 616n = ≈

4. Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta

para determinar la proporción de estudiantes que están a favor de hacer exámenes en

Page 157: Apuntes de Analisis Cuantitativo

157

sábado con un límite para error de estimación del 10%. La información previa disponible

indica que el 60% preferían los exámenes en sábado. También se quiere estimar la

proporción de estudiantes que apoyan al equipo decanal con un error máximo de

estimación del 5%. Determinar el tamaño muestral que se requiere para estimar ambas

proporciones con los límites de error especificados.

Solución: 35404,353 ≅=n

5. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000

niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que

había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de

iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían

progresado con la nueva pasta dental. Usando los datos de la siguiente tabla:

Niño Número de caries

en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1

¿Se puede decir que la incidencia media de las caries ha disminuido?

Solución: ( ) No⇒∈ 94,2,06,12,2

6. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200

pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria

simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con

los resultados siguientes: 1,2=y segundos y 4,0=S segundos. Estime la media poblacional

y establezca un límite para el error de estimación.

Solución: 1697,0;1,2ˆ == Bµ

7. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas

telefónicas para estimar la proporción de hogares donde habita por lo menos una persona

mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más

reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al

terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos

una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite

para el error de estimación.

Page 158: Apuntes de Analisis Cuantitativo

158

Solución: 0958,0;1833,0ˆ == Bp

8. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un

operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron

aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los

siguientes:

Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del

taller para terminar dicha tarea es inferior a 6 minutos?

Solución: ( ). . : 3,91 min., 6,61 min.INTERV CONF Valores mayores e igual a 6 minutos

pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis.

9. Un investigador está interesado en estimar el número total de árboles mayores de un cierto

tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para

estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100

parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el

número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre

fue 2,25=y árboles, con una varianza muestral de 1362 =S . Estime el número total de

árboles de tamaño grande en la plantación. Establezca un límite para el error de

estimación.

Solución: 9408,379.3;800.37ˆ == Bτ

10. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para

estimar el número total de árboles grandes en la plantación, con un límite para el error de

estimación de 1.500 árboles.

Solución: 400413,399 ≅=n

11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición

en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las

hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una

muestra aleatoria de 50 hojas se han observado los siguientes resultados:

50 502

1 1

1.450; 54.496i ii i

Y Y= =

= =∑ ∑

¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de

firmas recogidas para la petición?

Solución: ( ) ( )20.300 3.040,66 17.259,34 , 23.340,66=∓

Previsión más optimista: 23.340; previsión más pesimista: 17.259

Page 159: Apuntes de Analisis Cuantitativo

159

12. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que

contiene 14.848 familias. El número de personas por familia en la muestra obtenida fue el

siguiente:

5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4

Estimar el número total de personas en la zona, construyendo un intervalo de confianza al

95%.

Solución: ( )04,104.58,09,842.44

13. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su

“Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales

35 fueron pagadas con la tarjeta.

a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.

b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la

proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una

muestra previa)

c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas

con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total

de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos

625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación

asociado.

Solución: a) ( )12,11% , 22,89%p∈ . b) 641,6 642pq

nD

= = ≈⌢

.

c) 1

1 5600160€

35

n

ii

y yn =

= = =∑ �2 ( ) 8,45€B V y= =

14. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000

préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor

cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía.

¿cuál es el tamaño muestral necesario para estimar estos dos parámetros:

- la cuantía media de los prestamos cometiendo un error de estimación menor de 400

euros y

- la proporción de préstamos pendientes de amortizar más de la mitad de la deuda

cometiendo un error máximo del 5%?

Solución: 139,65 140 333,47 334n n= ≈ = ≈

Page 160: Apuntes de Analisis Cuantitativo

160

15. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de

empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que

el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el

tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y

al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido

sea del 2%?

Solución: 74,1 75n = ≈ 105,4 106n = ≈

16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las

empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en

el registro mercantil. El número de bajas en el último año, el número de empleados y la

respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo

temporal fueron los siguientes:

Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No

a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule

el límite para el error de estimación.

b) Estime el número de empresas que usarían los servicios ofertados. Calcule el

límite para el error de estimación.

Solución: a) �70 2 ( ) 71,2741N y B Vτ τ= = = =ɵ ɵ

b) � �10 2 ( ) 10,9545N p B Vτ τ= = = =ɵ ɵ

17. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente de entre los más de cien mil

habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales.

655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en

contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se

puede afirmar que la mayoría de los habitantes están en contra?

Solución: (62,49% , 68,51%) 50% ...p p si se puede afirmar∈ ⇒ > ⇒ 18. El Centro de Estadística desea estimar el salario medio de los trabajadores de los

invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato

fijo y los que tienen un contrato temporal. El salario de los contratos fijos está

comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos

temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño

muestral total y su asignación para que se estime el salario medio de los contratos fijos con

Page 161: Apuntes de Analisis Cuantitativo

161

un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior

a 120€?

Solución: 1 25n = 2 25n = 1 2 50n n n= + = 19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el

valor medio de las compras por cliente.

VALOR en € 33,5 32 52 43 40 41 45 42,5 39

a) Obtener un intervalo de confianza para el valor medio de las compras.

b) ¿Podemos aceptar que la compra media es de 45€?

c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€?

Solución: a) ( ) ( )40,89 3,98 ; 40,89 3,98 36,91; 44,87− + =

b) No porque ( )45 36,91; 44,87∉ c) 35,67 36n compras= ≈

20. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas

telefónicas para estimar la proporción de hogares donde habita por lo menos una persona

mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más

reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al

terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al

menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los

hogares de esa ciudad habita al menos una persona mayor de 65 años.

Solución: ( ) ( )25% 17% 4,21% 12,79%, 21,21%∉ =∓ luego se rechaza la hipótesis de

que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65

años.

21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km.

Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un

dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20

taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de

combustible por cada 100 Km se recoge en la siguiente tabla

Taxi nºConsumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5,4 6 6,3 11 3,6 16 5,4 2 5,5 7 5,4 12 6,7 17 4,8 3 6,9 8 5 13 5,2 18 4,7 4 3,9 9 4,5 14 5,1 19 5,8 5 4,5 10 4,4 15 5,4 20 6,2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un

consumo inferior a 5,6 litros/100 Km.

b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error

menor o igual que un 10%?

Page 162: Apuntes de Analisis Cuantitativo

162

Solución: (a) ( )55'47%, 94'53% (b) 66,77 67n = ≅

3. Muestreo Aleatorio Estratificado

1. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un

año de un determinado producto en una comarca formada por cuatro municipios. Para

estimar de paso también el consumo en cada municipio decide usar muestreo estratificado

tomando cada municipio como un estrato. Se sabe que el 20% de la población de la

comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el

25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y

obtener datos sobre el consumo anual de 20 hogares.

Dado que no tiene información previa respecto a las varianzas de los estratos y porque el

coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual

conduce a

11 20 0,20 4

Nn n

N= = × = de forma similar 2 3 46 5 5n n n= = = .

Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).

Estrato 1 Estrato 2 Estrato 3 Estrato 4

470 510 500 550

490 500 470 520 550 500

540 480 500 470 470

450 560 460 440 580

211 507,5 1091,67y S= = 2

22 505 750y S= = 233 492 870y S= = 2

44 498 4420y S= =

Estime el consumo anual medio por hogar y fije un límite para el error de estimación.

Solución: 4

1

500,5€ist i

i

Ny y

N== =∑ �2 ( ) 18,79 €stV y =

2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al

por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es

complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio

de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una

muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos

Page 163: Apuntes de Analisis Cuantitativo

163

son separados en facturas al por mayor y al por menor después del muestreo, con los

siguientes resultados en €:

Por mayor Por menor

Valor total facturas=36400€

1 1170 520€ 210€n y S= = =

Valor total facturas=8400€

2 2230 280€ 90€n y S= = =

Estime el valor medio de las facturas de la empresa, y fije un límite para el error de

estimación.

Solución: 376€; 28,14€sty B= =

3. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de

ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella

sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la

operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria

de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la

operación B. De entre los circuitos integrados muestreados de la operación A, 2 son

defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas.

a) Considerando únicamente la muestra aleatoria simple de 100 circuitos

integrados, estime la proporción de los defectuosos en el lote, y establezca un

límite para el error de estimación.

b) Estratifique la muestra, después de la selección, en circuitos integrados

provenientes de la operación A y B, estime la proporción de los defectuosos en

la población, y fije un límite para el error de estimación.

c) ¿Qué respuesta encuentra más aceptable? ¿Por qué?

Solución:

a. �18

0,18 (18%)100

p = = � � ( )2 ( ) 0,0772 7,72%V p =

b. � � � ( )1 1

1 2 160,60 0,40 0,14 14%

20 80

L Li

ist i ii i

Np N p p

N N= =

= = = + =

∑ ∑

� � ( )2 ( ) 0,0901 9,01%stV p =

c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%)

que de B (40%), la muestra global no representa adecuadamente este hecho,

predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el

apartado a. la estimación esté sesgada hacia el valor de B (� 2 0,20p = ) frente al de A

Page 164: Apuntes de Analisis Cuantitativo

164

( �1 0,10p = ). En el apartado b. este hecho se corrige dando a �1p y � 2p las

ponderaciones 0,60 y 0,40 respectivamente para estimar p.

4. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30

en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para

contrastar la posible demanda de este producto, lo introdujo en el menú de muestras

aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice

1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las

desviaciones típicas muestrales del número de pedidos de este producto recibidos por

restaurante en las tres ciudades durante una semana fueron:

1 1

2 2

3 3

21,2 12

13,3 11

26,1 9

y S

y S

y S

= == == =

a) Estimar el número medio de pedidos semanales por restaurante para los

restaurantes de la cadena. Dar un límite del error de estimación.

b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior

cometiendo un error inferior a 3 pedidos.

Solución:

a. 1

1 383419,17 /

200

L

ist ii

y N y pedidos semanaN =

= = =∑

�2 ( ) 5,02 /stV y pedidos semana=

b. 2 9

2,254 4

BD = = =

2

1

2 2

1

43,52( )L

i ii

L

i ii

Nn

N D N

σ

σ=

=

= =+

1 2 323,31 24 14,96 15 5,24 6 45n n n n= ≈ = ≈ = ≈ =

5. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de

dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera

independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años

y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del

número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a

continuación.

Carreras de 2 años Carreras de 4 años

Media 154,3 411,8

Desviación típica 87,3 219,9

Page 165: Apuntes de Analisis Cuantitativo

165

a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar

un límite de error de estimación.

b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las

universidades la asignatura de estadística para economistas era impartida por

miembros del departamento de economía. En la muestra se halló que en 7 de las

universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro

años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es

impartida por profesores del departamento de economía. Dar un límite de error de

estimación.

Solución: (a) 84,594.57;731.480ˆ == Bstτ (b) 0826,0;2058,0ˆ == Bpst

6. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro

barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los

miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5

(totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en

la tabla adjunta:

Barrio 1 2 3 4

iN 240 190 350 220 in 25 25 25 25 iy 3,5 3,6 3,9 3,8 iS 0,8 0,9 1,2 0,7

a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán

del nuevo servicio.

b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos

pertenecerían al barrio 3. (Suponga iguales los costes de observación)

Solución: (a) 3,725; 0,1973; (3,5277 ; 3,9223)sty B= = (b) 3 44,82 45n = ≈

7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208

profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los

profesores están realmente en sus despachos durante las horas de tutorías. Decide

investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos

estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus

horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de

los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza

para la proporción de profesores que permanecen en sus despachos durante las horas de

tutorías.

Solución: 0685,0;7214,0ˆ == Bpst

Page 166: Apuntes de Analisis Cuantitativo

166

8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La

población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas,

respectivamente. Basándose en una experiencia previa, se estima que las desviaciones

típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el

tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar

cometiendo un error de como mucho 5 euros.

Solución: 55,80;83,19;31,22;83,19;59,18 4321 ===== nnnnn

9. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención

diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con

niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que

en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90%

de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas

instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€

para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la

actualidad utilizan las instalaciones y 145 que no lo hacen.

a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la

proporción poblacional con un límite de 0,05 para el error de estimación.

b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la

muestra y la asignación que minimiza la varianza del estimador para este costo fijo.

Solución: (a) 1 247; 83; 130n n n= = = (b) 61;39;22 21 === nnn

10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al

realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los

siguientes resultados:

Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721

a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad.

Dé un límite para el error de estimación.

b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas

que no tienen calefacción eléctrica. Dé un límite para el error de estimación.

Solución: a. 701,50sty = 2 2,19 2,96= b. 2 463y = 2 2,17 2,94=

11. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una

encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares

de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por

hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga

Page 167: Apuntes de Analisis Cuantitativo

167

que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de

minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en

cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por

teléfono y los hogares sin teléfono son entrevistados personalmente?

Solución: 1 2 1 21677,2 1677 107,59 107 1784n n n n n= ≈ = ≈ = + = 12. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen

fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de

3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de

hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose

los siguientes datos:

Número de hijos in ∑=

n

iiy

1

2iS

0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24

Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y

dar el límite de error de estimación. Omitir el corrector por población finita. Solución:

8,15sty = 2 1,107 2,1=

13. En una población compuesta por aproximadamente igual número de hombres que de

mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la

encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono

del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los

encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una

estratificación después de seleccionar la muestra obteniéndose los siguientes datos

HOMBRES MUJERES

iN 2.500 2.700

in 100 400

iy 120 250

2iS 9.000 16.000

Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante

muestreo aleatorio estratificado después de seleccionar la muestra.

Solución: 187,5sty = 2 29,16 10,8=

14. En una población compuesta por aproximadamente igual número de hombres que de

mujeres se desea estimar la proporción de individuos que ven un determinado programa

de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria

simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo

Page 168: Apuntes de Analisis Cuantitativo

168

50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo

una estratificación después de seleccionar la muestra obteniéndose los siguientes datos

HOMBRES MUJERES Encuestados 50 250

Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error,

mediante muestreo aleatorio estratificado después de seleccionar la muestra.

Solución: � �0,38 38%st stp p= ⇒ = � �2 ( ) 0,0687 6,87%stV p = ⇒

15. Una corporación desea estimar el número total de horas perdidas debido a accidentes de

sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos

tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado,

formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas

mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres

grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo

diferencia entre los costes de observación de cada grupo, determine la mejor asignación

para una muestra de 40 empleados.

Obreros Técnicos Administrativos 2iS 36 25 9

iN 132 92 27

Solución:

1 2 340 0,5941 23,8 24 40 0,3451 13,8 14 40 0,0608 2,4 2n n n= × = ≈ = × = ≈ = × = ≈

16. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes

de observación y estimaciones de las proporciones

Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70

Determine la mejor asignación para una muestra de 200 observaciones.

Solución:

1 2 3200 0,4795 95,9 96 200 0,1909 38,2 38 200 0,3296 65,9 66n n n= × = ≈ = × = ≈ = × = ≈

17. En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar

una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se

obtuvieron los siguientes resultados:

Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90

Page 169: Apuntes de Analisis Cuantitativo

169

Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un

límite para el error de estimación.

Solución: 2 2

1 1

165,05€i

ist i ii i

Ny N y y

N N= == = =∑ ∑ �2 ( ) 25,24€stV y =

18. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres

categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas

pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto

almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las

categorías, resultando

Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34

Considerando los anteriores datos como una muestra previa, obtenga el número de

unidades que cada categoría debe aportar a la muestra para que el error en la estimación

del peso total no supere el medio kilo.

Solución:

2

2

250.0000,0625

4 4.000.000

BD

N= = =

2

1

2 2

1

71,66( )L

i ii

L

i ii

Nn

N D N

σ

σ=

=

= =+

1 2 313,79 14 45,99 46 11,87 12 72n n n n= ≈ = ≈ = ≈ =

19. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas

las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a

200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133

restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estime la proporción

de piezas defectuosas de la factoría y dé el límite del error de estimación. Omita el

coeficiente corrector por población finita.

Solución: %74,2%;9,3ˆ == Bp

20. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las

empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea

estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto

del seguro). Se clasifican las empresas en función de su tamaño. El número de empresas

de cada tipo, el coste de obtención de esta información en cada empresa así como los

valores mínimos, medios y máximos de un estudio similar hecho hace dos años se

expresan en la siguiente tabla (los costes y gastos están expresados en euros)

Page 170: Apuntes de Analisis Cuantitativo

170

Tipo de empresa

Número de empresas

Costes de observación

Gastos de reparación Mínimo Media Máximo

A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130

Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas

empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de

estimación asociado?

Solución: €)57843693468(78;36;34;8 321 =++==== xxxnnnn

21. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres

que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de

padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se

decide estratificar según la edad de los alumnos. A partir de la información proporcionada

por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que

encuestar para que la proporción de participación de los padres con hijos de edades entre 6

y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre

tiene un solo hijo en el centro)

Años Alumnos matriculados

Porcentaje de participación en años anteriores

Coste de encuestar a un elemento

4-6 150 40% 4 6-8 130 30% 9 8-12 120 25% 16 12-14 100 20% 25

Sol. 2165,20;3453,33;5227,51;9584,94;3,200 4321 ≅=≅=≅=≅== nnnnn 202=⇒ n

22. El coste de transportar mercancías en avión depende del peso. Un determinado embarque

de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las

dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de

observar si existe variación semanal en la cantidad producida. Las muestras aleatorias

simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos

semanas, mostraron las siguientes mediciones:

Semana A Semana B

58,3 59,2

60,4 60,1

59,3 59,6

58,7 59,2

59,1 58,8

59,6 60,5

Page 171: Apuntes de Analisis Cuantitativo

171

a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de

máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.

b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria.

c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera

estimar el peso total del embarque, con un límite para el error de estimación de 50

kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra.

Considere las muestras anteriores como muestras previas para estimar los

parámetros necesarios.

Solución: (a) 13,722.19ˆ =τ (b) )56'850.19,71'593.19(

(c) 673230,31;3537,34;67,65 21 =⇒≅=≅== nnnn

23. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas.

La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se

usa muestreo aleatorio estratificado, con cada tienda como un estrato.

Estrato I Estrato II Estrato III Estrato IV

Nº cuentas por cobrar 651 =N 422 =N 933 =N 254 =N

Tamaño muestra 141 =n 92 =n 213 =n 64 =n

Nº cuentas no cobradas 4 2 8 1

a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el

error de estimación.

b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra

necesarios para estimar la proporción de cuentas no cobradas, con un límite del

error de estimación del 5%.

Solución: (a) 1173,0;30,0ˆ == Bp

(b) 1317,12;5998,58;2380,22;3935,38;30,132 4321 ≅=≅=≅=≅== nnnnn 134=⇒ n

24. Una escuela desea estimar la calificación media que puede obtener en el examen final de

matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según

el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el

presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal,

30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de

aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70

para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente.

Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo

el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre

paréntesis, el tipo de aprendizaje de cada estudiante):

Page 172: Apuntes de Analisis Cuantitativo

172

70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A)

91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L)

Se pide:

a. Estime la calificación media en el examen final de matemáticas. De una medida del

error de estimación.

b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados

de ambos métodos de estimación, así como determine la ganancia en precisión.

c. Se desea mejorar la estimación de la nota media del examen final en matemáticas,

teniendo en cuenta más información. Usando estos resultados como muestra

previa, qué tamaños muestrales en cada estrato son necesarios para un error

máximo admisible de 2 puntos, utilizando asignación proporcional.

d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje

normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la

muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación

tuviera un error máximo admisible de 10 estudiantes?

Solución: (a) ˆ 78,59; 3,21Bµ = = (b) 25,4;53,77ˆ == Bµ

(c) 38826,7;1189,10;1915,18;31,36 321 =⇒≅=≅=≅== nnnnn

(d) 178,16);69,43,87,11( ≅=n

25. Se desea estimar el salario medio de los empleados de una empresa. Se decide

clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato

temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los

contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros

mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el

salario medio mensual el error de estimación sea inferior a 100 euros?

Solución: 1 226,91 7,77 8 19,14 20 28Neyman n n n n= = ≅ = ≅ ⇒ =

Page 173: Apuntes de Analisis Cuantitativo

173

4. Estimación de Razón, Regresión y Diferencia

1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha

ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una

encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen

en esta tabla.

Renta Consumo 1.702,44 1.204 1.339,56 1.000

981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600 1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000

Estime el consumo total mensual para todos los hogares de la ciudad mediante el

estimador de razón. De el LEE.

Solución: ˆ 1.116.002,07€; 59.053,37€y Bτ = =

2. Mediante una tasación previa se desea estimar la producción media y la producción total

de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada

es de 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los

que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados

fueron:

Superficie Producción 3,7 12 4,3 14 4,1 11 5 15

5,5 16 3,8 12 8 24

5,1 15 5,7 18 6 20 3 8 7 20

5,4 16 4,4 14

Page 174: Apuntes de Analisis Cuantitativo

174

5,5 18 5 15

5,9 18 5,6 17 5 15

7,2 22 a) Estimar la producción media y total mediante los estimadores de razón y m.a.s. Dar

sus respectivos LEE y compararlos.

b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del

total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su

producción antes de realizar una nueva estimación?

Solución:

(a) ˆ ˆ: 15,57 ; 0,37 ; 11.680,61 ; 278,14y yrazón tm B tm tm B tmµ τµ τ= = = =

ˆ ˆ. . . : 16 ; 1,69 ; 12.000 ; 1.265,76m a s y tm B tm tm B tmµ τµ τ= = = = =

(b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el máximo

n=43.

3. Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre la

media y el total de ventas diarias. Se tiene información de que, por término medio, el

gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se

les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son:

Gastos Ventas 3,7 120 4,3 140 4,1 135 5 150

5,5 160 3,8 120 8 160

5,1 150 5,7 125 6 130 0 80 7 150

5,4 150 4,4 120 5,5 140 5 150

5,9 150 6,6 170

a) Estimar la media y el total de ventas diarias utilizando estimadores de

regresión. Dar LEE.

Page 175: Apuntes de Analisis Cuantitativo

175

b) Se quiere repetir el estudio anterior de forma que la estimación del total no

supere los 1.000 euros ¿cuál debe ser el tamaño muestral?

Solución: (a) €76,559.5€;38,314.138ˆ€;56,5€;31,138ˆ ==== τµ τµ BB yLyL

(b) 36267,361 ≅=n establecimientos

4. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.

Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar

una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:

Ingresos Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460

a) Estime el gasto medio y el gasto total diario para los 200 establecimientos

utilizando muestreo aleatorio simple, estimadores de razón, regresión y

diferencia. Obtenga el LEE en cada caso.

b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y

cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el

tamaño muestral?

Solución: (a)

Muestreo aleatorio simple

ˆ ˆ453,5€ 90.700€

ˆ ˆB 2 V( ) 75,20€ B 200 B =15.040,97€

y Ny

µ τ µ

µ τ

µ

= = = =

= = = ×

Estimadores de razón

ˆ ˆ0,879 87.900€ 439,5€y x y x

yr r r

xτ τ µ µ= = = = = =

9,3€Bµ = 1.860,46€Bτ =

Estimadores de regresión

ˆ ˆ ˆ437,515€ 87.503€yL yL yLNµ τ µ= = =

2,3104€ 462,09€B B NBµ τ µ= = =

Estimadores de diferencia

ˆ ˆ ˆ437,5€ 87.500€yD yD yDNµ τ µ= = =

Page 176: Apuntes de Analisis Cuantitativo

176

( )ˆ ˆ2 2,179 435,8899yDB V B NBµ τ µµ= = = =

(b) 20 establecimientos

5. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en

alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una

muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se

presentan en la siguiente tabla:

Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000

Estime la razón poblacional, y establezca un límite para el error de estimación.

Solución: 0102,0;1467,0 == Br

6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las

ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de

ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses

correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de

5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la

siguiente tabla:

Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600

a) Usando un estimador de razón, estime el total de ganancias con un intervalo de

confianza.

b) Utilizando un estimador de regresión y un estimador de diferencia, estime las

ganancias medias y establezca un límite para el error de estimación.

Solución: a) ( )129940,67 ,138668,85yτ ∈

Page 177: Apuntes de Analisis Cuantitativo

177

b) ˆ 1.094,53; 40,46LY Bµ = = ; ˆ 1.084,28; 41,28

DY Bµ = = .

7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de

promoción regional sobre las ventas totales de un producto en particular. Una muestra

aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se

vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo

actual de tres meses y para el periodo de tres meses previo a la nueva campaña.

Tienda Ventas antes de la campaña

Ventas actuales

Tienda Ventas antes de la campaña

Ventas Actuales

1 208 239 11 599 626 2 400 428 12 510 538 3 440 472 13 828 888 4 259 276 14 473 510 5 351 363 15 924 998 6 880 942 16 110 171 7 273 294 17 829 889 8 487 514 18 257 265 9 183 195 19 388 419 10 863 897 20 244 257

a. Use los siguientes datos para estimar el total de ventas para el periodo actual y

establezca un límite para el error de estimación. Supóngase que las ventas totales

en el periodo previo a la campaña de promoción fueran de 216.256 €. Use los tres

métodos de estimación con información auxiliar.

b. Determinar el tamaño requerido de muestra para estimar Yτ̂ con un límite para el

error de estimación igual a 2.000€.

Solución: (a) 83,073.3;86,611.231ˆ == BYτ ; 85,950.2;66,581.231ˆ == BLYτ ;

01,849.3;00,511.231ˆ == BDYτ

(b) Razón: 4556,44 ≅=n ; Regresión: 4238,41 ≅=n ; Diferencia: 6716,66 ≅=n

8. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores

industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45

sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone

de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2

(en miles de millones). Los datos se presentan en la tabla adjunta:

Industria 1980 1981 Producto de fábricas textiles 13,6 14,5 Productos químicos y relacionados 37,7 42,7 Madera aserrada y leña 15,2 15,1 Equipo eléctrico y electrónico 48,4 53,6 Vehículos y equipo 19,6 25,4 Transporte y almacenaje 33,5 35,9 Banca 44,4 48,5

Page 178: Apuntes de Analisis Cuantitativo

178

Bienes Raíces 198,3 221,2 Servicios de Salud 99,2 114,0 Servicios de Educación 15,4 17,0

(a) Encuentre el estimador de razón del ingreso total de 1981, y establezca un límite

para el error de estimación.

(b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un

límite para el error de estimación.

(c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un

límite para el error de estimación.

(d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué?

Solución: (a) 95,45;30,433.2ˆ == BYτ (b) 64,48;91,432.2ˆ == BYLτ

(c) 07,180;90,455.2ˆ == BYτ

9. En una población de 500 hogares, para la que es conocido que el gasto total general

durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante

un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona

los siguientes valores anuales en €:

Gasto en alimentación 12.500 15.000 10.000 17.500 Gasto general 24.000 31.000 20.000 36.000

Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?,

justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante

un intervalo de confianza.

Solución: ( )7.205.693€ ; 7.659.172€yτ ∈

10. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una

agencia de seguros, en el presente mes, han sido (en euros)

570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros,

estime el total de ingresos y el límite para el error de estimación.

Solución: � 3349000 €yD yDNτ µ= =ɵ

� ( ) �2 2

2 2( ) 50169875 € 2 ( ) 14166,14 €D DyD yD

N n S SV N N N n V

N n nτ τ−= = − = =ɵ ɵ

11. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado

producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con

200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de

170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra

de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio

(expresado en euros), este año (Y) y el año pasado (X):

Page 179: Apuntes de Analisis Cuantitativo

179

Pueblo A Pueblo B xi yi xi yi

204 210 137 150 143 160 189 200 82 75 119 125 256 280

a. Sin hacer distinción entre pueblos, estime las ventas medias para este año

utilizando un estimador de razón. Dé un límite para el error de estimación.

b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el

pueblo?

c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace

distinción entre pueblos?

d. Compare los estimadores que se obtienen en cada caso justificadamente.

Solución: (a) 69,5;53,180ˆ == Bµ (b) 81,53;91,171ˆ == Bµ (c) 53,49;43,171ˆ == Bµ

(d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación

entre las variables. El muestreo estratificado se comporta mal porque los estratos no son

homogéneos.

12. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego

constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y litros

utilizados en riego aparecen en la siguiente tabla

Litros 600 1800 750 900 1100 1400 950 700 1000 720

Hectáreas 50 150 60 70 100 120 80 60 90 60

Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error

de dicha estimación.

Solución: 11'81 /r litros hectarea= �2 ( ) 0 '3392V r =

13. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.

Los investigadores piensan que hay razones para creer que el comportamiento es diferente

dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose

el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de

un mes de tratamiento (Y). Se obtuvieron los siguientes resultados:

6;8;10;40;60;80 321321 ====== nnnNNN

Zona A Zona B Zona C

X Y X Y X Y

3,2 4,1 3,1 3,9 2,8 3,8

3,0 4,0 3,0 4,0 2,9 3,7

Page 180: Apuntes de Analisis Cuantitativo

180

2,9 4,1 3,1 3,8 2,9 3,8

2,8 3,9 3,2 4,0 3,0 3,6

3,1 3,7 3,0 3,8 3,1 3,8

3,2 4,1 3,2 4,1 3,0 3,7

2,9 4,2 2,9 3,7

2,8 4,0 3,0 3,8

3,1 3,9

2,8 3,8

a. Estimar el peso medio estratificado de los conejos al principio y al final del

tratamiento. Dar una estimación del error.

b. Si se le permite un error de estimación de 0,01 para estimar el peso medio

estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños

muestrales? Usar asignación proporcional.

c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de

3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento

utilizando un estimador de razón. Dar el límite de error de estimación.

d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo

aleatorio simple. Comentar los resultados.

Solución: (a) 0523,0;8944,3ˆ;0516,0;0008,3ˆ ==== BB yx µµ

(b) 147331,32;4915,48;652,64;4,144 321 =⇒≅=≅=≅== nnnnn

(c) 0793,0;1467,4ˆ == Byµ (d) 0617,0;8875,3ˆ == Bµ

14. En una escuela de 560 alumnos, se desea estimar la calificación media que puede

obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información

auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del

curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes

para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de

dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los

siguientes:

Nota curso 99/00

Nota curso 00/01

80 87

78 65

98 86

45 47

Page 181: Apuntes de Analisis Cuantitativo

181

61 67

83 94

79 67

56 67

Estimar la calificación media del curso 00/01 utilizando como información auxiliar la

calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una

estimación del error de muestreo.

Solución: 45,7;75ˆ == Byµ

15. Un director de recursos forestales está interesado en estimar el número de abetos muertos

por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director

divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10

parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es

4200.

Parcela 1 2 3 4 5 6 7 8 9 10

Cantidad en fotografía 12 30 24 24 18 30 12 6 36 42

Cantidad en terreno 18 42 24 36 24 36 14 10 48 54

a. Estime la razón poblacional y obtenga su intervalo de confianza.

b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un

límite para el error de estimación.

c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos

muertos, con un límite de error de estimación de 200 abetos?

Solución: (a) )4097'1,2057'1(;3077,1=r (b) 44,428;31,492.5ˆ == Byτ ) (c) 399,38 ≅=n

16. De una población de 40 hogares, para la que es conocido que el gasto total general durante

un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria

simple de tamaño 4 que proporciona los siguientes valores anuales (en um):

Gasto en alimentación 125000 150000 100000 175000

a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de

confianza.

b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su

gasto general (en um):

Gasto General 250000 300000 200000 350000

Antes de calcular otro estimador, ¿obtendríamos mejores resultados si

utilizamos esta información auxiliar?¿Por qué?

Page 182: Apuntes de Analisis Cuantitativo

182

c. Estimar mediante un estimador de razón el total de gasto en alimentación,

utilizando la información auxiliar del apartado b.

d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del

apartado a o el del apartado c.

Solución: (a) )744.724.6,255.275.4( (b) 1=ρ (c) 000.000.6ˆ =yτ (d) 0=B (límite del error de

estimación del apartado (c)

17. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio.

El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del

barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por

vivienda. A partir de los datos siguientes:

25 25 252 2

1 1 1

9,1 2,6 2240 169 522i i i ii i i

x y x y x y= = =

= = = = =∑ ∑ ∑

estime la razón personas/habitación en el barrio y establezca el límite para el error de

estimación con una confianza del 95%.

Solución: 3,5 0,767r B= =

18. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso

a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la

variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las

calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas,

a partir de los datos de la tabla siguiente, se pide:

CHICOS CHICAS

Examen previo Examen de cálculo Examen previo Examen de cálculo

39 65 57 92

43 78 47 89

21 52 28 73

64 82 75 98

34 56

52 75

a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de

cálculo utilizando un estimador de razón. De una medida del error de estimación.

b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo?

c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo?

d. Compare los estimadores que se obtienen en cada caso justificadamente.

Page 183: Apuntes de Analisis Cuantitativo

183

Solución: (a) 54,10;97,80ˆ == Byµ (b) 5,9;76,73ˆ == Bµ (c) 46,9;76ˆ == Bµ

5. Muestreo Sistemático

1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar

la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los

datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de

un día.

Cantidad de llenado (en onzas) 12,00 11,97 12,01 12,03 12,01 11,80 11,91 11,98 12,03 11,98 12,00 11,83 11,87 12,01 11,98 11,87 11,90 11,88 12,05 11,87 11,91 11,93 11,94 11,89 11,72 11,93 11,95 11,97 11,93 12,05 11,85 11,98 11,87 12,05 12,02 12,04

a. Estime µ , y establezca un límite para el error de estimación. Suponga que N=1.800.

b. Determinar el tamaño de muestra requerido para estimar µ dentro de 0,01 unidades.

Solución: (a) 0259,0;94,11ˆ == Bsyµ (b) 2181,217 ≅=n

2. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan

el permiso de conducir. Se instala un puesto de control en una carretera nacional y se

detiene un conductor de cada siete.

a. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan

su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos

pasan por el puesto de verificación durante el periodo de muestreo.

Automóvil Respuesta 1 1 8 1 15 0 ⋮ ⋮ 2794 1

∑ ==

400

1324

iiy

b. En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000

automóviles por el puesto de verificación. Determine el tamaño de muestra y k para

estimar p con un error inferior al 2%.

Page 184: Apuntes de Analisis Cuantitativo

184

Solución: (a) 0364,0;8100,0ˆ == Bpsy (b) 1.176,97 1177 4n k= ≅ =

3. Los funcionarios de un museo están interesados en el número total de personas que visitan

el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está

en exhibición. Puesto que el control de visitantes en el museo cada día es muy costosa, los

funcionarios deciden obtener estos datos cada décimo día. La información de esta muestra

sistemática de 1 en 10 se resume en esta tabla

Día Nº personas que visitan el museo 3 160 13 350 23 225 ⋮ ⋮ 173 290

∑ ∑ === =

18

1

18

1

2 450.321.1;868.4i i

ii yy

Use estos datos para estimar el número total de personas que visitan el museo durante el

periodo específico. Establezca un límite para el error de estimación.

Solución: 34,370.1;48680ˆ == Bsyτ

4. Los funcionarios de cierta sociedad profesional desean determinar la proporción de

miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los

funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden

alfabético de los 650 miembros registrados. Sea 1=iy si la i-ésima persona muestreada

favorece los cambios propuestos e 0=iy si se opone a los cambios. Use los siguientes

datos de la muestra para estimar la proporción de miembros en favor de los cambios

propuestos. Establezca un límite para el error de estimación.

∑ ==

65

148

iiy

Solución: 1042,0;7385,0ˆ == Bpsy

5. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000

individuos para Estados Unidos durante seis años seleccionados sistemáticamente.

(a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y

establezca un límite para el error de estimación.

(b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un

límite para el error de estimación.

(c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple

para los problemas de los apartados (a) y (b)?¿Por qué?

Page 185: Apuntes de Analisis Cuantitativo

185

Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9

Solución: (a) 35,437.139;935.926.1ˆ == Bsyµ ; (b) 17,3;67,19ˆ == Bsyµ ;

(c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en

estudio están “ordenadas” de forma decreciente.

6. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000

personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980.

Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el

error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo

aleatorio simple?¿Por qué?

Año Tasa Año Tasa 1900 0,7 1945 3,5 1905 0,8 1950 2,6 1910 0,9 1955 2,3 1915 1,0 1960 2,2 1920 1,6 1965 2,5 1925 1,5 1970 3,5 1930 1,6 1975 4,8 1935 1,7 1980 5,2 1940 2,0

Solución: 57,0;26,2ˆ == Bsyµ . Mejor, se observa, en general, una tendencia creciente en

los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955.

7. La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la

proporción de empleados que favorecen una nueva política de inversión. Una muestra

sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día

de trabajo (las respuestas a favor se han representado como 1)

Empleado muestreado

Respuesta

3 1 13 0 23 1 ⋮ ⋮

1993 1 200

1

110ii

y=

=∑

Page 186: Apuntes de Analisis Cuantitativo

186

Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando

la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué

tipo de muestra sistemática deberá obtenerse? (indique n y k).

Solución: 330,7 331 6,04 6n k k= ≈ = ⇒ =

8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El

valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar

el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una

confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine

el valor de k.

Solución: 10k = 9. Los funcionarios de cierta sociedad profesional desean determinar la proporción de

miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los

funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden

alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los

cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación

inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los

parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k).

Solución: 625

214,8 215 3,02 3( 1) 215

Npqn k k

N D pq= = ≈ ≤ = =

− +

6. Muestreo por Conglomerados.

(Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado número

de datos y resolver a mano, verificando la solución con el ordenador, una versión con menos

datos)

1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las

sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de

reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el

número de sierras que tiene cada industria. Entonces decide usar muestreo por

conglomerados, con cada industria como un conglomerado. El fabricante selecciona una

muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste

total de reparaciones por industria y el número de sierras son:

Page 187: Apuntes de Analisis Cuantitativo

187

Industria Nº sierras Costo total de reparación para el mes pasado (€)

1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 6 12 280 7 14 240 8 3 45 9 5 60 10 9 230 11 8 140 12 6 130 13 3 70 14 2 50 15 1 10 16 4 60 17 12 280 18 6 150 19 5 110 20 8 120

a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un

límite para el error de estimación.

b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras.

Establezca un límite para el error de estimación.

c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido

un total de 710 sierras a esas industrias. Usando esta información adicional, estime la

cantidad total gastada en reparación de sierras por estas industrias, y establezca un

límite para el error de estimación.

Solución: (a) 78,1;73,19ˆ == Bµ (b) 07,175.3;312.12ˆ == Bτ

(c) 78,110.1;85,008.14ˆ == Bτ

2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la

proporción de empleados que apoyan la nueva política. La industria consiste en 87 plantas

separadas localizadas en todo Estados Unidos. Ya que los resultados deber ser obtenidos

rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con

cada planta como un conglomerado. Se selecciona una muestra aleatoria simple de 15

plantas y se obtienen las opiniones de los empleados en estas plantas a través de un

cuestionario. Los resultados se presentan en esta tabla:

Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53

Page 188: Apuntes de Analisis Cuantitativo

188

3 49 40 4 73 45 5 101 63 6 48 31 7 65 38 8 49 30 9 73 54 10 61 45 11 58 51 12 52 29 13 65 46 14 49 37 15 55 42

a) Estime la proporción de empleados en la industria que apoyan la nueva política de

jubilación y establezca un límite para el error de estimación.

b) La industria modificó su política de jubilación después de obtener los resultados de

la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la

política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del

2% para el error de estimación? Use los datos anteriores para aproximar los

resultados de la nueva encuesta.

Solución: (a) %81,4%;91,70ˆ == Bp ) (b) 486,47 ≅=n

3. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios

para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se

usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona

una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores

obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales

se muestran en esta tabla:

Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870

Page 189: Apuntes de Analisis Cuantitativo

189

17 78 3210 18 51 2430 19 67 2730 20 70 2880

a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un

límite para el error de estimación.

b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la

cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un

límite para el error de estimación.

c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura

similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de

la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores

para encontrar el número aproximado de conglomerados que se necesitan para obtener

ese límite.

Solución: (a) 64,0;17,40ˆ == Bµ (b) 88,927.6;020.157ˆ == Bτ (c) 304,29 ≅=n

4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas

en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector

selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes

muestreados, con los resultados (en onzas) que se muestran:

Paquete Onzas de llenado 1 16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0 2 15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9 3 16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1 4 15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0 5 16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9

Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca

un límite para el error de estimación. Suponga que el número total de cajas empaquetadas

por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por

población finita.

Solución: 0215,0;0050,16ˆ == Bµ

5. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en

una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes

registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se

selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que

tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de

que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados

a los lugares de votación de cada distrito en la muestra, para obtener la información

pertinente directamente de los votantes. Los resultados se muestran en esta tabla:

Page 190: Apuntes de Analisis Cuantitativo

190

Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596

1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093

1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932

1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932

a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite

para el error de estimación.

b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo

de grande debe ser la muestra para estimar la proporción de votantes a favor de un

candidato similar con un límite del 5% para el error de estimación?

Solución: 0307,0;5701,0ˆ == Bp (b) 211,20 ≅=n

6. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el

número de libros comprados cada mes en una localidad. Se selecciona una localidad con

6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la

cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias,

obteniéndose los siguientes resultados:

manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3

Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva

muestra si se quiere estimar los libros comprados cada mes con un error de estimación

inferior a 140 unidades.

Solución: 96,92 97n = ≈ 7. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde

no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la

Page 191: Apuntes de Analisis Cuantitativo

191

encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares

y el sociólogo decide que cada bloque rectangular va a ser considerado como un

conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene

tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a

cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se

realizan las entrevistas, obteniéndose estos datos:

Conglomerado (i) Nº de residentes (mi) Ingreso total por

conglomerado en € (yi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8

96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000

151 residentes 1329000 €

a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error

de estimación.

b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de

estimación, suponiendo que M es desconocido.

c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de

todos los residentes de la ciudad mediante un intervalo de confianza.

NOTA: Repetir este ejemplo con todos los im iguales (por ejemplo, 6im i= ∀ ,

supongamos conocido 6 415 2.490M = × = ) y estime el total por los dos métodos

Page 192: Apuntes de Analisis Cuantitativo

192

estudiados ( )t tM y N yτ τ= =ɵ ɵ . Observe como coinciden las dos estimaciones así como

la varianza del estimador y el límite para el error de estimación.

d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la

muestra en una encuesta futura para estimar el ingreso promedio por persona con un

límite para el error de estimación de 500€.

Solución: a) � 8.801,32 € / 1.617,14€residente Bµ = =

b) 22.061.400 € 3.505.584,04 €t Bτ = =ɵ

c) ( )17.949.791,34€ , 26.056.831,18€

d) 166,58 167n = ≈ 8. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una

comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria

simple de 4 bloques que proporciona los siguientes resultados:

Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3

Estime de distintas formas el número total de tubos gastados, obtenga el límite para el

error de estimación en cada caso y comente los resultados.

Solución: Muestreo por conglomerados 85,562;8000ˆ == Bτ Muestreo aleatorio simple

78,1077;6400ˆ == Bτ

9. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de

los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide

el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta:

Paquete nº Volumen envasado en cm3

1 33 32,5 31,7 34,2 2 32 32,6 33,8 32,5 3 30,9 33,1 33 33,4 4 34,1 33,1 32,5 33,2 5 32 32,1 32,6 33,6

Estime el volumen medio por envase y dar la cota de error de estimación.

Solución: 22,0;80,32ˆ == Bµ

10. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las

empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas

en el registro mercantil. El número de bajas en el último año, el número de empleados y la

respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo

temporal fueron los siguientes:

Page 193: Apuntes de Analisis Cuantitativo

193

Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si

a. Estime el número de bajas en el último año en las empresas del pueblo. Dé el

límite del error de estimación.

b. Estime la proporción de empresas que usarían los servicios ofertados. Dé el

límite del error de estimación.

Solución: (a) 02,151;5,212ˆ == Bτ (b) %68,30%;40ˆ == Bp

11. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se

seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por

tablero fue

2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota

para el error de estimación.

Solución: 0674,0;1333,0ˆ == Bp

12. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus

residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un

canal Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una

muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están

conectados a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se

encuentran en la siguiente tabla:

Manzana Nº hogares con canal Digital

Nº total horas que ven programa

1 8 13

2 7 13

3 9 14

4 6 13

5 5 0

6 9 10

7 6 6

Page 194: Apuntes de Analisis Cuantitativo

194

8 8 14

9 9 16

10 6 4

a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través

de Canal Digital.

b. Obtener un intervalo de confianza para el número total de horas.

c. Determinar cuántas manzanas se deberían muestrear para estimar el total

poblacional, con un límite para el error de estimación de magnitud 20. Considere la

muestra anterior como una muestra previa para estimar los parámetros necesarios.

Solución: (a) 2060ˆ =τ ; (b) )70,2704,30,1415( (c) 1974,196 ≅=n

13. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el

sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas

de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada

familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la

encuesta se encuentran en la tabla:

Manzana Nº hogares en la manzana

Nº hogares interesados

1 8 3

2 7 3

3 9 4

4 6 3

5 5 2

6 9 4

7 6 3

8 8 3

9 9 4

10 6 2

a. Estimar la proporción de hogares interesados en contratar la televisión digital.

b. Obtenga un intervalo de confianza para la citada proporción.

c. Determinar cuántas manzanas se deberían muestrear para estimar la proporción

poblacional con un límite para el error de estimación del 1%. Considere la muestra

anterior como una muestra previa para estimar los parámetros necesarios.

Solución: (a) 4247,0ˆ =p (b) )4547'0,3947'0( (c) 6528,64 ≅=n

14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen

ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una

Page 195: Apuntes de Analisis Cuantitativo

195

muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador

es:

2 1 5 3 0 1 4 3 5 0

Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado

para estimar dicha proporción.

Solución: 0143,0)ˆ(ˆ;48,0ˆ == pVp

15. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a

trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5

factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido:

Factoría Nº empleados Dispuestos

1 250 225

2 190 175

3 210 190

4 400 350

5 150 120

Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva

factoría. Obtenga una estimación de la varianza del estimador empleado.

Solución: 0002,0)ˆ(ˆ;1167,0ˆ == pVp

16. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada

una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno

determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los

datos son:

9 6 3 10 2

a. Estime el peso total de mariscos dañados en el embarque y establezca un límite

para el error de estimación.

b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos

dañados en el embarque, con un límite de error de 275.

Solución: (a) ˆ 600; 308,22Bτ = = (b) 6,20 7n = ≅

Page 196: Apuntes de Analisis Cuantitativo

196

7. Estimación del Tamaño de la Población.

1. Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un

periodo de varios días, sea atrapan 100 truchas, se marcan y se devuelven al arroyo.

Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado

en esos días, que ya había sido marcado, se devolvía inmediatamente. Varias semanas

después se atrapó una muestra de 120 peces y se observó el número de peces marcados.

Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de

la población de truchas y dé un límite de error de estimación.

Solución: 60,150;4,444ˆ == BN

2. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de

codorniz común en una sección del sur de Florida. Se usa una serie de 50 trampas. En la

primera muestra se atrapan 320 codornices. Después de ser capturadas, cada ave es

retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se

sueltan todas las aves. Varios meses después se obtiene una segunda muestra de 515

codornices. Suponga que 91 de estos pájaros están marcados. Estimar el tamaño total de la

población de codornices y dar un límite de error de estimación.

Solución: 51,344;99,1810ˆ == BN

3. Expertos en pesca están interesados en estimar el número de salmones de una reserva. Se

atrapa una muestra aleatoria de 2876 salmones. Cada uno es marcado y soltado. Un mes

después se atrapa una segunda muestra de 2562. Supongamos que 678 tienen marcas en la

segunda muestra. Estime el tamaño de la población total y establezca un límite del error de

estimación.

Solución: 82,715;72,867.10ˆ == BN

4. Los regentes de una ciudad están preocupados por las molestias que causan las palomas

alrededor del ayuntamiento. A fin de cuantificar el problema contratan un equipo de

investigadores para que estime el número de palomas que ocupan el edificio. Con varias

trampas se captura una muestra de 60 palomas, se marcan y se sueltan. Un mes después se

repite el proceso, usando 60 palomas, de las que 18 están marcadas. Estimar el tamaño

total de la población de palomas y dar un límite de error de estimación.

Solución: 88,78;200ˆ == BN

5. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área

geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una

Page 197: Apuntes de Analisis Cuantitativo

197

muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y

liberadas. Toma una segunda muestra un mes después y decide continuar muestreando

hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15

marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de

error de estimación.

Solución: 72,507;67,066.1ˆ == BN

6. En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que

presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las

diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro.

a) Estime la densidad de árboles infectados y establezca un límite de error de

estimación.

b) Estime el total de árboles infectados en los 200 acres de la plantación y

establezca un límite de error de estimación.

Solución: (a) 1,2;6,5ˆ == Bλ (b) 32,423;120.1ˆ == BM

7. Se desea estimar el número total de personas que diariamente solicitan información en una

oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos

de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta

la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de

error de estimación.

Solución: 8,170;912ˆ == BM

8. Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana

han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha

repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas. En un

intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan

hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382

alumnos.

Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la

Facultad.

Solución: muestreo inverso ( )1910 326,58∓

9. El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas.

Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un

establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M.

conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de

Page 198: Apuntes de Analisis Cuantitativo

198

clientes las 24 horas del día por lo que decide observar de forma sistemática media hora

cada 3 horas, obteniendo los datos de la siguiente tabla

clientes 10:00-10:30 13:00-13:30 16:00-16:30 19:00-19:30 22:00-22:30 01:00-01:30 04:00-04:30 07:00-07:30

35 20 19 30 25 9 12 18

Sabiendo que el gasto medio por cliente es de 20∈, estime los ingresos diarios de la

farmacia observada y el correspondiente límite para el error de estimación utilizando

diferentes métodos.

Solución: Muestreo por cuadros 76,110.3;160.20 == BIngresos ; Muestreo aleatorio

simple 22,402.5;160.20 == BIngresos

10. Se desea estimar el número total de palomas en la glorieta de una ciudad. Se capturan 80

palomas, se marcan y se devuelven a la población. Se realiza una segunda muestra hasta

encontrar 30 palomas marcadas, se han tenido que capturar para ello 300 aves. Estimar el

tamaño total y el límite de error de estimación.

Solución: 62,272;800ˆ == BN

11. Se desea estimar el número total de pingüinos en una determinada zona. Se obtiene una

muestra de tamaño 60, se marcan y se devuelven a la población. Al día siguiente se elige

otra muestra de tamaño 400 y en ella se encuentran 12 marcados. Estimar el número total

de pingüinos y dar la cota de error de estimación.

Solución: 25,137.1;000.2ˆ == BN

12. Se desea estimar el número de vehículos de un modelo determinado que el mes próximo

utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a

establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se

ha observado en los 5 controles los siguientes resultados:

Control Número de vehículos de ese modelo que usan el aparcamiento

1 1 2 1 3 2 4 1 5 3

Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.

Page 199: Apuntes de Analisis Cuantitativo

199

Solución: 59,814;1152ˆ == BM

13. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que

acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. Para ello,

dividieron la sala de espera, de dimensiones 100 metros de largo por 35 metros de ancho,

en 100 cuadros de igual tamaño y seleccionaron 40, observando que el número de

personas era 2100.

a. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de

confianza del 95%.

b. Estime el número total de asistentes, y fije un límite para el error de

estimación.

Solución: (a) )6,1,4,1( (b) 22913,229;250.5ˆ ≅== BM

14. Se toman periódicamente muestras del aire en un área industrial de la ciudad. La densidad

de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. A

partir de 15 muestras de 1 3cm , se obtuvo un promedio de 210 partículas/ 3cm . Estimar la

densidad de las partículas dañinas en dicha zona, así como dar una estimación del error de

dicha estimación.

Solución: 48,7;/210ˆ 3 == Bcmpartλ

15. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en

la Expo de Lisboa. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se

traza una malla que divide el área total en 100 cuadros de igual tamaño. Se selecciona una

muestra aleatoria de 40 cuadros, observando que el número de personas es de 750.

a. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de

confianza.

b. Estime el número total de asistentes a la inauguración y fije un límite para el error

de estimación.

Solución: (a) )6424'1,4188'1(;5306,1ˆ =λ (b) 9,136;1875ˆ == BM

16. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el

crecimiento de la población de palomas. Se quiere conocer el tamaño de la población de

este año para compararlo con el del año pasado. Se atrapa una muestra inicial de 600

palomas y se les da el fármaco, a la vez que se aprovecha para marcarlas en una pata. En

fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca.

a. Estime el tamaño de la población con un intervalo del 95% de confianza.

Page 200: Apuntes de Analisis Cuantitativo

200

b. Para reducir el límite de error de estimación a la mitad, ¿en qué proporción deben

ser mayores las cantidades 100 y 48 observadas en la segunda muestra?, ¿se

deberían observar el doble de las cantidades anteriores, es decir, 200 y 96?, ¿el

triple?, ¿el cuádruplo?,...

Solución: (a) ( )989'79, 1510'21 (b) el cuádruplo

8. Análisis cluster

1. Un investigador tiene información sobre el presupuesto que un conjunto de empresas ha

destinado a publicidad en el último año y de las ventas que han logrado en ese mismo

ejercicio:

Nombre Empresa Inversión en publicidad Ventas E1 16 10 E2 12 14 E3 10 22 E4 12 25 E5 45 10 E6 50 15 E7 45 25 E8 50 27

Estudie si estas empresas pueden agruparse en función de la rentabilidad en términos de

ventas que han sido capaces de generar con su inversión publicitaria.

2. El director de ventas de una cadena de electrodomésticos con implantación nacional está

estudiando el plan de incentivos de sus vendedores. Considera que los incentivos deben

estar ajustados a las dificultades de las distintas zonas de ventas, siendo necesario fijar

incentivos más altos en aquellas zonas geográficas en que las condiciones de vida de sus

habitantes hacen más difícil las ventas. Por este motivo quiere determinar si las

comunidades autónomas se pueden segmentar en grupos homogéneos respecto al

equipamiento de los hogares. Para ello dispone de los siguientes datos:

CC.AA. Porcentaje de hogares que poseen

Automóvil TV color Vídeo Microondas Lavavajillas Teléfono España 69,0 97,6 62,4 32,3 17,0 85,2 Andalucía 66,7 98,0 62,7 24,1 12,7 74,7 Aragón 67,2 97,5 56,8 43,4 20,6 88,4 Asturias 63,7 95,2 52,1 24,4 13,3 88,1 Baleares 71,9 98,8 62,4 29,8 10,1 87,9

Page 201: Apuntes de Analisis Cuantitativo

201

Canarias 72,7 96,8 68,4 27,9 5,80 75,4 Cantabria 63,4 94,9 48,9 36,5 11,2 80,5 Cast. Y Leon 65,8 97,1 47,7 28,1 14,0 85,0 C. La Mancha 61,5 97,3 53,6 21,7 7,10 72,9 Cataluña 70,4 98,1 71,1 36,8 19,8 92,2 Com. Valenciana 72,7 98,4 68,2 26,6 12,1 84,4 Extremadura 60,5 97,7 43,7 20,7 11,7 67,1 Galicia 65,5 91,3 42,7 13,5 14,6 85,9 Madrid 74,0 99,4 76,3 53,9 32,3 95,7 Murcia 69,0 98,7 59,3 19,5 12,1 81,4 Navarra 76,4 99,3 60,6 44,0 20,6 87,4 País Vasco 71,3 98,3 61,6 45,7 23,7 94,3 La Rioja 64,9 98,6 54,4 44,4 17,6 83,4

Fuente: Panel de hogares de la Unión Europea. INE.

3. Con el archivo Mundo 95.sav clasifica a los paises según las siguientes variables:

a. Esperanza de vida femenina

b. Mortalidad infantil

c. Ingesta diaría de calorias

d. Tasa de mortalidad

e. Casos SIDA por cada 100.000 habitantes.

Para ello, realiza los siguientes pasos:

i. Realiza un análisis jerárquico utilizando el método del vecino más

lejano. No olvides tipificar las variables (Puntuaciones Z)

ii. Realiza un análisis no jerarquico imponiendo el número de grupos

aconsejado por el método anterior. No olvides tipificar las variables.

4. Con el archivo Europa.sav clasifica los paises según las siguientes variables:

a. Habitantes por Km2

b. Personas alfabetizadas

c. Producto Interior Bruto

d. Tasa natalidad

e. Fertilidad

5. Teniendo en cuenta los siguientes datos

Ciudadanos Ingresos Edad Pepe 175 44 Juan 182 55 Pedro 184 41 Pablo 186 32 Maria 185 35 Juana 198 41 Toñi 194 32 Tere 183 32 Carmen 125 23

Page 202: Apuntes de Analisis Cuantitativo

202

Elena 107 22 Luisa 97 24 Belén 88 27 Nicolás 116 28 César 121 33 Alberto 100 29 Carlos 175 21

Divide los ciudadanos según ingresos y edad.

9. Componentes principales.

1. Con el archivo Mundo 95.sav realiza un análisis de componentes principales con las

siguientes variables:

• Esperanza de vida femenina

• Mortalidad infantil (muertes por 1000 nacimientos vivos)

• Personas Alfabetizadas (%)

• Tasa de natalidad (por 1.000 habitantes)

• Fertilidad: número promedio de hijos

• Habitantes en ciudades (%)

• Log(10) de PIB_CAP

• Tasa de mortalidad (por 1.000 habitantes)

2. Con el archivo Europa.sav realiza un análisis de componentes principales con las

siguientes variables:

•••• Habitantes por Km2

• Personas alfabetizadas

• Producto Interior Bruto

• Tasa natalidad

• Fertilidad

Page 203: Apuntes de Analisis Cuantitativo

203

PRÁCTICAS

Page 204: Apuntes de Analisis Cuantitativo

204

INTRODUCCIÓN AL SPSS

1.- INTRODUCCIÓN

El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a

la realización de análisis estadísticos aplicados a las ciencias sociales. Con más de 30 años de

existencia es, en la actualidad, el paquete estadístico con más difusión a nivel mundial.

El SPSS implementa una gran variedad de temas estadísticos en los distintos módulos del

programa. Nosotros utilizaremos solo el módulo SPSS base.

En los siguientes apartados se hace una breve introducción a los conceptos básicos de este

programa. Para una mejor exposición de los mismos puede consultarse la “Guía breve de

SPSS” o el “Tutorial ” en el menú de ayudas (?) – muy recomendable esta última opción.

1.1.- PASOS BÁSICOS EN EL ANÁLISIS

1. Introducir los datos en SPSS.

Es posible:

o Abrir un archivo creado anteriormente o

o Introducir nuevos datos (se verá más adelante en “1.3- Editor de datos”).

Los archivos de datos con formato SPSS tienen extensión *.sav. Para abrir un archivo de datos

de este formato, seleccione en el menú principal: Archivo/Abrir/Datos. Por defecto, SPSS dará

una relación de los archivos en su directorio con extensión *.sav. Busque y seleccione el

archivo que se desee abrir. Además de los archivos con este formato, SPSS puede abrir

Page 205: Apuntes de Analisis Cuantitativo

205

archivos de EXCEL, LOTUS 1-2-3, dBASE,… sin necesidad de convertirlos a un formato

intermedio ni de introducir información sobre la definición de los datos.

Desde aplicaciones como Microsoft Excel también puede leer los encabezados de las columnas

como nombres de variables. Para ello elija en los menús: Archivo/Abrir/Datos y seleccione

Excel(*.xls) en la lista desplegable Tipo

Tras seleccionar el fichero Excel que queremos abrir, aparecerá el cuadro de diálogo Apertura

de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables

en la primera fila de la hoja de cálculo (□Leer nombres de variables de la primera fila de

datos), así como las casillas que se desean importar (Rango). En Excel 5 o posterior, también

se pueden especificar la “Hoja de trabajo” que se desea importar. Si los encabezados de las

columnas no cumplen las normas de denominación de variables de SPSS, se convertirán en

nombres de variables válidos y los encabezados originales de las columnas se guardarán como

etiquetas de variable (véase más adelante en “1.3.-Editor de datos”).

Page 206: Apuntes de Analisis Cuantitativo

206

2. Seleccionar un procedimiento estadístico para analizar los datos con el sistema de menús.

3. Seleccionar las variables para el análisis.

Las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo

del que se seleccionan.

4. Ejecutar el procedimiento y ver resultados.

Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de

extensión *.spo. Los gráficos se pueden modificar en la ventana del editor de gráficos.

Page 207: Apuntes de Analisis Cuantitativo

207

1.2.- ENTORNO DE TRABAJO

Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos:

• Editor de datos. Es la ventana que se abre automáticamente cuando se inicia una sesión de

SPSS. Muestra el contenido del archivo de datos actual. Con él, se pueden crear nuevos

archivos o modificar los ya existentes.

• Visor de resultados. Todas las tablas, gráficos y los resultados estadísticos se muestran en el

visor. Puede editar resultados y guardarlos. Esta ventana se abre automáticamente la primera

vez que se ejecuta un procedimiento.

Además de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que

configuran la apariencia general del SPSS:

• Barra de títulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos

utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar

y cerrar ventana.

Page 208: Apuntes de Analisis Cuantitativo

208

• Barra de menús. Recoge las denominaciones de los menús de SPSS a través de los cuales se

pueden ejecutar todos los posibles comandos que proporciona el paquete.

• Barra de herramientas. Proporciona un acceso rápido y fácil a las tareas más comunes de cada

ventana de SPSS. El significado de cada icono puede verse situando el ratón sobre el propio

icono.

• Barra de estado. Suministra información sobre el estado en que se encuentra SPSS.

Ejemplo 1.-

- Abrir archivo de datos “Datos de empleados.sav”

- Realizar el procedimiento:

Analizar/ Estadísticos Descriptivos/ Descriptivos con la variable “Salario Actual”

- Realizar lo mismo con la variable “Meses desde el contrato”.

1.3.- EDITOR DE DATOS

El editor de datos proporciona dos vistas:

• Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las

funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de

cálculo, sin embargo, existen algunas diferencias:

o Cada fila representa un caso u observación (atención en ejercicio 1).

o Las columnas son variables.

o Las casillas contienen valores numéricos o de cadena. A diferencia de una hoja de

cálculo, las casillas del editor de datos no pueden contener fórmulas.

• Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de

datos. Aquí:

o Las filas son variables.

o Las columnas son características de las variables.

Page 209: Apuntes de Analisis Cuantitativo

209

Ejemplo 2.- Abrir “vista de datos” y “vista de variables” en el archivo de datos:

“Datos de Empleados.sav”.

Una vez que nos encontramos en la ventana “Editor de datos” podemos abrir un archivo de

datos creado con anterioridad (como vimos en “1.1.- Pasos básicos en el análisis”) o crear un

nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso

es el de definir las variables que formarán el archivo. Para definir una variable se pueden

seguir dos procedimientos:

• En vista de datos, haciendo doble clic con el botón izquierdo del ratón cuando el puntero del

mismo se encuentra situado en la palabra var del extremo superior de la columna o

• Pulsando en la pestaña de vista de variables y escribiendo las especificaciones de la variable

cuyos datos vamos a introducir según las indicaciones que siguen:

Para la especificación del nombre de las variables se debe tener en cuenta:

• El nombre debe comenzar por una letra. Los demás caracteres pueden ser letras, dígitos, puntos

o los símbolos @, #, _ o $.

• Los nombres de variable no pueden terminar en punto.

• Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las

variables creadas automáticamente por algunos procedimientos).

• La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler

a 64 caracteres en idiomas de un solo byte (por ejemplo, inglés, francés, alemán, español,

Page 210: Apuntes de Analisis Cuantitativo

210

italiano, hebreo, ruso, griego, árabe, tailandés) y a 32 caracteres en los idiomas de dos bytes

(por ejemplo, japonés, chino, coreano).

• No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, ’ y *).

• Cada nombre de variable debe ser único; no se permiten duplicados.

• Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras

reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.

• Los nombres de variable se pueden definir combinando de cualquier manera caracteres en

mayúsculas y en minúsculas, esta distinción entre mayúsculas y minúsculas se conserva en lo

que se refiere a la presentación.

• Cuando es necesario dividir los nombres largos de variable en varias líneas en los resultados,

SPSS intenta dividir las líneas aprovechando los subrayados, los puntos y los cambios de

minúsculas a mayúsculas.

Una vez que se haya determinado el nombre de la variable, hay que definir sus

especificaciones:

• Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botón tipo y luego los

puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos más

usuales son numérico y cadena.

Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas

las variables nuevas son numéricas. Se puede utilizar Tipo de variable para cambiar el tipo de

datos. El contenido del cuadro de diálogo Tipo de variable depende del tipo de datos

seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el número de

decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista

desplegable de ejemplos.

Los tipos de datos disponibles son los siguientes:

• Numérico. Una variable cuyos valores son números. Los valores se muestran en formato

numérico estándar. El Editor de datos acepta valores numéricos en formato estándar o en

notación científica.

• Coma. Una variable numérica cuyos valores se muestran con comas que delimitan cada tres

posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores

numéricos para este tipo de variables con o sin comas, o bien en notación científica. Los

valores no pueden contener comas a la derecha del indicador decimal.

Page 211: Apuntes de Analisis Cuantitativo

211

• Punto. Una variable numérica cuyos valores se muestran con puntos que delimitan cada tres

posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores

numéricos para este tipo de variables con o sin puntos, o bien en notación científica. Los

valores no pueden contener puntos a la derecha del indicador decimal.

• Notación científica. Una variable numérica cuyos valores se muestran con una E intercalada y

un exponente con signo que representa una potencia de base diez. El Editor de datos acepta

para estas variables valores numéricos con o sin el exponente. El exponente puede aparecer

precedido por una E o una D con un signo opcional, o bien sólo por el signo (por ejemplo, 123,

1,23E2, 1,23D2, 1,23E+2 y 1,23+2).

• Fecha. Una variable numérica cuyos valores se muestran en uno de los diferentes formatos de

fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas

utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo

para los valores de año de dos dígitos está determinado por la configuración de las opciones

(en el menú Edición, seleccione Opciones y, a continuación, pulse en la pestaña Datos).

• Dólar. Una variable numérica que se muestra con un signo dólar inicial ($), comas que

delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir

valores de datos con o sin el signo dólar inicial.

• Moneda personalizada. Una variable numérica cuyos valores se muestran en uno de los

formatos de moneda personalizados que se hayan definido previamente en la pestaña Moneda

del cuadro de diálogo Edición/Opciones. Los caracteres definidos en la moneda personalizada

no se pueden emplear en la introducción de datos pero sí se mostrarán en el Editor de datos.

Page 212: Apuntes de Analisis Cuantitativo

212

• Cadena. Una variable cuyos valores no son numéricos y, por lo tanto, no se utilizan en los

cálculos. Los valores pueden contener cualquier carácter siempre que no se exceda la longitud

definida. Las mayúsculas y las minúsculas se consideran diferentes. Este tipo también se

conoce como variable alfanumérica.

• Nivel de medida. Puede especificar el nivel de medida como Escala (datos numéricos de una

escala de intervalo o de razón), Ordinal o Nominal. Los datos nominales y ordinales pueden ser

de cadena (alfanuméricos) o numéricos.

• nominal. Una variable puede ser tratada como nominal cuando sus valores representan

categorías que no obedecen a una ordenación intrínseca. Por ejemplo, el departamento de la

compañía en el que trabaja un empleado. Son ejemplos de variables nominales: la región, el

código postal o la confesión religiosa.

• ordinal . Una variable puede ser tratada como ordinal cuando sus valores representan

categorías con alguna ordenación intrínseca. Por ejemplo los niveles de satisfacción con un

servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables

ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o confianza y las

puntuaciones de evaluación de la preferencia.

• escala. Una variable puede ser tratada como de escala cuando sus valores representan

categorías ordenadas con una métrica con significado, por lo que son adecuadas las

comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en años

y los ingresos en dólares.

Nota: Para variables de cadena ordinales, se asume que el orden alfabético de los valores de

cadena indica el orden correcto de las categorías. Por ejemplo, en una variable de cadena cuyos

valores sean bajo, medio, alto, se interpreta el orden de las categorías como alto, bajo, medio

(orden que no es el correcto). Por norma general, se puede indicar que es más fiable utilizar

códigos numéricos para representar datos ordinales.

• Anchura. Número de dígitos de los valores de esa variable.

Page 213: Apuntes de Analisis Cuantitativo

213

• Columnas. Anchura de las columnas. Se puede especificar un número de caracteres para el

ancho de la columna. Los anchos de columna también se pueden cambiar en la Vista de datos

pulsando y arrastrando los bordes de las columnas.

Los formatos de columna afectan sólo a la presentación de valores en el Editor de datos. Al

cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y

definido de un valor es más ancho que la columna, aparecerán asteriscos (*) en la ventana

Vista de datos.

• Decimales. Nº de decimales de los datos.

• Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud

(128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener

espacios y caracteres reservados que no se admiten en los nombres de variable.

• Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este

proceso es especialmente útil si el archivo de datos utiliza códigos numéricos para representar

categorías que no son numéricas (por ejemplo, códigos 1 y 2 para hombre y mujer). Las

etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las

etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden

ocupar hasta 120 bytes. Las etiquetas de valor no están disponibles para las variables de cadena

larga (variables de cadena de más de 8 caracteres).

• Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el

usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado

se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado.

Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para

un tratamiento especial y se excluyen de la mayoría de los cálculos.

• Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el

archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el

usuario cada vez que se abre un archivo de datos.

• Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de

valores perdidos o un rango más un valor de tipo discreto.

Page 214: Apuntes de Analisis Cuantitativo

214

• Sólo pueden especificarse rangos para las variables numéricas.

• No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de

más de ocho caracteres).

• Se considera que son válidos todos los valores de cadena, incluidos los valores vacíos o nulos,

a no ser que se definan explícitamente como perdidos. Para definir como perdidos los valores

nulos o vacíos de una variable de cadena, escriba un espacio en blanco en uno de los campos

debajo de la selección Valores perdidos discretos.

• Alineación. Alineación de los datos (Izquierda, derecha o centro)

Una vez definidas las variables, para la introducción de los datos (en la pestaña vista de datos)

habrá que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos

valores, pulsando ENTER o moviéndonos con el cursor.

También podemos modificar datos ya creados:

• Insertar un nuevo caso entre los casos existentes.

Seleccionar en la vista de datos, cualquier casilla debajo de la posición donde se desea insertar

el nuevo caso y

- Elija en la barra de menús: Datos/Insertar Caso o

- El correspondiente botón de la barra de herramientas o

- Con el botón derecho del ratón elija Insertar caso.

• Insertar una nueva variable entre las variables existentes.

Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posición donde se

desea insertar la nueva variable y

- Elegir los menús: Datos/Insertar variable o

- El correspondiente botón de la barra de herramientas o

- Con el botón derecho del ratón elija Insertar variable

• Mover variables.

Si queremos mover una variable que está entre otras dos, en la vista de datos, podemos insertar

un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por

último pegar en la nueva variable insertada.

Page 215: Apuntes de Analisis Cuantitativo

215

• Borrar algún caso o variable.

Seleccionar previamente en la vista de datos las filas, las columnas o el área a borrar y pulsar

SUPR o Edición/Borrar o con el botón derecho del ratón elegir Eliminar.

• Ir a un caso en el editor de datos.

Elegir en la barra de menús: Edición/Ir al caso e introducir el número de fila o con el

correspondiente botón de la barra de herramientas.

Para guardar un archivo de datos creado tendremos que seleccionar en la barra de menús

Archivo/Guardar como. Nos aparecerá un cuadro de diálogo en el cual debemos indicar el

nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de

cambios en un archivo que ya ha sido guardado con anterioridad , solo tendremos que

seleccionar Archivo/Guardar o con el correspondiente botón de la barra de herramientas y el

archivo se guardará con el mismo nombre y ubicación que tenía con anterioridad.

Page 216: Apuntes de Analisis Cuantitativo

216

EJERCICIOS

1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado

producto en una semana determinada. La variable edad es cuantitativa y mostramos sus

valores, la variable sexo es cualitativa y utilizamos una variable numérica (escala nominal:

1, hombre; 2, mujer). Los datos son los siguientes:

Hombres 32 32 42 55 37 61 48 43 Mujeres 50 80 61 49 30 21 37 34

Se pide:

a. Crea un archivo con la definición anterior de las variables y los datos y guárdalo con el

nombre Edad.sav

b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores

Hombres 1 1 1 2 1 1 2 1 Mujeres 1 5 1 1 2 2 1 1

Sitúala entre las variables anteriores.

2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas:

SEXO REGION DE PROCEDENCIA

MESES COMO REPRESENTANTE

INGRESOS MENSUALES en €

Hombre Mujer Mujer Hombre Mujer Mujer Hombre Hombre Hombre Mujer Hombre Mujer Mujer Hombre Hombre Hombre

Andalucía (1) Cataluña (2) Madrid (3) País Valenciano (4) Galicia (5) Cataluña (2) País Vasco (6) Andalucía (1) Madrid (3) Andalucía (1) País Vasco (6) Madrid (3) Galicia (5) Cataluña (2) Andalucía (1) Galicia (5)

60 72 48 36 60 24 36 48 84 84 48 36 24 12 16 10

1950 1235 2251 3581 1500 2500 5890 3510 2456 2474 3000 2958 1354 1100 3581 2456

Se pide:

a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos

de la tabla anterior, definiendo las variables de forma adecuada.

b. Inserta una nueva variable que será el estado civil de los representantes con los siguientes

valores.

Page 217: Apuntes de Analisis Cuantitativo

217

soltero soltero casado soltero

divorciado casado casado casado soltero soltero viudo casado casado casado soltero soltero

c. Inserta un nuevo caso entre los existentes con estos valores:

SEXO REGION DE PROCEDENCIA

MESES COMO REPRESENTANTE

INGRESOS MENSUALES en €

ESTADO CIVIL

Hombre Cataluña 48 1500 divorciado

d. Obtenga el número medio de meses como representante y los valores máximo, mínimo y

mediano de los ingresos.

3. Crear un archivo con los siguientes datos y llamarlo salarios.sav

SALARIOS EMPLEADOS 0-700

700-1000 1000-1500 1500-3000

más de 3000

40 120 250 90 50

Nota: Introducir los valores de los salarios con códigos numéricos (por ejemplo, 1 a 5) y en

Vista de variables en la columna Valores etiquetarlos como “0-700”,…

Cuando se introducen las frecuencias de las observaciones de una variable hay que indicárselo

al SPSS. Seleccionaremos en la barra de menús Datos/Ponderar casos… marcando en la

ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderación

(variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra

opción es seleccionar el correspondiente icono de la barra de herramientas que representa a una

balanza.

Page 218: Apuntes de Analisis Cuantitativo

218

PRÁCTICA 8

Análisis Cluster

1.- ANÁLISIS JERÁRQUICOS

Los pasos para realizar un análisis jerárquico con el SPSS son los siguientes:

1. Elige en los menús: Analizar→Clasificar→Conglomerados jerárquicos y selecciona las

variables y las especificaciones para el análisis. En la ventana Variables situamos las

variables clasificadoras y en Etiquetar los casos mediante situamos la variable que

etiqueta a los individuos que se van a clasificar (la variable que se sitúe en esta casilla

tienen que estar definida como cadena no como numérica).

2. El botón Estadísticos nos lleva a una pantalla cuya opción Historial de conglomeración

muestra los casos o conglomerados combinados en cada etapa, las distancias entre los

casos o conglomerados que se combinan, así como el último nivel del proceso en el que

cada caso se unió a su conglomerado correspondiente. La opción Matriz de proximidades

proporciona las distancias entre los elementos. El campo Conglomerado de pertenencia

muestra el conglomerado al cual se asigna cada caso en una o varias de las etapas de

combinación de los conglomerados. Las opciones son: Solución única y Rango de

soluciones

3. El botón Gráficos abre una pantalla cuya opción Dendograma realiza el dendograma

correspondiente. Los dendogramas pueden emplearse para evaluar la cohesión de los

conglomerados que se han formado y proporcionar información sobre el número adecuado

de conglomerados que deben conservarse. El dendograma constituye la representación

visual de los pasos de una solución de conglomeración jerárquica que muestra, para cada

paso, los conglomerados que se combinan y los valores de los coeficientes de distancia.

Las líneas horizontales conectadas por otras verticales designan casos combinados. El

dendograma re-escala las distancias reales a valores entre 0 y 25, preservando la razón de

las distancias entre los pasos. El cuadro Témpanos muestra otro tipo de diagrama que

incluye todos los conglomerados o un rango especificado. Los diagramas de témpanos

muestran información sobre cómo se combinan los casos en los conglomerados, en cada

iteración del análisis. En la base de este diagrama completo no hay casos unidos todavía y

a medida que se recorre hacia arriba el diagrama los casos que se unen se marcan con una

X en la columna situada entre ellos, mientras que los conglomerados separados se indican

con un espacio en blanco. La orientación permite seleccionar un diagrama vertical u

horizontal.

Page 219: Apuntes de Analisis Cuantitativo

219

4. El botón Método nos lleva a una ventana cuya opción Método de conglomeración permite

elegir dicho método. El cuadro Medida permite especificar la medida de distancia que será

empleada. Hay que seleccionar el tipo de dato (intervalo, frecuencias y binaria) y la

medida de distancia adecuada. El cuadro Transformar valores permite estandarizar los

valores de los datos, para los casos o las variables, antes de calcular las distancias entre

casos. El cuadro Transformar medidas permite transformar los valores generados por la

medida de distancia, las opciones disponibles son: Valores absolutos, Cambiar el signo y

Cambiar la escala al rango 0-1.

5. El botón Guardar permite guardar información sobre la solución en nuevas variables.

Estas variables (Conglomerado de pertenencia) permiten guardar los conglomerados de

pertenencia para una solución única o un rango de soluciones. Las variables guardadas

pueden emplearse en análisis posteriores para explorar otras diferencias entre los grupos.

6. En todas las figuras el botón Restablecer permite restablecer todas las opciones por

defecto del sistema y elimina del cuadro de dialogo todas las asignaciones hechas con las

variables.

7. Una vez hechas las selecciones especificadas se pulsa el botón Aceptar.

Ejemplo 1

(Ejercicio 5 Relación del Tema 8. Fichero de datos Ej5RelT8.sav)

Ciudadanos Ingresos Edad Pepe 175 44 Juan 182 55 Pedro 184 41 Pablo 186 32 Maria 185 35 Juana 198 41 Toñi 194 32 Tere 183 32 Carmen 125 23 Elena 107 22 Luisa 97 24 Belén 88 27 Nicolás 116 28 César 121 33 Alberto 100 29 Carlos 175 21

Divide los ciudadanos según ingresos y edad utilizando un análisis jerárquico.

Page 220: Apuntes de Analisis Cuantitativo

220

Los pasos en el SPSS serían:

1. Elige en los menús Analizar→Clasificar→Conglomerados jerárquicos. En la ventana

Variables situamos Ingresos y Edad. En Etiquetar los casos mediante situamos la

variable Individuo (la variable que se sitúe en esta casilla tiene que estar definida como

cadena no como numérica).

2. El botón Estadísticos nos lleva a una pantalla en la que señalamos Historial de

conglomeración y Matriz de proximidades.

3. El botón Gráficos señalamos la opción Dendograma. En el cuadro Témpanos elegimos

Todos los conglomerados. Señalamos la orientación vertical.

4. En la pantalla a la que nos lleva el botón Método, como Método de conglomeración

elegimos, por ejemplo, el Vecino más próximo. En el cuadro Medida seleccionamos la

primera (Distancia Euclídea al cuadrado). En el cuadro Transformar valores

estandarizamos por variables y mediante Puntuaciones Z. En el cuadro Transformar

medidas no seleccionamos nada.

Las salidas proporcionadas por el SPSS son las siguientes:

Page 221: Apuntes de Analisis Cuantitativo

221

Matriz de distancias

Esta es una matriz de disimilaridades Los valores de esta tabla son las distancia euclídea al cuadrado de las puntuaciones tipificadas.

Caso distancia euclídea al cuadrado 1:Pepe 2:Juan 3:Pedro 4:Pablo 5:Maria 6:Juana 7:Toñi 8:Tere 9:Carmen 10:Elena 11:Luisa 12:Belen 13:Nicolas 14:César 15:Alberto 16:Carlos 1:Pepe ,000 1,472 ,156 1,790 1,026 ,426 1,935 1,756 6,765 8,558 8,437 8,008 5,151 3,200 6,073 6,308

2:Juan 1,472 ,000 2,340 6,318 4,775 2,491 6,395 6,309 14,169 16,376 15,814 14,674 11,318 8,014 12,113 13,814

3:Pedro ,156 2,340 ,000 ,968 ,430 ,118 1,026 ,966 5,961 7,878 8,008 7,892 4,802 3,155 5,970 4,819

4:Pablo 1,790 6,318 ,968 ,000 ,108 1,053 ,039 ,005 3,209 4,954 5,537 6,086 3,144 2,558 4,565 1,516

5:Maria 1,026 4,775 ,430 ,108 ,000 ,531 ,156 ,110 3,887 5,682 6,110 6,434 3,454 2,516 4,784 2,397

6:Juana ,426 2,491 ,118 1,053 ,531 ,000 ,976 1,101 7,075 9,296 9,594 9,630 6,068 4,337 7,505 5,089

7:Toñi 1,935 6,395 1,026 ,039 ,156 ,976 ,000 ,073 3,835 5,754 6,434 7,070 3,858 3,224 5,433 1,660

8:Tere 1,756 6,309 ,966 ,005 ,110 1,101 ,073 ,000 2,993 4,674 5,221 5,737 2,896 2,329 4,259 1,481

9:Carmen 6,765 14,169 5,961 3,209 3,887 7,075 3,835 2,993 ,000 ,207 ,484 1,016 ,347 1,202 ,806 1,554

10:Elena 8,558 16,376 7,878 4,954 5,682 9,296 5,754 4,674 ,207 ,000 ,108 ,516 ,478 1,561 ,614 2,799

11:Luisa 8,437 15,814 8,008 5,537 6,110 9,594 6,434 5,221 ,484 ,108 ,000 ,156 ,408 1,313 ,304 3,774

12:Belen 8,008 14,674 7,892 6,086 6,434 9,630 7,070 5,737 1,016 ,516 ,156 ,000 ,484 1,086 ,134 4,991

13:Nicolas 5,151 11,318 4,802 3,144 3,454 6,068 3,858 2,896 ,347 ,478 ,408 ,484 ,000 ,313 ,166 2,682

14:César 3,200 8,014 3,155 2,558 2,516 4,337 3,224 2,329 1,202 1,561 1,313 1,086 ,313 ,000 ,457 3,475

15:Alberto 6,073 12,113 5,970 4,565 4,784 7,505 5,433 4,259 ,806 ,614 ,304 ,134 ,166 ,457 ,000 4,153

16:Carlos 6,308 13,814 4,819 1,516 2,397 5,089 1,660 1,481 1,554 2,799 3,774 4,991 2,682 3,475 4,153 ,000

Page 222: Apuntes de Analisis Cuantitativo

222

Historial de conglomeración

Conglomerado que se combina Etapa en la que el conglomerado

aparece por primera vez

Etapa Conglomerado

1 Conglomerado

2 Coeficientes Conglomerado

1 Conglomerado

2 Próxima

etapa 1 4 8 ,005 0 0 2 2 4 7 ,039 1 0 3 3 4 5 ,108 2 0 12 4 10 11 ,108 0 0 8 5 3 6 ,118 0 0 7 6 12 15 ,134 0 0 8 7 1 3 ,156 0 5 12 8 10 12 ,156 4 6 9 9 10 13 ,166 8 0 10 10 9 10 ,207 0 9 11 11 9 14 ,313 10 0 15 12 1 4 ,430 7 3 13 13 1 2 1,472 12 0 14 14 1 16 1,481 13 0 15 15 1 9 1,554 14 11 0

* H I E R A R C H I C A L C L U S T E R A N A L Y S I S * Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+--- ------+---------+ Pablo 4 òø

Tere 8 òôòø

Toñi 7 ò÷ ùòòòòòòòòòø

Maria 5 òòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø

Pedro 3 òòòûòø ó ó

Juana 6 òòò÷ ùòòòòòòò÷ ó

Pepe 1 òòòòò÷ ùòø

Juan 2 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòú ó

Carlos 16 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó

Elena 10 òòòûòø ó

Luisa 11 òòò÷ ó ó

Belen 12 òòòòòôòø ó

Alberto 15 òòòòòú ùòø ó

Nicolas 13 òòòòò÷ ó ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Carmen 9 òòòòòòò÷ ó

César 14 òòòòòòòòò÷

Page 223: Apuntes de Analisis Cuantitativo

223

En el dendograma las líneas verticales conectadas designan casos combinados y las líneas

horizontales miden las distancias reales re-escaladas entre 0 y 25.

Diagrama de témpanos vertical

Caso

Número de conglomerados

14:C

ésar

13:N

icol

as

15:A

lber

to

12:B

elen

11:L

uisa

10:E

lena

9:C

arm

en

16:C

arlo

s

2:Ju

an

5:M

aria

7:T

oñi

8:T

ere

4:P

ablo

6:Ju

ana

3:P

edro

1:P

epe

1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

3 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

4 X X X X X X X X X X X X X X X X X X X X X X X X X X X X

5 X X X X X X X X X X X X X X X X X X X X X X X X X X X

6 X X X X X X X X X X X X X X X X X X X X X X X X X X

7 X X X X X X X X X X X X X X X X X X X X X X X X X

8 X X X X X X X X X X X X X X X X X X X X X X X X

9 X X X X X X X X X X X X X X X X X X X X X X X

10 X X X X X X X X X X X X X X X X X X X X X X

11 X X X X X X X X X X X X X X X X X X X X X

12 X X X X X X X X X X X X X X X X X X X X

13 X X X X X X X X X X X X X X X X X X X

14 X X X X X X X X X X X X X X X X X X

15 X X X X X X X X X X X X X X X X X

El diagrama de témpanos nos indica gráficamente el orden de las distintas agrupaciones.

Dependiendo del número de agrupaciones que se quiera, se mira en la fila adecuada y las X

que estén contiguas, sin ningún espacio en blanco, indican agrupaciones.□

2.- ANÁLISIS NO JERÁRQUICOS (ALGORITMO DE LAS K-MED IAS)

Los pasos para llevar a cabo este algoritmo en SPSS son los siguientes:

1. Elige en los menús Analizar→Clasificar→Conglomerado de k medias y selecciona las

variables y las especificaciones para el análisis.

La estandarización previa (procedimiento Descriptivos) de las variables puede ser

importante, si las variables utilizan diferentes escalas (euros, años,..) los resultados

podrían ser equívocos.

2. El algoritmo requiere especificar el número de conglomerados, para ello siempre es útil

realizar un análisis jerárquico previo. Este procedimiento supone que se ha seleccionado el

número apropiado de conglomerados y que se han incluido todas las variables relevantes.

Si no es así, los resultados podrían ser erróneos.

Page 224: Apuntes de Analisis Cuantitativo

224

3. En Etiquetar los casos mediante se puede especificar una variable cuyos valores sean

utilizados para etiquetar los resultados por casos.

4. En Método se puede elegir uno de los dos métodos disponibles para clasificar:

a. Iterar y clasificar. Actualiza los centroides de forma iterativa.

b. Sólo clasificar. El algoritmo corre solo una vez.

5. En Centros de los conglomerados se permite al usuario especificar sus propios centros

iniciales para los conglomerados (Leer iniciales) o guardar los centros finales para análisis

subsiguientes (Escribir finales).

6. En el botón Opciones podemos:

a. Elegir los Estadísticos más relevantes relativos a las variables que ofrecerá el

análisis:

i. Centros de conglomerados iniciales

ii. Tabla de ANOVA. Aunque los resultados serán oportunistas (el

procedimiento trata de formar grupos que, de hecho, difieran), el

tamaño relativo de los estadísticos proporciona información acerca de la

contribución de cada variable a la separación de los grupos.

iii. Información del conglomerado para cada caso

b. En valores perdidos se elige la forma de su exclusión:

i. Excluir casos según lista

ii. Excluir casos según pareja

7. El botón Iterar (sólo disponible si se ha seleccionado el método Iterar y clasificar en el

cuadro de dialogo principal) nos permite elegir:

a. El número máximo de iteraciones limita el número de iteraciones en el

algoritmo, de modo que el proceso se detiene después de ese número de

iteraciones, incluso si no se ha satisfecho el criterio de convergencia. Este

número debe estar entre 1 y 999.

b. El criterio de convergencia determina cuándo cesa la iteración y representa una

proporción de la distancia mínima entre los centros iniciales de los

conglomerados, por lo que debe ser mayor que 0 y menor que 1. Por ejemplo,

si el criterio es igual a 0.02, la iteración cesará si una iteración completa no

mueve ninguno de los centros de los conglomerados en una distancia superior

al dos por ciento de la distancia menor entre cualquiera de los centros iniciales.

c. La opción Usar medias actualizadas permite solicitar la actualización de los

centros de los conglomerados tras la asignación de cada caso. Si no se

Page 225: Apuntes de Analisis Cuantitativo

225

selecciona esta opción, los nuevos centros de los conglomerados se calcularán

después de la asignación de todos los casos.

8. El botón Guardar permite guardar información sobre la solución como nuevas variables

para que puedan ser utilizadas en análisis subsiguientes. Estas variables son:

a. Conglomerado de pertenencia. Se crea una nueva variable que indica el

conglomerado final al que pertenece cada caso.

b. Distancia desde centro del conglomerado. Indica la distancia euclídea entre

cada caso y su centro de clasificación.

9. El botón Pegar genera la sintaxis del comando a partir de las selecciones del cuadro de

diálogo y pega dicha sintaxis en la ventana de sintaxis designada. Para poder pulsar en

Pegar, debe seleccionar al menos una variable.

10. En todos los cuadros de dialogo, el botón Restablecer permite restablecer todas las

opciones por defecto del sistema y elimina del cuadro de dialogo todas las asignaciones

hechas con las variables.

11. Una vez hechas las opciones especificadas se pulsa el botón Aceptar.

A continuación veremos el procedimiento con los mismos datos del ejemplo anterior.

Ejemplo 2

(Ejercicio 5 de la relación del tema 8. Fichero de datos Ej5RelT8.sav)

Con los datos del ejemplo anterior divide los ciudadanos según ingresos y edad utilizando un

análisis no jerárquico.

Seguimos el siguiente procedimiento:

1. Las variables de interés son Ingreso y Edad, pero previamente vamos a estandarizarlas.

Para ello elegimos en el menú Analizar→Estadísticos Descriptivos→Descriptivos y

elegimos la opción Guardar los valores tipificados como variables. Con ello se generan

las variables Zingresos y Zedad. A continuación se elige en el menú

Analizar→Clasificar→Conglomerado de k medias y se seleccionan estas dos nuevas

variables.

2. La mejor forma de elegir el número de conglomerados, si no se tiene información a priori,

es realizar previamente un análisis jerárquico como el realizado en el ejemplo 1. Vamos a

dividir la población en dos grupos. En este caso como sólo tenemos dos variables también

nos podemos ayudar del gráfico de dispersión. Para ello en el menú elijo:

Gráficos→Dispersión/Puntos→Dispersión Simple. En el eje X situamos Zedad y en el Y

Page 226: Apuntes de Analisis Cuantitativo

226

Zingresos. En Etiquetar casos mediante situamos la variable Individuos y en el botón

Opciones marcamos Mostrar el gráfico con las etiquetas de caso. El gráfico resultante es

el siguiente:

-1,00000 0,00000 1,00000 2,00000

Puntua(edad)

-2,00000

-1,00000

0,00000

1,00000

Pun

tua(

ingr

esos

)

Pepe

JuanPedroPablo Maria

JuanaToñi

Tere

Carmen

Elena

Luisa

Belen

NicolasCésar

Alberto

Carlos

Se ve que los datos se pueden agrupar en dos grupos.

3. En Etiquetar los casos mediante seleccionamos la variable Individuos

4. En Método elegimos Iterar y clasificar.

5. En Centros de los conglomerados no seleccionamos ninguna opción.

6. En el botón opciones marcamos las tres opciones de Estadísticos.

7. El botón Iterar seleccionamos como número máximo de iteraciones 99 y como criterio de

convergencia 0.02. Esto significa que la iteración cesará si una iteración completa no

mueve ninguno de los centros en una distancia superior al 2% de la distancia menor entre

cualquiera de los centros iniciales. También señalamos la opción de usar medias

actualizadas.

8. Con el botón Guardar vamos a guardar información sobre Conglomerado de pertenencia.

9. Una vez hechas las opciones especificadas se pulsa el botón Aceptar.

Page 227: Apuntes de Analisis Cuantitativo

227

Las salidas obtenidas con el SPSS son las siguientes:

Centros iniciales de los conglomerados

Conglomerado

1 2 Puntua(ingresos) -1,08020 ,76105 Puntua(edad) -1,13976 2,46379

En el conglomerado 1 el centro es Elena y en el conglomerado 2 el centro es Juan. La

distancia euclídea entre los centros iniciales es:

( ) ( )2 20,76105 ( 1,08020) 2,46379 ( 1,13976) 4,047− − + − − =

Como solo hay dos conglomerados, la distancia menor entre los centros iniciales es 4’047. Las

iteraciones pararán cuando no se mueva ninguno de los centros en una distancia superior al

2% de 4’047, es decir, 0’08094.

Page 228: Apuntes de Analisis Cuantitativo

228

Historial de iteraciones(a)

Iteración

Cambio en los centros de los conglomerados

1 2 1 ,426 1,555 2 ,047 ,173 3 ,005 ,019

a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,019. La iteración actual es 3. La distancia mínima entre los centros iniciales es de 4,047. Las cantidades que se dan en la tabla anterior son las distancias euclideas entre los centros

elegidos en las sucesivas iteraciones. Observemos que en la segunda iteración el centro del

primer conglomerado varía una distancia de 0,047 respecto del centro en la primera iteración.

Esta cantidad es menor que 0,08094. Pero no ocurre lo mismo con el centro del segundo

conglomerado que respecto a la primera iteración varía 0,173. Por tanto, las iteraciones deben

continuar. En la tercera, ambas distancias son menores que 0,08094.

Pertenencia a los conglomerados

Número de caso Individuo Conglomer

ado Distancia 1 Pepe 2 ,606 2 Juan 2 1,747 3 Pedro 2 ,221 4 Pablo 2 ,767 5 Maria 2 ,440 6 Juana 2 ,368 7 Toñi 2 ,792 8 Tere 2 ,770 9 Carmen 1 ,382 10 Elena 1 ,478 11 Luisa 1 ,512 12 Belén 1 ,701 13 Nicolás 1 ,233 14 César 1 ,788 15 Alberto 1 ,523 16 Carlos 1 1,540

Vamos a calcular las distancias euclideas de Carlos y los dos centros finales de los

conglomerados (en la siguiente tabla). Así comprobaremos que efectivamente es más pequeña

la existente entre Carlos y el conglomerado 1, aunque en el gráfico parezca lo contrario.

Carlos: (0.58920, -1.24896)

Centro conglomerado 1: (-0.85618, -0.71661)

Centro conglomerado 2: (0.85618, 0.71661)

Page 229: Apuntes de Analisis Cuantitativo

229

Distancia euclídea entre Carlos y el primer centro:

( ) ( )2 20,58920 ( 0,85618) 1,24896 ( 0,71661) 1,540− − + − − − =

Distancia entre Carlos y el segundo centro:

( ) ( )2 20,58920 0,85618 1,24896 0,71661 1,984− + − − =

Por tanto, Carlos es asignado al primer conglomerado.

Centros de los conglomerados finales

Conglomerado

1 2 Puntua(ingresos) -,85618 ,85618 Puntua(edad) -,71661 ,71661

Sería interesante dibujar los centros finales en el gráfico de dispersión Distancias entre los centros de los conglomerados f inales

Conglomerado 1 2 1 2,233 2 2,233

Son las distancias euclideas entre los centros finales de los dos conglomerados ANOVA

Conglomerado Error

F Sig. Media

cuadrática gl Media

cuadrática gl Puntua(ingresos) 11,729 1 ,234 14 50,195 ,000 Puntua(edad) 8,217 1 ,485 14 16,958 ,001

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.

Observando los estadísticos del ANOVA, vemos que los ingresos participan más en la

separación de los conglomerados. .□

Nota. Realizar el análisis cluster de nuevo pero con 4 conglomerados y ver como Carlos y

Juan forman cada uno un conglomerado (Mirar gráfico de dispersión).

Nota En los casos donde existe un gran tamaño muestral, para obtener la máxima eficacia,

tome una muestra de casos y utilice el método Iterar y clasificar para determinar los centros de

los conglomerados. Seleccione Escribir finales en Archivo. Después restaure el archivo de

datos completo y seleccione el método Sólo clasificar. Pulse en Centros y pulse en Leer

iniciales de Archivo para clasificar el archivo completo utilizando los centros estimados a

partir de la muestra.

Page 230: Apuntes de Analisis Cuantitativo

230

PRÁCTICA 9

Componentes Principales

El análisis de componentes principales es un método de estimación (extracción) de los

factores comunes de un análisis factorial, por lo que en el programa SPSS aparece dentro del

Análisis factorial. En todo lo que sigue el término factor (salvo un cambio de escala) coincide

con el de componente principal.

Elija en los menús de SPSS:

Analizar → Reducción de datos → Análisis factorial

Seleccione las variables para el análisis factorial. Las variables deben ser cuantitativas. Los

datos categóricos (como la religión o el país de origen) no son adecuados para el análisis

factorial. Los datos para los cuales razonablemente se pueden calcular los coeficientes de

correlación de Pearson, deberían ser los adecuados para el análisis factorial. Para seleccionar

casos para el análisis: Seleccione una variable de selección. Pulse en Valor para introducir un

número entero como valor de selección. En el análisis, sólo se usarán los casos con ese valor

para la variable de selección.

En el cuadro de diálogo Análisis factorial, pulse en Extracción:

Método: Permite especificar el método de extracción factorial. Nosotros utilizaremos el de

Componentes principales (Método para la extracción de factores utilizado para formar

combinaciones lineales independientes de las variables observadas. La primera componente

tiene la varianza máxima. Las componentes sucesivas explican progresivamente proporciones

menores de la varianza y no están correlacionadas las unas con las otras. El análisis de

componentes principales se utiliza para obtener la solución factorial inicial. Puede utilizarse

cuando una matriz de correlaciones es singular).

Analizar: Permite especificar matriz de correlaciones o matriz de covarianzas.

• Matriz de correlaciones. Es útil si las variables del análisis se miden sobre escalas

distintas.

• Matriz de covarianzas. Se usará en caso contrario.

Page 231: Apuntes de Analisis Cuantitativo

231

Extraer: Se pueden retener todos los factores cuyos autovalores excedan un valor especificado

o retener un número específico de factores.

Mostrar: Permite solicitar la solución factorial sin rotar y el gráfico de sedimentación de los

autovalores.

Nº máximo de iteraciones para convergencia: Permite especificar el número máximo de pasos

que el algoritmo puede seguir para estimar la solución.

En el cuadro de diálogo Análisis factorial, pulse en Descriptivos:

Estadísticos: Los descriptivos univariados incluyen la media, la desviación típica y el número

de casos válidos para cada variable. La solución inicial muestra las comunalidades iniciales

(iguales a 1 en un análisis de componentes principales), los autovalores y el porcentaje de

varianza explicada.

Matriz de correlaciones: De las opciones disponibles usaremos: coeficientes, niveles de

significación y determinante.

En el cuadro de diálogo Análisis factorial, pulse en Rotación: Método: Seleccionaremos ninguno, pues estamos realizando un análisis de componentes

principales.

Mostrar: Si seleccionamos Gráficos de saturaciones obtenemos el diagrama de las

saturaciones factoriales que es una representación tridimensional de las saturaciones

factoriales para los tres primeros factores. Para una solución de dos factores, se representa un

diagrama bidimensional. No se muestra el gráfico si sólo se extrae un factor.

En el cuadro de diálogo Análisis factorial, pulse en Puntuaciones:

Guardar como variables: Crea una nueva variable para cada factor en la solución final.

Nosotros utilizaremos el método de regresión. En el caso de componentes principales

(tipificadas) la varianza es siempre igual a 1 y las puntuaciones (componentes principales)

están incorrelacionadas.

Mostrar matriz de coeficientes de las puntuaciones factoriales: Muestra los coeficientes por

los cuales se multiplican las variables para obtener puntuaciones factoriales. También muestra

las correlaciones entre las puntuaciones factoriales.

Page 232: Apuntes de Analisis Cuantitativo

232

En el cuadro de diálogo Análisis factorial, pulse en Opciones:

Valores perdidos: Permite especificar el tratamiento que reciben los valores perdidos. Las

selecciones disponibles son: excluir casos según lista, excluir casos según pareja y

reemplazar por la media.

• Excluir según lista excluye los casos que tienen valores perdidos en cualquiera de las

variables utilizadas en cualquiera de los análisis.

• Excluir según pareja excluye del análisis los casos que tengan valores perdidos en

cualquiera (o en ambas) de las variables de una pareja implicada en el cálculo de un

estadístico específico.

Formato de presentación de los coeficientes: Permite controlar aspectos de las matrices de

resultados. Los coeficientes se ordenan por tamaño y se suprimen aquellos cuyos valores

absolutos sean menores que el valor especificado.

Ejemplo 1

Vamos a resolver el ejercicio 1 de la relación del capítulo 9 con ayuda del SPSS.

Con el archivo Mundo 95.sav realiza un análisis de componentes principales con las

siguientes variables:

• Esperanza de vida femenina

• Mortalidad infantil (muertes por 1000 nacimientos vivos)

• Personas Alfabetizadas (%)

• Tasa de natalidad (por 1.000 habitantes)

• Fertilidad: número promedio de hijos

• Habitantes en ciudades (%)

• Log(10) de PIB_CAP

• Tasa de mortalidad (por 1.000 habitantes)

En primer lugar elegimos en los menús del SPSS: Analizar → Reducción de datos →

Análisis factorial y seleccionamos las variables: espvidaf, mortinf, alfabet, tasa_nat, fertilid,

urbana, log_pib y tasa_mor.

Page 233: Apuntes de Analisis Cuantitativo

233

En el botón Descriptivos: en estadísticos seleccionamos descriptivos univariados y solución

inicial, en matriz de correlaciones marcamos coeficientes, niveles de significación y

determinante.

En el botón Extracción seleccionamos: el método de componentes principales, en Analizar

elegimos matriz de correlaciones, en Extraer→número de factores = 2 y en Mostrar

marcamos solución factorial sin rotar y gráfico de sedimentación.

En el botón Rotación marcamos: el Método ninguno y en Mostrar seleccionamos gráfico de

saturaciones.

En el botón Puntuaciones: señalamos la opción mostrar matriz de coeficientes de las

puntuaciones factoriales.

Por último en el botón Opciones marcamos excluir casos según lista.

Se obtiene la siguiente salida del programa SPSS para las opciones marcadas:

Page 234: Apuntes de Analisis Cuantitativo

234

Matriz de correlaciones(a)

Esperanza de vida femenina

Mortalidad infantil

(muertes por 1000

nacimientos vivos)

Personas Alfabetizadas

(%)

Tasa de natalidad (por

1.000 habitantes)

Fertilidad: número

promedio de hijos

Habitantes en ciudades (%)

Log(10) de PIB_CAP

Tasa de mortalidad (por 1.000 habitantes)

Correlación Esperanza de vida femenina 1,000 -,962 ,865 -,865 -,847 ,766 ,833 -,703

Mortalidad infantil (muertes por 1000 nacimientos vivos)

-,962 1,000 -,901 ,870 ,844 -,744 -,824 ,636

Personas Alfabetizadas (%) ,865 -,901 1,000 -,870 -,866 ,654 ,731 -,485

Tasa de natalidad (por 1.000 habitantes) -,865 ,870 -,870 1,000 ,975 -,635 -,783 ,384

Fertilidad: número promedio de hijos -,847 ,844 -,866 ,975 1,000 -,608 -,713 ,424

Habitantes en ciudades (%) ,766 -,744 ,654 -,635 -,608 1,000 ,785 -,523

Log(10) de PIB_CAP ,833 -,824 ,731 -,783 -,713 ,785 1,000 -,401 Tasa de mortalidad (por

1.000 habitantes) -,703 ,636 -,485 ,384 ,424 -,523 -,401 1,000

Sig. (Unilateral) Esperanza de vida femenina ,000 ,000 ,000 ,000 ,000 ,000 ,000

Mortalidad infantil (muertes por 1000 nacimientos vivos)

,000 ,000 ,000 ,000 ,000 ,000 ,000

Personas Alfabetizadas (%) ,000 ,000 ,000 ,000 ,000 ,000 ,000

Tasa de natalidad (por 1.000 habitantes) ,000 ,000 ,000 ,000 ,000 ,000 ,000

Fertilidad: número promedio de hijos ,000 ,000 ,000 ,000 ,000 ,000 ,000

Habitantes en ciudades (%) ,000 ,000 ,000 ,000 ,000 ,000 ,000

Log(10) de PIB_CAP ,000 ,000 ,000 ,000 ,000 ,000 ,000 Tasa de mortalidad (por

1.000 habitantes) ,000 ,000 ,000 ,000 ,000 ,000 ,000

a Determinante = 2,07E-006

Page 235: Apuntes de Analisis Cuantitativo

235

Estadísticos descriptivos

Media Desviación

típica N del análisis Esperanza de vida femenina 69,94 10,695 105 Mortalidad infantil (muertes por 1000 nacimientos vivos) 43,317 38,3699 105 Personas Alfabetizadas (%) 78,14 23,056 105 Tasa de natalidad (por 1.000 habitantes) 26,124 12,3582 105 Fertilidad: número promedio de hijos 3,551 1,8909 105 Habitantes en ciudades (%) 57,02 24,010 105 Log(10) de PIB_CAP 3,4086 ,62725 105 Tasa de mortalidad (por 1.000 habitantes) 9,62 4,277 105

Comunalidades

Inicial Extracción Esperanza de vida femenina 1,000 ,965 Mortalidad infantil (muertes por 1000 nacimientos vivos) 1,000 ,942 Personas Alfabetizadas (%) 1,000 ,862 Tasa de natalidad (por 1.000 habitantes) 1,000 ,952 Fertilidad: número promedio de hijos 1,000 ,899 Habitantes en ciudades (%) 1,000 ,688 Log(10) de PIB_CAP 1,000 ,769 Tasa de mortalidad (por 1.000 habitantes) 1,000 ,935

Método de extracción: Análisis de Componentes principales. Varianza total explicada

Componente

Autovalores iniciales Sumas de las saturaciones al cuadrado

de la extracción

Total

% de la varianza % acumulado Total

% de la varianza % acumulado

1 6,208 77,596 77,596 6,208 77,596 77,596 2 ,804 10,056 87,652 ,804 10,056 87,652 3 ,523 6,534 94,186 4 ,194 2,425 96,610 5 ,167 2,085 98,695 6 ,063 ,789 99,485 7 ,027 ,333 99,818 8 ,015 ,182 100,000

Método de extracción: Análisis de Componentes principales.

La columna Total de Autovalores iniciales contiene los valores propios iλ ordenados de

mayor a menor. Cada uno de ellos representa la varianza de la correspondiente componente.

En la columna % de la varianza aparece el porcentaje de la varianza total de los datos

tipificados (1×8 variables = 8) recogida por dicha componente, por ejemplo

6,20877,6 100

8= .

Page 236: Apuntes de Analisis Cuantitativo

236

87654321

Número de componente

7

6

5

4

3

2

1

0

Aut

oval

or

Gráfico de sedimentación

Matriz de componentes(a)

Componente

1 2 Esperanza de vida femenina ,975 -,122 Mortalidad infantil (muertes por 1000 nacimientos vivos) -,970 ,046 Personas Alfabetizadas (%) ,917 ,147 Tasa de natalidad (por 1.000 habitantes) -,923 -,318 Fertilidad: número promedio de hijos -,906 -,281 Habitantes en ciudades (%) ,809 -,181 Log(10) de PIB_CAP ,871 ,100 Tasa de mortalidad (por 1.000 habitantes) -,625 ,737

Método de extracción: Análisis de componentes principales. a 2 componentes extraídos

La tabla Matriz de componentes incluye los coeficientes de correlación, i ky xr , entre las

componentes, iY i=1,2 , y las variable originales, iX .

Page 237: Apuntes de Analisis Cuantitativo

237

0,90,60,30,0-0,3-0,6-0,9

Componente 1

0,9

0,6

0,3

0,0

-0,3

-0,6

-0,9

Com

pone

nte

2tasa_mor

log_pib

urbana

fertilid

tasa_nat

alfabet

mortinf

espvidaf

Gráfico de componentes

Matriz de coeficientes para el cálculo de las puntu aciones en las componentes

Componente

1 2 Esperanza de vida femenina ,157 -,151 Mortalidad infantil (muertes por 1000 nacimientos vivos) -,156 ,057 Personas Alfabetizadas (%) ,148 ,183 Tasa de natalidad (por 1.000 habitantes) -,149 -,395 Fertilidad: número promedio de hijos -,146 -,349 Habitantes en ciudades (%) ,130 -,224 Log(10) de PIB_CAP ,140 ,125 Tasa de mortalidad (por 1.000 habitantes) -,101 ,916

Método de extracción: Análisis de componentes principales. La Matriz de coeficientes para el cálculo de las puntuaciones en las componentes recoge los

coeficientes de las combinaciones lineales que definen a las componentes principales

tipificadas, es decir, ik

i

φλ

, que pueden obtenerse a partir de la Matriz de componentes, i ky xr , y

de los valores propios, iλ , como i ky x ik

i i

r φλ λ

= . Por ejemplo, 0,975

0,1576,208

= , 0,122

0,1510,804

−− = .

Matriz de covarianza de las puntuaciones de las com ponentes

Componente 1 2 1 1,000 ,000 2 ,000 1,000

Método de extracción: Análisis de componentes principales.

Page 238: Apuntes de Analisis Cuantitativo

238

Como puede verse en la Matriz de covarianzas se trabaja con componentes principales

tipificadas que además están incorreladas.

Page 239: Apuntes de Analisis Cuantitativo

239

FORMULARIOS

Page 240: Apuntes de Analisis Cuantitativo

240

MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS (O CON REEMPLAZAMIENTO)

MEDIA

PROPORCION

ESTIMADOR

1

1 n

ii

y yn =

= ∑

1

1, 0,1

n

i ii

p y yn =

= =∑

CUASIVARIANZA MUESTRAL

( )22

1

1

1

n

ii

S y yn =

= −− ∑�

2

2 1

2 1

1

n

ini

ii

y

yn

Sn

=

=

=−

∑∑

( )� ɵ2

2

1

1

1 1

n

ii

n pqS y y

n n=

= − =− −∑�

ɵ �1q p= −

VARIANZA DEL

ESTIMADOR

�2 2

( ) ( )S

V y V yn n

σ= =

� � �� ɵ

( ) ( )1

pq pqV p V p

n n= =

LIMITE DEL ERROR DE ESTIMACIÓN = B

�2 ( ) 2S

V yn

=

� �� ɵ

2 ( ) 21

pqV p

n=

INTERVALO DE

CONFIANZA

2 , 2S S

y yn n

− +

�� ɵ

�� ɵ

2 , 21 1

pq pqp p

n n

− + − −

TAMAÑO MUESTRAL

2

2 ( ) 2V y Bn

σ= =

2 2 2

2 ,4

4

Bn D

B D

σ σ= = =

�2 ( ) 2pq

V p Bn

= =

2

2 ,4

4

pq pq Bn D

B D= = =