Trabajo de muestreo

29
Teoría del Muestreo: Es un procedimiento por medio del cual solo se estudia una porción específica de una población la cual llamamos muestra. Es importante relacionar esta teoría con lo que es el censo el cual definimos como la enumeración completa de todos los elementos de la población a estudiar. La muestra debe lograr que se representen adecuadamente todos los rasgos esenciales de la población que son necesarios para la investigación. Ejemplo Un importante proceso de fabricación produce partes de componentes cilíndricos para la industria automotriz. Es importante que el proceso produzca partes que tengan una media de 5 milímetros. El ingeniero involucrado hace la conjetura de que la media de la población es de 5.0 milímetros. Se lleva a cabo un experimento en el que 100 partes elaboradas por el proceso Se seleccionan al azar y se mide el diámetro de cada una de ellas.

Transcript of Trabajo de muestreo

Page 1: Trabajo de muestreo

Teoría del Muestreo:

Es un procedimiento por medio del cual solo se estudia una porción

específica de una población la cual llamamos muestra. Es importante relacionar

esta teoría con lo que es el censo el cual definimos como la enumeración

completa de todos los elementos de la población a estudiar.

La muestra debe lograr que se representen adecuadamente todos los

rasgos esenciales de la población que son necesarios para la investigación.

Ejemplo

Un importante proceso de fabricación produce partes de componentes

cilíndricos para la industria automotriz. Es importante que el proceso produzca

partes que tengan una media de 5 milímetros.

El ingeniero involucrado hace la conjetura de que la media de la población

es de 5.0 milímetros. Se lleva a cabo un experimento en el que 100 partes

elaboradas por el proceso Se seleccionan al azar y se mide el diámetro de cada

una de ellas.

Se sabe que la desviación estándar de la población es de σ=0.1 milímetros.

El experimento indica un diámetro promedio de la muestra milímetros. ¿Esta

información de la muestra parece apoyar o No la conjetura del ingeniero? 9

Inferencias sobre la media poblacional

•Si los datos apoyan o no la conjetura depende de la probabilidad de que

datos similares a los que se obtuvieron en el experimento pueden ocurrir con

facilidad cuando de hecho μ=5.0.

Page 2: Trabajo de muestreo

En otras palabras, ¿qué tan, probable es que se pueda

obtener................con, n=100 si la media de la población es μ=5.0?

•Si esta probabilidad sugiere que no es poco razonable, la conjetura no se

rechaza.

Si la probabilidad es bastante baja, se puede argumentar con certidumbre

que los dato no apoyan la conjetura de que μ=5.0.

La probabilidad que elijamos calcular está dada por:

•En otras palabras, si la media μ=5.0,¿cuál es la probabilidad de que se

desvíe a lo más en 0.027milímetros?

•10...Inferencias sobre la media poblacional

•De esta manera se experimentaría por casualidad una que está a 0.027

Milímetros de la media en sólo siete de 1000 experimentos

Como resultado, este experimento con..............Ciertamente no proporciona

evidencia que apoye la conjetura de que μ=5.0.

Ejemplo:

Sea una población finita de 4 elementos: P = (3; 4; 1; 2) : Se consideran

muestras de 3 elementos que se suponen extraídos y no devueltos a la población

y que el muestreo es aleatorio simple. Las muestras se consideran distintas si se

diferencian en algún elemento. Se pide: 1) Escribir todas las muestras posibles 2)

Calcular la probabilidad de cada muestra. 3) Calcula la media; la varianza de la

población. 4) Calcula la media, x; la varianza, S2; y la cuasivarianza, s2c de cada

muestra. 5) Describe las funciones de probabilidad de estos estadísticos. 6)

Calcula la esperanza E(x); y decide si x es un estimador centrado o insesgado de

la media de la población.

Page 3: Trabajo de muestreo

1. Las muestras posibles son f3; 4; 1g ; f3; 4; 2g ; f3; 1; 2g ; f4; 1; 2g :

2. La probabilidad de extracción de cada una de estas muestra es ¼=

1/(4/3)=0:25

3. La media de P = (3; 4; 1; 2) es 2:5 y su varianza 1.25

4. Las medias varianzas y cuasivarianzas de cada una de estas muestras

están dadas en la tabla siguiente:

muestra media,X Varianza, S2 cuasivarianza,S2c

(3; 4; 1) 2.6 1.5 2.3

(3; 4; 2) 3 0.6 1

(3; 1; 2) 2 0.6 1

(4; 1; 2) 2.3 1.5 2.3

5 La función de probabilidad de la media de la muestra es la siguiente:

x Probabilidad

2.6 1/4

3 1/4

2 1/4

2.3 1/4

La función de probabilidad de la varianza de la muestra es:

S2 cuasivarianza

1.5 1/2

0.6 ½

6 La esperanza de la media de las muestra, teniendo en cuenta su función

de probabilidad es.

E(x) = 2:666667x1/4 + 3 x1/4 + 2x1/4 + 2:333333x1/4 = 2.5

Page 4: Trabajo de muestreo

por tanto x es un estimador insesgado de la media poblacional

Tipos de muestreo:

a. Muestreo No Probabilístico: Se realiza al elegir una muestra de una

población al azar; con este tipo de muestreo no se tiene la certeza de que la

muestra sea representativa ya que, no todos los elementos tienen la misma

probabilidad de ser elegidos.

Entre los métodos no probabilísticos se tienen los siguientes:

1. Muestreo por juicio, selección experta o selección intencional: Ocurre

cuando el investigador toma elementos de la población que a criterio propio

le parecen representativos o típicos de la población.

2. Muestreo casual o fortuito: Este tipo es usado en el caso de que no se

pueden seleccionar elementos por lo tanto, se debe trabajar con los que ya

están.

3. Muestreo de cuota o accidental: En este tipo de muestreo se fijan

¨cuotas¨ que consisten en un número de elementos que tienen

determinados rasgos o condiciones para luego, elegir los primeros que se

encuentren que cumplan esas características.

4. Muestreo de poblaciones móviles ó bola de nieve: consiste en localizar

algunos elementos los cuales conducen a otros, y estos a otros, y así

sucesivamente hasta conseguir una muestra suficiente.

b. Muestreo Probabilístico, aleatorio o estocástico: Es cuando los

elementos de una población son seleccionados siguiendo ciertos

procedimientos los cuales brindan a cada uno la probabilidad de ser

elegidos como muestra.

Entre los métodos probabilísticos se encuentran:

Page 5: Trabajo de muestreo

1. Muestreo aleatorio simple: El procedimiento que se realiza es el

siguiente:

- Se le asigna un número a cada elemento de la población

- Usamos un medio mecánico (bolas dentro de una bolsa, tablas de

números aleatorios, números aleatorios generados con una calculadora

u ordenador, entre otros.

- Con el medio mecánico se eligen cuantos elementos de la población

sean necesarios para tener el tamaño de la muestra

Ejemplo:

Supongamos que nos interesa elegir una muestra aleatoria de 5 estudiantes

en un grupo de estadística de 20 alumnos. 20C5 da el número total de formas de

elegir una muestra no ordenada y este resultado es 15,504 maneras diferentes de

tomar la muestra. Si listamos las 15,504 en trozos separados de papel, una tarea

tremenda, luego los colocamos en un recipiente y después los revolvemos,

entonces podremos tener una muestra aleatoria de 5 si seleccionamos un trozo de

papel con cinco nombres. Un procedimiento más simple para elegir una muestra

aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de

papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al

mismo tiempo.

Otro método parea obtener una muestra aleatoria de 5 estudiantes en un

grupo de 20 utiliza una tabla de números aleatorios. Se puede construir la tabla

usando una calculadora o una computadora. También se puede prescindir de

estas y hacer la tabla escribiendo diez dígitos del 0 al 9 en tiras de papel, las

colocamos en un recipiente y los revolvemos, de ahí, la primera tira seleccionada

determina el primer número de la tabla, se regresa al recipiente y después de

revolver otra vez se selecciona la seguida tira que determina el segundo número

de la tabla; el proceso continúa hasta obtener una tabla de dígitos aleatorios con

tantos números como se desee.

Page 6: Trabajo de muestreo

Ejemplo:

3 laboratorios poseen 140 estudiantes de ingeniería química y se quiere extraer

una muestra de 20 alumnos

• se enumeran los alumnos del 1 al 140

• se sortean 20 alumnos de entre los 140

• la muestra estará formada por los 20 alumnos a los que corresponden los

números obtenidos

Ejemplo:

Cuando el tamaño de la muestra es 1.000, es necesario obtener 1.000 números

por sorteo o por tablas aleatorias que nos permitan seleccionar 1.000 unidades

muéstrales del censo poblacional numerado previamente. Si utilizamos un libro de

tablas de números aleatorios y la hoja seleccionada al azar es la siguiente:

657 934 323 122 456 434 098 233 122

567 541 004 098 345 065 231 045 412

343 546 354 123 234 978 456 345 432

...... ...... ...... ...... ...... ...... ...... ...... ......

1ª unidad muestral: la correspondiente al primer número de la tabla 343.

2ª unidad muestral: segundo número de la tabla 567.

2. Muestreo aleatorio estratificado: Consiste en considerar categorías

típicas diferentes entre si que tienen homogeneidad respecto a alguna

característica. Lo que se pretende es asegurar que todas las características

de interés estén representados en la muestra.

La distribución de la muestra en función de los diferentes estratos o

características se denomina afijación y pueden ser de diferentes tipos:

Page 7: Trabajo de muestreo

- Afijación simple: a cada estrato le toca un número igual de elementos

muéstrales.

- Afijación proporcional: la distribución se hace con respecto al tamaño

de la población en cada estrato.

- Afijación óptima: Se tiene en cuenta la previsible dispersión de los

resultados de modo que se considera la proporción y la desviación

típica.

Ejemplo:

Se divide la población en clases o estratos y se escoge, aleatoriamente, un

número de individuos de cada estrato proporcional al número de componentes de

cada estrato.

En una fábrica que consta de 600 trabajadores queremos tomar una muestra de

20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C y

100 en la D.

Ejemplo:

Universo: 10.000 habitantes de un pueblo

Tamaño de muestra: 600 personas

Distribución del universo por edades:

Grupo A: 1.500 habitantes menores de 18 años

Grupo B: 6.500 habitantes con edades comprendidas entre los

18 y los 60 años

Grupo C: 2.000 vecinos mayores de 60 años.

AFIJACIÓN SIMPLE:

•Grupo A: 600/3 = 200

•Grupo B: 600/3 = 200

•Grupo C: 600/3 = 200

AFIJACIÓN PROPORCIONAL:

Page 8: Trabajo de muestreo

•Grupo A: 600 x (1.500/10.000) = 90

•Grupo B: 600 x (6.500/10.000) = 390

•Grupo C: 600 x (2.000/10.000) = 120

3. Muestreo aleatorio sistemático. Este procedimiento exige al igual que el

muestreo aleatorio simple numerar todos los elementos de la población,

pero en lugar de extraer ¨n¨ números aleatorios, solo se extrae uno. El

riesgo de este tipo de muestreos es que al elegir los elementos de la

muestra sea algo muy homogéneo que no se da en la población.

Por ejemplo

Si tenemos una población formada por 100 elementos y queremos extraer

una muestra de 25 elementos, en primer lugar debemos establecer el

intervalo de selección que será igual a 100/25 = 4. A continuación elegimos

el elemento de arranque, tomando aleatoriamente un número entre el 1 y el

4, y a partir de él obtenemos los restantes elementos de la muestra.

2, 6, 10, 14,..., 98.

Ejemplo:

Una universidad tiene 120 alumnos de química y se quiere extraer una

muestra de 30 alumnos

Se enumeran los alumnos del 1 al 120

Se calcula el intervalo constante entre cada individuo (N

(POBLACION))/N(MUESTRA) 120/30=30

sorteamos un numero de 1 al 4 supongamos que sale el numero 3 el

primer alumno seleccionado seria el numero 3 los siguientes alumnos se

obtendrían sumando 3 hasta llegar a tener 30 alumnos

los alumnos seleccionados serian los que correspondieran a los

números 3,6,9,12,15,21…90

Page 9: Trabajo de muestreo

4. Muestreo aleatorio por conglomerado: Consiste en seleccionar

aleatoriamente un cierto número de conglomerados (el necesario para

alcanzar el número de la muestra establecido) y en investigar todos los

elementos pertenecientes a los conglomerados elegidos.

Cuando se refieren a conglomerados se hablan de por ejemplo Unidades

hospitalarias, departamentos universitarios, una caja de determinado producto, las

urnas electorales entre otros.

Ejemplo:

En el caso de una encuesta realizada a los dueños/encargados de bares

de una ciudad, se censan y numeran únicamente las calles de la ciudad y se van

seleccionando aleatoriamente hasta obtener el número necesario de bares de la

muestra.

Tamaño de la muestra = 800 bares

1ª calle seleccionada = 4 bares.

2ª calle seleccionada = 8 bares.

3ª calle seleccionada = 3 bares.

Total = 800 bares

Ejemplo:

Comportamiento de los compuestos

1ª Etapa: por punto de ebullición

2ª Etapa: Por punto de fusion

3ª Etapa: Por solidificación

Page 10: Trabajo de muestreo

Correlación lineal:

Si se tienen dos series de datos emparejados, es útil encontrar la relación

de ambas variables, si se encuentran relación entre las mismas y la ecuación que

mejor las relaciona es la de una recta entonces podemos decir que estamos en

presencia de una correlación lineal.

Ejemplo:

Una compañía desea hacer predicciones del valor anual de sus ventas

totales en cierto país a partir de la relación de éstas y la renta nacional. Para

investigar la relación cuenta con los siguientes datos:

X 189 190 208 227 239 252 257 274 293 308 316

Y 402 404 412 425 429 436 440 447 458 469 469

X representa la renta nacional en millones de euros e Y representa las ventas de

la compañía en miles de euros en el periodo que va desde 1990 hasta 2000

(ambos inclusive). Calcular:

1 La recta de regresión de Y sobre X.

2 El coeficiente de correlación lineal e interpretarlo.

3 Si en 2001 la renta nacional del país fue de 325 millones de euros. ¿Cuál será la

predicción para las ventas de la compañía en este año?

xi yi xi ·yi xi2 yi2

189 402 35 721 161 604 75 978

190 404 36 100 163 216 76 760

208 412 43 264 169 744 85 696

Page 11: Trabajo de muestreo

227 425 51 529 180 625 96 475

239 429 57 121 184 041 102 531

252 436 63 504 190 096 109 872

257 440 66 049 193 600 113 080

274 447 75 076 199 809 122 478

293 458 85 849 209 764 134 194

308 469 94 864 219 961 144 452

316 469 99 856 219 961 148 204

2 753 4 791 708 933 2 092 421 1 209 720

Ejemplo:

El número de horas dedicadas al estudio en el laboratorio de orgánica y la

calificación obtenida en el examen correspondiente, de ocho personas es:

Horas (X) 20 16 34 23 27 32 18 22

Calificación (Y) 6.5 6 8.5 7 9 9.5 7.5 8

Se pide:

1 Recta de regresión de Y sobre X.

2 Calificación estimada para una persona que hubiese estudiado 28 horas.

Page 12: Trabajo de muestreo

xi yi xi ·yi xi2 yi2

16 6 256 36 96

18 7.5 324 56.25 135

20 6.5 400 42.25 130

22 8 484 64 176

23 7 529 49 161

27 9 729 81 243

32 9.5 1 024 90.25 304

34 8.5 1156 72.25 289

192 62 4 902 491 1 534

Regresión Lineal:

Es la recta que atraviesa la nube de datos y que mejor se ajustan a ellos. La

recta que se busca seria aquella para la que la suma de estas distancias fuera

mínima. Uno de los principales usos de esta recta es el de predecir o estimar los

valores de Y que obtendríamos para distintos valores de X. El gráfico que lo

representa se llama diagrama de dispersión.

Ejemplo:

Page 13: Trabajo de muestreo

A partir de los siguientes datos referentes a horas trabajadas en un taller

(X), y a unidades producidas (Y), determinar la recta de regresión de Y sobre X, el

coeficiente de correlación lineal e interpretarlo.

Horas (X) 80 79 83 84 78 60 82 85 79 84 80 62

Producción (Y) 300 302 315 330 300 250 300 340 315 330 310 240

xi yi xi ·yi xi2 yi

2

80 300 6 400 90 000 24 000

79 302 6 241 91 204 23 858

83 315 6 889 99 225 26 145

84 330 7 056 108 900 27 720

78 300 6 084 90 000 23 400

60 250 3 600 62 500 15 000

82 300 6 724 90 000 24 600

85 340 7 225 115 600 28 900

79 315 6 241 99 225 24 885

84 330 7 056 108 900 27 720

80 310 6 400 96 100 24 800

62 240 3 844 57 600 14 880

936 3 632 73 760 1 109 254 285 908

Ejemplo:

Page 14: Trabajo de muestreo

La tabla siguiente nos pruebas de un condensador (X) dadas a seis

dependientes a prueba y ventas del primer mes de prueba (Y) en cientos de euros.

X 25 42 33 54 29 36

Y 42 72 50 90 45 48

1 Hallar el coeficiente de correlación e interpretar el resultado obtenido.

2 Calcular la recta de regresión de Y sobre X. Predecir las ventas de un vendedor

que obtenga 47 en el test.

xi yi xi ·yi xi2 yi2

25 42 625 1 764 1 050

42 72 1 764 5 184 3 024

33 50 1 089 2 500 1 650

54 90 2 916 8 100 4 860

29 45 841 2 025 1 305

36 48 1 296 2 304 1 728

209 347 8 531 21 877 13 617

Tipos de regresión:

Page 15: Trabajo de muestreo

a) Regresión lineal simple: Es cuando las dos variables X e Y se

relacionan según un modelo de línea recta. (Y=a+bX)

Ejemplo:

“Los datos de la tabla adjunta muestran el tiempo de investigación del

procesamiento de una plata de acetonitrilo de trabajos que se han imprimido en

impresoras de la marca PR. Se está interesado en estudiar la relación existente

entre la variable de interés “tiempo de la invetigacion” y la variable explicativa

“número de páginas del trabajo”. Hacer el estudio en base a los datos obtenidos

en el muestreo y que son los de la tabla adjunta”.

Page 16: Trabajo de muestreo

Datos del problema

Se calculan los estadísticos básicos de las variables X e Y,

Que permiten calcular las estimaciones de los parámetros de la recta de regresión

Ahora, se pueden calcular las predicciones i

Page 17: Trabajo de muestreo

La suma de cuadrados de los residuos es

Que permite calcular la varianza residual

Las varianzas de los parámetros son

b) Regresión no lineal o curvilínea: Es cuando las variables X e Y se

relacionan según una línea curva. Aquí podemos distinguir entre

regresión parabólica, exponencial, potencial, etc.

c) Regresión múltiple: Es cuando tenemos más de una variable

independiente (X1,X2,X3,….,Xp), y una sola variable dependiente Y.

Page 18: Trabajo de muestreo

Ejemplo:

En la Facultad de Ingeniería de Sistemas y Computo de la Universidad del Cauca

se quiere entender los factores de aprendizaje de los alumnos que en el

aprendizaje de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y

ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y

Programación como se muestran en el siguiente cuadro.

Datos

Codigo AlgoritmosBases de

DatosProgramación PHP

1 15 15 13 13

2 14 13 12 13

3 16 13 14 13

4 20 14 16 15

5 18 18 17 16

6 16 17 15 15

7 13 15 11 12

8 16 14 15 13

9 15 14 13 13

Page 19: Trabajo de muestreo

10 14 13 10 13

1 12 12 10 11

12 16 11 14 14

13 17 16 15 15

14 19 14 16 15

15 13 15 10 15

En el caso general, el modelo de regresión lineal múltiple con p variables responde

a la ecuación:

de modo que los coeficientes se estiman siguiendo el criterio de mínimos

cuadrados:

La obtención aquí de las expresiones de los estimadores mínimo

cuadráticos de dichos coeficientes exigen reescribir la expresión tilizando notación

matricial.

Donde:

Utilizando las formulas de las ecuaciones normales a los datos

obtendremos los coeficientes de regresión o utilizando Regresión de Análisis de

Page 20: Trabajo de muestreo

datos, en la Hoja de Calculo de Excel podemos calcular también los coeficientes

de regresión:

Coeficiente de determinación:

Mide la proporción de variabilidad total de la variable dependiente “Y”

respecto a su media. También se dice que es la reducción proporcional del

error para la regresión recién definida; En conclusión, este coeficiente

simplemente es el cuadrado del coeficiente de correlación. Su definición

matemática es la siguiente:

r2yx=SC ( total )−SC (residual)

SC( total)

SC(total) = SC(regresión) + SC(residual)

r yx=r2yx

SC (total )=S yy

SC (regresió n )=r 2yx∗¿SC (total)¿

SC(residual) = SC(total) – SC(regresión)

Coeficiente de correlación:

Es cuando dadas dos variables X y Y, una medida de la relación lineal que

hay entre ambas variables es este coeficiente de correlación. La idea de esta

Page 21: Trabajo de muestreo

correlación es que esta mide el grado de relación lineal entre “x” e “y”. Mientras

más fuerte es la relación, mejor es la predicción de “y” a partir de “x”. Su definición

matemática es la siguiente:

r yx=Sxy

√Sxx∗¿ S yy¿

Donde Sxy y Sxx y Syy se definen de la siguiente manera:

Sxx=∑ X 2−¿¿¿ ¿

Sxy=∑ xy – ¿¿¿ ¿

Syy=∑i

Yi2−¿¿¿

Métodos de mínimos cuadrados:

Es una técnica matemática que consiste en encontrar una función que se

aproxime mejor a los datos (un mejor ajuste). Esta técnica se usa en el ajuste de

curvas y en problemas de optimización; El diagrama que más se usa es el de

dispersión. La recta que resulte debe presentar 2 características:

a) Es nula la suma de las desviaciones verticales de los puntos a partir de la

recta de ajuste

b) Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra

recta daría una suma menor de las desviaciones elevadas al cuadrado.

Para la aplicación de este método existen 2 ecuaciones las cuales se

presentan a continuación:

∑ y=na+b∑ x

Primera ecuación normal

Page 22: Trabajo de muestreo

∑ xy=a∑ x+b∑ x2

Segunda ecuación normal

Ecuaciones normalizadas:

Son dos ecuaciones lineales con una incognita a y b; la resolución de las

mismas nos da los valores de dichas incógnitas y estas ecuaciones dan un

mejor ajuste a los datos dados de acuerdo con el método de los mínimos

cuadrados.

.

Bibliografía

http://www.monografias.com/trabajos17/teoria-muestreo/teoria-

muestreo.shtml#ixzz2hWCxeNiR

http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf

Page 23: Trabajo de muestreo

Meyer, P. “Probabilidad y aplicaciones estadística”(1992)

http://augusta.uao.edu.co/moodle/mod/resource/view.php?id=54152