Análisis de muestras complejas con R. La Encuesta de Calidad de...

23
Análisis de muestras complejas con R. La Encuesta de Calidad de Vida en el Trabajo. III Jornadas de Usuarios de R Tania Iglesias, Patricia Díaz, Alexandra González Unidad de Consultoría Estadística Servicios Científico-Técnicos Universidad de Oviedo 17 de noviembre de 2011 UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 1 / 21

Transcript of Análisis de muestras complejas con R. La Encuesta de Calidad de...

Page 1: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Análisis de muestras complejas con R.La Encuesta de Calidad de Vida en el Trabajo.

III Jornadas de Usuarios de R

Tania Iglesias, Patricia Díaz, Alexandra González

Unidad de Consultoría EstadísticaServicios Científico-Técnicos

Universidad de Oviedo

17 de noviembre de 2011

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 1 / 21

Page 2: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Índice

1 Introducción

2 Software disponible

3 El paquete survey de R

4 Ejemplo: ECVT 2010

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 2 / 21

Page 3: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Necesidad de muestras complejas

Representar adecuadamente la población en estudio.Utilización de ponderaciones, estratos o efectos de diseño.Diseño empleado en multitud de encuestas oficiales:

Encuesta de Calidad de Vida en el Trabajo (ECVT)Encuesta sobre la participación de la población adulta en lasactividades de aprendizaje (EADA)Encuesta sobre el gasto de los hogares en educación (módulopiloto asociado a EPF)

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 3 / 21

Page 4: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Necesidad del uso de ponderaciones

EjemploObjetivo: estimar los ingresos familiares en una poblaciónDos zonas: zona rica y zona pobreMuestra de 200 viviendas: 100 en zona rica y 100 en zona pobreDistribución población: 2.500 hogares zona pobre y 1.200 zonarica

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 4 / 21

Page 5: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Uso de ponderaciones

Frec. muestra Frec. población Prob. selección Ponderaciones

Zona Rica 100 1.200 100/1.200 1.200/100=12Zona Pobre 100 2.500 100/2.500 2.500/100=25

Ingreso medio en cada zonaIngreso familiar medio en zonas pobres: 12.000 eIngreso familiar medio en zonas ricas: 25.000 e

Estimación ingreso medioMedia sin ponderar:(12000 ∗ 100 + 25000 ∗ 100)/(100 + 100) = 18.500 eMedia ponderada:(12000 ∗100 ∗25+25000 ∗100 ∗12)/(100 ∗25+100 ∗12) = 16.216 e

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 5 / 21

Page 6: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Elección del software

StataSPSSSASEpi InfoSudaan

Nuestra elección

El paquete survey de R

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 6 / 21

Page 7: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

El paquete survey

Definición diseño: upe, estratos, ponderaciones, deff,...Técnicas post-estratificación, calibración, muestro multietápicoDescriptivos: medias, totales, ratios,...Tablas de contingenciaModelos de regresión lineal y logísticaAnálisis de supervivenciaAnálisis de componentes principales

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 7 / 21

Page 8: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Encuesta de Calidad de Vida en el Trabajo

ECVTObjetivos:

Investigar la calidad de vida que tiene el ocupado en su trabajo

Periodicidad anualElaborada por el Ministerio de Trabajo e InmigraciónResultados:

Información acerca de la situación laboral del ocupado y de suentorno familiarCaracterísticas del puesto de trabajo, movilidad laboral,satisfacción en el trabajo, conciliación de la vida laboral y familiar..

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 8 / 21

Page 9: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

ECVT: Metodología

Ámbito encuestaGeográfico: territorio nacional, con excepción de Ceuta y MelillaPoblacional: población ocupada mayor de 16 años que reside enviviendas familiares

CuestionarioDatos sociodemográficosSituación laboralCalidad de vida en el trabajo:

Satisfacción en el trabajoEntorno laboralTiempo de trabajoFormación académica y profesionalCompensación por el trabajoAsociacionismo

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 9 / 21

Page 10: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Diseño de la muestra

Encuesta dirigida a ocupados residentes en viviendas familiaresRelación de viviendas y habitantes: padrón

Tipo de muestreoMuestreo trietápico estratificadoEstratos: cruce Comunidad Autónoma y tramo de tamaño demunicipio

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 10 / 21

Page 11: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Etapas

1 Primera etapa: muestra de secciones censales conprobabilidades proporcionales al tamaño de cada sección

2 Segunda etapa: muestra de viviendas con probabilidad igual paracada vivienda de la sección

3 Tercera etapa: selección de un ocupado residente en cadavivienda

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 11 / 21

Page 12: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Etapas

1 Primera etapa: muestra de secciones censales conprobabilidades proporcionales al tamaño de cada sección

2 Segunda etapa: muestra de viviendas con probabilidad igual paracada vivienda de la sección

3 Tercera etapa: selección de un ocupado residente en cadavivienda

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 11 / 21

Page 13: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Etapas

1 Primera etapa: muestra de secciones censales conprobabilidades proporcionales al tamaño de cada sección

2 Segunda etapa: muestra de viviendas con probabilidad igual paracada vivienda de la sección

3 Tercera etapa: selección de un ocupado residente en cadavivienda

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 11 / 21

Page 14: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Ejemplo

Perfil de la Afiliación SindicalVariables ECVT:

CCAA y tramo municipioAntigüedadAmistades en el trabajoIngresos mensualesFrecuencia con la que trabaja horas de másConocimiento del convenio o de las actividades realizadas por elsindicatoParticipación de los beneficios de la empresaTrabajo a turnos o de nocheNivel riesgoSatisfacción trabajo, empleados, directivosSector

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 12 / 21

Page 15: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Análisis con R

Etapas1 Definición diseño muestral2 Análisis descriptivo3 Análisis bivariante4 Construcción de un modelo de regresión

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 13 / 21

Page 16: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Diseño de la muestra con R

Posibilidades svydesignunidad de muestreoestratotipo de ponderaciónfpcdeff,...

Ejemplosvydesign(id=~1, strata=~estrato,weights=~Factorelevacion, fpc=~fpc, data= datos)

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 14 / 21

Page 17: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Análisis descriptivo

Funcionessvytotalsvymean

Ingresos mensuales

Frec. %

0-600 1753844 0.09601-1000 4359882 0.231001-1200 4077647 0.221201-1600 4066564 0.221601-2100 2534963 0.132100-3000 1515205 0.083001 y más 530807 0.03

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 15 / 21

Page 18: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Análisis descriptivo

Ingresos mensuales

Porcentaje

0−600

601−1000

1001−1200

1201−1600

1601−2100

2100−3000

3001 y más

0 5 10 15 20

Nivel riesgo

Porcentaje

Bajo

Medio

Alto

Muy alto

0 10 20 30 40 50

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 16 / 21

Page 19: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Análisis bivariante: svytable

No % Sí %16-22 años 695729 3.78 30875 0.1723-29 años 2343458 12.73 250338 1.3630-36 años 3046445 16.55 518098 2.8137-43 años 3420021 18.58 699115 3.8044-50 años 2862149 15.55 712610 3.8751-57 años 1890968 10.27 575594 3.1358-64 años 1041460 5.66 232689 1.26Más de 65 años 82615 0.45 7460 0.04

Relación entre edad y afiliación sindicalSe ha realizado el análisis para estudiar la relación entre Edad yafiliacionsindical, obteniéndose que se rechaza la hipótesis deindependencia (test de Pearson, p-valor=0.00).

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 17 / 21

Page 20: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Análisis bivariante

Sta

ndar

dize

dR

esid

uals

:<

−4

−4:

−2

−2:

00:

22:

4>

4

afiliacionsindical

Eda

d

No Sí

16 −22 años

23−29 años

30−36 años

37−43 años

44−50 años

51−57 años

58−64 años

Más de 65 años

Sexo

Hombre

Mujer

0 10 20 30 40 50

No Sí

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 18 / 21

Page 21: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Modelo de regresión: svyglm family binomial

Coeficientes Odds Error estándar Estadístico t p valor

(Intercept) -1.63 0.20 0.72 -2.26 0.02AntigüedadEntre3y10años -0.32 0.72 0.13 -2.45 0.01AntigüedadMenosde3años -0.79 0.45 0.15 -5.35 0.00EdadIntervalos3036años 1.09 2.98 0.51 2.15 0.03EdadIntervalos3743años 1.18 3.25 0.51 2.30 0.02EdadIntervalos4450años 1.38 3.97 0.51 2.69 0.01EdadIntervalos5157años 1.33 3.79 0.52 2.57 0.01FrecuenciatrabajadeMAS -0.27 0.76 0.13 -2.09 0.04Ingresos.Bajo -0.65 0.52 0.22 -2.96 0.00NivelRiesgo.Alto 0.54 1.71 0.11 4.79 0.00ProvinciaNacimientoAsturias 0.65 1.92 0.27 2.38 0.02ProvinciaNacimientoBarcelona -0.31 0.73 0.15 -2.08 0.04ProvinciaNacimientoCádiz -0.82 0.44 0.33 -2.46 0.01ProvinciaNacimientoSta.CruzdeTenerife 0.87 2.40 0.36 2.40 0.02RealizacionJornadaPartida -0.25 0.78 0.11 -2.28 0.02SectoresAgricult.ganad.silvicult.ypesca -1.39 0.25 0.54 -2.55 0.01SectoresConstrucción -0.76 0.47 0.20 -3.75 0.00SectoresIndustriamanufacturera -0.53 0.59 0.16 -3.30 0.00TipoPuestoMandoIntermedio 0.96 2.61 0.47 2.02 0.04TrabajaTurnos.Sí 0.30 1.35 0.12 2.49 0.01

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 19 / 21

Page 22: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Análisis de muestras complejas con R

Paquete surveyThomas Lumleyhttp://faculty.washington.edu/tlumley/survey

Bibliografía: Complex Surveys: a guide to analysis using R

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 20 / 21

Page 23: Análisis de muestras complejas con R. La Encuesta de Calidad de …r-es.org/3jornadasR/pdfs/3_Iglesias_Cabo.pdf · 2011-12-15 · Relación entre edad y afiliación sindical Se

Unidad de Consultoría EstadísticaUniversidad de Oviedo

¡Gracias por vuestra atención!

UCE (Universidad de Oviedo) Análisis de muestras complejas con R 17 de noviembre de 2011 21 / 21