selección de casos con spss

1

UNIVERSIDAD DE SEVILLA

FACULTAD DE PSICOLOGIA

FUNDAMENTOS METODOLÓGICOS EN

PSICOLOGÍA

SELECCIÓN DE CASOS CON SPSS

INDICE: Pág.

1. Muestreo de casos ......................................................................................... 2

1.1. Muestreo aleatorio simple .................................................................. 3

1.2. Muestreo de conveniencia ................................................................. 4

1.3. Muestreo intencional simple .............................................................. 5

1.4. Muestreo aleatorio sistemático........................................................... 6

1.5. Muestreo por cuotas........................................................................... 6

1.6. Muestreo aleatorio estratificado ......................................................... 9

1.7. Muestreo por conglomerados ........................................................... 13

2. Referencias ................................................................................................... 13

2

En el ejercicio profesional actual es usual recurrir al uso de programas informáticos para

el tratamiento de los datos procedentes de estudios psicológicos. Es por eso que cada

vez se demanda en mayor medida que el conocimiento de dichos programas forme parte

del currículo de los estudiantes de Psicología. Uno de los programas más utilizados en

este sentido es el paquete estadístico SPSS (Statistical Package for Social Sciences). En

este documento ejemplificamos cómo seleccionar casos según distintos procedimientos

de muestreo.

1. Muestreo de casos

Una vez creado un fichero de datos puede ser necesario en ocasiones seleccionar a

determinados casos mediante algún procedimiento de muestreo. El programa SPSS

permite seleccionar casos según distintos procedimientos de muestreo (aleatorios o no

aleatorios; por unidades simples o compuestas). A continuación vamos a describir

algunos ejemplos de cómo realizar con el programa SPSS distintos tipos de

procedimientos de muestreo. Las definiciones y criterios de estos muestreos se pueden

consultar en el capítulo 6 del texto de Martínez y Moreno (2014), o en el apartado 2 del

capítulo 5 del texto de Moreno, Martínez y Chacón (2000), así como sus implicaciones

para la validez.

Como resultado de los distintos procedimientos de muestreo con SPSS pueden

aparecer en el fichero de datos nuevas variables, que registrarán los casos seleccionados.

Habitualmente, en esas variables se utiliza 1 o un valor decimal distinto de 0 para

señalar los casos seleccionados, y un 0 o un dato perdido para los casos no

seleccionados. Algunas de estas variables son temporales, lo que implicará que si

realizamos un nuevo muestreo se puede perder la información sobre los casos

seleccionados. Por este motivo, es recomendable en todos los casos copiar estas

variables temporales en nuevas variables de selección que se puedan conservar.

Cuando usemos con el programa la función de selección de datos con una de

esas variables de selección (o de filtro), los casos no seleccionados aparecerán tachados

con una línea diagonal (ver figura 1). Por defecto el programa no elimina del fichero los

casos no seleccionados, sino que sólo los descarta para los análisis siguientes. Esta

opción suele ser la más conveniente, ya que permite volver a utilizar casos descartados

si así interesara posteriormente.

Figura 1.- Resultado de una selección de casos, con casos no seleccionados tachados.

3

1.1. Muestreo aleatorio simple

Este es un muestreo realizado a partir de poblaciones definidas en términos de unidades

simples con similar probabilidad de ser seleccionadas. Para realizarlo se puede seguir la

siguiente secuencia de menús y submenús: DatosSeleccionar casosMuestra

aleatoria de casos. Una vez marcada esta última opción se debe seleccionar el botón

inmediato inferior, que en algunas versiones de SPSS viene como Ejemplo (que es una

mala traducción del término inglés Sample). A continuación aparecerá una ventana,

como muestra la figura 2, donde se ofrecen dos opciones para elegir la muestra. La

primera es seleccionando al azar un porcentaje aproximado del total de casos incluidos

en el fichero de datos. Otra posibilidad es seleccionar al azar una cantidad exacta de

casos, de entre la cantidad de casos que especifiquemos a partir de su orden en el

fichero. Para ello hay que determinar cuántos van a ser los “primeros casos” a

considerar para el muestreo. Si se señala un número igual al de casos que contiene el

fichero (en nuestro ejemplo son 202), implicará que la muestra se seleccionará al azar

entre todos los casos.

Figura 2.- Cuadro para seleccionar casos mediante un muestreo aleatorio simple.

Figura 3.- Vista del fichero de datos después de realizar una selección de datos

mediante un muestreo aleatorio simple.

Tras aplicar este procedimiento el programa generará una nueva variable

(filter_$) que aparecerá al final del fichero de datos. Esta variable está compuesta por

ceros (casos no seleccionados) y unos (casos seleccionados para la muestra). Los sujetos

descartados aparecen en el fichero con una raya tachando el número del caso (como se

puede ver en la figura 3). Puesto que la variable creada es temporal (y cambiará si se

4

realiza un nuevo procedimiento de selección), conviene copiar el resultado de esta

selección en una nueva variable. En el ejemplo que hemos puesto en la figura 3 hemos

copiado la columna de la variable filter_$ (Ctrl+C), y luego la hemos pegado en la

columna siguiente (Ctrl+V). A continuación hemos cambiado el nombre de esta nueva

variable en la pestaña “Vista de Variables”, y la hemos denominado Muestra1.

Cada vez que queramos utilizar esta misma muestra para realizar análisis con el

programa SPSS, sólo tenemos que seguir el menú DatosSeleccionar casosUsar

una variable de filtro, e introducir la variable que guarda los casos seleccionados (que

en nuestro ejemplo sería Muestra1; ver figura 4).

Figura 4.- Vista de la ventana de selección de casos en la que se utiliza una variable de

filtro.

Si queremos volver a utilizar todos los casos del fichero, sólo tenemos que abrir

en el menú Datos, la opción de Seleccionar casos. Una vez que aparezca la ventana de

diálogo hay que marcar la primera opción, Todos los casos. Cada vez que queramos

volver a utilizar una muestra anterior, se debe abrir el mismo menú y en la ventana de

diálogo seleccionar la opción Usar variable de filtro, e introducir en la casilla anexa la

variable donde hemos copiado los casos seleccionados.

1.2. Muestreo de conveniencia

Este tipo de muestreo consiste en un procedimiento no aleatorio realizado a partir de

unidades simples (también llamado por accesibilidad, accidental,…). La opción más

fácil es utilizar como muestra los n primeros casos del fichero -siendo n el tamaño de la

muestra deseada-. Esta solución se ejecuta mediante la siguiente secuencia de menú:

DatosSeleccionar casosBasándose en el rango del tiempo o de los casos. Una

vez marcada esta última opción se debe picar el botón que indica Rango, con lo que

aparecerá una ventana (figura 5), en la que se debe indicar desde el primer caso hasta el

último que se selecciona. Si queremos conservar esta selección debemos grabarla en una

nueva variable (p. ej. Muestra2; ver figura 6).

5

Figura 5. Ventana para señalar el primer y último caso de la muestra seleccionada por

un criterio de conveniencia (“orden de casos en el fichero”).

Figura 6. Fichero de datos tras grabar en una nueva variable (Muestra2) los 36

primeros casos seleccionados con un criterio de conveniencia.

1.3. Muestreo intencional simple

Para usar este procedimiento se puede crear una variable de selección o de filtro

(p. ej. Muestra3). En esa variable se debe ir seleccionando caso a caso siguiendo el

criterio intencional que se esté considerando. Es por tanto un muestreo por unidades

simples no aleatorio pero, a diferencia del criterio de conveniencia, en este caso se

6

seleccionan los sujetos según correspondan a determinadas características buscadas para

representar algún colectivo de casos (en el ejemplo de la figura 7 se han seleccionado

los casos según que la variable Q_135 implique alguna respuesta relacionada con la

psicología). Para ello se anotará un 1 en los casos seleccionados, dejando en blanco los

casos descartados.

Figura 7. Fichero de datos con una variable de selección (Muestra3), creada siguiendo

un criterio intencional indicando con “1” los casos seleccionados.

Siempre que se crea una variable de selección, para utilizar la muestra

seleccionada se debe ejecutar la secuencia de menú: DatosSeleccionar casos Usar

variable de filtro. Entonces se marcará la variable de selección que se ha creado, y con

el botón-flecha se trasladará a la ventana del filtro. Una vez ejecutada esta acción, en el

fichero de datos aparecerán con una marca los casos descartados (ver figura 7), y ya no

entrarán a formar parte de los análisis siguientes.

1.4. Muestreo aleatorio sistemático

Este procedimiento implica combinar criterios aleatorios y no aleatorios a partir de

unidades simples. Una manera habitual de realizar este tipo de muestreo es elegir un

primer caso al azar y a partir de él seguir un procedimiento sistemático. Para ejecutarlo

con el SPSS se pueden combinar los procedimientos explicados en los puntos 1.1 y 1.2

de este documento. En este caso se puede elegir con un procedimiento aleatorio simple

a un primer caso. Una vez elegido, a partir de él se puede seguir un procedimiento

similar al explicado para el muestreo de conveniencia (p. ej. crear una variable para

seleccionar los casos y seleccionar un número de casos a partir del seleccionado al azar,

o elegir los siguientes casos cada ciertos intervalos –p. ej. de diez en diez casos-).

1.5. Muestreo por cuotas

Es un procedimiento de muestreo no aleatorio a partir de unidades compuestas. Se

puede realizar siguiendo procedimientos similares a los descritos en los apartados

anteriores 1.2 (de conveniencia) y 1.3 (intencional). La diferencia consiste en que

previamente es necesario identificar los casos de cada unidad compuesta o estrato y

ordenar los casos.

7

Por ejemplo supongamos que nuestras unidades compuestas se forman a partir

del sexo (hombre y mujer) y de la edad dicotomizada (hasta 18 años y más de 18 años).

La combinación de esas dos variables de estratificación nos ofrecerá cuatro estratos o

unidades compuestas (tabla 1).

Tabla 1.- Estratos formados a partir de la combinación de escalas de género y edad.

1-Hasta 18 años 2-Más de 18 años

0-Hombre Estrato 1 Estrato 2

1-Mujer Estrato 3 Estrato 4

Figura 8.-Ventana para generar tablas de contingencias.

Antes de proceder a cualquier muestreo por unidades compuestas, es útil

conocer la distribución de casos por cada estrato dentro del fichero de datos. Esto se

realiza con la siguiente secuencia del menú: AnalizarEstadísticos

descriptivosTablas de Contingencia. Una vez que aparece la ventana de diálogo

(figura 8) se seleccionan como filas y columnas las variables que configuran los estratos

a partir de las combinaciones de sus valores.

Esta instrucción nos ofrecerá como resultado una tabla en donde aparecerá en

cada celda la frecuencia de casos de cada estrato, que en nuestro ejemplo son el género

y la edad recodificada. Tal como se puede observar en el ejemplo (ver tabla 2), en el

fichero de datos utilizado existen casos para los cuatro estratos considerados. De los 198

casos válidos que aparecen, se comprueba que 20 son hombres hasta 18 años, 23

hombres de más de 18 años, 84 mujeres hasta 18 años y 71 mujeres de más de 18 años.

Tabla 2.- Frecuencia de casos en cada estrato género y edad.

Tabla de contingencia Género * Edad recodificada

Recuento

Edad recodificada

Total 1 2

Género Hombre 20 23 43

Mujer 84 71 155

Total 104 94 198

8

Para seguir con el procedimiento de muestreo por cuotas, es útil ordenar los

casos en el fichero según las variables utilizadas para definir las unidades compuestas,

que en nuestro ejemplo serían el género y la edad. Para ello se debe seguir el menú:

DatosOrdenar casos. En la ventana de diálogo que aparece a continuación se deben

introducir las variables mediante las que queremos ordenar los casos (que en nuestro

ejemplo serían el género y la edad recodificada; ver figura 9).

Figura 9. Ventana para ordenar casos en función de los valores de las variables.

Como resultado, los casos aparecerán ordenados en el fichero de datos según los

valores de las variables que hayamos utilizado. Por defecto, el programa ordena los

casos según valores ascendentes, pero se puede hacer que los ordene a la inversa

(descendente) según convenga. En el ejemplo que venimos utilizando, según los valores

numéricos asociados a los valores empíricos (ver tabla 1), en el fichero aparecerán

primero los hombres hasta 18 años (0 y 1), a continuación los de más de 18 años (0 y 2),

luego las mujeres hasta 18 años (1 y 1), y por último las de más de 18 años (1 y 2).

9

Figura 10.- Distintas partes del fichero de datos donde se muestran casos seleccionados

en tres estratos formados con las variables Género y Edad_r.

Para seleccionar los casos con un procedimiento de cuotas se debe seguir un

criterio no aleatorio, ya sea de conveniencia o intencional. Para ello se pueden seguir

procedimientos similares a los explicados en los apartados 1.2 y 1.3. En el ejemplo que

presentamos en la figura 10, hemos creado una variable de selección (Muestra4) en la

que hemos marcado con un 1 los cinco primeros casos de cada estrato.

1.6. Muestreo aleatorio estratificado

Este es un procedimiento aleatorio a partir de poblaciones definidas por unidades

compuestas o estratos. Los estratos vendrán definidos por los valores de alguna o

algunas de las variables del fichero de datos. En el ejemplo que venimos utilizando, los

estratos están formados a partir de la combinación de valores de las variables género y

edad recodificada, lo que nos proporciona 4 estratos (ver tabla 1).

Figura 11.- Asistente de muestreo para seleccionar muestras complejas.

10

Un muestreo aleatorio estratificado es equivalente a realizar un muestreo

aleatorio simple (apartado 1.1) pero en cada uno de los estratos. Por este motivo, la

probabilidad de ser elegido para cada caso ya no tiene por qué ser homogénea sino que

dependerá del tamaño de cada estrato. Para seguir este procedimiento, la opción más

recomendable es utilizar el menú del SPSS: AnalizarMuestras

complejasSeleccionar una muestra, tras lo que aparecerá la ventana del Asistente

de muestreo (figura 11). En esa ventana se debe elegir la primera opción (Definir una

muestra), siempre que no se haya guardado previamente otro diseño muestral que

queramos volver a repetir. Es necesario ponerle un nombre al Archivo donde se va a

guardar el diseño muestral que realicemos (en nuestro ejemplo le hemos puesto

Prueba). Una vez que le hemos puesto el nombre a este archivo, debemos dar al botón

Siguiente. En la ventana que aparece a continuación, tenemos que seleccionar a las

variables cuyos valores conforman los estratos, e introducirlas en la ventana

denominada “Estratificar por:” (figura 12). Una vez hecho esto podemos darle al

botón Siguiente.

Figura 12.- Segunda pantalla del asistente de muestreo para definir las variables del

diseño muestral.

En la tercera pantalla del asistente (figura 13), se pueden dejar las opciones que

implementa el programa por defecto (Muestreo aleatorio simple-Sin reposición).

Como resultado, el programa realizará un muestreo aleatorio simple por cada estrato

que se haya especificado según las variables introducidas en el diseño muestral. Por eso

el muestreo en su conjunto se denomina estratificado.

11

Figura 13.- Pantalla del asistente de muestreo para definir el método de muestreo.

Por último aparecerá una nueva pantalla (figura 14), en la que debemos definir el

tamaño de la muestra a partir de una cantidad de casos (Recuentos) o de una proporción

de casos (Proporciones) por cada estrato. A continuación debemos señalar la cantidad

de casos por cada estrato. Si decidimos hacerla en términos fijos, querrá decir que

seleccionaremos la misma cantidad o la misma proporción por cada estrato. En el

ejemplo de la figura 14 hemos señalado un valor de 5 casos por cada estrato. Si

señalásemos una proporción, deberíamos utilizar el valor decimal entre 0 y 1 que

corresponda a la proporción deseada. En este último caso, lo que se mantiene fijo es la

proporción de cada estrato, pero la cantidad de casos de cada estrato será variable en

función de su tamaño. También es posible determinar cantidades o proporciones

diferentes para cada estrato. En ese caso debemos definir para cada estrato la cantidad o

la proporción que le corresponda.

Una vez determinado el tamaño de la muestra podemos darle al botón Finalizar.

Como resultado el programa creará tres nuevas variables al final del fichero de datos:

InclusionProbability_1_, SampleWeightCumulative_1_ y SampleWeight_Final_.

Estas variables son temporales. Para señalar los casos seleccionados en el muestreo

podemos utilizar la primera de estas variables, la cual debemos copiar en una nueva

variable para conservar sus valores. En el ejemplo que presentamos en la figura 15,

hemos copiado sus valores en la variable de filtro Muestra5. En esta variable los

valores oscilan entre 0 y 1, indicando la probabilidad que ha tenido el caso seleccionado

para ser incluido en la muestra. Los casos no seleccionados aparecen en esta variable

con un valor perdido. Conviene recordar que para utilizar esta muestra en los sucesivos

análisis, es necesario seguir el procedimiento de selección de casos con una variable de

filtro (que en nuestro ejemplo sería Muestra5), como ya se explicó en el apartado 1.1 para el muestreo aleatorio simple.

12

Figura 14.- Pantalla del asistente de muestreo para definir el tamaño de la muestra.

Figura 15.- Fichero de datos tras utilizar la variable de filtro Muestra5, que señala los

casos seleccionados con un procedimiento aleatorio estratificado.

Las tres variables generadas con este procedimiento (figura 15), una vez

copiados los valores de la probabilidad de inclusión de cada caso en una variable de

filtro, se pueden borrar del fichero.

13

1.7. Muestreo por conglomerados

Este procedimiento corresponde a un muestreo por unidades compuestas, pero en el que

se realiza una selección de algunos estratos, y que por tanto no selecciona casos de

todos los estratos. En caso de selección aleatoria de los estratos se puede realizar con el

mismo asistente de muestreo del programa SPSS que hemos utilizado en el apartado

anterior. A diferencia del muestreo aleatorio estratificado, en este caso las variables que

conforman los estratos se deben introducir en la ventana que señala “Conglomerados:”.

El procedimiento a seguir es idéntico al apartado anterior, pero hay que tener en cuenta

que cuando aparece la pantalla para determinar el tamaño de la muestra (figura 14), las

unidades a las que se refiere en este caso son las unidades compuestas, es decir los

estratos. Por tanto, aquí habría que indicar el número o la proporción de estratos que

queremos seleccionar. El procedimiento que se implementaría así sería un

conglomerados aleatorio monoetápico, ya que una vez seleccionados los estratos se

incluirían en la muestra todos los casos de dichos estratos.

Si quisiéramos seleccionar uno o varios estratos siguiendo criterios no aleatorios

(de conveniencia o intencional), se pueden seleccionar los casos con el menú.

DatosSeleccionar casos y marcar la opción “Si se satisface la condición…” (figura

16). En la ventana emergente se deben incluir las condiciones que identificarán al

estrato o los estratos elegidos. Tras esta acción todos los casos de los estratos

previamente elegidos estarán seleccionados.

Figura 16.- Ventana para seleccionar casos que cumplan con unas determinadas

condiciones (valores de variables).

En caso de que se quiera realizar algún muestreo sucesivo, como ocurre en los

conglomerados polietápicos, se puede recurrir a cualquiera de los procedimientos

descritos en los puntos anteriores pero a partir de estratos ya seleccionados.

2. Referencias Martínez, R. y Moreno, R. (2014). Cómo plantear y responder preguntas de manera

científica. Madrid: Síntesis.

Moreno, R., Martínez y Chacón, S. (2000). Fundamentos metodológicos en psicología y

ciencias afines. Madrid: Pirámide.

selección de casos con spss

Documents

Transcript of selección de casos con spss