Curso de SPSS 18_2011

Análisis Estadístico de Datos con SPSS

PASW Statistics 18.

19/02/2011 Lic. Saurasani Castañeda Saballos

UNIVERSIDAD NACIONAL DE INGENIERIA PROGRAMA DE ADMINISTRACION DE UNIDADES DE SERVICIOS

UNI-PAUS

Análisis Estadístico de Datos con SPSS.

2

Lic. Saurasani Castañeda


3


INDICE

CAPÌTULO 1. Generalidades del SPSS. 5

Introducción 5

1.1 Tipos de Ventanas PASW Statistics 18. 5

1.1.1 Ventana del editor de datos. 5

1.1.2 Visor 6

1.1.3 Editor de tablas pivote 7

1.1.4 Editor de gráficos 8

1.1.5 Editor de resultados de texto 8

1.1.6 Editor de sintaxis 8

1.2 Barra de menú 8

1.3 Barras de herramientas 9

1.4 Personalizar la barra de herramienta 9

1.4.1 Mostrar barra de herramientas 9

1.4.2 Para personalizar la barra de herramientas 10

1.4.3 Barra de herramientas de edición 11

1.4.4 Para cambiar las imágenes de la barra de herramientas 12

1.5 Definir Variable 12

1.6 Formato de columna 16

1.7 Edición de datos 16

1.7.1 Mover y copiar datos 16

1.7.2 Eliminar casos 17

1.7.3 Insertar variable 17

1.7.4 Buscar datos 17

CAPÌTULO 2. Tratamiento y Análisis 18

2.1 Construcción de la matriz de datos 18

2.1.1 Matriz de datos 18

2.1.2 Entrada de datos 18

2.2 Depuración de datos 18

2.2.1 Reemplazar valores perdidos 19


4


2.3 Importación y exportación de archivos 20

2.3.1 Importación de archivos 20

2.3.2 Exportación de archivos 22

2.4 Transformación de datos con PASW Statistics 18. 24

2.4.1 Ordenar casos 24

2.4.2 Fundir archivos 25

2.4.3 Agregar datos (casos) 28

2.4.4 Segmentar archivos ( Split File ) 31

2.4.5 Selección de caso 32

2.4.6 Creación de nuevas variables 36

2.4.7 Conteo de casos 39

2.4.8 Recodificación de variables 40

CAPÌTULO 3. Análisis Exploratorio de Datos 44

3.1 Análisis exploratorio de datos. Procedimiento Explorar 44

3.2 Diagramas de Cajas 45

CAPÌTULO 4. Descripción Estadística de una variable 48

4.1 Datos y distribución de frecuencias 48

4.2 Diagrama tallo y hojas 49

4.3 Representaciones gráficas 49

4.4 Características de una distribución 53

4.5 Medidas de Tendencia Central 54

4.6 Medidas de dispersión y su uso 55

CAPÌTULO 5. Descripción conjunta de dos variables categóricas 56

5.1 Tablas de contingencia 56

5.2 Test Chi – Cuadrado 58

5.3 Comparación de Medias 60


5


CAPÌTULO 1. Generalidades del SPSS.

Introducción

El programa PASW Statistics 18, es un sistema global para el tratamiento de datos y

para el análisis estadístico. Además, puede adquirir datos de casi cualquier tipo de

archivo y utilizarlos para generar informes tabulares, gráficos y diagramas de

distribuciones y tendencias, estadísticos descriptivos y análisis estadísticos complejos.

Para empezar a trabajar en este programa, basta elegir la opción Todos los Programas

del menú SPSS Inc. de Windows y selecciona la subopciòn PASW Statistics 18 para

Windows de la opción PASW Statistics 18. Se obtiene una pantalla (figura 1.1) que nos

permite comenzar a trabajar con las distintas opciones. Una vez seleccionada la opción

se presiona la tecla “OK”.

Figura 1.1 Opciones del PASW Statistics 18

1.1 Tipos de Ventanas PASW Statistics 18.

Existen diversos tipos de ventanas en PASW Statistics:

1.1.1 Ventana del editor de datos.

El Editor de datos proporciona un método práctico (al estilo de las hojas de cálculo)

para la creación y edición de archivos de datos. La ventana Editor de datos se abre

automáticamente cuando se inicia una sesión.

El Editor de datos proporciona dos vistas de los datos.

Vista de datos. Esta vista muestra los valores de datos reales o las etiquetas de

valor definidas (Figura 1.2, 1.3).


6


Vista de variables. Esta vista muestra la información de definición de las

variables, que incluye las etiquetas de la variable definida y de valor, tipo de

dato (por ejemplo, cadena, fecha o numérico), nivel de medida (nominal, ordinal

o de escala) y los valores perdidos definidos por el usuario.

En ambas vistas, se puede añadir, modificar y eliminar la información contenida en el

archivo de datos.

Figura 1.2 Ventana del editor de datos PASW Statistics 18.

Figura 1.3 Ventana del editor de datos con observaciones en PASW Statistics 18

1.1.2 Visor. Todas las tablas, los gráficos y los resultados estadísticos se muestran en

el Visor. Puede editar los resultados y guardarlos para utilizarlos posteriormente. La


7


ventana del Visor se abre automáticamente la primera vez que se ejecuta un

procedimiento que genera resultados.

Figura 1.4 Ventana visor PASW Statistics 18.

1.1.3 Editor de tablas pivote. Con el Editor de tablas pivote es posible modificar los

resultados mostrados en este tipo de tablas de diversas maneras. Puede editar el texto,

intercambiar los datos de las filas y las columnas, añadir colores, crear tablas

multidimensionales y ocultar y mostrar los resultados de manera selectiva.

Figura 1.5 Editor de tablas pivote PASW Statistics 18.


8


1.1.4 Editor de gráficos. Puede modificar los gráficos y diagramas de alta resolución

en las ventanas de los gráficos. Es posible cambiar los colores, seleccionar diferentes

tipos de fuentes y tamaños, intercambiar los ejes horizontal y vertical, rotar diagramas

de dispersión 3-D e incluso cambiar el tipo de gráfico.

1.1.5 Editor de resultados de texto. Los resultados de texto que no aparecen en las

tablas pivote pueden modificarse con el Editor de resultados de texto. Puede editar los

resultados y cambiar las características de las fuentes (tipo, estilo, color y tamaño).

1.1.6 Editor de sintaxis. Puede pegar las selecciones del cuadro de diálogo en una

ventana de sintaxis, donde aparecerán en forma de sintaxis de comandos. A

continuación puede editar esta sintaxis de comandos para utilizar las funciones

especiales que no se encuentran disponibles en los cuadros de diálogo. También puede

guardar los comandos en un archivo para utilizarlos en sesiones posteriores.

Figura 1.6 Editor de sintaxis PASW Statistics 18.

1.2 Barra de menú

En el editor de datos en la línea superior vemos el icono de PASW Statistics 18. En la

línea siguiente se presenta la barra de menú general con todas sus opciones; File

(Archivo), Edit ( Edición ), View ( Ver), Data ( Datos), Transform ( Transformar),

Analyze ( Analiza), Direct marketing ( Marketing directo), Graphs (Gráficos), Utilities (

Utilidades), Window ( Ventana), Help ( Ayuda). Cada una de estas opciones contiene

distintos procedimientos para el trabajo estadístico.


9


1.3 Barras de herramientas

Una barra de herramientas es un conjunto de botones-iconos que permiten ejecutar

muchas de las funciones del PASW Statistics 18.de forma rápida y sencilla. Cada

ventana tiene su propia barra de herramientas, con botones específicos adaptados a las

funciones básicas de esa ventana. AI pasar con el puntero del ratón (sin pulsar el botón)

por encima de una herramienta, se abre un pequeño recuadro de ayuda pista ofreciendo

una breve descripción de la función asociada a esa herramienta.

Figura 1.7 Barra de herramienta PASW Statistics 18.

De izquierda a derecha, los iconos de la barra de herramienta son los siguientes:

- Abrir archivo

- Guardar archivo

- Imprimir

- Recuperar cuadros de diálogo

- Deshacer

- Rehacer

- Ir a caso.

- Ir a variables.

- Variables.

- Buscar.

- Insertar casos.

- Insertar variables.

- Segmentar archivos.

- Ponderar casos.

- Seleccionar casos.

- Etiquetas de valores.

- Usar conjunto de variables.

- Mostrar todas las variables.

1.4 Personalizar la barra de herramienta

Puede personalizar las barras de herramientas y crear nuevas barras de herramientas. En

las barras de herramientas puede incluirse cualquier herramienta disponible, incluso la

de cualquier acción de menú. Además pueden contener herramientas personalizadas que

ejecutan otras aplicaciones,

que ejecutan archivos de sintaxis de comandos o archivos de procesos.

1.4.1 Mostrar barra de herramientas

Utilice Mostrar barras de herramientas para mostrar u ocultar, personalizar y crear

nuevas barras de herramientas. En las barras de herramientas puede incluirse cualquier

herramienta disponible, incluso la de cualquier acción de menú. Además pueden


10


contener herramientas personalizadas que ejecutan otras aplicaciones, que ejecutan

archivos de sintaxis de comandos o archivos de procesos.

Figura 1.8 Ubicación de la barra de herramienta.

Figura 1.9 Mostrar barra de herramientas.

1.4.2 Para personalizar la barra de herramientas

En los menús, seleccione:

Ver (View)


11


Barras de herramientas (Toolbars)

Personalizar (Customize)

Seleccione la barra de herramientas que desea personalizar y pulse en Edición o

pulse en Nueva para crear una nueva barra de herramientas.

Para las barras de herramientas nuevas, introduzca un nombre para la barra de

herramientas, seleccione las ventanas en las que desea que aparezca y pulse en

Edición.

Seleccione un elemento en la lista Categorías para que se visualicen las

herramientas disponibles en esa categoría.

Arrastre y suelte las herramientas que desee en la barra de herramientas que

aparece en el cuadro de diálogo.

Para eliminar una herramienta de la barra de herramientas, arrástrela a cualquier

punto fuera de la barra de herramientas que aparece en el cuadro de diálogo.

Pulse en Nueva herramienta en el cuadro de diálogo Barra de herramientas de

edición.

Introduzca una etiqueta descriptiva para la herramienta.

Seleccione la acción que desee realizar con la herramienta (abrir un archivo,

ejecutar un archivo.

Pulse en Examinar para seleccionar un archivo o una aplicación para asociarlos a

la herramienta.

Las nuevas herramientas se muestran en la categoría Personales, que además

contiene los elementos de menú definidos por el usuario.

1.4.3 Barra de herramientas de edición

Utilice el cuadro de diálogo Barra de herramientas de edición para personalizar las

barras de herramientas existentes y para crear nuevas barras. En las barras de

herramientas puede incluirse cualquier herramienta disponible, incluso la de cualquier

acción de menú. Además pueden contener herramientas personalizadas que ejecutan

otras aplicaciones, que ejecutan archivos de sintaxis de comandos o archivos de

procesos.


12


Figura 1.10 Cuadro de diálogo Personalizar barra de herramientas

1.4.4 Para cambiar las imágenes de la barra de herramientas

Seleccione la herramienta cuya imagen desea cambiar en la barra de

herramientas.

Pulse en Cambiar imagen.

Seleccione el archivo de imagen que desea utilizar para la herramienta. Se

admiten los siguientes formatos de imagen: BMP, PNG, GIF, JPG.

- Las imágenes deben ser cuadradas. Las imágenes no cuadradas se recortan hasta

formar un cuadrado.

- El tamaño de las imágenes se ajusta automáticamente. Para una visualización

óptima, utilice imágenes de 16x16 píxeles para imágenes pequeñas de la barra

de herramientas, o de 32x32 píxeles para imágenes grandes.

1.5 Definir Variable

Una vez activada la ventana Datos nuevos en PASW Statistics 18, pasamos a definir la

variable correspondiente a la columna o celda seleccionada. Para ello pinchar en el

menú Datos y dentro del menú que se desplegará, elegir la opción Definir variable, es

decir:


13


Figura 1.11 Definir la variable de un conjunto de datos en PASW Statistics 18

La ventana Vista de variables permite llevar a cabo todas las tareas relacionadas con la

definición de una variable:

1. Nombre de variable: debe tener como máximo 8 caracteres, que pueden ser

alfabéticos o numéricos. o el símbolo de subrayado ( _ ) ; la única restricción es

que el primer carácter debe ser alfabético, $ o #.

2. Tipo de datos: Los distintos tipos de datos son los siguientes;

- Numérico. Una variable cuyos valores son números. Los valores se muestran en

formato numérico estándar. El Editor de datos acepta valores numéricos en

formato estándar o en notación científica.

- Coma. Una variable numérica cuyos valores se muestran con comas que

delimitan cada tres posiciones y con el punto como delimitador decimal. El

Editor de datos acepta valores numéricos para este tipo de variables con o sin

comas, o bien en notación científica. Los valores no pueden contener comas a la

derecha del indicador decimal.

- Punto. Una variable numérica cuyos valores se muestran con puntos que

delimitan cada tres posiciones y con la coma como delimitador decimal. El

Editor de datos acepta valores numéricos para este tipo de variables con o sin

puntos, o bien en notación científica. Los valores no pueden contener puntos a la

derecha del indicador decimal.


14


- Notación científica. Una variable numérica cuyos valores se muestran con una

E intercalada y un exponente con signo que representa una potencia de base 10.

El Editor de datos acepta para estas variables valores numéricos con o sin el

exponente. El exponente puede aparecer precedido por una E o una D con un

signo opcional, o bien sólo por el signo (por ejemplo, 123, 1,23E2, 1,23D2,

1,23E+2 y 1,23+2).

- Fecha. Una variable numérica cuyos valores se muestran en uno de los

diferentes formatos de fecha-calendario u hora-reloj. Seleccione un formato de

la lista. Puede introducir las fechas utilizando como delimitadores: barras,

guiones, puntos, comas o espacios. El rango de siglo para los valores de año de

dos dígitos está determinado por la configuración de las opciones (en el menú

Edición, seleccione Opciones y, a continuación, pulse en la pestaña Datos).

- Dólar. Una variable numérica que se muestra con un signo dólar inicial ($),

comas que delimitan cada tres posiciones y un punto como delimitador decimal.

Se pueden introducir valores de datos con o sin el signo dólar inicial.

- Moneda personalizada. Una variable numérica cuyos valores se muestran en

uno de los formatos de moneda personalizados que se hayan definido

previamente en la pestaña Moneda del cuadro de diálogo Opciones. Los

caracteres definidos en la moneda personalizada no se pueden emplear en la

introducción de datos pero sí se mostrarán en el Editor de datos.

- Cadena. Una variable cuyos valores no son numéricos y, por lo tanto, no se

utilizan en los cálculos. Los valores pueden contener cualquier carácter siempre

que no se exceda la longitud definida. Las mayúsculas y las minúsculas se

consideran diferentes. Este tipo también se conoce como variable alfanumérica.

3. Ancho de columna: Se especifica el numero de caracteres para el ancho de

columna este valor debe de estar entre un rango de 1 a 40.

4. Decimales: Cantidad de decimales con las que se va a trabajar las variables de

tipo cuantitativa.

5. Etiquetas de variable: Puede asignar etiquetas de variable descriptivas de hasta

256 caracteres de longitud. Las etiquetas de variable pueden contener espacios y

caracteres reservados que no se admiten en los nombres de variable.

6. Etiqueta de valor: Puede asignar etiquetas de valor descriptivas a cada valor de

una variable. Este proceso es especialmente útil si el archivo de datos utiliza

códigos numéricos para representar categorías que no son numéricas (por

ejemplo, códigos 1 y 2 para hombre y mujer).


15


Figura 1.12 Etiqueta de valor en PASW Statistics 18

7. Valores perdidos: Valores perdidos define los valores de los datos definidos como

perdidos por el usuario. Por ejemplo, es posible que quiera distinguir los datos

perdidos porque un encuestado se niegue a responder de los datos perdidos porque la

pregunta no afecta a dicho encuestado. Los valores de datos que se especifican como

perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen

de la mayoría de los cálculos.

Figura 1.13 Valores perdidos en PASW Statistics 18

8. Nivel de medición: Puede especificar el nivel de medida como Escala (datos

numéricos de una escala de intervalo o de razón), Ordinal o Nominal. Los datos

nominales y ordinales pueden ser de cadena (alfanuméricos) o numéricos.


16


- Nominal. Una variable se puede tratar como nominal si sus valores representan

categorías que no obedecen a una ordenación intrínseca (por ejemplo, el

departamento de la empresa en el que trabaja un empleado). Algunos ejemplos

de variables nominales son: región, código postal o confesión religiosa.

- Ordinal. Una variable puede tratarse como ordinal cuando sus valores

representan categorías con alguna ordenación intrínseca (por ejemplo, los

niveles de satisfacción con un servicio, que vayan desde muy insatisfecho hasta

muy satisfecho). Entre los ejemplos de variables ordinales se incluyen escalas de

actitud que representan el grado de satisfacción o confianza y las puntuaciones

de evaluación de las preferencias.

- Escala. Una variable puede tratarse como escala (continua) cuando sus valores

representan categorías ordenadas con una métrica con significado, por lo que son

adecuadas las comparaciones de distancia entre valores. Son ejemplos de

variables de escala: la edad en años y los ingresos en dólares.

Nota: Para variables de cadena ordinales, se asume que el orden alfabético de los

valores de cadena indica el orden correcto de las categorías. Por ejemplo, en una

variable de cadena cuyos valores sean bajo, medio, alto, se interpreta el orden de

las categorías como alto, bajo, medio (orden que no es el correcto). Por norma

general, se puede indicar que es más fiable utilizar Códigos numéricos para

representar datos ordinales.

1.6 Formato de columna: Se refiere a la anchura de columna y alineación del texto este

están incorporados en la ventana de vista de variables.

1.7 Edición de datos:

El Editor de datos puede modificar el archivo de datos de diversas maneras:

Cambiar los valores de datos

Cortar, copiar y pegar valores de datos

Añadir y eliminar casos

Añadir y eliminar variables

Cambiar el orden de las variables

1.7.1 Mover y copiar datos

Puede cortar, copiar y pegar valores de casillas individuales o grupos de valores en el

Editor de datos. Tiene la posibilidad de:

Mover o copiar un único valor de casilla a otra casilla

Mover o copiar un único valor de casilla a un grupo de casillas

Mover o copiar los valores de un único caso (fila) a varios casos

Mover o copiar los valores de una única variable (columna) a varias variables

Mover o copiar un grupo de valores de casillas a otro grupo de casillas


17


Al mover o copiar datos, el formato original es sustituido por el formato de las nuevas

columnas que pasan a ocupar. Si la conversión de formato de un dato no es posible, el

dato se convierte en un valor perdido definido por el sistema.

1.7.2 Eliminar casos

Para eliminar el texto seleccionado (ya sea una casilla, un caso, una variable o un

conjunto de casillas):

Seleccionar la opción Borrar del menú Edici6n. La tecla suprimir produce el

mismo efecto.

1.7.3 Insertar variable

Para insertar una variable nueva (una columna nueva entre dos variables existentes:

Situar el cursor en la columna donde se desea insertar la nueva variable

Seleccionar la opción Insertar variable del menú Datos, o pulsar el botón

Insertar variable de la barra de herramienta.

1.7.4 Buscar datos

Esta opción permite buscar un valor concreto en los casos de la variable seleccionada

(es decir, en los casos de la columna en la que se encuentra el cursor). Para buscar un

dato:

Seleccionar la opción Buscar datos del menú Edición ( o pulsar el botón Buscar

de la barra de herramientas) para acceder al cuadro de dialogo Buscar datos

(figura 1.14).

Figura 1.14. Cuadro de diálogo Buscar datos.


18


CAPÌTULO 2. Tratamiento y Análisis.

2.1 Construcción de la matriz de datos

Antes de comenzar a construir una matriz de datos es necesario referirnos al concepto

de este.

2.1.1 Matriz de datos: Es aquella que está conformada por todas las variables de

importancia en un estudio y todas las unidades elementales de análisis en una

investigación estos pueden ser: Personas, Empresas, Animales, Producto etc……, su

estructura está dada por la figura 2.1:

Figura 2.1. Matriz de datos.

Variable 1 Variable 2 ……………. Variable “m”

Caso 1

Caso 2

…..

Caso “n”

2.1.2 Entrada de datos: Se selecciona el programa “Pasw Statistic 18” y se selecciona

la opción introducir los datos y seleccione “ok”, automáticamente se visualiza la”vista

de variables” donde se efectúa la definición para cada variable, tipo, etiqueta, etc. Esto

se debe realizarse antes de introducir los datos de cada caso en “Vista de datos”.

La “Vista de datos”, permite introducir datos en cualquier orden. Asimismo, se pueden

introducir datos por:

1) caso: En este caso, se activará la fila correspondiente al caso y después se pasa a

introducir los datos. Es decir, una vez activada una determinada fila, el valor tecleado

se almacena en la primera columna de la fila activada, el segundo valor se almacena en

la segunda columna, y así sucesivamente hasta completar todos los datos del primer

caso.

2) variable: cuando se teclea el primer valor y se pulsa la tecla de Intro éste se

almacena en la celda correspondiente al primer caso de la primera variable, el segundo

valor se almacena en la celda correspondiente a la segundo caso de la primera

variable, y así sucesivamente hasta completar todos los datos de la primera variable.

Después se activa la segunda variable, y se procede de la misma forma. Y así

sucesivamente, hasta completar todos los datos de todas las variables.

3) Casillas individuales: Se selecciona una casilla y se introduce un valor de dato, este

se muestra en le editor de la casilla. Los valores no se registran hasta que se pulsa

intro o se selecciona otra casilla.

2.2 Depuración de datos.

La información puede tener valores faltantes (Missing), donde la presencia de este tipo

de valores puede llevarnos a usar algoritmos robustos a datos desaparecidos, a filtrar

información y reemplazar valores perdidos.


19


El tratamiento de los datos Missing, constituye una de las tareas previas a cualquier

análisis. La presencia de esta información faltante puede deberse a un registro

defectuoso de la información, a la ausencia natural de la información buscada o a una

falta de repuesta (Total o Parcial).

La primera prueba a realizar cuando existen datos Missing, es comprobar si se

distribuye aleatoriamente en todo el conjunto de datos. El procedimiento para valorar

los datos ausentes para una única variable “Y”, consiste en formar dos grupos de valores

para “Y”, los que tienen datos ausentes y los que no los tienen para representar esto en

la base de datos se deberá de generar nuevas variables (Una para cada variable

existente) asignando el valor de uno para datos válidos y el valor cero para datos

ausentes.

Luego, para cada variable “X” distinta de “Y”, se realiza un test para determinar si

existe diferencias significativas entre los dos grupos de valores determinados por la

variable “Y”(Ausentes y no ausentes) sobre “X”. Se considera a “Y” para cada una de

las variables del análisis y repitiendo el proceso anterior se encuentra que todas las

diferencias son no significativas, se puede concluir que los datos ausentes obedecen a un

Proceso completamente aleatorio y por lo tanto se pueden reemplazar los valores

perdidos.

2.2.1 Reemplazar valores perdidos:

Es posible crear nuevas variables de series temporales a partir de otras existentes,

reemplazando los valores perdidos por estimaciones. Las nuevas variables conservan el

principio del nombre y cualquier etiqueta de valor ya definidas en las variables

originales.

Para reemplazar los valores perdidos para las variables de series temporales, elija el

menú: Transformar Reemplazar valores perdido. Seleccione la variable o variables

para las que desea reemplazar los valore perdidos. Si lo desea, tiene la posibilidad de

introducir los nombres de variable, para anular los nombres por defecto de las nuevas

variables (nombre antiguo más un guión y un número) y de cambiar el método de

estimación para un variable seleccionada (Figura 2.2)

Figura 2.2 Reemplazar los valores perdidos.


20


Al seleccionar “Aceptar” se genera la nueva variable en la Ventana de datos, con los

valores perdidos reemplazados (Figura 2.3).

Figura 2.3 Vista de variable con valores perdidos reemplazados.

2.3 Importación y exportación de archivos.

Los archivos guardados en formato PASW statistics 18 , puede abrir archivos de Excel,

SAS, Stata, archivos delimitados por tabuladores y otros archivos sin necesidad de

convertirlos a un formato intermedio ni de introducir información sobre la definición de

los datos.

2.3.1 Importación de archivos: Elija en los menús:

Archivo

Abrir base de datos

Nueva consulta….

Se selecciona el origen de datos que sea compatible con PASW statistics 18:

dBase Files:


21


dBASE IV (*.dbf). Formato dBASE IV.

dBASE III (*.dbf). Formato dBASE III.

dBASE II (*.dbf). Formato dBASE II.

Excel files:

Excel 97, Formato XLS .

Excel 2007, Formato XLSX

Ms Access Database:

Ms Access Database, Formato DB (2000-2003)

Ms Access Database, Formato DBX (2007)

Luego, seleccione “Siguiente” y le aparecerá una pantalla de la forma siguiente:

Figura 2.4. Selección del origen de datos que se desea importar.

Selecciona “Examinar” y busca la base de datos que desea importar al programa PASW

Statistics 18 y selecciona “abrir”, automáticamente le aparecerá la venta “Acesso al

controlador ODBC” con la ubicación de la base de dato que desea importar. Luego

seleccione “Aceptar” y le aparecerá una ventana (Figura 2.5).


22


Figura 2.5 Ventana selección de datos.

Seleccione “Finalizar”, automáticamente le aparecerá la base importada.

2.3.2 Exportación de archivos: El Asistente para la exportación a base de datos

permite:

- Reemplazar los valores de los campos (columnas) de la tabla de la base de datos

existente o añadir nuevos campos a una tabla.

- Añadir nuevos registros (filas) a una tabla de base de datos.

- Reemplazar completamente una tabla de base de datos o crear una tabla nueva.

Para exportar datos a una base de datos:

En los menús de la ventana del Editor de datos correspondientes al conjunto de

datos que contiene los datos que se desean exportar, seleccione:

Archivo

Exportar a base de datos..

Seleccione el origen de base de datos.

En el primer panel del Asistente para la exportación a base de datos, seleccione el

origen de datos al que desea exportar los datos.


23


Figura 2.6 Asistente para la exportación a base de datos.

Puede exportar datos a cualquier origen de base de datos para el que tenga el

controlador ODBC adecuado.

Una vez seleccionado el origen de datos, se indica la forma en la que se desean exportar

los datos.

Figura 2.7 Cuadro de diálogo para la exportación de base de datos.

Las siguientes opciones están disponibles para exportar datos a una base de datos:


24


- Reemplazar los valores de los campos existentes. Reemplaza los valores de los

campos seleccionados en una tabla existente con valores de las variables seleccionadas

en el conjunto de datos activo.

- Añadir nuevos campos a una tabla existente. Crea nuevos campos en una tabla

existente que contiene los valores de las variables seleccionadas en el conjunto de

datos activo. Si desea obtener más información. Esta opción no está disponible para

los archivos de Excel.

- Añadir nuevos registros a una tabla existente. Añade nuevos registros (filas) a una

tabla existente que contiene los valores de los casos del conjunto de datos activo. Si

desea obtener más información.

- Eliminar una tabla existente y crear una tabla nueva con el mismo nombre.

Elimina la tabla especificada y crea una nueva tabla con el mismo nombre que

contiene variables seleccionadas del conjunto de datos activo. Toda la información de

la tabla original, incluidas las definiciones de las propiedades del campo (como las

claves primarias o los tipos de datos) se pierde.

- Crear una tabla nueva. Crea una tabla nueva en la base de datos que contiene datos

de las variables seleccionadas en el conjunto de datos activo. El nombre puede ser

cualquier valor que esté permitido como nombre de tabla por el origen de datos. El

nombre no puede coincidir con el nombre de una tabla o vista existentes en la base de

datos.

Siga las instrucciones del asistente para exportación para exportar los datos.

2.4 Transformación de datos con PASW Statistics 18.

En ocasiones, los datos tienen algunos tratamientos para su posterior análisis las cuales

se detallan a continuación:

2.4.1 Ordenar casos: Esta opción ayuda a ordenar los casos (filas) de una o varias

variables de ordenación en forma ascendente o descendente.

Para ordenar casos se debe de considerar lo siguiente:

Si se seleccionas más de una variable de ordenación, los casos se ordenaran por

variables dentro de las categorías de la variable anterior de la lista Ordenar por.

Por ejemplo, si selecciona Sexo como la primera variable de ordenación y gastos

como la segunda, los casos se ordenarán por gastos dentro de cada categoría de

sexo.

Para ordenar casos elija en los menús

Datos

Ordenar casos, aparecerá una ventana…( Figura 2.8)


25


Figura 2.8. Cuadro de diálogo Ordenar casos.

Especifique con respecto a que variable desea ordenar los casos y seleccione una de

las opciones de ordenación y seleccione “Aceptar”. Al editar la “ vista de datos”, los

casos estarán ordenados.

2.4.2 Fundir archivos: Es posible fundir los archivos de dos maneras diferentes:

1. Para fundir archivos con las mismas variables casos diferentes abra uno de los

archivos de datos. Los casos de este archivo aparecerán primero en el nuevo

archivo de datos fusionado. Elija en los menús:

Datos

Fundir archivos

Añadir casos…..

Aparecerá automáticamente una ventana (Figura 2.9)

Figura 2.9. Añadir casos en uno de los archivo de datos.


26


Seleccione “Examinar” y busque el archivo de dato que desea fundir u selecciona

“Examinar”, “Continuar”, le aparecerá una ventana “Añadir casos” (Figura 2.10).

Figura 2.10. Cuadro de diálogo Añadir casos.

Al aparecer esta ventana podrá eliminar las variables que no desea incluir de la lista

variables en el nuevo archivo de datos. Añada parejas de variables de la lista de

variables desemparejadas que representa la misma información registrada con nombres

diferentes en los dos archivos. Por ejemplo: el salario de un obrero podría tener el

nombre de la variable “Salobrer” en un archivo y “salario” en el otro.

Para seleccionar una pareja de variables desemparejadas puede enviarlas a “variables

del nuevo conjunto de datos activos” y selecciona “Aceptar”. En resumen, añadir caso

fusiona el archivo de datos de trabajo con otro archivo de datos que contiene las mismas

variables pero diferentes casos.

Las variables desemparejadas se deben a lo siguiente: Las variables definidas como

datos numéricos en un archivo y como datos de cadena en el otro ( las variables

numéricas no pueden fusionarse con variables de cadena), Variables de cadenas de

longitud diferentes ( la longitud definida de una variable de cadena debe ser la misma en

ambos archivos de datos).

2. Fundir archivos con los mismos casos pero variables diferentes (columnas). Se debe

considerar lo siguiente:

Los casos deben estar ordenados de la misma manera en ambos conjuntos de

datos.

Si se utilizan una o más variables clave para emparejar los casos, los dos

conjuntos de datos deben estar ordenados por orden ascendente de la variable o

variables clave.


27


Los nombres de las variables del segundo archivo de datos que son duplicados

de los del conjunto de datos activo se excluyen por defecto, abra uno de los

archivos de datos activo se excluyen por defecto, ya que añadir variables supone

que estas variables contienen información duplicada.

Elija en los menús:

Datos

Fundir archivos

Añadir variables…..

Aparecerá automáticamente una ventana (Figura 2.11)

Figura 2.11. Añadir variables en uno de los archivo de datos.

Seleccione el conjunto de datos o el archivo de datos PASW Statistics que va a fusionar

con el conjunto de datos activo. Para seleccionar variables claves , elija las variables

entre las variables del archivo externo ( marcados por el signo + ) en la lista de variables

excluidas ( Figura 2.10 )

Figura 2.12. Cuadro de diálogo Añadir variables.


28


Seleccione “Emparejar los casos en las variables clave para los archivos ordenados.

Añada las variables a la lista Variables clave.

Las variables clave deben existir en el conjunto de datos activo y en el otro

conjunto de datos. Ambos conjuntos de datos deben estar ordenados según el

orden ascendente de las variables clave y el orden de las variables de la lista

Variables clave debe ser igual a su secuencia de ordenación.

2.4.3 Agregar datos (casos):

Agregar datos consiste en agrupar varios casos en uno solo. La opción Agregar crea un

nuevo archivo de datos en el que cada nuevo caso representa a un conjunto de casos del

archivo de datos original. Un archivo agregado tiene, por tanto, menos casos que el

archivo original.

Para comprender en qué consiste agregar datos es necesario que definamos:

Variables de segmentación: Los casos del archivo original son agrupados a partir de

los niveles de una o más variables de segmentación. Cada combinación única de valores

de variables de segmentación define un grupo.

La variable de segmentación, puede ser tanto numérica como de cadena.

Agregar variables. Las variables del nuevo archivo se obtienen a partir de variables del

archivo original. El nombre de la variable agregada viene seguido de una etiqueta de

variable opcional.

Para agregar casos:

Seleccione “Datos”

Agregar

Automáticamente le aparecerá una ventana (Figura 2.13)


29


Figura 2.13. Cuadro de diálogo agregar datos.

Puede seleccionar una o más variables de segmentación que definan cómo deben

agruparse los casos para crear datos agregados. En la figura 2.13, se ubico una

variable de segmentación de tipo numérico “Nivel académico de entrevistado”,

lo que significa que todos los entrevistados que tengan el mismo nivel

académico pasaran a formar un único caso en el nuevo archivo de datos

agregados.

En la figura hemos decidido que el nuevo archivo contenga una variable:

P10_n (el nombre es automáticamente asignado por el PASW Statistics 18.).

Seleccione una función de agregación para cada variable agregada.


30


Figura 2.14. Funciones de agregación.

La variable “P10” (figura 2.13), será el resultado de obtener, para cada nuevo caso

agregado, el numero ponderado de casos en todos los casos de cada segmento definido

por el “Nivel académico”.

Nombre y etiquetas (opcional). Las nuevas variables son nombradas, por

defecto, “ P10_n” ,si se desea cambiar el nombre asignado por defecto:

Pulsar el botón Nombre y etiquetas... para acceder al cuadro de dialogo

Agregar datos: Nombre y etiqueta de variable que muestra la figura 2.15.

Figura 2.15. Nombre y etiqueta de la variable agregada.

Guardar el resultado agregado:

1. Añadir las variables agregadas al conjunto de datos activo. Las nuevas

variables basadas en las funciones de agregación se añaden al conjunto de datos

activo. El propio archivo de datos no se agrega. Cada caso con los mismos


31


valores de variables de segmentación recibe los mismos valores para las nuevas

variables agregadas.

2. Crear un nuevo conjunto de datos que contenga únicamente las variables

agregadas. Guarda los datos agregados en un nuevo conjunto de datos durante

la sesión actual. El conjunto de datos incluye las variables de segmentación que

definen los casos agregados y todas las variables de agregación definidas por las

funciones de agregación. No afecta al conjunto de datos activo.

3. Escribir un nuevo archivo de datos que contenga sólo las variables

agregadas. Guarda los datos agregados en un archivo de datos externo. El

archivo incluye las variables de segmentación que definen los casos agregados y

todas las variables agregadas definidas por las funciones de agregación. No

afecta al conjunto de datos activo.

Opciones de ordenación para archivos de datos grandes

En el caso de los archivos de datos muy grandes, puede resultar más eficiente agregar

datos ordenados previamente.

El archivo ya está ordenado por las variables de segmentación. Si los datos ya se

han ordenados por los valores de las variables de segmentación, e procedimiento se

ejecuta ejecución más rápidamente y utiliza menos memoria. Utilice esta opción con

precaución.

Los datos se deben ordenar por valores de variables de segmentación en el

mismo orden que las variables de segmentación especificadas para el

procedimiento Agregar datos.

Si va a añadir variables al conjunto de datos activo, seleccione sólo esta opción

si los datos se han ordenado mediante valores ascendentes de las variables de

segmentación.

Ordenar el archivo antes de la agregación. En situaciones muy extrañas y con

archivos de datos voluminosos, puede ser necesario ordenar el archivo de datos por los

valores de las variables de segmentación antes de realizar la agregación. No se

recomienda esta opción a menos que se presenten problemas de memoria y/o

rendimiento.

2.4.4 Segmentar archivos ( Split File ):

Segmentar archivo divide el archivo de datos en distintos grupos para el análisis

basándose en los valores de una o más variables de agrupación. Si selecciona varias

variables de agrupación, los casos se agruparán por variable dentro de las categorías de

la variable anterior de la lista Grupos basados en. Por ejemplo, si selecciona sexo como

la primera variable de agrupación y Edad como la segunda, los casos se agruparán por

la Edad dentro de cada categoría de sexo. Es posible especificar hasta ocho variables de

agrupación (Figura 2.16).


32


Figura 2.16. Cuadro de diálogo para segmentar archivo.

Los casos deben ordenarse según los valores de las variables de agrupación, en el

mismo orden en que aparecen las variables en la lista Grupos basados en. Si el archivo

de datos todavía no está ordenado, seleccione Ordenar archivo según variable de

agrupación.

Los grupos de segmentación del archivo se presentan juntos para poder compararlos a

través del botón Comparar los grupos (Figura 2.16). Los grupos de segmentación del

archivo se presentan juntos para poder compararlos. Para las tablas pivote se crea una

sola tabla y cada variable de segmentación del archivo puede desplazarse entre las

dimensiones de la tabla. En el caso de los gráficos se crea un gráfico diferente para cada

grupo y se muestran juntos en el Visor. El resultado de cada procedimiento se muestra

por separado para cada grupo de segmentación del archivo si se selecciona el botón

Organizar los resultados por grupos.

Para segmentar un archivo de datos para el análisis

Elija en los menús:

Datos

Segmentar archivo...

Seleccione Comparar los grupos u Organizar los resultados por grupos.

Seleccione una o más variables de agrupación.

2.4.5 Selección de caso.

En ocasiones puede interesar centrar el Análisis en solo un grupo de casos que cumplan

determinada condición. En otras ocasiones puede que solo interese analizar una muestra

aleatoria del total de casos del archivo de datos.


33


PASW Statistics 18, permite seleccionar un conjunto de casos utilizando diferentes

criterios: Selección de una muestra aleatoria de casos, selección de los casos que

cumplen con una determinada condición, selección de un número determinado de casos.

La selección de casos es una opción a la que todo usuario termina encontrando gran

utilidad. Para seleccionar casos:

Seleccione en los menús:

Datos

Seleccionar casos…. (Figura 2.17)

Figura 2.17 Seleccionar casos.

Se observa que por defecto están seleccionados todos los casos, es decir los análisis

se realizarán utilizando todos los casos.

1. Si se satisface la condición. Cuando se desee seleccionar aquellos casos que

satisfagan una determinada condición lógica se activará esta opción seleccionando el

botón Si... para especificar la condición. Si el resultado de la expresión condicional es


34


verdadero, se selecciona el caso. Si el resultado es falso o perdido, no se selecciona el

caso (Figura 2.18)

Figura 2.18. Ventana de selección de casos “si se satisface la condición”.

2. Muestra aleatoria de casos. Selecciona una muestra aleatoria basándose en un

porcentaje aproximado o en un número exacto de casos (Figura 2.19).

Figura 2.19. Selección de casos con la opción muestra aleatoria de casos.

Con la opción Aproximadamente se especifica el porcentaje de casos que se quieren

seleccionar.

Con la opción Exactamente se especifica el número de casos que se quieren

seleccionar.


35


3. Basándose en el rango del tiempo o de los casos. Selecciona los casos basándose en

un rango de los números de caso o en un rango de las fechas/horas ( Figura 2.20).

Los rangos de casos se basan en el número de filas que se muestra en la vista de datos.

Figura 2.20 Selección de casos basados en rango.

4. Usar variable de filtro. Utiliza como variable para el filtrado la variable numérica

seleccionada del archivo de datos. Se seleccionan los casos con cualquier valor distinto

del 0 o del valor perdido para la variable seleccionada.

Por ejemplo; Si la variable “ Sexo” es una variable que en la vista de variable tiene

valores : 1 = Femenino , 2 = Masculino y se desea seleccionar únicamente “Femenino”

que toma el valor de “1” en la variable utilizada como filtro y no entraran en el análisis

los casos que tomen valor de “2” en dicha variable ( Figura 2.21)

Figura 2.21. Conjunto de datos filtrados por la variable sexo “Femenino”.

Observe que los casos no seleccionados se marcan con una línea diagonal en la vista de

datos.

Especifique los criterios de selección de casos (Resultado)

Esta sección controla el tratamiento de casos no seleccionados. Puede elegir una de las

siguientes alternativas para tratar los casos no seleccionados:


36


1. Descartar casos no seleccionados. Los casos no seleccionados no se incluyen en

el análisis, pero se conservan en el conjunto de datos. Podrá utilizar los casos no

seleccionados más adelante en la sesión, si desactiva el filtrado. Si selecciona una

muestra aleatoria o si selecciona los casos mediante una expresión condicional, se

generará una variable con el nombre filter_$ que tendrá el valor 1 para los casos

seleccionados y el valor 2 para los casos no seleccionados.

2. Copiar casos seleccionados a un nuevo conjunto de datos. Los casos

seleccionados se copiarán a un nuevo conjunto de datos, lo que mantendrá

inalterado el conjunto de datos original. Los casos no seleccionados no se

incluirán en el nuevo conjunto de datos y se mantendrán en su estado original en

el conjunto de datos original.

3. Eliminar casos no seleccionados. Los casos no seleccionados se eliminarán del

conjunto de datos. Sólo se pueden recuperar los casos eliminados saliendo del

archivo sin guardar ningún cambio y abriéndolo de nuevo. La eliminación de los

casos será permanente si se guardan los cambios en el archivo de datos.

Si elimina los casos no seleccionados y guarda el archivo, no será posible recuperar

estos casos.

2.4.6 Creación de nuevas variables.

La creación de nuevas variables se origina a partir de funciones aritméticas, funciones

estadísticas, funciones de distribución. Para crear una variable seleccione en el menú

Transformar, y dentro de este se selecciona la opción Calcular, aparecerá una venta

(figura 2.22).

Figura 2.22. Cuadro de diálogo para Calcular variable.


37


Variable de destino: se especifica el nombre que se va a dar a la nueva variable.

Expresión numérica: se especifica la expresión aritmética o lógica que se va a

evaluar. Esta expresión puede contener operadores aritméticos, operadores

lógicos o una de las funciones que aparecen en la lista que figura debajo de este

campo. Esta lista contiene funciones aritméticas, funciones estadísticas,

funciones referentes a valores missing, funciones de distribución y funciones

temporales. Las constantes de cadenas deben ir entre comillas o apóstrofes.

Si no se selecciona casos opcionales, la nueva variable se calculara para todos los casos

y se añadirá al final de la vista datos. (Figura 2.23).

Figura 2.23 Ventana de datos con la nueva variable Costo1.

A veces es necesario calcular la nueva variable en un subconjunto de casos

seleccionados utilizando expresiones condicionales (Figura 2.24).


38


Figura 2.24. Calcular variable de un subconjunto de casos.

Al plantear esta condición, la nueva variable será creada únicamente para los casos que

satisfacen dicha condición (Figura 2.25).

Figura 2.25 Ventana de datos con la nueva variable Costo1, para una determinada

submuestra que verifica una condición.


39


2.4.7 Conteo de casos.

Para realizar el conteo de valores dentro de los casos deberá seleccionar en el menú

Transformar, y dentro de este se selecciona la opción Contar apariciones de valores

dentro de los casos, aparecerá una venta (figura 2.26).

Figura 2.26 Ventana de conteo de valores dentro de los casos.

Se debe introducir la variable destino. Luego, seleccione definir valores y especifique

los valores que se deben contar (Figura 2.27).

Figura 2.27 Definir valores para el conteo de los casos.

Si no se selecciona casos opcionales, el conteo de valores entre los casos se añadirá al

final de la vista datos. (Figura 2.28).


40


Figura 2.28 Conteo de valores en la vista de datos

Si desea, puede definir un subconjunto de casos en los que contar las apariciones de

valores bajo ciertas condiciones.

2.4.8 Recodificaciòn de variables.

Los valores de datos se pueden modificar mediante la recodificación. Esto es

particularmente útil para agrupar o combinar categorías. Puede recodificar los valores

dentro de las variables existentes o crear variables nuevas que se basen en los valores

recodificados de las variables existentes.

Recodificaciòn en la misma variable: El cuadro de diálogo Recodificar en las

mismas variables le permite reasignar los valores de las variables existentes o agrupar

rangos de valores existentes en nuevos valores. Por ejemplo, podría agrupar los Costos

en categorías que sean rangos de Costos.

Seleccione el menú Transformar, y dentro de este se selecciona la opción Recodificar

en las mismas variables, aparecerá una venta (figura 2.29)

Figura 2.29. Ventana de diálogo Recodificar en la misma variable.


41


Seleccione las variables que desee recodificar. Por ejemplo: Costo.

Si selecciona múltiples variables, todas deberán ser del mismo tipo (numéricas o de

cadena).Luego, deberá seleccionar en Valores antiguos y nuevos y especifique cómo

deben recodificarse los valores. (Figura 2.30).

Figura 2.30. Cuadro de dialogo de valores antiguos y nuevos.

Si lo desea, puede definir un subconjunto de los casos para su recodificación como

sigue:

Valor antiguo. Determina el valor o los valores que se van a recodificar. Puede

recodificar valores individuales, rangos de valores y valores perdidos. Los rangos y los

valores perdidos del sistema no se pueden seleccionar para las variables de cadena, ya

que ninguno de los conceptos es aplicable a estas variables. Los rangos incluyen sus

puntos finales y los valores definidos como perdidos por el usuario que estén dentro del

rango.

Valor. Valor antiguo individual que se va recodificar en un valor nuevo. El valor debe

ser el mismo tipo de datos (numérico o de cadena) que el de las variables que se van

recodificar.

Perdido por el sistema. Valores asignados por el programa cuando los valores de sus

datos no están definidos de acuerdo al tipo de formato que haya especificado, cuando un

campo numérico está vacío, o cuando no está definido un valor como resultado de un

comando de transformación. Los valores numéricos perdidos del sistema se muestran

como puntos. Las variables de cadena no pueden tener valores perdidos del sistema, ya

que es lícito cualquier carácter en las variables de cadena.


42


Perdido por el sistema o usuario. Observaciones que tienen valores que el usuario ha

declarado perdidos o que son desconocidos y se les ha asignado el valor perdido del

sistema, lo que se indica mediante un punto (.).

Rango. Rango inclusivo de valores. No disponible para variables de cadena. Se incluirá

cualquier valor perdido por el usuario dentro del rango.

Todos los demás valores. Cualquier valor no incluido en una de las especificaciones de

la lista Antiguo->Nuevo. Aparece en la lista Antiguo->Nuevo como ELSE.

Una vez que seleccione la manera de cómo va a recodificar a la variable selecciona

“Continuar” y “Aceptar”. Automáticamente en la vista de datos aparece la nueva

recodificaciòn de la variable con etiqueta de valor lo cual esta se deberá de definir en la

vista de variables (Figura 2.31).

Figura 2.31. Etiqueta de valor de la nueva variable recodificada.

Selecciona aceptar y en la vista de datos aparecerán los nuevos valores para la variable

“Costo”, definida en rangos.

La recodificaciòn en una misma variable es un poco inusual ya que una vez creada la

nueva variable no se podrá recuperar la base de datos original.

Recodificaciòn en la misma variable.

El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores

de las variables existentes o agrupar rangos de valores existentes en nuevos valores para

una variable nueva. Por ejemplo, podría agrupar los Costos en una nueva variable que

contenga categorías de rangos de Costos.

Seleccione el menú Transformar, y dentro de este se selecciona la opción Recodificar

en distintas variables, aparecerá una venta (figura 2.32)


43


Figura 2.32. Ventana de diálogo Recodificar en distinta variable.

Seleccione las variables que desee recodificar. Por ejemplo: Costo.

Introduzca el nombre y etiqueta de la nueva variable, seleccione cambiar. Luego,

deberá seleccionar en Valores antiguos y nuevos y especifique cómo deben

recodificarse los valores. (Figura 2.30).

Una vez que seleccione la manera de cómo va a recodificar a la variable selecciona

“Continuar” y “Aceptar”. Automáticamente en la vista de datos aparece la nueva

recodificaciòn de la variable con etiqueta de valor lo cual esta se deberá de definir en la

vista de variables (Figura 2.31).

Selecciona aceptar y en la vista de datos aparecerán los nuevos valores para la variable

“Costo1”, definida en rangos (Figura 2.32).

Figura 2.32. Vista de variable con la variable “Costo1”.


44


CAPÌTULO 3. Análisis Exploratorio de Datos.

3.1 Análisis exploratorio de datos. Procedimiento Explorar.

El software PASW Statistic permite realizar análisis exploratorio completo de datos

(Visual y formal) a través del procedimiento Explorar, que genera estadísticos de

resumen y representaciones gráficas, bien para todos los casos o de forma separada para

grupos de casos. Existen numerosas razones para utilizar este procedimiento: para

inspeccionar los datos, obtener descripciones, comprobar supuestos y caracterizar

diferencias entre subpoblaciones (grupos de casos). La inspección de los datos puede

mostrar que existen valores inusuales, valores extremos, discontinuidades en los datos u

otras peculiaridades. La exploración de los datos puede ayudar a determinar si son

adecuadas las técnicas estadísticas que está teniendo en consideración para el análisis de

los datos. La exploración puede indicar que necesita transformar los datos si la técnica

necesita una distribución normal. O bien, el usuario puede decidir que necesita utilizar

pruebas no paramètricas.

Para explorar los datos en los menús, seleccione:

Analizar

Estadísticos descriptivos

Explorar... ( Figura 3.1 )

Figura 3.1 Cuadro de diálogo explorar.

Seleccione una o más variables dependientes. Si lo desea, puede:

- Seleccionar una o más variables de factor, cuyos valores definirán grupos de casos.

- Seleccionar una variable de identificación para etiquetar los casos.


45


- Pulse en Estadísticos para obtener estimadores robusto, percentiles y tablas de

frecuencias.

- Pulse en Gráficos para obtener histogramas, pruebas y gráficos de probabilidad normal

y diagramas de dispersión por nivel con estadísticos de Levene.

- Pulse en Opciones para manipular los valores ausentes.

“Aceptar”.

3.2 Diagramas de Cajas.

El diagrama de caja y bigotes permite analizar y resumir a un conjunto de datos

univariante dado. Esta herramienta de análisis exploratorio de datos va a permitir

estudiar la simetría de los datos, detectar valores atípicos (Observaciones aisladas

cuando el comportamiento se diferencia claramente del comportamiento medio del resto

de las observaciones).

El gráfico de caja y bigotes divide los datos en cuatro áreas de igual frecuencia, una caja

central divide en dos áreas por una línea horizontal y otras dos áreas representadas por

dos segmentos verticales (Bigotes) que parten de cada lado horizontal de la caja. La

mediana es la línea horizontal en el interior de la caja, si esta línea esta en el centro “no

hay asimetría”. El sistema considera valores atípicos los que se encuentran a la

izquierda del bigote izquierdo a la derecha del bigote derecho, mediante puntos

alineados con la línea vertical central para que sean fácil de detectar.

Para obtener un diagrama de caja seleccione en el menú: Gráficos Cuadro de

diálogo antiguo Diagramas de caja y elija simple y resúmenes para distintas

variables (Figura 3.2).

Figura 3.2 Cuadro de diálogo Diagrama

de caja para distintas variables.

Al seleccionar Definir se obtiene la figura 3.3, en la que elije la variable motor para

representar en cajas. Luego, pulse Aceptar.


46


Figura 3.3 Cuadro de diálogo Definir diagrama de caja

Simple, para distintas variables.

Para obtener diagramas de caja cuando existe una variable dependiente y un nivel de

categoría. Seleccione en el menú: Gráficos Cuadro de diálogo antiguo

Diagramas de caja y elija simple y resúmenes para grupos de datos (Figura 3.4).

Al seleccionar Definir se obtiene la figura 3.5, en la que elije la variable motor para

representar en cajas y como eje de categoría origen. Luego, pulse Aceptar

Figura 3.4 Cuadro de diálogo Figura 3.5. Cuadro de diálogo Definir

Diagrama caja para grupos de casos. Diagrama de caja con eje de categorías.


47


CAPÌTULO 4. Descripción Estadística de una variable.

4.1 Datos y distribución de frecuencias

Datos: Es aquel que se obtiene mediante un proceso que comprende la observación o

medición. Un conjunto de datos debe cumplir las normas de denominación de variables.

Distribución de frecuencia: Es un agrupamiento de datos en categorías que muestra el

numero de observaciones en un estudio.

En PASW Statistics, en el menú “Analizar” “Estadísticos descriptivos”

“Frecuencia”, permite obtener distribuciones de frecuencias, representaciones gráficas

de dichas distribuciones, y los estadísticos descriptivos más utilizados.

Figura 4.1 Cuadro de diálogo de frecuencia

Con las opciones de Estadísticos se solicitan los estadísticos descriptivos para las

variables numéricas seleccionadas, entonces se obtiene la siguiente ventana: Figura 4.2 Cuadro de diálogo opciones de Estadísticos.


48


Los estadísticos que se desean obtener; observemos que por defecto no está

seleccionado ningún estadístico.

Si se seleccionan los Cuartiles, muestra los valores correspondientes a los percentiles

25, 50 y 75. Los Puntos de corte son los valores que dividen los casos en un número de

grupos del mismo tamaño. Después de seleccionar esta opción, introduzca un entero

positivo, entre 2 y 100, para especificar el nº de grupos de igual tamaño que desea

obtener. Por último, si se selecciona la opción Percentil(es), hay que introducir un valor

de percentil entre 0 y 100 y pulsar en el botón de Añadir

La opción Gráficos son opcional estos los analizaremos más adelante. Si desea cambiar

el formato de la tabla selecciona “Formato” y aparecerá una ventana (Figura 4.3)

Figura 4.3 Cuadro de diálogo de frecuencia Formato.

Observemos que por defecto, el programa ordena de forma ascendente los resultados

según los valores que toma la variable a analizar. Si se quiere ordenar de forma

descendente, se selecciona la opción Valores descendentes. Si se desea ordenar la tabla

de frecuencias resultante según los valores de las frecuencias, en vez de por los valores

de las variables, se seleccionan la opción Frecuencias ascendentes o Frecuencias

descendentes.

Interpretación de resultados a partir de la tabla de distribución de frecuencia.

1. Supóngase que se desea analizar la distribución de frecuencia de la variable “Sexo”,

entonces se obtiene al seleccionar la barra de menú ( Figura 4.1), donde obtendremos

la tabla de frecuencias en la ventana de resultados.

Tabla 1. Sexo de los entrevistados.

Frequency Percent Valid Percent

Cumulative

Percent

Femenino 14 56.0 56.0 56.0

Masculino 11 44.0 44.0 100.0

Total 25 100.0 100.0

En la tabla de frecuencia se tiene como resultado:

Los distintos valores que toma la variable SEXO.

Frecuencia absoluta

Frecuencia relativa porcentual.


49


Porcentaje de valores válidos, coincide con el porcentaje anterior porque esta

variable no tiene valores missing.

Porcentaje acumulado.

4.2 Diagrama tallo y hojas

El diagrama de tallo y hoja es un procedimiento semigràfico para presentar la

información para variables cuantitativas, que es especialmente útil cuando el número

total de datos es pequeño (menor que 50).

El diagrama de tallo y hojas, también llamado histograma digital, es una combinación

entre un histograma de barra y una tabla de frecuencias. Al mantener los valores de la

variable, el diagrama tallo y hoja resulta más informativo que el clásico histograma de

barras, ya que conserva los datos originales y al mismo tiempo, compone un perfil que

ayuda a estudiar la forma y simetría de la distribución. Además, muestra el rango de los

datos.

Para obtener el diagrama tallo y hojas seleccione el menú: “Analizar” “Estadísticos

descriptivos” “Explorar” “Gráfico” y seleccione en “Descriptivos”en tallos y

hojas Continuar visualización seleccione Aceptar (gráfica 4.4).

Gráfico 4.4 Diagrama tallo y hojas de la

Variable “ Costo” en “ Base ejemplo 1 “.

Costo Stem-and-Leaf Plot

Frequency Stem & Leaf

6.00 0 . 000234

10.00 0 . 5555567777

4.00 1 . 1223

3.00 1 . 579

1.00 2 . 2

1.00 Extremes (>=550)

Stem width: 100.0

Each leaf: 1 case(s)

4.3 Representaciones gráficas

Para realizar algún tipo de gráfica, seleccione el menú “Gráficos” “Generador de

Gráficos”, se abre automáticamente una ventana (Figura 4.5)


50


Figura 4.5 Cuadro de diálogo Generador de gráficos.

En la lista Elija entre, seleccione una categoría de gráficos. Cada categoría ofrece

varios tipos. Luego, Arrastre la imagen del gráfico deseado al lienzo. También puede

pulsar dos veces en la imagen. Si en el lienzo ya aparece un gráfico, el gráfico de la

galería sustituirá al conjunto de ejes y a los elementos gráficos del gráfico.

Arrastre variables desde la lista Variables y colóquelas en las zonas de colocación del

eje Y, si está disponible, en la zona de colocación de agrupamiento. Si una zona de

colocación del eje ya muestra un estadístico que desea utilizar, no tendrá que

arrastrar ninguna variable a la zona de colocación. Sólo deberá añadir una variable a

la zona cuando el texto de la zona sea azul. Si el texto es negro, la zona ya contiene

una variable o un estadístico.


51


Figura 4.6 Cuadro de diálogo Generador de gráfico.

Si necesita cambiar los estadísticos o modificar los atributos de los ejes o las leyendas

(como la amplitud de la escala), pulse en Propiedades del elemento.

Figura 4.7 Cuadro de diálogo Propiedades del elemento.


52


En la lista Editar propiedades de, seleccione el elemento que desea cambiar. (Si

desea obtener información acerca de propiedades específicas, pulse en Ayuda.)

Una vez realizados los cambios, pulse en Aplicar.

Si necesita agregar más variables al gráfico (por ejemplo, para la agrupación o la

adición de paneles), pulse en la pestaña Grupos/ID de puntos del cuadro de diálogo

Generador de gráficos y seleccione una o más opciones. A continuación, arrastre las

variables categóricas a las nuevas zonas de colocación que aparecen en el lienzo.

Si desea transponer el gráfico (por ejemplo, para que las barras sean horizontales),

pulse en la pestaña Elementos básicos y, a continuación, pulse en Transponer.

Pulse en Aceptar para crear el gráfico. Aparecerá el gráfico en el Visor ( Figura 4.8)

Figura 4.8 Gráfico sectorial ( Pastel) en la ventana visor.

Pude Editar el gráficos para que pueda personalizar sus gráficos y explorar los datos

de la siguiente manera:

- Puede crear un gráfico en PASW Statistics o abrir un archivo con gráficos del

Visor.

- Pulse dos veces en un gráfico del Visor.

- Pulse dos veces en elemento gráfico o Seleccionar un elemento gráfico y elija a

continuación en los menús: Edición Propiedades. Además, el cuadro de

diálogo Propiedades aparece automáticamente al añadir un elemento al gráfico.

El cuadro de diálogo Propiedades incluye una serie de pestañas que le permiten definir

las opciones y realizar otros cambios en el gráfico. Las pestañas que puede ver en el


53


cuadro de diálogo Propiedades se basan en la selección actual. Diálogo de “Propiedad”

para la gráfica. Para cualquier cambio que realice en la grafica seleccione “Aplicar”.

4.4 Características de una distribución

La curtosis y la asimetría son los estadísticos que caracterizan la forma y simetría de

la distribución. Estos estadísticos se muestran con sus errores típicos.

- Curtosis. Medida del grado en que las observaciones están agrupadas en torno al punto

central. Para una distribución normal, el valor del estadístico de curtosis es 0. Una

curtosis positiva indica que las observaciones se concentran más y presentan colas más

largas que las de una distribución normal. Una curtosis negativa indica que las

observaciones se agrupan menos y presentan colas más cortas.

- Asimetría. Medida de la asimetría de una distribución La distribución normal es

simétrica y tiene un valor de asimetría igual a 0. Una distribución que tenga una

asimetría positiva significativa tiene una cola derecha larga. Una distribución que tenga

una asimetría negativa significativa tiene una cola izquierda larga. Como regla

aproximada, un valor de la asimetría mayor que el doble de su error típico se asume que

indica una desviación de la simetría.

- Orden de presentación. Por defecto, las variables se muestran en el orden en que se

hayan seleccionado. Si lo desea, se pueden mostrar las variables alfabéticamente, por

medias ascendentes o por medias descendentes.

Para encontrar las características de la distribución, seleccione:

Analizar


Frecuencia

Estadísticos (Seleccionar “Distribución”)

Continuar

Aceptar (Figura 4.9)

Tabla 2. Características de la distribución de la variable “Costo”

Base de dato “Ejemplo 1”.

Statistics

Costo

N Valid 25

Missing 0

Skewness 2.973

Std. Error of Skewness .464

Kurtosis 11.271

Std. Error of Kurtosis .902

En la tabla de estadísticos características de la distribución de la variable “Costo”, se

tienen los siguientes resultados:


54


N, valores validos, se refiere al total de casos en la ventana de datos.

No hay valores Missing.

Asimetría

Error estándar de asimetría.

Curtosis

Error estándar de curtosis.

4.5 Medidas de Tendencia Central.

En el estudio de estadísticos univariados se disponen de las medidas de tendencia

central tales como;

Media aritmética.

Mediana.

Moda.

Nota: Estas medidas se pueden calcular únicamente para variables cuantitativas y

cuando los casos (datos) no se encuentran agrupados por intervalos.

- Supongamos que deseamos calcular y analizar las medidas de tendencia central de la

variable “Costo”, se selecciona el menú “Analizar” “Estadísticos descriptivos”

“Frecuencia”, se ubica la variable “Costo” y se selecciona “Estadísticos” y con el

mouse seleccione las medidas de tendencia central. Luego, seleccione “Continuar” y

“Aceptar”. En la ventana de resultado aparecerá una tabla con los estadísticos solicitada

(Tabla 2. Estadísticos de tendencia central)

Tabla 2. Estadísticos de tendencia central de la variable “Costo”.

Statistics

Costo

N Valid 25

Missing 0

Mean 99.340

Median 70.000

Mode 50.0

En la tabla de estadísticos de tendencia central se tienen los siguientes resultados:



Media

Mediana

Moda


55


4.6 Medidas de dispersión y su uso.

En el estudio de estadísticos univariados se disponen de las medidas de variabilidad o

dispersión tales como;

Valor máximo.

Valor mínimo.

Rango.

Varianza.

Desviación Estándar.

Error estándar de la media.

Nota: Estas medidas se pueden calcular únicamente para variables cuantitativas y

cuando los casos (datos) no se encuentran agrupados por intervalos.

- Supongamos que deseamos calcular y analizar las medidas de dispersión de la variable

“Costo”, se selecciona el menú “Analizar” “Estadísticos descriptivos”

“Frecuencia”, se ubica la variable “Costo” y se selecciona “Estadísticos” y con el

mouse seleccione las medidas de dispersión. Luego, seleccione “Continuar” y

“Aceptar”. En la ventana de resultado aparecerá una tabla con los estadísticos solicitada

(Tabla 3. Estadísticos de dispersión)

Tabla 3. Estadísticos de dispersión para la variable “Costo”.

Statistics

Costo

N Valid 25

Missing 0

Std. Error of Mean 22.2435

Std. Deviation 111.2176

Variance 12369.348

Range 550.0

Minimum .0

Maximum 550.0

En la tabla de estadísticos de dispersión se tienen los siguientes resultados:



Error estándar de la media.

Desviación estándar.

Varianza.

Rango.

Valor mínimo.

Valor máximo.


56


CAPÌTULO 5. Descripción conjunta de dos variables categóricas.

5.1 Tablas de contingencia

El procedimiento Tablas de contingencia crea tablas de clasificación doble y múltiple y,

además, proporciona una serie de pruebas y medidas de asociación para las tablas de

doble clasificación. La estructura de la tabla y el hecho de que las categorías estén

ordenadas o no determinan las pruebas o medidas que se utilizaban. Los estadísticos de

tablas de contingencia y las medidas de asociación sólo se calculan para las tablas de

doble clasificación. Si especifica una fila, una columna, el procedimiento tablas de

contingencia crea un panel de medidas y estadísticos asociados para cada valor del

factor o una combinación de valores para dos o más variables de control.

Para la creación de la tabla de contingencia seleccione el menú:

Analizar


Tablas de contingencia...( Gráfico 5.1)

Gráfico 5.1 Cuadro de diálogo de Tablas de contingencia.

- Seleccione una o más variables de fila y una o más variables de columna.

- Seleccionar una o más variables de control.

- Pulsar en Casillas para obtener porcentajes, residuos y valores esperados y

observados ( Figura 5.2)


57


Figura 5.2 Cuadro de diálogo “ Mostrar en las casillas”

Recuentos. El número de casos realmente observados y el número de casos esperados si

las variables de fila y columna son independientes entre sí.

Porcentajes. Los porcentajes se pueden sumar a través de las filas o a lo largo de las

columnas. También se encuentran disponibles los porcentajes del número total de casos

representados en la tabla (una capa).

Residuos. Los residuos brutos no tipificados presentan la diferencia entre los valores

observados y los esperados. También se encuentran disponibles los residuos tipificados

y tipificados corregidos.

No tipificados. Diferencia entre el valor observado y el valor esperado. El valor

pronosticado es el número de casos que se esperaría encontrar en la casilla si no hubiera

relación entre las dos variables. Un residuo positivo indica que hay más casos en la

casilla de los que habría en ella si las variables de fila y columna fueran independientes.

Tipificados. El residuo dividido por una estimación de su error típico. Los residuos

tipificados, que son conocidos también como los residuos de Pearson o residuos

estandarizados, tienen una media de 0 y una desviación típica de 1.

Tipificados corregidos. El residuo de una casilla (el valor observado menos el valor

Pronosticado) dividido por una estimación de su error típico. El residuo tipificado

resultante viene expresado en unidades de desviación típica, por encima o por debajo de

la media.

- Pulsar en Formato para controlar el orden de las categorías.


58


5.2 Test Chi – Cuadrado.

El Test Chi_ Cuadrado (2 ) es una prueba estadística no paramétrica para diferencias

entre dos o más muestras donde frecuencias esperadas son comparadas en relación con

frecuencias obtenidas.

Prueba No Paramétrica: procedimiento estadístico que no adopta ningún supuesto

acerca de cómo se distribuye la característica bajo estudio en la población, y que sólo

requiere datos nominales u ordinales.

Estas medidas son importantes porque la mayoría de la información en la investigación

social y administrativa es de carácter nominal u ordinal, y porque no siempre estamos

seguros que la característica que deseamos estudiar se distribuye normalmente en la

población.

2 Se utiliza para hacer comparaciones entre frecuencias y no entre valores medios.

La 2 de pearson se emplea para comprobar la independencia de variables aleatorias.

Para hacer uso del “Test Chi_ Cuadrado”, seleccione el menú:

Analizar


Tablas de contingencia...( Gráfico 5.3)

Gráfico 5.3. Cuadro de diálogo Tabla de contingencia para el análisis de la

chi- cuadrada.

- S


59


eleccione una o más variables de fila y una o más variables de columna.

- Seleccionar una o más variables de control.

- Pulsar en Estadísticos y seleccione Chi_cuadrado ( Figura 5.4)

Figura 5.4 Cuadro de diálogo de Estadìstico.

- Continuar.

- Aceptar.

Por ejemplo; Se desea saber si “El salario “y “Nivel académico” son independiente, se

efectúa el análisis de la chi_ cuadrado se obtiene la siguiente tabla 4.

Tabla 4. Estadístico Chi_ Cuadrado.

Chi-Square Tests

Value df

Asymp. Sig.

(2-sided)

Pearson Chi-Square 2651.149a 1980 .000

Likelihood Ratio 1061.375 1980 1.000

Linear-by-Linear

Association

206.388 1 .000

N of Valid Cases 474

a. 2209 cells (100.0%) have expected count less than 5. The

minimum expected count is .00.

En la tabla de estadísticos Chi_Cuadrado se tienen los siguientes resultados:

Chi_ Cuadrado de Pearson.

Razón de verosimilitud.


60


Asociación lineal por lineal.

N de casos válidos.

El valor (muestral) del estadístico 2 es 2651.149

a; los grados de libertad (gl) son

1980, que es el resultado de la siguiente multiplicación: (número de filas-1)×(número de

columnas-1); y el p-valor o nivel crítico (Sig. asint. bilateral) es 0.000 (menor que el

habitual nivel de significación, α = 0.05), por lo que deberíamos rechazar la hipótesis

nula de independencia de las variables “El salario “y “Nivel académico”.

5.3 Comparación de Medias.

El procedimiento Medias, calcula medias de subgrupo y estadísticos univariados

relacionados para variables dependientes dentro de las categorías de una o más variables

independientes.

Para obtener medias de subgrupo

En los menús, seleccione:

- Analizar

Comparar medias

Medias... (Figura 5.5)

Figura 5.5 Cuadro de diálogo Medias.

- Seleccione una o más variables dependientes.

- Utilice uno de los siguientes métodos para seleccionar variables independientes

categóricas:


61


Seleccione una o más variables independientes. Se mostrarán resultados

individuales para cada variable independiente.

Seleccione una o más capas de variables independientes. Cada capa subdivide

consecutivamente la muestra. Si tiene una variable independiente en Capa 1 y

otra variable independiente en Capa 2, los resultados se mostrarán en una tabla

cruzada en contraposición a tablas individuales para cada variable

independiente.

Si lo desea, pulse en Opciones si desea obtener estadísticos opcionales, una tabla

de análisis de varianza, eta, eta cuadrado, R, y R2.

Tabla de Anova y eta. Muestra una tabla de análisis de varianza de un factor y calcula

la eta y la eta cuadrado (medidas de asociación) para cada variable independiente de la

primera capa.

Contrastes de linealidad. Calcula la suma de cuadrados, los grados de libertad y la

media cuadrática asociados a los componentes lineal y no lineal, así como la razón F, la

R y la R cuadrado. Si la variable independiente es una cadena corta entonces la

linealidad no se calcula.

Curso de SPSS 18_2011

Documents

Transcript of Curso de SPSS 18_2011