Post on 08-Sep-2015
description
*
INTRODUCCIN AL ANLISIS DE DATOS CON SPSS
Prof. Dr. Juan Antonio Rodrguez R.
*
*
Contenido del Curso
I- Introduccin al Proceso de Datos
Definicin y fasesLa estadstica y los diferentes niveles de anlisisSeleccin de la prueba estadsticaVariables y tiposEjemploII- Visin General del Programa SPSS
Funcionamiento general: ventanas y mensCreacin de un archivo de datos: vista de variables y vista de datosV- Anlisis Descriptivo
Depuracin y anlisis preliminarndices de tendencia central y variabilidadndices de posicin y distribucinVI- Contraste de Hiptesis
Pruebas paramtricasPruebas no paramtricasVII- Introduccin a las tcnicas multivariantes
CorrelacinRegresin lineal mltipleIII- Manejo
Edicin de datosMoverse por el archivo de datosCompatibilidad con otros programasTransformacin de datos: clculo de nuevas variables y recodificacinFiltrar y segmentarFundir archivosIV- Tabulacin y Grficos
Tablas personalizadasPrincipales opciones grficas: sectores, barras, lneas e histogramasGrficos interactivos*
*
Definicin y fasesEl Anlisis de Datos: La estadstica y los diferentes niveles de anlisisSeleccin de la prueba estadsticaVariables y tiposEjemplo
Mdulo I. Introduccin al PROCESO DE DATOS
*
DEFINICIN y FASES
EL PROCESO DE DATOS
Un continuum que empieza ya en el Diseo de la investigacin. Los pasos por los que atraviesan los DATOS:
Diseo de la investigacin
Recogida de datos
Codificacin y grabacin
Anlisis Exploratorio
Anlisis Estadstico
Interpretacin de Resultados
Elaboracin del Informe
*
EL ANLISIS DE DATOS
La ESTADSTICA como un cuadro de herramientas, con 3 niveles de anlisis:
Nivel 1: UNIVARIADO. Resumir e ilustrar la informacin contenida en una matriz de datos
Nivel 2: BIVARIADO. Contrastar hiptesis, comparar el comportamiento de dos o ms grupos o analizar la relacin entre pares de variables
Nivel 3: MULTIVARIANTE. Elaborar modelos, ecuaciones o funciones que permitan explicar unas variables a partir de otras y hacer predicciones
*
VARIABLES
Toda caracterstica o dimensin de un sujeto (u objeto) susceptible de adoptar distintos valores o nombres
Tipos de variables ...teniendo en cuenta:
Su nivel de medida (Stevens, 1951):
Nominales
Ordinales
Intervalo
Razn
Su papel en la investigacin
Independientes (predictores)
Dependientes (criterio)
*
Los nmeros no implican cantidad, sino cualidad, categoras, funcin identificadora (sexo, estado civil, etc.)
Ejemplo: Cul es su estado civil?
* Soltero(1)
* Casado(2)
* Separado(3)
* Divorciado(4)
* Viudo(5)
VARIABLE NOMINAL
*
Los nmeros reflejan cantidad
Pueden establecerse relaciones de orden (mayor o menor)
No existe una unidad de medida
Ejemplo: En conjunto dira usted que se siente actualmente:
* Nada feliz(1)
* Poco feliz(2)
* Bastante feliz(3)
* Muy feliz(4)
* Totalmente feliz(5)
VARIABLE ORDINAL
*
Unidad de medida pero no cero absoluto o ausencia de...
Ejemplos: el C.I.
VARIABLE de RAZN
Existencia de un cero absoluto
Ejemplo: INGRESOS ECONMICOS
Niveles de medida dbiles y fuertes (ESCALA)
VARIABLE de ESCALA
VARIABLE de INTERVALO
*
Variables Cualitativas (nominales):
Dicotmicas y politmicas (Sexo, raza, tipo de consumidor, etc.)
Variables Cuantitativas (intervalo y razn): Peso, nmero de hermanos, ingresos, etc.). Discretas y continuas.
Variables Cuasi-cuantitativas (ordinales): Clasificacin en una oposicin, Ordenamiento por preferencias, Prctica de deportes,etc.
Variables categricas (codificables: nominales u ordinales)
Otras clasificaciones de Variables
*
Codificar es asignar cdigos numricos o alfabticos a las diferentes categoras de una variable cualitativa u ordinal. Permite identificar las distintas categoras de una variable
Sexo : Hombre (0) Mujer (1)
Los datos missing representan la falta de respuesta. Es frecuente tener casos incompletos por diversas razones
El SPSS les asigna una coma
Codificacin y Datos Missing
*
Simulacin de una encuesta
1. Sexo: Hombre ( ) Mujer ( )
2. Edad: .........
3. Nivel de estudios
Sin estudios( ) EGB ( )
BUP/FP( ) Universitarios ( )
4. Estados
Zulia ( ) Trujillo( )
Mrida( ) Barinas ( )
5. Fumas?
Nunca ( ) Ocasionalmente ( ) Habitualmente ( )
6. Habitualmente bebes alcohol cuando sales?
S ( ) NO ( )
*
Simulacin de una encuesta
7. Cul es tu bebida preferida? ....
8. Con qu frecuencia sales a divertirte?
Varias veces a la semana ( )Fines de semana ( )
Cada quince das( )Una vez al mes ( )
Casi nunca( )Nunca ( )
9. Para m lo ms importante es:
Los amigos ( )Los estudios ( )
La familia( )El dinero ( )
La pareja( )La paz en el mundo( )
10. La vida que llevo es:
Poco divertida 1 2 3 4 5 6 7 Muy divertida
Poco responsable 1 2 3 4 5 6 7 Muy responsable
Poco estresante 1 2 3 4 5 6 7 Muy estresante
11. Mi nivel de satisfaccin actual (de 0 a 10) es:....
*
Funcionamiento general: ventanas y mensCreacin de un archivo de datos: vista de variables y vista de datos
Mdulo II. Visin general del Programa SPSS
*
Men principalBarra de herramientasBarra de estadoBarras de desplazamientoTres tipos de ventanas:Datos (.sav)Resultados (.spo)Sintaxis (.spss)
Funcionamiento general: ventanas y mens
*
Primero se define la plantilla: vista de variablesDespus se teclean los datos
Creacin del archivo de datos
*
Edicin de datosMoverse por el archivo de datosTransformacin de datos: clculo de nuevas variables y recodificacinFiltrar y segmentarFundir archivos
Mdulo III. Manejo
*
EDICIN DE DATOS
Copiar, borrar y mover informacin
Insertar casos y variables ( )
Bsqueda de casos ( ) y valores ( )
*
MOVERSE POR EL FICHERO DE DATOS
[Ctrl] + [Inicio]Fila 1, columna 1
[Ctrl] + [Fin]ltima fila, ltima columna
[Ctrl] + []ltima casilla de esa fila
[Fin] ltima casilla de esa fila
[Ctrl] + []Primera casilla de esa fila
[Inicio]Primera casilla de esa fila
[Ctrl] + []Primera casilla de esa columna
[Ctrl] + []ltima casilla de esa columna
[Tab]Casilla de la derecha
[AvPg]Pgina abajo (la ltima fila visualizada pasa a ser la primera)
[RePg]Pgina arriba (la primera fila visualizada pasa a ser la ltima)
[Ctrl] + [AvPg]Pgina a la derecha (la ltima columna visualizada pasa a ser la
primera)
[Ctrl] + [RePg]Pgina a la izquierda (la primera columna visualizada pasa a ser
la ltima)
*
TRANSFORMACIN DE DATOS
Calcular
El cuadro de dilogo contiene todas las opciones para realizar gran cantidad de transformaciones sobre una o ms variables y almacenar el resultado en otra variable. Esa nueva variable, o variable de destino, debe especificarse en el recuadro etiquetado Variable de destino.
El espacio de trabajo cuenta con todas las variables del archivo. Esta informacin se muestra en el recuadro de la zona izquierda. Marcando una vez con el ratn cualquiera de los nombres y utilizando el botn de tringulo, podremos pasar las variables seleccionadas al recuadro Expresin numrica. En ste figura la expresin de clculo cuyos resultados van a almacenarse en la nueva variable.
OJO!
Si alguna de las variables que intervienen en la expresin numrica cuenta con una ausencia, en la nueva variable tambin se generar un valor ausente.
*
Recodificar
Recodificar una variable implica analizar los valores contenidos en la misma y modificarlos en funcin de algunos criterios que hacen referencia al orden o cuanta de los valores. Una de las modificaciones ms comunes de una variable consiste en sustituir intervalos de valores por valores concretos. Un ejemplo amplio es la situacin en la que se categoriza una variable cuantitativa
TRANSFORMACIN DE DATOS
*
ORDENAR CASOS
El lugar que ocupan los sujetos en el archivo de datos viene determinado, por defecto, por el orden en que fueron introducidas en el mismo. No obstante, en ocasiones podemos querer ordenar a los sujetos en base a algn otro criterio (edad, sexo, etc.). En SPSS, es posible ordenar los sujetos, en orden ascendente o descendente, en base a los valores obtenidos en una o ms variables.
Si utilizamos una sola variable, los sujetos sern ordenados en funcin de los valores numricos o alfanumricos obtenidos en la misma, si utilizamos dos o ms variables, aquellos sujetos que obtengan las misma puntuacin en la primera variable de ordenacin sern ordenados, a su vez, en funcin de los valores obtenidos en la segunda variable de ordenacin. Si persistiesen los empates, stos seran ordenados en funcin de una tercera variable de ordenacin, y as sucesivamente.
*
FILTRAR Y SEGMENTAR
Filtrar o Seleccionar casos:
Operador AND (&). Significa y. Sirve para enlazar condiciones que deben cumplirse simultneamenteOperador OR (|). Significa o. Sirve para enlazar condiciones, de las cuales al menos una debe cumplirseOperador NOT (). Significa no. Sirve para negar condiciones. Es cierto cuando no se cumple la condicin*
FUNDIR ARCHIVOS
1
2
*
Tablas personalizadasPrincipales opciones grficas: sectores, barras, lneasGrficos interactivos
Mdulo IV. Tabulacin y Grficos
*
Tabulacin
*
Seleccionamos el estadstico
1
Damos formato al estadstico
2
3
Estadsticos
Tabulacin
*
Formato de las tablas
Modificar el formato de las tablas establecido por defecto: Edicin/Opciones/Tablas pivote
Modificar el formato de una tabla hecha: Editar la tabla (doble clic) Formato: Aspectos de tabla
Modificar partes concretas de una tabla:
Texto
Casillas Formato/Propiedades de casilla
Propiedades de tabla Formato / Propiedades de tabla
Tabulacin
*
PRINCIPALES OPCIONES GRFICAS:
Grficos
GRAFICOS DE SECTORES:
El proceso a seguir para todos los tipos de grficos es siempre el mismo, se selecciona el men Grficos. Dentro de este men aparecen todos los distintos tipos de grficos disponibles, de los cuales seleccionaremos uno
Los grficos de sectores son los conocidos grficos de tarta. En ellos se representa el reparto de determinado atributo entre distintas categoras (por ejemplo, la proporcin de hombres y mujeres contenidos en una muestra).
*
PRINCIPALES OPCIONES GRFICAS:
Grficos
GRAFICOS DE BARRAS:
Los grficos de barras muestran la distribucin de los valores de una serie de categoras dadas. Si seleccionamos la opcin Grficos/ Barras el siguiente cuadro de dilogo:
GRAFICOS DE LNEAS:
Los grficos de lneas muestran la evolucin de los valores a lo largo de un continuo determinado. Si seleccionamos la opcin Grficos/ Lneas el cuadro de dilogo que aparece es muy similar al que apareca al crear un grfico de barras
*
PRINCIPALES OPCIONES GRFICAS:
Grficos
FORMATO DE LOS GRFICOS:
Una vez que hemos creado el grfico, podemos editarlo, haciendo doble clic sobre el, y se abrir una nueva ventana, la del EDITOR DE GRFICOS. En esta ventana podemos hacer las modificaciones que creamos convenientes. Esta nueva ventana posee sus propias opciones de men y su propia barra de botones para la edicin de grficos
*
PRINCIPALES OPCIONES GRFICAS:
Grficos
PLANTILLAS GRFICAS:
El editor de grficos nos permite guardar plantillas cuyas especificaciones queremos que se apliquen a posteriores grficas. De este modo, podemos usar las especificaciones de un grfico como plantilla para los dems. Archivo/ Guardar plantilla grfica.....
Una vez que hemos creado la plantilla podemos aplicarla desde el segundo de los cuadros de dilogo que aparece al crear un grfico.
*
Grficos Interactivos
*
Depuracin y anlisis preliminarndices de tendencia central y variabilidadndices de posicin y distribucin
Mdulo V. Anlisis Descriptivo
*
Partimos de una base de datos con filas y columnas....
Base de Datos
Con
Sujetos
Variables
*
ANLISIS DESCRIPTIVO
Anlisis Descriptivo: conjunto de procedimientos diseados para organizar y resumir la informacin contenida en un conjunto (muestra) de datos empricos
Puede ser que los datos no sean buenos
ANLISIS PRELIMINAR
(VALIDACIN)
*
Pasos en el AED (4 tareas)Depuracin
Falta de respuesta
Casos anmalos
Comprobacin de supuestos
Depuracin y Anlisis Preliminar
*
1. Depuracin
Detectar valores no admisibles e incoherencias
Tablas de frecuencia para todas las variables
Tablas de contingencia
OBJETIVOS
*
PROBLEMAS Y RIESGOS:
LAS ESTIMACIONES (La reduccin excesiva del tamao de la muestra condiciona las estimaciones y las comparaciones)
LA CAPACIDAD DE GENERALIZACIN DE LOS RESULTADOS (lo que en principio era una muestra adecuada se convierte en inadecuada y no representativa) Nn
LOS RECHAZOS. Son iguales los que responden a la encuesta que los que no responden?. Los missing siguen algn patrn?, estn sesgados los resultados?, de quin estamos informando?
LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES DE LA NO RESPUESTA
2. Los casos MISSING
IMPUTACIN/SUSTITUCIN
*
Valores que caen fuera del rango normal de los datos
CRITERIO: distancia respecto al cuerpo central de la distribucin (50% de los casos, entre el P75 y el P25)
IQR (Recorrido intercuartlico)
OUTLIERS.................... 1.5 - 3 IQR
EXTREMOS...................... 3 IQR
3. Los valores ANMALOS o atpicos
*
Grficos de Caja o BOXPLOT
SPSS: ANALIZAR/ESTADSTICOS DESCRIPTIVOS/EXPLORAR
Extremos y outliers
Percentiles 75 y 25
IQR
Mediana
Asimetra
Comparar la distribucin de 2 o ms variables
Comparar la distribucin de 2 o ms grupos en una misma variable
*
Cmo detectarlos?
*
Box-Plot
Diagrama de Caja
Mediana
Mediana
Percentil 25%
Percentil 75%
Valor mnimo tras eliminar
valores extremos*
Valor mximo tras eliminar
valores extremos*
* Valores extremos: mayores que 1,5 veces el rango intercuartlico (Q75-Q25).
Variable: Ingresos
*
DESCRIPTIVOS
*
Comparar la distribucin de dos o ms variables
*
Comparar la distribucin de dos o ms grupos
*
Elegir la prueba estadstica adecuada en cada caso
Pruebas Paramtricas y No Paramtricas
La comprobacin de supuestos
*
*
NORMALIDAD: Prueba K-S de Lilliefors. Cuando n < 40 Shapiro-Wilk (SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos).
ALEATORIEDAD: Prueba de las Rachas (SPSS: ANALIZAR / Pruebas no paramtricas / Rachas)
HOMOCEDASTICIDAD: Prueba de Levene (SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos)
Se parte siempre de que se cumplen los supuestos salvo que las pruebas sean significativas (p< 0.05)
LINEALIDAD: Grfico de dispersin y correlacin
Cmo se comprueban?
*
ESTADSTICOS DESCRIPTIVOS
Medidas de Tendencia Central: media, mediana, moda, ...
Medidas de Posicin: percentiles, cuartiles...
Medidas de Variabilidad: varianza, desv. tpica, amplitud, IQR, CV
Medidas Distribucin: asimetra, curtosis...
*
Cuantiles: nos permiten situar a los distintos valores en la distribucin
Percentiles: valores que acumulan un determinado porcentaje de casos bajo ellos.
Cuartiles: P25, P50, P75
Medidas de Tendencia Central: valor central o medio de la distribucin de datos. Su centro de gravedad.
Media (aritmtica): suma de las puntuaciones/n de casos
Mediana: centro geogrfico de la distribucin (P50)
Moda: valor ms frecuente
ANLISIS DESCRIPTIVO UNIVARIADO
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE POSICIN
*
ANLISIS DESCRIPTIVO UNIVARIADO
MEDIDAS DE VARIABILIDAD
Desviacin tpica: grado en que las puntuaciones de la variable se alejan de su media.
El 68% de los casos se encuentra dentro de 1 DT respecto a la media y el 95% dentro de 2 DT.
Varianza: cuadrado de la DT
Amplitud interquartil (IQR): resultado de la resta entre los valores del P75 y el P25
*
ANLISIS DESCRIPTIVO UNIVARIADO
MEDIDAS DE DISTRIBUCIN
Asimetra: grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central. La asimetra positiva indica que los valores ms extremos se encuentran por encima de la media. La asimetra negativa, lo contrario. ndices de asimetra prximos a 0 indican simetra.
Tambin se nos ofrece el E.T. del ndice de Asimetra
Curtosis: grado en que una distribucin acumula casos en sus colas en comparacin con una distribucin normal.
Curtosis significativa
Asimetra significativa
*
ANLISIS DESCRIPTIVO UNIVARIADO
(SPSS: Analizar/Estadsticos Descripticos/Frecuencias)
(SPSS: Analizar/Estadsticos Descripticos/Descriptivos)
TABLAS
(SPSS: Analizar/Tablas/Tablas personalizadas)
GRFICOS
(SPSS: Grficos)
Variables categricas
Distribucin de frecuencias
Grficos: sectores, barras
Variables cuantitativas
Medidas de posicin:
Cuantiles
Medidas de Tendencia Central
Medidas de Dispersin
Medidas de Distribucin
*
Pruebas paramtricasPruebas no paramtricas
Mdulo VI. Contraste de Hiptesis
*
Informacin de la muestra
Caractersticas de la poblacin
Parmetros
m s p
Concepto de Estimacin de parmetros
Estimacin
Estadsticos
x s p
*
Hiptesis nula (Ho):
Aquella que se formula con el nico objetivo de rechazarla.
Es una hiptesis conservadora.
Connotacin: igualdad.
Hiptesis Alternativa (H1):
Complementaria de Ho.
Es la hiptesis objetivo de inters.
Es la hiptesis arriesgada.
Contraste de Hiptesis
Pruebas Estadsticas
CONTRASTE DE HIPTESIS
*
2 GRUPOS
K GRUPOS
Independientes
relacionados
Grupos normales
Grupos NO normales
t-Student
t-Student relacionados
Mann-Whitney
Wilcoxon
Grupos normales
Grupos NO normales
Independientes
relacionados
Grupos normales
Grupos NO normales
Grupos normales
Grupos NO normales
ANOVA
Kruskal-Wallis
Friedman
ANOVA medidas repetidas
Pruebas Bsicas con var. Respuesta CUANTI
1 GRUPO
t-Student
*
Tablas de
contingencia
Chi-Cuadrado
McNemar (2)
relacionados
Pruebas bsicas con Variables CUALI
Cochran (K)
Corregido 2x2
Binomial
Chi-Cuadrado
Independientes
PROPORCIONES
*
*
Mdulo VII: Introduccin a las tcnicas multivariantes
CorrelacinRegresin Lineal SimpleRegresin Lineal Mltiple*
RLS - Variables implicadas:
Respuesta
Cuantitativa
Ejemplos
Calificaciones
Actitud aborto
Nivel de ingls
Calidad de vida
Das de estudio
Ingresos
Extroversin
Edad
Explicativa (una)
Cuantitativa
Existe correlacin entre ambas variables.
La regresin lineal simple cuantifica esa relacin
PUNTO DE PARTIDA
*
14.bin*
Cmo se expresa la relacin entre las variables?
varresp = a + b varexpl
ordenada
pendiente
lo que vale la varresp para un valor nulo de la varexp
lo que aumenta la varresp cuando la varexp aumenta una unidad
R2=0,92
La recta de Regresin
*
15.bin*
varresp = a + b varexpl
La explicativa influye sobre la respuesta
Por cada aumento de una unidad de la explicativa, la respuesta aumenta (o disminuye) b unidades
Conclusiones
Estimacin
Contraste de hiptesis: son significativos?
En concreto, es b significativamente distinto de cero?
Resultados
Contraste de hiptesis de la Recta de Regresin
*
*
Los resultados de la regresin slo son fiables si el modelo cumple ciertas hiptesis sobre los residuos
Es preciso realizar una validacin del modelo
Validacin
Siempre hay una diferencia entre el valor real de la variable respuesta y la estimacin a partir de la ecuacin de regresin:
el residuo
Validacin del modelo
*
16.bin*
Cmo se expresa la relacin entre las variables?
varresp = a + b1 VI1 + b2 VI2 + ... + bp VIp
constante
valor de la var. Resp. para un valor nulo de las VI
pendiente 1
aumento de la var. Resp. cuando la VI1 aumenta una unidad
Variables implicadas: una variable respuesta y varias explicativas.
pendiente p
aumento de la var. resp cuando la VIp aumenta una unidad
Modelo
*
Calidad del modelo:
Para determinar hasta que punto las variables explicativas permiten estimar a la variable respuesta seguimos usando el R2 (COEFICIENTE DE DETERMINACIN=VARIANZA EXPLICADA).
Cuanto ms cercano a 1 ms adecuado es el modelo
Cuanto ms cercano a 0 peor resulta el modelo. Es decir, las variables explicativas no se ajustan linealmente a la variable respuesta.
R2 aumenta con muchas VI y en muestras pequeas. R2 ajustado
Un R2 bajo no necesariamente indica que las variables seleccionadas no permiten estimar adecuadamente la variable respuesta.
Es posible que la relacin no sea lineal.
Calidad del modelo
*
PASOS EN LA MODELIZACIN
1. Especificacin del modelo
2. Estimacin de Parmetros
3. Evaluacin del ajuste
4. Interpretacin de los coeficientes
REESPECIFICACIN?
20
N =
INGRESOS
600000
500000
400000
300000
200000
100000
0
9
10
Descriptivos
141850,00
21213,24
97450,18
186249,82
127888,89
110000,00
9000028947,368
94868,48
60000
475000
415000
65250,00
2,575
,512
7,877
,992
Media
Lmite inferior
Lmite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
INGRESOS
Estadstico
Error tp.
20
20
N =
GASTOS
INGRESOS
600000
500000
400000
300000
200000
100000
0
-100000
2
19
10
9
10
10
10
N =
SEXO
MUJER
HOMBRE
INGRESOS
600000
500000
400000
300000
200000
100000
0
10
96
,
1
Tpico
Error
Curtosis
96
,
1
Tpico
Error
Asimetra
VAR EXPLICATIVA
4003002001000
VAR RESPUESTA
100
80
60
40
20
0