Analisis Exploratorio Spss Final

7
EXPLORACIÓN DE DATOS Análisis Exploratorio El procedimiento Explorar nos ofrece las posibilidades de representar gráficamente los datos, examinar visualmente las distribuciones para varios grupos de datos, y realizar pruebas de normalidad y homogeneidad sobre los mismos. Para elegirlo hemos de seleccionar: El primer paso en un A.E.D. es hacer accesible los datos a cualquier técnica estadística. Ello conlleva la selección del método de entrada (por teclado o importados de un archivo) y codificación de los datos así como la de un paquete estadístico adecuado para procesarlos. Los paquetes estadísticos son conjuntos de programas que implementan diversas técnicas estadísticas en un entorno común. Algunos de los más utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y últimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB. La codificación de los datos depende del tipo de variable. Los paquetes estadísticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numéricos, nominales, ordinales, etc). La inmensa mayoría de los paquetes estadísticos permite realizar manipulaciones de los datos previas a un análisis de los mismos. Algunas operaciones útiles son las siguientes: - Combinar conjuntos de datos de dos archivos distintos - Seleccionar subconjuntos de los datos - Dividir el archivo de los datos en varias partes - Transformar variables - Ordenar casos - Agregar nuevos datos y/o variables - Eliminar datos y/o variables - Guardar datos y/o resultados EXPLORACIÓN DE DATOS PROF. DR JORGE ROBLES ÁLVAREZ GRUPO. HOSPITAL ÁNGELES LINDAVISTA ALUMNO: ISRAEL TREJO SÁNCHEZ

description

Analisis de spss

Transcript of Analisis Exploratorio Spss Final

EXPLORACIN DE DATOS PROF. DR JORGE ROBLES LVAREZGRUPO. HOSPITAL NGELES LINDAVISTA ALUMNO: ISRAEL TREJO SNCHEZ

EXPLORACIN DE DATOS

Anlisis Exploratorio

El procedimientoExplorarnos ofrece las posibilidades de representar grficamente los datos, examinar visualmente las distribuciones para varios grupos de datos, y realizar pruebas de normalidad y homogeneidad sobre los mismos. Para elegirlo hemos de seleccionar:El primer paso en un A.E.D. es hacer accesible los datos a cualquier tcnica estadstica. Ello conlleva la seleccin del mtodo de entrada (por teclado o importados de un archivo) y codificacin de los datos as como la de un paquete estadstico adecuado para procesarlos.

Los paquetes estadsticos son conjuntos de programas que implementan diversas tcnicas estadsticas en un entorno comn. Algunos de los ms utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y ltimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB.

La codificacin de los datos depende del tipo de variable. Los paquetes estadsticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numricos, nominales, ordinales, etc). La inmensa mayora de los paquetes estadsticos permite realizar manipulaciones de los datos previas a un anlisis de los mismos. Algunas operaciones tiles son las siguientes:

- Combinar conjuntos de datos de dos archivos distintos- Seleccionar subconjuntos de los datos- Dividir el archivo de los datos en varias partes- Transformar variables- Ordenar casos- Agregar nuevos datos y/o variables- Eliminar datos y/o variables- Guardar datos y/o resultados

Finalmente, y con el fin de aumentar la inteligibilidad de los datos almacenados, conviene asociar a la base de datos utilizada, un libro de cdigos en el que se detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su significado as como las fuentes de donde se han sacado los datos. Todos los paquetes anteriormente citados permiten esta posibilidad.

Estadstica descriptiva

Laestadstica descriptivaes una gran parte de laestadsticaque se dedica a recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente las caractersticas de este. Este anlisis es muy bsico. Aunque hay tendencia a generalizar a toda la poblacin, las primeras conclusiones obtenidas tras un anlisis descriptivo, es un estudio calculando una serie demedidas de tendencia central, para ver en qu medida los datos se agrupan odispersanen torno a un valor central.

ANLISIS EXPLORATORIO DE DATOS CON SPSS

Grficos Estadsticos

Una de las herramientas ms populares y utilizada dentro de la estadstica descriptiva es, sin lugar a dudas, el anlisis grfico de los datos. Como hemos visto, las tablas estadsticas, resumen los datos de que disponemos sobre una poblacin y dan toda la informacin necesaria, pero como se suele decir, Una imagen vale ms que mil palabras, luego es conveniente expresar la informacin de que disponemos mediante un grfico o diagrama, segn proceda, con el fin de hacerla ms clara y captar de un solo vistazo las caractersticas de los datos.

Grficos para variables cualitativas o atributos:

Diagrama de barras o bastones. Este tipo de grficos se representan de forma cartesiana en un eje de coordenadas mediante unas barras que recorren el eje de ordenadas (Y) desde su origen hasta el valor del punto representado, colocando en el eje de abscisas (X) las diferentes modalidades de la variable y en el eje de ordenadas (Y) la frecuencia relativa o absoluta, segn proceda.Diagramas de sectores. Se utilizan para hacer comparaciones de las distintas modalidades de un carcter mediante sectores circulares. Para construirlos se divide un crculo en tantas porciones como modalidades existan de manera que el ngulo central de cada sector ha de ser proporcional a la frecuencia absoluta o relativa correspondiente.Pictogramas. Quizs es el tipo de grfico ms bonito a la vista, pues en l aparecen dibujos que hacen alusin al fenmeno estudiado, mediante su tamao, forma Para realizarlos se representan a diferentes escalas un mismo dibujo teniendo en cuenta que el permetro del dibujo tiene que ser proporcional a la frecuencia, pero esto puede incurrir en un efecto visual engaoso ya que a frecuencia doble corresponde un dibujo de rea cudruple, con lo cual tiene un inconveniente debido a la falta de precisin.

A pesar de este inconveniente este tipo de dibujos son muy utilizados por los medios de comunicacin a la hora de hacer que el pblico no especializado comprenda temas complejos sin necesidad de dar una explicacin complicada.

Grficos para Variables Cuantitativas

Para este tipo de variables, tenemos diferentes grficos segn el tipo de frecuencia que usemos y adems tenemos que tener en cuenta si la variable es discreta o continua. Segn el tipo de frecuencia usada se dividen en:

a) Diagramas diferenciales. Representan el nmero o porcentaje de elementos de una modalidad. Se representan a partir de las frecuencias absolutas o relativas.b) Diagramas integrales. Representan el nmero de elementos de modalidad inferior o igual a la dada. Se representan a partir de las frecuencias acumuladas. Este tipo de diagramas no tiene ningn sentido para variables cualitativas.

GRFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS

Diagrama de barras. Su representacin es idntica a la explicada para variables cualitativas, las barras deben de ser estrechas para mostrar que los valores que toma la variable son discretos. Se usan cuando se pretende hacer un diagrama diferencial utilizando variables discretas.En el caso de realizar un diagrama integral, es decir, usando frecuencias acumuladas, las barras aparecen formando una escalera.

GRFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS

Histograma. Para construirlo se representa sobre el eje de abscisas los extremos de las clases definidas por intervalos. Se usan cuando se pretende hacer un diagrama diferencial utilizando variables continuas.

El paquete estadstico SPSS permite manipular ficheros de una manera fcil y cmoda. Un fichero de datos (nombrefichero.sav) se estructura en variables (columnas) en las que se guardan las distintas observaciones que se han tomado para cada una de ellas.Cada fila corresponde a un caso (sujeto o unidad estadstica). Estos ficheros adems de los datos tienen la informacin necesaria para su procesamiento. Otro tipo son los ficheros de resultados (nombrefichero.spo), con posibilidad de exportar las tablas a otras aplicaciones bien como objeto o bien como tabla. Adems se pueden modificar quitando o aadiendo cosas.

Variables

Los ficheros de datos tienen dos modos. En el modo vista de datos es posible introducir o modificar los datos para cada una de las variables. En el modo vista de variables se puede dar formato a cada variable. As, se puede dar nombre a la variable (nunca ms de 8 caracteres ASCII y siempre sern consideradas como minsculas), poner etiquetas de dentificacin (tanto para la variable, como para las categoras de la misma), definir los datos perdidos o ausentes (missing) o determinar la anchura de texto en variables cadena, la alineacin y la anchura de visualizacin de una columna. Por ltimo se puede definir el tipo (y escala de medida) de una variable: Numrica: Variable numrica usual delimitada la parte decimal con un punto o una coma, segn est configurado. Ejemplo: 12345.34 12345,34 34 (doce mil trescientos cuarenta y cinco con treinta y cuatro). Coma: Variable numrica delimitada la parte decimal con un punto y en la parte entera una coma cada tres dgitos indicando los miles. Ejemplo: 12,345.34 (doce mil trescientos cuarenta y cinco con treinta y cuatro). Punto: Variable numrica delimitada la parte decimal con una coma y en la parte entera un punto cada tres dgitos indicando los miles. Ejemplo: 12.345,34 (doce mil trescientos cuarenta y cinco con treinta y cuatro). Notacin cientfica: Variable numrica en la que los nmeros vienen expresados con notacin exponencial con base 10. Ejemplo: 1,234534 E+04 (doce mil trescientos cuarenta y cinco con treinta y cuatro). Fecha: Fechas en distintos formatos. Dlar: Moneda americana. Aparece con un $ a la izquierda de la cantidad. Moneda personalizada: Moneda de cada pas definida previamente en las

OPCIONES.Cadena: Variable cualitativa. En algunas ventanas de dilogo cuando sea preciso dar el nombre de una categora, esta habr de ir entre comillas simples Ejemplo: nivel=BAJO. No es lo mismo utilizar maysculas o minsculas, as BAJO y bajo se consideran categoras distintas.

MENS:Es importante saber que en cada tipo de fichero aparece un men distinto. En general el men Archivo ofrece la posibilidad de abrir y guardar ficheros de diversos tipos. La opcin Mostrar informacin de datos proporciona informacin sobre un fichero de datos seleccionado.

El men Edicin ofrece la posibilidad de Cortar, Copiar, Pegar y Borrar datos. Adems en un fichero de datos permite Buscar determinados datos. En Opciones se puede configurar el formato genrico de nuestros ficheros. El men Ver proporciona diversas posibilidades de visualizacin. En los ficheros de datos el men Datos ofrece opciones para la definicin de las variables y manipulacin de los datos. Es posible generar fechas en el formato deseado. Esta opcin se puede utilizar tambin para generar listas de nmeros. Las opciones de Insertar permiten insertar columnas o filas en un fichero de datos determinado. Ir a caso y Ordenar casos permiten respectivamente ir a una fila determinada y ordenar los datos de acuerdo a una o ms variables respectivamente. La opcin Transponer trasforma filas en columnas y columnas en filas. Es posible Reestructurar el fichero mediante un asesor. Esta opcin es de inters cuando los datos provienen de otras aplicaciones que no tienen la estructura exigida por el SPSS para su tratamiento. Fundir archivos sirve para unir en un fichero variables o filas de do ficheros dados. Puesto que el SPSS solamente permite tener un fichero activo esta operacin crea un nuevo archivo que aade filas (columnas) de otro fichero, con la posibilidad de prescindir de algunas de las filas (columnas) del fichero activo. Con Agregar se hacen grupos de una o ms variables (Variable(s) de segmentacin) con referencia a una o ms variables (Agregar variable(s)) asignando a cada grupo la media o la medida de posicin o dispersin que se determine. Las variables obtenidas se guardan en un nuevo fichero. Puede ser til cuando se tienen rplicas de un experimento y se quiere trabajar con las medias de cada uno. Tambin es posible generar o mostrar Diseos ortogonales con los factores deseados y sus categoras. Segmentar archivo permite hacer grupos de casos de acuerdo a un criterio dado por una variable. Los anlisis que se hagan posteriormente se realizarn para cada grupo y los resultados se mostrarn en una tabla comparativa o en varias tablas segn se haya elegido la opcin correspondiente. Con Seleccionar casos se pueden eliminar, definitiva o temporalmente, algunas filas de acuerdo a algn criterio. Se crear una columna de filtros con unos para los casos seleccionados y ceros para el resto. Todos los anlisis que se hagan a partir de entonces utilizarn solamente los casos seleccionados. Por ltimo es posible Ponderar casos por una variable de pesos con el objeto de que los anlisis estadsticos que se realicen mantengan dicha ponderacin. As un dato que se pondera por 4 tendr doble valor (peso, ponderacin) en los anlisis correspondientes que otro que solamente sea ponderado por 2.Con Transformar podemos realizar manipulaciones de las variables. Para ello utilizaremos las opciones: Calcular, nos ofrece una ventana semejante a una calculadora que permite realizar operaciones entre las columnas. Adems existe una lista de funciones, cada una de las cuales viene explicada en la ayuda del programa. La alternativa Si posibilita la inclusin de condicionales en el momento de hacer las operaciones deseadas. Cuando la condicin se impone sobre los valores de una variable cualitativa, estos deben ponerse entre comillas simples. Ejemplo: raza = 'blanco'. Semilla de aleatorizacin permite asignar una semilla para la generacin de nmeros aleatorios. Si se fija la semilla, la secuencia que se obtiene es la misma, por ejemplo para dos usuarios distintos. Contar apariciones crea una nueva variable que asigna a cada caso el nmero de veces que se repite un valor o valores determinados en una fila para las variables seleccionadas. Recodificar crea una variable (en variables diferentes) o sustituye a la ya existente (en las mismas variables ) con valores que se asignan de acuerdo a un criterio. Con If podemos seleccionar solamente los casos que interesa cambiar. Con valores antiguos y nuevos se determinan los cambios especficos a realizar. Categorizar variables crea una nueva variable en la que los datos numricos se convierten en un nmero prefijado de categoras. Los datos se categorizan segn grupos percentiles; de modo que cada grupo contiene aproximadamente el mismo nmero de casos. La opcin Asignar rangos a casos crea una variable que asigna rangos a cada uno de los casos. Es posible seleccionar el tipo de rangos que se desea y tambin el modo de tratar los empates. Adems se pueden hacer grupos de acuerdo a un criterio proporcionado por una variable. En este caso se asignan rangos a cada grupo de manera independiente. Recodificacin automtica convierte los valores numricos y de cadena en valores enteros consecutivos asignando un 1 al valor ms bajo, 2 al siguiente, y as sucesivamente. Tambin es posible hacerlo comenzando por el valor ms alto. La nueva variable conserva las etiquetas de valor de la variable antigua. En el fichero de resultados se muestra una tabla con los valores antiguos, los nuevos y las etiquetas de valor. Los valores de cadena se recodifican por orden alfabtico, con las maysculas antes que las minsculas y los valores perdidos en primer lugar. En caso de empate se asigna el mismo nmero a todos los valores empatados y se contina en el siguiente. Crear serie temporal genera variables basadas en funciones (de diferencias, medias mviles, medianas mviles, retardo o adelanto) de las variables de series temporales numricas seleccionadas. Los nombres de las nuevas variables por defecto se componen de los seis primeros caracteres de la variable existente utilizada para crearlas, seguidos de un guin bajo y de un nmero secuencial. Remplazar valores perdidos asigna valores a los casos omitidos de acuerdo a un criterio determinado: o Media de la serie: asigna la media de los casos existentes. o Media de los puntos adyacentes: media de los puntos ms cercanos, pudindose elegir el nmero de datos vlidos por encima y por debajo que se desean incluir. o Mediana de los puntos adyacentes: mediana de los puntos ms cercanos, pudindose elegir el nmero de datos vlidos por encima y por debajo que se desean incluir. o Interpolacin lineal: Hace interpolacin lineal entre el ltimo valor vlido antes del valor perdido y el primer valor vlido despus del valor perdido. o Tendencia lineal en el punto: Se hace regresin de la serie existente sobre una variable ndice escalada de 1 al nmero de datos (filas) en la muestra y los valores perdidos se sustituyen con sus valores pronosticados. Es importante puntualizar que los cuatro ltimos mtodos dependen de la ordenacin de los datos. Por ejemplo el procedimiento puede ser adecuado cuando se han obtenido secuencialmente en el tiempo.