ESTADÍSTICA CON SPSS...PRESENTACIÓN: Al igual que las publicaciones anteriores: Matemática...

ESTADÍSTICA CON SPSS

Contiene: Nociones básicas de Estadística. Manual de usuario de SPSS.

DANIEL HERRERA ARÁUZ

PRESENTACIÓN:

Al igual que las publicaciones anteriores: Matemática Financiera y Probabilidad, Combinatoria y Distribuciones de Probabilidad, Estadística con SPSS es el resultado del material académico preparado por el autor para los cursos regulares de Estadística desarrollados en la Facultad de Ciencias Administrativas de la Universidad Central del Ecuador, a nivel de pregrado y posgrado, como también en calidad de instructor en eventos de capacitación profesional en varios Centros de Actualización de Conocimientos como también en Educación Continua.

El programa SPSS (Stadistical Package for the Social Science) es quizá en la actualidad, el paquete de software más difundido a nivel mundial para el análisis estadístico de datos, La versión actual (V24) sigue siendo de propiedad de la firma IBM.

El libro de texto Estadística con SPSS está compuesto por tres secciones:

La primera sección contiene las nociones básicas de Estadística; en esta parte el autor presentaun resumen de los conceptos, definiciones y procesos de cálculo para la obtención de losestadísticos que describen a un grupo de datos, su representación gráfica, como también losdiferentes métodos de muestreo, y herramientas de estadística inferencial para una poblacióncomo también para dos poblaciones.

La segunda sección contiene una detallada descripción, a manera de manual de usuario, de lasdistintas opciones y herramientas que dispone el programa SPSS para la organización de datos,el cálculo de los diferentes estadísticos que describen a un muestra, diversas opciones deelaboración de gráficos estadísticos, técnicas de muestreo, estadística inferencial en unapoblación, dos poblaciones y varias poblaciones a través del ANOVA y el modelo de regresión ycorrelación bivariable y multivariable.

La tercera sección (en edición separada) contiene 13 prácticas de laboratorio de estadística conSPSS; el desarrollo académico de estas actividades permitirá al estudiante aplicar los conceptos,definiciones y procesos de la Estadística Descriptiva e Inferencial, como también adquirirdestrezas y habilidades en el manejo del paquete estadístico.

El material desarrollado en las tres secciones es acorde con la malla curricular y el syllabus académico de la asignatura de Estadística en los niveles I y II de las carreras de Contabilidad y Auditoría, Administración de Empresas, Administración Pública, Economía, Marketing, Sicología y otras. Al igual que constituye un importante material en los estudios de posgrado para las maestrías en Empresas, Finanzas, Educación, etc.

A criterio del autor, en la actualidad, la enseñanza de la Estadística no puede desarrollarse sin la utilización de algún software que resuelva las operaciones aritméticas en forma rápida y precisa; de manera que el tiempo que se ahorra al evitar realizar los cálculos en forma manual se podría dedicarlo al análisis de resultados y a la creación de escenarios virtuales con la variación de las condiciones iniciales del problema.

El autor anticipa su agradecimiento a docentes y estudiantes que hagan uso de este material, solicitando además remitir sus comentarios y sugerencias para futuras ediciones a [email protected]

Daniel Herrera Aráuz

mailto:[email protected]

BREVE HISTORIA DE LA ESTADÍSTICA1.-

La historia de la Estadística es la historia de la humanidad, desde comienzos de la civilización, el hombre buscó la manera de llevar registros mediante representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas, para determinar número de personas, animales o ciertas cosas.

Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios fueron los primeros en analizar los datos de la población y renta del país, mucho antes de construir las pirámides en el siglo XXXI A.C. Los libros de “Números” y “Crónicas” incluyen, en algunas partes, cierta información que puede considerarse como Estadística: El primero contiene dos Censos de la población de Israel. El segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000, anterior a la Era cristiana. Los griegos clásicos realizaban censos, cuya información se utilizaba hacia el año 594 A.C. para cobrar impuestos. El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control, para esto basta recordar lo que dicen las Escrituras sobre el censo a realizarse previo al nacimiento de Jesús. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios, Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente. John Graunt.- Hijo de un tapicero, nació en Londres de 1620, fue desde muy joven aprendiz de un comerciante de mercancía y, en esta actividad se mantuvo toda su vida. De formación autodidacta, y en base a esfuerzos propios, adquirió algunos conocimientos sobre todo de latín y francés. No tuvo una formación académica ni tampoco autodidacta en lo que a matemática se refiere, situación que de haberse dado habría sido de gran ayuda en la publicación de su obra sobre los registros de mortalidad; sin embargo el análisis de Estadísticas nació en Londres, en el año de 1662. John Graunt publicó “Observaciones Naturales y políticas sobre los registros de Mortalidad”. Para ese entonces, Inglaterra contaba ya con una población de cien mil habitantes. Esta ciudad tenía ya problemas propios de una superpoblación, dificultades en los servicios de salud, educación etc., que fueron la causa que originó el registro de nacimientos y muertes, registros que después de la epidemia de 1603, fueron realizados semanalmente. Llegaron a formar con el tiempo, material de gran utilidad para la previsión de eventos futuros.

1 Con la colaboración académica de Nelson Herrera Aráuz

El Análisis de Graunt se basó en comparaciones porcentuales año tras año, en lo referente a nacimientos, muertes por accidentes, muertes por enfermedades, suicidios etc. observando que eventos mortales mantenían valores constantes y que se presentaban con sorprendente regularidad. También llegó a concluir, que el número de nacimiento de los varones era superior al de mujeres, sin embargo, en ese entonces las labores destinadas a los hombres, entre estas la guerra, tendrían un mayor riesgo, por lo que, a la edad de casarse, el número de varones y mujeres se igualaba por lo que la monogamia debía ser la forma de vida que la misma naturaleza señalaba. William Petty.- La publicación de John Graunt fue avalada académicamente por Sir William Petty (1623-1687), profesor de la Universidad de Oxford, y, más tarde médico del Ejercito inglés, calificó a la Estadística, como la “Aritmética Política” y la definió como: El arte de razonar por medio de cifras y gráficas, acerca de aspectos relacionados con el gobierno. De ahí que la palabra Estadística se relacione con la palabra Estado. Sin embargo, el verdadero aporte de Petty al desarrollo de la Estadística, fue tratar de cuantificar las variables que conforman las ciencias sociales y, evitar así el uso de valores cualitativos y palabras comparativas en la descripción de estas variables. Edmund Halley.- Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley, como base para la primera tabla de mortalidad. Halley, como astrónomo, dedujo que un cometa visto algunas décadas anteriormente, obedecía a un fenómeno cíclico y predictible. Dedicó toda su vida a estudiarlo y, con la ayuda del gran matemático inglés Isaac Newton, pudo calcular el año que retornaría. Desgraciadamente, murió algunos años antes de que el cometa reaparezca, exactamente en el lugar del cielo y la fecha previstos. Halley era un hombre muy versátil y no solo se preocupó de la astronomía, fue el creador de las tablas de esperanzas matemáticas, empleadas para el cálculo de las pólizas del seguro de Vida, incluso investigó el lugar exacto del desembarco de Julio César en Gran Bretaña. Jean Baptiste Colbert.- En Francia, el rey Luis XIV, por esos mismos años, consiguió que la patria de los galos marque un siglo de hegemonía. El gran asesor del Rey Sol Jean Baptiste Colbert que fue aprendiz de pañero, se preocupó de que la economía de Francia se controle mediante los números; incluso, formó una escuela económica llamada Colbertismo, que significa la protección del Estado a la producción industrial. Colbert, como asesor de Luis XIV se dio cuenta de la importancia de los registros numéricos almacenados para manejar las importaciones y exportaciones del reino, es más, con los matemáticos Huygens, holandés, y Leibniz, alemán sostuvo importantes diálogos científicos y fue convencido por estos, en la necesidad de crear para la gloria de Francia el Observatorio Real y la Academia de Ciencias de París. No se puede separar el desarrollo de la Estadística de la historia del Cálculo de la Probabilidad. En este punto es necesario renombrar los aportes de brillantes matemáticos tales como: Bernoulli,

Gauss, Poisson, etc. Aportes que permitieron desarrollar modelos probabilísticos que al ser adaptados al análisis estadístico, lograron hacer de esta ciencia la herramienta de la planificación por excelencia. En el siglo XX, es donde la Estadística toma el carácter formal de una ciencia de la matemática aplicada, gracias a los aportes de: L. T. Grosset.- Fue el creador de la Distribución t, siendo empleado de una cervecería irlandesa a principios de 1900. Desaprobaba el hecho de que las personas publicaran sus trabajos usando sus nombres verdaderos, por lo que escribió acerca de las propiedades matemáticas de las distribuciones para pequeñas muestras, y publicó bajo el seudónimo de student. Ronald Fisher.- Sir Ronald Fisher nació en Londres en el año de 1890 y murió en la misma ciudad en el año de 1962, fue un científico eminente en dos campos: La Genética y la Estadística. Alrededor de los años veinte de ese siglo, se dedicó al diseño de experimentos en agricultura. De estos trabajos nació una de las herramientas más importantes en la toma de decisiones, el Análisis de Varianza, mediante la comparación de varianzas entre muestras y en el interior de las mismas con valores críticos de una distribución probabilística creada por el mismo. Abraham Wald.- Matemático alemán nacido en 1902, comenzó sus trabajos de investigación estadística motivado por las acuciantes necesidades de estudios matemáticos que trajo consigo la Segunda Guerra Mundial, murió en un accidente aéreo en el año de 1950, entre sus estudios y aportes importantes para la Estadística, se tiene el Análisis Secuencial y la teoría de toma de decisiones. La Estadística y el Desarrollo Industrial.- A principios del siglo XX el escritor e historiador inglés HG Wells, comentó cierto día que el aprendizaje y conocimiento de la estadística será tan necesario, como la aptitud y el gusto por la lectura. Tómese en cuenta que en la época de este comentario aún no había florecido el desarrollo industrial en el mundo entero; sin embargo se intuía ya la necesidad de establecer mecanismos de control y herramientas para tomar decisiones dentro del mundo industrial. Uno de los aportes más importantes en la Estadística, son las contribuciones realizadas por W. Eduard Deming, a mediados del siglo anterior (1950). Este brillante estadístico, desarrolló modelos para el Control de Calidad de los procesos productivos, basándose en la teoría de las desviaciones alrededor de una medida de centralización. En resumen: En el desarrollo de la humanidad, la Estadística se ha constituido en uno de los soportes más importantes para este progreso, la investigación científica, la toma de decisiones, la planificación industrial y muchos otros campos del quehacer profesional, recurren a los métodos estadísticos en forma cada vez más confiable y concurrente, razones suficientes para que el estudiante universitario y el profesional, se interesen en el conocimiento de los diferentes métodos que esta herramienta dispone.

NOCIONES BÁSICAS DE ESTADÍSTICA

PRIMERA SECCIÓN


ESTADÍSTICA CON SPSS.- NOCIONES BÁSICAS DE ESTADÍSTICA

pág. 1

NOCIONES BÁSICAS DE ESTADÍSTICA 1. DEFINCICIONES BÁSICAS ....................................................................................................... 4

1.1. DEFINICIÓN DE ESTADÍSTICA ................................................................................................... 4 1.2. CLASIFICACIÓN DE LA ESTADÍSTICA ......................................................................................... 4 1.3. POBLACIÓN .............................................................................................................................. 4 1.4. MUESTRA ................................................................................................................................. 4 1.5. MUESTRA VS POBLACIÓN ........................................................................................................ 5 1.6. VARIABLES O DATOS ESTADÍSTICOS ........................................................................................ 5 1.7. ESTADÍSTICOS Y PARÁMETROS ............................................................................................... 6

2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS .................................................................. 7

2.1. ORDENAMIENTO DE LOS DATOS ............................................................................................. 7 2.2. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA ....................................... 7 2.3. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUANTITATIVA .................................... 9 2.4. HISTOGRAMA DE FRECUENCIAS .............................................................................................. 9 2.5. DISTRIBUCIONES DE FRECUENCIA POR INTERVALOS O CLASE.............................................. 10

3. ESTADÍSTICA DESCRIPTIVA .................................................................................................. 14

3.1. MEDIDAS DE TENDENCIA CENTRAL ....................................................................................... 14

3.1.1. DATOS NO AGRUPADOS ................................................................................................ 14

3.1.2. EN DATOS AGRUPADOS EN FRECUENCIA SIMPLE ......................................................... 15

3.1.3. EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA ........................................... 15

3.2. MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA ........................................ 17

3.2.1. PRINCIPIO FUNDAMENTAL ............................................................................................ 18

3.2.2. CUANTILES EN DATOS NO AGRUPADOS Y AGRUPADOS EN FRECUENCIA SIMPLE ....... 18

3.2.3. CUANTILES EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA. ....................... 19

3.3. MEDIDAS DE DISPERSIÓN ...................................................................................................... 19

3.3.1. RANGO ........................................................................................................................... 19

3.3.2. DESVIACIÓN ESTÁNDAR ................................................................................................ 19

3.3.3. VARIANZA ...................................................................................................................... 20

3.3.4. COEFICIENTE DE VARIACIÓN ......................................................................................... 20

3.3.5. RANGO INTERCUARTIL .................................................................................................. 20

3.3.6. DIAGRAMA DE CAJA ...................................................................................................... 20

3.4. MEDIDAS DE ASIMETRÍA ....................................................................................................... 21

3.4.1. SIMETRÍA DE UNA MUESTRA ......................................................................................... 21

3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS ....................................................... 22


pág. 2

4. DISTRIBUCIONES DE PROBABILIDAD .................................................................................... 23

4.1. EXPERIMENTO ALEATORIO .................................................................................................... 23 4.2. EVENTO ALEATORIO .............................................................................................................. 23 4.3. ESPACIO MUESTRAL .............................................................................................................. 23 4.4. PROBABILIDAD DE UN EVENTO ............................................................................................. 23 4.5. ALGEBRA DE PROBABILIDAD ................................................................................................. 24 4.6. DISTRIBUCIÓN DE PROBABILIDAD ......................................................................................... 24 4.7. DISTRIBUCIÓN BINOMIAL ...................................................................................................... 25 4.8. DISTRIBUCIÓN NORMAL ........................................................................................................ 26

5. MÉTODOS DE MUESTREO .................................................................................................... 28

5.1. MUESTRA ............................................................................................................................... 28 5.2. POBLACIÓN FINITA O INFINITA ............................................................................................. 28 5.3. EL MUESTREO ALEATORIO .................................................................................................... 28 5.4. MÉTODOS DE MUESTREO ALEATORIO .................................................................................. 28

6. DISTRIBUCIÓN DE MUESTREO ............................................................................................. 29

6.1. CLASIFICACIÓN DE LAS MUESTRAS POR SU TAMAÑO .......................................................... 29 6.2. TEOREMA DEL LÍMITE CENTRAL ............................................................................................ 29 6.3. ERROR DE MUESTREO ........................................................................................................... 29

7. TEORÍA DE ESTIMACIÓN ESTADÍSTICA.................................................................................. 31

7.1. INTRODUCCIÓN ..................................................................................................................... 31 7.2. ESTIMADOR POR INTERVALOS .............................................................................................. 31 7.3. CONSIDERACIONES ADICIONALES PARA LA ESTIMACIÓN ESTADÍSTICA ............................... 31 7.4. INTERVALO PARA ESTIMACIÓN DE LA MEDIA POBLACIONAL ............................................... 31 7.5. ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL ................................................................. 32

8. TAMAÑO DE LA MUESTRA ................................................................................................... 33

8.1. FACTORES QUE INFLUYEN EN EL TAMAÑO DE LA MUESTRA ................................................ 33 8.2. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA POBLACIONAL ................................. 33 8.3. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN POBLACIONAL ....................... 34

9. PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIÓN POBLACIONAL ............................... 36

9.1. INTRODUCCIÓN ..................................................................................................................... 36 9.2. PROCESO ............................................................................................................................... 36

10. INFERENCIAS EN DOS POBLACIONES .................................................................................... 38

10.1. INTRODUCCIÓN ..................................................................................................................... 38 10.2. ESTIMACIONES DE DIFERENCIAS DE PARÁMETROS POBLACIONALES .................................. 38 10.3. ESTIMACIÓN DE DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS GRANDES: ........ 38 10.4. ESTIMACIÓN DE LA DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS PEQUEÑAS .. 39 10.5. ESTIMACIÓN DE LA DIFERENCIA DE LA PROPORCIÓN POBLACIONAL .................................. 40 10.6. PRUEBAS DE HIPÓTESIS PARA COMPARACIÓN ENTRE DOS POBLACIONES .......................... 40


pág. 3

11. ANÁLISIS DE VARIANZA ....................................................................................................... 42

11.1. INTRODUCCIÓN ..................................................................................................................... 42 11.2. FUNDAMENTOS DEL ANOVA ................................................................................................. 42 11.3. PROCESO DE CÁLCULO PARA UNA SOLA VÍA ........................................................................ 43 11.4. PRESENTACIÓN DE RESULTADOS .......................................................................................... 45 11.5. PRUEBA DE HIPÓTESIS PARA IGUALDAD DE MEDIAS EN VARIAS POBLACIONES .................. 45 11.6. PRUEBA DE TUKEY Y PRUEBA DMS ....................................................................................... 45

12. PRUEBAS NO PARAMÉTRICAS .............................................................................................. 48

12.1. INTRODUCCIÓN ..................................................................................................................... 48 12.2. PRUEBA CHI CUADRADO PARA LA INDPENDENCIA DE VARIABLES ....................................... 48

13. MODELO DE REGRESIÓN Y COEFICIENTE DE CORRRELACIÓN LINEAL ..................................... 50

13.1. INTRODUCCIÓN ..................................................................................................................... 50 13.2. EL ANÁLISIS DE REGRESIÓN ................................................................................................... 50 13.3. MODELO LINEAL BIVARIABLE ............................................................................................... 51 13.4. MODELO LINEAL MULTIVARIABLE ......................................................................................... 51 13.5. COEFICIENTE DE CORRELACIÓN ............................................................................................ 52 13.6. EL COEFICIENTE DE DETERMINACIÓN ................................................................................... 52 13.7. VERIFICACIÓN DE LAS VARIABLES EN EL MODELO ................................................................ 53

14. MODELO NO LINEAL Y EXPONENCIAL ................................................................................... 54

14.1. MODELO NO LINEAL .............................................................................................................. 54 14.2. MODELO EXPONENCIAL O DE POISSON. ............................................................................... 54 14.3. FORMULACIÓN DEL MODELO ............................................................................................... 55 14.4. COEFICIENTES DEL MODELO ................................................................................................. 55 14.5. MODELO DE REGRESIÓN LOGÍSTICA ..................................................................................... 55

14.5.1. ECUACIÓN DEL MODELO LOGÍSTICO ............................................................................. 55

14.5.2. OBTENCIÓN DE LOS COEFICIENTES ............................................................................... 56

14.5.3. EVALUACIÓN DEL MODELO ........................................................................................... 56

14.5.4. ESTIMACIÓN DE PROBABILIDAD.................................................................................... 56


pág. 4

1. DEFINCICIONES BÁSICAS

1.1. DEFINICIÓN DE ESTADÍSTICA Es la ciencia que trata de los métodos de recolección, organización y resumen de la información registrada sobre la variación de eventos; como también los métodos que permiten tomar decisiones sobre determinadas características de dichos eventos.

1.2. CLASIFICACIÓN DE LA ESTADÍSTICA

Para su estudio, es conveniente clasificar a la estadística de la siguiente manera:

Estadística Descriptiva: Estudia los métodos de recolección, organización y resumen de la información. Estadística Inferencial: Estudia los métodos y herramientas utilizadas para definir características y propiedades de una población, basándose en el análisis de una muestra tomada de dicha población.

De la definición de Estadística Inferencial, es conveniente tomar en cuenta las palabras: Población y Muestra. 1.3. POBLACIÓN

Comúnmente, se conoce como población, a un grupo humano que ha nacido o se ha asentado en algún lugar del mundo, ejemplo: la población del Ecuador es un grupo de seres humanos que han nacido o que viven en nuestro país; dentro de la Estadística la población es un grupo formado por todos las personas u objetos que guardan alguna característica en común; a continuación se exponen algunos ejemplos de poblaciones estadísticas son los siguientes: 1. Electores inscritos en el padrón electoral del Cantón Quito.

2. Datos mensuales relacionados con el número de niños nacidos vivos en la maternidad de la

ciudad, durante el año 2016.

3. Reporte de las utilidades mensuales de una empresa de transporte pesado. En resumen, la población estadística es un conjunto universal, puesto que contiene a todos los elementos de su especie. 1.4. MUESTRA Dentro de la Estadística, la muestra es un subconjunto de la población; es decir, un conjunto formado por algunos elementos tomados de un conjunto mayor que es la población; como ejemplos de muestra podemos mencionar a los siguientes: 1. Un grupo de 100 electores, 5 de cada uno de los 20 recintos electorales del cantón; escogidos

aleatoriamente.

2. Número de barriles de petróleo exportados por el Ecuador que fueron explotados en la Península de Santa Elena.


pág. 5

3. Un grupo de niños nacidos en la maternidad de la ciudad, que vinieron al mundo el mes de diciembre.

En conclusión, la muestra, es un subconjunto representativo tomado de una población. 1.5. MUESTRA VS POBLACIÓN

Como se indicó en la definición de Estadística Inferencial, los métodos estadísticos inferenciales analizan las muestras para hacer deducciones o inferencias sobre la población; es decir: los que hacen estadísticas trabajan con datos de las muestras para llegar a determinar características de una población; las razones, entre otras, se deben a: Resulta imposible analizar todos elementos (población) debido al tiempo de análisis, costos, etc. Veamos un ejemplo:

Si se trata de establecer las causas por las que los niños de un cantón de la Sierra Ecuatoriana presentan signos de desnutrición; sería imposible reunir a todos los niños de este lugar, medir su estatura, su peso, averiguar la forma de alimentación, los ingresos familiares de todos ellos, etc. Es mucho más sencillo, tomar una muestra de esta población y sobre esa muestra realizar el análisis estadístico correspondiente que permitirá a su vez deducir las causas de desnutrición de dicha población.

En algunas ocasiones, el análisis de los elementos de una muestra, requiere de la destrucción o inutilización de estos elementos, ejemplo:

Se trata de determinar la resistencia de una bombilla eléctrica: para esto, se debe someter a este elemento a una serie de sobrecargas eléctricas. Esta sobrecarga, obviamente va a destruir o inutilizar dicho elemento; por esta razón, no será conveniente ensayar a todos los elementos (población), sino solamente a algunos de ellos, es decir a una muestra.

La muestra estadística debe ser tomada con un criterio apropiado, de manera que las inferencias que sobre la población de dicha muestra se hagan, sean confiables e idóneas.

1.6. VARIABLES O DATOS ESTADÍSTICOS Los datos estadísticos se presentan de dos maneras: Datos cualitativos.- Tal como: el género, la religión, el estado civil, el lugar de nacimiento, etc.

Es decir: la variación de estas variables se expresa con palabras y no con números. Para el trabajo estadístico es necesario expresar la variación de estas variables mediante conteo, razón proporcional o porcentaje. Veamos algunos ejemplos:

1. El número de mujeres que participaron en la encuesta realizada en el cantón Atacames es de 500, mientras el número de varones encuestados en el mismo cantón llega a 425.

2. Dentro de esta población se estima que el 75% es de religión católica; mientras que el 25% restante pertenece a otras religiones.

3. Datos proporcionados por el registro civil del cantón indican que el 35% de la población es

soltera, 45% de la población está casada y el 20% restante, corresponde a viudos, divorciados y en unión libre.


pág. 6

Datos cuantitativos.- Son aquellos, cuya variación puede presentarse mediante números;

ejemplo: la estatura de un grupo de niños, el saldo promedio de cuentas corrientes de un banco, la duración o vida útil de un repuesto eléctrico, etc.

Los datos cuantitativos se presentan de dos maneras:

Variable Discreta Son aquellos cuya variación numérica se representa por números enteros; ejemplo: el número de autos vendidos el año anterior, el número de personas que migraron hacia otros países, el número de matrículas que emitió la Universidad Tecnológica Equinoccial el semestre pasado, etc. Variable Continua Los datos de variable continua pueden asumir cualquier valor: entero o decimal, dentro de un rango o intervalo específico; ejemplo de estas variables tenemos: la estatura y el peso de un grupo de estudiantes de la costa ecuatoriana, el diámetro de un grupo de tornillos fabricados en determinado tiempo, el peso de 20 enlatados de atún, etc. Esta clasificación de datos de variable cuantitativa en discreta y continua, permitirá más adelante clasificar a las distribuciones probabilísticas en Distribuciones de variable discreta y Distribuciones de variable continua.

1.7. ESTADÍSTICOS Y PARÁMETROS Los estadísticos son valores numéricos obtenidos mediante técnicas y métodos apropiados que indican las características de la muestra; ejemplo: la media aritmética, la mediana, la desviación estándar, etc. Mediante los estadísticos de muestra y con los métodos de la estadística inferencial se deducen los parámetros de la población; es decir hablar de estadísticos y parámetros es referirse a valores propios y característicos que representan a la muestra y población, respectivamente. Los estadísticos y los parámetros, se representan con letras latinas y griegas respectivamente; el cuadro que se indica a continuación describe la simbología utilizada para los estadísticos y parámetros más utilizados en nuestro estudio:

Medida estadística Estadístico Parámetro

Media aritmética Desviación estándar s Varianza Tamaño n N

Proporción p

x

2s 2


pág. 7

2. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS

Una vez que los datos de una muestra estadística han sido recolectados es conveniente organizarlos de alguna manera; existen diversos métodos para la organización de los datos, entre ellos se encuentran los siguientes: 2.1. ORDENAMIENTO DE LOS DATOS

Cuando la muestra no es muy numerosa, es posible ordenar los datos en orden creciente o decreciente; ese ordenamiento permitirá visualizar los valores extremos y determinar en forma inmediata el rango, es decir la diferencia entre el mayor y el menor de los valores de la muestra. 2.2. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA Cuando la variable se presenta en forma cualitativa, por ejemplo el sexo de una persona, los datos podrán organizarse en una tabla en la que se indique los casos registrados para cada uno de los valores de la variable cualitativa; se podrá también establecer el porcentaje de frecuencia en cada una de estas variables, como también el porcentaje acumulado. El programa SPSS entrega como resultado una tabla como la que se indica a continuación:

Sexo del empleado

Frecuencia Porcentaje Porcentaje

válido Porcentaje acumulado

Válidos Femenino 25 41,7 41,7 41,7

Masculino 35 58,3 58,3 100,0

Total 60 100,0 100,0

Es conveniente que estas tablas presenten además, a manera de resumen, un gráfico estadístico representativo; para variable cualitativa existen dos tipos de gráficos muy comunes: a. Gráfico de barras verticales u horizontales, b. Gráfico de sector circular. El gráfico de barras verticales es una representación cartesiana de la variable de estudio, en el eje horizontal se ubicará la variable cualitativa y en cada una de ellas se dibujará un rectángulo cuya altura representa la frecuencia de la variable. El gráfico circular, en cambio toma un círculo y distribuye su área (360º) en forma proporcional a la frecuencia de la variable cualitativa; resulta muy conveniente cuando la variable es binomial, es decir presenta dos resultados (Sexo: masculino, femenino); (Existencia: Vivo, muerto), etc.

A continuación se presenta el gráfico estadístico de barras verticales y de sector circular para los datos de la tabla:


pág. 8

Tablas cruzadas Una tabla cruzada, tabla de contingencia o tabla bivariable es una estructura tabular que permite registrar los casos que ocurren en dos variables; a continuación se expone algunos ejemplos de tablas cruzadas:

Tabla de contingencia Sexo del empleado * Nivel Académico Recuento

Nivel Académico

Total Posgrado Secundaria Superior

Sexo del empleado Femenino 7 10 8 25

Masculino 10 7 18 35

Total 17 17 26 60


pág. 9

Esta estructura tabular, comparable con la de una matriz, registra las variables en sentido horizontal y vertical; no existe restricción en cuanto a la ubicación de las variables, inclusive, el programa SPSS podrá pivotar la tabla, es decir presentarla en sentido contrario al original, tal como sucedería con la transpuesta de una matriz. 2.3. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUANTITATIVA Cuando la variable estadística se presenta de manera cuantitativa, sea esta discreta o continua, se puede organizar la información mediante tablas de frecuencia, tablas cruzadas y tablas de frecuencia por intervalos. Veamos un ejemplo de cómo organizar los datos que se indican la antigüedad (en años) de los empleados y funcionarios de la Agencia Nacional de Investigaciones:

ANTIGÜEDAD FRECUENCIA PORCENTAJE

1 14 9.33%

2 13 8.67% 3 16 10.67%

4 13 8.67%

5 19 12.67%

6 15 10.00%

7 20 13.33%

8 18 12.00%

9 13 8.67%

10 9 6.00%

Total general 150 100,00% 2.4. HISTOGRAMA DE FRECUENCIAS El histograma de frecuencias es el resumen gráfico de la Distribución de frecuencias; en el histograma de frecuencias, se utiliza a la marca de clase como variable independiente (eje horizontal) y a los valores de: frecuencias, relativa o absoluta, como variable dependiente (eje vertical).


pág. 10

Junto con el histograma se puede graficar el polígono de frecuencias, para lo cual es necesario agregar en los extremos de la distribución dos intervalos de frecuencia cero, llamados intervalos ficticios; el polígono de frecuencias se obtiene mediante un trazo continuo desde el intervalo ficticio inferior y por los puntos medios superiores de cada una de las barras que conforman el histograma, finalizando en el intervalo ficticio superior de la distribución de frecuencia.

Los valores que registra la variable cuantitativa continua presentan muchos casos, lo que conlleva a elaborar tablas de frecuencia que no resultan ser muy prácticas en su manejo; en estos casos es conveniente agrupar a los valores en intervalos. De esta manera, se obtendrán tablas de frecuencia agrupadas en una escala de valores. A manera de ejemplo en la siguiente tabla se presenta la organización de datos de la variable Edad en 5 intervalos de clase: menos de 30 años; entre 30 y 40 años; entre 40 y 50 años, entre 50 y 60 años y más de 60 años.

INTERVALO EDAD Total < 30 22

30 - 40 36 40 - 50 28 50 - 60 40

> 60 24 Total general 150

Por otro lado, se podrá también elaborar tablas cruzadas tomando en cuenta a variables cuantitativas continuas entre sí; o una variable cuantitativa continua y una variable discreta o una variable cualitativa.

INTERVALO EDAD INTERVALO INGRESOS

TOTAL GENERAL < 1000 1000 - 2000 2000 - 3000

< 30 5 7 10 22

30 - 40 4 19 13 36

40 - 50 6 16 6 28

50 - 60 9 18 13 40

> 60 2 13 9 24

TOTAL GENERAL

26 73 51 150

2.5. DISTRIBUCIONES DE FRECUENCIA POR INTERVALOS O CLASE Cuando los datos son numerosos es conveniente organizarlos en una tabla de distribución de frecuencias; esta tabla agrupa los datos en diversas clases, intervalos o categorías y permite obtener la frecuencia absoluta, la frecuencia relativa y la frecuencia acumulada; la tabla adjunta es el modelo estándar de esta organización de datos.

INTERVALOS Frecuencia absoluta

Frecuencia relativa

Frecuencia Acumulada

Marca de clase

L. Inferior L Superior

∑=


pág. 11

Para la construcción de una distribución de frecuencias es conveniente tomar en cuenta las siguientes definiciones: Rango El rango de una muestra es la diferencia que existe entre el valor máximo y el valor mínimo del grupo de datos a organizar. Intervalos o Clases Los datos recogidos se agrupan en intervalos o categorías, a estos grupos se los llama comúnmente intervalos o clases; se recomienda que la muestra se la divida entre cinco (mínimo) y quince intervalos (máximo). Ancho de Clase El ancho de clase ( ) es un valor que se obtiene al dividir el rango de la muestra para el número de intervalos escogidos para la formar la distribución de frecuencias. Límites del Intervalo Como su nombre lo indica, son valores que limitan el intervalo, habrá entonces un límite inferior y un límite superior, los límites de cada uno de los intervalos que forman la distribución de frecuencia se calculan de la siguiente manera: 1. Se toma el valor mínimo, este valor será el límite inferior del primer intervalo, a este valor, se

suma el ancho de clase previamente calculado y se obtendrá el límite superior del primer intervalo.

2. Para el cálculo de los límites de los demás intervalos, se asume como intervalo inferior el valor

del intervalo superior del intervalo anterior; a este valor, se suma el ancho de clase para obtener el límite superior de este intervalo. El límite superior del último intervalo, será el valor máximo de la muestra.

Frecuencia La frecuencia ( ) de cada uno de los intervalos, es el número de observaciones de la muestra cuyos valores son iguales o mayores que el límite inferior y menores que el límite superior. La suma de las frecuencias de todos los intervalos, debe ser igual al tamaño de la muestra o población en análisis. Frecuencia Relativa La frecuencia relativa ( ) de cada uno de los intervalos, es el cociente que se obtiene al dividir la frecuencia de cada intervalo para el total de la muestra. La suma de las frecuencias relativas de todos los intervalos, es igual a la unidad. Si a cada uno de los valores de la frecuencia relativa se multiplica por 100 se tendrá el porcentaje de observaciones que se encuentran contenidas en cada uno de los intervalos, obviamente la suma de estas frecuencias porcentuales, será igual a 1 o 100.


pág. 12

Frecuencia Acumulada La frecuencia acumulada ( ) de cada uno de los intervalos de la distribución de frecuencias, recoge todas las observaciones de los intervalos anteriores y de su propio intervalo; la forma de calcular es la siguiente: La frecuencia acumulada del primer intervalo será igual a la frecuencia del intervalo, la frecuencia acumulada de los demás intervalos, será igual a la frecuencia acumulada del intervalo anterior más la frecuencia del intervalo; la frecuencia acumulada del último intervalo, será igual al tamaño de la muestra. Marca de Clase La marca de clase ( ), es el valor representativo de cada uno de los intervalos, este valor es igual al promedio de los límites de cada uno de los intervalos. Para mejor entendimiento de esta parte, se incluye a continuación el histograma de frecuencia absoluta correspondiente a la siguiente distribución de frecuencias:

12 10 9 11 15 16 9 10 10 11

12 13 14 15 11 11 12 16 17 17

16 16 15 14 12 11 11 12 12 11

12 15 13 14 16 15 18 19 18 10

11 12 12 11 13 13 15 13 11 12

Valor máximo de la muestra 19,00

Valor mínimo de la muestra 9,00

Rango de la muestra 10,00

Número de intervalos 7,00

Cálculo del ancho de clase 1,43

Clase Límites del Intervalo

Li <x <Ls Marca de Clase (x)

Frecuencia Frecuencia

Relativa Frecuencia Acumulada

Li Ls (x) f fr FA

0 7,57 9,00 8,29 0 0,00 0,00

1 9,00 10,43 9,71 6 0,12 6,00

2 10,43 11,86 11,14 10 0,20 16,00

3 11,86 13,29 12,57 15 0,30 31,00

4 13,29 14,71 14,00 3 0,06 34,00

5 14,71 16,14 15,43 11 0,22 45,00

6 16,14 17,57 16,86 2 0,04 47,00

7 17,57 19,00 18,29 3 0,06 50,00

8 19,00 20,43 19,71 0 0,00 50,00

Observe que se han agregado dos intervalos ficticios, al inicio y al final de la tabla; estos intervalos ficticios de frecuencia cero permitirán construir el polígono de frecuencia.


pág. 13


pág. 14

3. ESTADÍSTICA DESCRIPTIVA

3.1. MEDIDAS DE TENDENCIA CENTRAL Una vez que los datos han sido organizados en una tabla de distribución de frecuencia y representados gráficamente, corresponde ahora buscar ciertos valores que representen a la muestra. A estos valores representativos se conoce como Medidas de Centralización, ya que estos valores se ubican alrededor de la parte central de la misma. Se estudiarán las siguientes Medidas de Centralización: Media Aritmética, Mediana, Moda, para datos no agrupados y para datos agrupados en distribuciones de frecuencia simple y por intervalos; por otro lado se llaman Cuantiles a las medidas de posición o ubicación de los datos de la muestra previamente ordenada. 3.1.1. DATOS NO AGRUPADOS MEDIA ARITMÉTICA Sean:

Los valores de una muestra de tamaño , la media aritmética ( ) de esta muestra es:

MEDIANA La mediana ( ), es el valor central de una muestra de datos previamente ordenados, es decir: Si la muestra siguiente:

Está ordenada, la mediana será ; dado que dicha muestra es impar. Si la muestra:

Está ordenada, la mediana será la media aritmética entre y , dado que la muestra es par.

MODA La moda ( ) es el valor que se presenta con mayor frecuencia; en una distribución de frecuencia puede haber más de una moda o simplemente no tiene moda; si la distribución tiene una sola moda se denomina unimodal, bimodal, etc.

Las definiciones descritas hasta aquí permiten la determinación de los estadísticos de tendencia central cuando el número de datos es pequeño; cuando los datos se encuentran organizados en distribuciones de frecuencia simple o en distribuciones de frecuencia por intervalos, se deben aplicar otras expresiones de cálculo.


pág. 15

3.1.2. EN DATOS AGRUPADOS EN FRECUENCIA SIMPLE Al organizar los datos en una distribución de frecuencias simple, se debe tomar en cuenta:

Valor ( ) Frecuencia ( ) Frecuencia Acumulada

… … … …

Una vez organizada la tabla de distribución de frecuencia simple, se determina los estadísticos de tendencia central de la siguiente manera: MEDIA ARITMÉTICA

∑

∑

MEDIANA La mediana es el valor ubicado en el centro de la distribución de frecuencias; entonces, el intervalo donde está la mediana es aquel cuya Frecuencia acumulada contiene por lo menos a:

( )

MODA La moda es el valor que corresponde al intervalo que presenta la mayor frecuencia; pude darse el caso de que existan dos o más intervalos que contengan la máxima frecuencia entonces la distribución de frecuencias será multimodal. 3.1.3. EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA Al organizar los datos en una distribución de frecuencia por intervalos s debe tomar en cuenta:

INTERVALO MARCA DE CLASE ( )

Frecuencia ( ) Frecuencia Acumulada

… … … … …


pág. 16

Una vez organizada la tabla de distribución de frecuencia simple, se determina los estadísticos de tendencia central de la siguiente manera: MEDIA ARITMÉTICA

∑

∑

MEDIANA

(

∑ )

: Límite inferior del intervalo que contiene a la mediana.

: Frecuencia acumulada del intervalo anterior al intervalo que contiene a la mediana.

: Frecuencia absoluta del intervalo que contiene a la mediana.

: Ancho de clase del intervalo que contiene a la mediana

El intervalo que contiene a la mediana es aquel que acumula por lo menos a la mitad de los

datos.

MODA

(

)

: Límite inferior del intervalo que contiene a la moda.

: Diferencia entre la frecuencia del intervalo que contiene a la moda con la frecuencia

del intervalo anterior.

: Diferencia entre la frecuencia del intervalo que contiene a la moda con la frecuencia

del intervalo posterior.

: Ancho de clase del intervalo que contiene a la mediana

El intervalo que contiene a la moda es aquel que presenta la mayor frecuencia absoluta.


pág. 17

3.2. MEDIDAS DE POSICIÓN EN UNA DISTRIBUCIÓN DE FRECUENCIA Las medidas de posición son observaciones de la muestra que ocupan posiciones específicas una vez que esta se ha ordenado; estas medidas se conocen en general como Cuantiles. Sea la siguiente muestra, previamente ordenada, representada por puntos,

Muestra ordenada dividida en dos partes, al valor central se denomina Mediana

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Muestra ordenada dividida en 4 partes, cada una de esta partes se denomina Cuartil

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Muestra ordenada dividida en 5 partes, cada una de esta partes se denomina Quintil

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Entonces: La Mediana es la medida de posición que divide a la muestra en dos partes, cada una de las

partes representa el 50%; de manera que la mediana está ubicada sobre el 50% más bajo de la

muestra.

Los Cuartiles son medidas de posición que dividen a la muestra en cuatro partes, cada una de las

partes representa el 25%; de manera que:

El primer cuartil ( ) está ubicado sobre el 25% más bajo de la muestra.

El segundo cuartil ( ) está ubicado sobre el 50% más bajo de la muestra.

El tercer cuartil ( ) está ubicado sobre el 75% más bajo de la muestra.

Los Quintiles son medidas de posición que dividen a la muestra en cinco partes, cada una de las


El primer quintil ( ) está ubicado sobre el 20% más bajo de la muestra.

El segundo quintil ( ) está ubicado sobre el 40% más bajo de la muestra.

El tercer quintil ( ) está ubicado sobre el 60% más bajo de la muestra.

El cuarto quintil ( ) está ubicado sobre el 80% más bajo de la muestra.


pág. 18

Los Deciles son medidas de posición que dividen a la muestra en diez partes, cada una de las


El primer decil ( ) está ubicado sobre el 10% más bajo de la muestra.

El segundo decil ( ) está ubicado sobre el 20% más bajo de la muestra.

…. El quinto decil ( ) está ubicado sobre el 50% más bajo de la muestra.

Los Percentiles o simplemente Centiles son medidas de posición que dividen a la muestra en cien

partes, cada una de las partes representa el 1%; de manera que:

El percentil 23 ( ) está ubicado sobre el 23% más bajo de la muestra.

El percentil 38 ( ) está ubicado sobre el 38% más bajo de la muestra.

…. El percentil 50 ( ) está ubicado sobre el 50% más bajo de la muestra.

….. El percentil 67 ( ) está ubicado sobre el 67% más bajo de la muestra.

3.2.1. PRINCIPIO FUNDAMENTAL “Todo cuantil equivale al percentil correspondiente”, ejemplo: El primer cuartil ( ), que se ubica sobre el 25% más bajo de la muestra, equivale entonces al

percentil 25 ( ).

El segundo quintil ( ), que se ubica sobre el 40% más bajo de la muestra, equivale entonces al

percentil 40 ( ).

El sexto decil ( ), que se ubica sobre el 60% más bajo de la muestra, equivale entonces al

percentil 60 ( ).

Entonces, de lo anterior se concluye:

3.2.2. EN DATOS NO AGRUPADOS Y AGRUPADOS EN FRECUENCIA SIMPLE

Una vez que se han ordenado los datos, los Cuantiles se los encuentra en la ubicación específica, tomando en cuenta que un cuantil se ubica en la posición que resulta de aplicar la siguiente expresión:

( )

( )

Dónde: Cuantil a ser ubicado

,

Tamaño de la muestra (número de datos o casos)


pág. 19

Si ( ) es entero, entonces el cuantil buscado será el dato correspondiente a esa ubicación;

Si ( ) no es entero entonces el cuantil buscado es el resultado de la interpolación de la parte

decimal con la diferencia entre los Cuantiles que lo contienen.

3.2.3. CUANTILES EN DATOS AGRUPADOS EN INTERVALOS DE FRECUENCIA.

Cuando los datos se encuentran agrupados en una distribución de frecuencias por intervalos, los

Cuantiles se determinan aplicando la siguiente expresión:

(

∑ )

Donde y conforman la fracción generatriz del cuantil; a manera de ejemplo se describen a continuación las fórmulas de cálculo de los cuartiles:

Primer cuartil Segundo cuartil Tercer cuartil

(

∑ )

(

∑ )

(

∑ )

3.3. MEDIDAS DE DISPERSIÓN

En clases anteriores se definieron algunas medidas de centralización, entre ellas, la más utilizada: la media aritmética; sin embargo, el análisis estadístico requiere de una medida que exprese la variabilidad de los datos con respecto a alguna medida de centralización; usualmente la media; en otras palabras: es necesario determinar un valor estadístico que represente la variación de los datos, tomando como punto de referencia de la variación la media aritmética. Entre las medidas de dispersión más usuales se tiene:

3.3.1. RANGO A pesar de que no involucra a la media aritmética, la primera medida de la dispersión de un grupo de datos, agrupados o no, es el rango, definiéndose al rango como la diferencia entre el valor máximo y valor mínimo de los datos, es decir:

Como se recordará, el Rango permite, junto con el número de intervalos, determinar el ancho de clase. 3.3.2. DESVIACIÓN ESTÁNDAR Sea:

Un grupo de datos de tamaño , se define a la desviación estándar, también conocida como desviación típica, a la raíz cuadrada del cociente entre la sumatoria de los cuadrados de


pág. 20

las diferencias, de cada uno de los valores y la media aritmética, dividida para el número de términos de la serie de datos, es decir:

√∑( )

Si los datos constituyen una muestra, es decir es un subconjunto de la población, la desviación estándar está dado por:

√∑( )

Si los datos se encuentran agrupados en una distribución de frecuencias, entonces la desviación estándar será:

√∑ ( )

∑

Las medidas de dispersión son proporcionales con su magnitud; un valor pequeño indica una pequeña desviación, mientras que un valor grande indica que existe una gran variabilidad o dispersión. 3.3.3. VARIANZA Se define a la varianza como el cuadrado de la desviación típica; es decir:

La varianza mide la variabilidad de los datos, esta medida estadística es de gran utilidad para el análisis comparativo entre dos o más poblaciones. 3.3.4. COEFICIENTE DE VARIACIÓN Una medida de la dispersión o variación de un grupo de datos es el coeficiente de variación de Pearson, el mismo que relaciona por cociente a la desviación estándar con la media aritmética, es decir:

3.3.5. RANGO INTERCUARTIL Se define al rango intercuartil como la diferencia numérica entre el tercer cuartil y el primer cuartil, es decir:

3.3.6. DIAGRAMA DE CAJA El diagrama de caja es una herramienta de representación gráfica que resume la variabilidad de un grupo de datos; en este gráfico se puede apreciar el rango y el rango intercuartilítico.


pág. 21

Para elaborar el diagrama de caja es necesario: el valor máximo, el valor mínimo, la mediana el primer cuartil y el tercer cuartil; estos valores se colocan en una recta horizontal, tal como se indica en la siguiente figura: 3.4. MEDIDAS DE ASIMETRÍA Una vez que se dispone de las medidas de tendencia central y las medidas de dispersión que describen a un grupo de datos, sobre todo, la media aritmética y la desviación estándar, es conveniente determinar además, una medida que exprese la simetría o asimetría de los datos. 3.4.1. SIMETRÍA DE UNA MUESTRA En Estadística se conoce como distribución simétrica a aquella distribución de frecuencia en los cuales los datos se reparten en tal forma que el vértice del polígono de frecuencia se encuentra en la mitad del mismo; tal como se indica en el siguiente histograma:

En toda distribución de frecuencias simétrica se cumple que: Es decir: la media aritmética, la mediana y la moda son iguales, y se ubican en la parte central del histograma de frecuencias. A las muestras simétricas se las conoce también como muestras asesgadas; es decir, que no tienen sesgo. Si la distribución de frecuencias no es simétrica, entonces se trata de una distribución asimétrica o sesgada.


pág. 22

3.4.2. SESGO DE UNA DISTRIBUCIÓN DE FRRECUENCIAS El sesgo es una forma cuantitativa de expresar la asimetría de una curva, este estadístico se determina con las siguientes expresiones:

( )

Que se conocen como Primer y segundo coeficiente de Pearson; se puede observar que el primer coeficiente toma en cuenta la moda y el segundo coeficiente toma en cuenta a la mediana de la distribución de frecuencias. Sesgo a la derecha.-

Los datos se concentran en la parte derecha de la distribución, se cumple además que: Cuando la distribución de frecuencias presenta sesgo a la derecha los coeficientes de asimetría de Pearson son positivos. Sesgo a la izquierda.-

Los datos se concentran en la parte izquierda de la distribución, se cumple además que: Cuando la distribución de frecuencias presenta sesgo a la izquierda los coeficientes de asimetría de Pearson son negativos.


pág. 23

4. DISTRIBUCIONES DE PROBABILIDAD

4.1. EXPERIMENTO ALEATORIO Se dice que un experimento es aleatorio, cuando no se conoce con certeza el resultado de dicho experimento; sin embargo se conocen todos los resultados posibles de dicho experimento. Como ejemplos de experimentos aleatorios podemos citar los siguientes: 1. Lanzar al aire una moneda. 2. Extraer una carta de un mazo de naipes. 3. Lanzar un dado. A pesar que estos ejemplos giran en torno a los juegos de azar, esto sirvió como material de trabajo para la elaboración de un marco teórico matemático muy importante como es el cálculo de probabilidades; dentro de la administración podemos citar los siguientes ejemplos como experimentos aleatorios: 1. El volumen de ventas de un almacén para el año próximo. 2. La aceptación del consumidor de un nuevo producto. 3. La tasa de interés para el siguiente semestre.

4.2. EVENTO ALEATORIO

Dentro del estudio de la probabilidad, se denomina Evento al resultado de un experimento aleatorio. 4.3. ESPACIO MUESTRAL Se llama Espacio Muestral al conjunto finito formado por todos los resultados posibles (eventos) de un experimento aleatorio. 4.4. PROBABILIDAD DE UN EVENTO La probabilidad de un evento aleatorio es la cuantificación de la ocurrencia de dicho evento, es decir, si podemos expresar mediante un número la ocurrencia de un suceso de carácter aleatorio, entonces hemos encontrado la probabilidad de ocurrencia de dicho evento. Sea un evento aleatorio, entonces ( ) representa la probabilidad de ocurrencia del evento , este valor se puede encontrar mediante la expresión:

( )

Ahora, la probabilidad de no-ocurrencia del suceso aleatorio será:

( )

La probabilidad de un evento A es un número positivo entre cero y uno, es decir:

( )


pág. 24

Si la probabilidad del evento es: ( ) entonces el evento se denomina éxito; Ahora, si la probabilidad del evento A es ( ) , entonces al evento a se lo denomina fracaso. La probabilidad de ocurrencia de un evento junto con la probabilidad de no ocurrencia del mismo reúne todo el todo el espacio Muestral, por lo que:

( ) ( ) Con lo que se puede expresar que:

( ) ( ) Cuando el número de casos favorables de la ocurrencia de un evento o el total de casos resulta difícil de determinar, es conveniente recurrir a las técnicas de conteo establecidas en el Análisis Combinatorio.

4.5. ALGEBRA DE PROBABILIDAD Sean A y B dos eventos, la probabilidad de ocurrencia de los dos eventos está dada por:

( ) ( ) ( ) ( ) Si A y B son independientes:

( ) ( ) ( ) Evento condicional:

( ) ( )

( )

4.6. DISTRIBUCIÓN DE PROBABILIDAD Recordemos que el Espacio muestral es el conjunto de todos y cada uno de los valores que puede tomar una variable aleatoria; dicho en otras palabras, el Espacio muestral reúne a todos los resultados posibles de un experimento aleatorio. Si a cada uno de los valores del Espacio muestral, le hacemos corresponder su respectiva probabilidad de ocurrencia, a esta correspondencia le llamaremos Distribución de probabilidad o Función de Probabilidad o simplemente o Distribución Probabilística, es decir:


pág. 25

Una Distribución de Probabilidad, se puede representar de dos maneras: mediante una tabla de datos o mediante un gráfico denominado histograma.

( ) 1 0.10

2 0.15

3 0.30

4 0.18

5 0.12

6 0.15

La Distribución de Probabilidad permite calcular probabilidades; siempre y cuando, se cumplan los requisitos que cada una de ellas exigen. De acuerdo con la clasificación de la variable aleatoria se ha tomado en cuenta la siguiente clasificación de distribución de probabilidades: Distribución Binomial (Bernoulli), para variable aleatoria discreta. Distribución Normal (Gauss), para variable aleatoria continua. 4.7. DISTRIBUCIÓN BINOMIAL Un evento está bajo Distribución Binomial, si cumple con las siguientes condiciones: Existen n observaciones o ensayos idénticos. Cada ensayo tiene dos posibles resultados, uno llamado “éxito” y el otro denominado “fracaso”. Las probabilidades de éxito y de fracaso se mantienen constantes para todos los

ensayos. Los resultados de los ensayos son independientes entre sí. La distribución Binomial se expresa con la siguiente función:

( ) ( ) Dónde: ( ) Número de combinaciones o grupos de elementos que se pueden hacer con elementos. : El valor de la variable cuya probabilidad queremos calcular. : Total de la muestra. : Probabilidad de la ocurrencia de un evento. : Probabilidad de la no ocurrencia del evento.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

1 2 3 4 5 6


pág. 26

En el cálculo de probabilidades, bajo la distribución Binomial se presentan los siguientes casos:

Probabilidad de un elemento puntual. Probabilidad de un evento mayor que. Probabilidad de un evento menor que.

4.8. DISTRIBUCIÓN NORMAL La distribución de probabilidad de Gauss o distribución Normal, está dada por la siguiente ecuación:

√

( )

Para mejor manejo de la ecuación de Gauss, se procede a tipificar la variable, haciendo el siguiente cambio de variable:

La ecuación de Gauss se transforma en:

√

Que presenta ahora el siguiente gráfico:

Características de la Curva Normal La gráfica de una distribución normal, se asemeja a una campana, por eso se la conoce como la

campana de Gauss. La curva es suave, unimodal y simétrica, entonces: la media, la mediana y, la moda coinciden en el eje

de simetría. En sentido horizontal, la curva se extiende hacia el infinito, en los dos sentidos; sin embargo, con la

tipificación de la variable z, la distribución normal tiene dominio entre ]-4,4[


pág. 27

La curva de distribución normal queda totalmente identificada, mediante dos parámetros: la media

aritmética y la desviación estándar.

El área total de la curva normal, representa el 100% de probabilidad de dicha variable; dada la simetría, el eje divide a la curva en dos áreas, representa cada una por el 50% del área total.

( )

Con estas características se tiene que:

La probabilidad de que una variable aleatoria que está distribuida normalmente asuma un valor entre dos puntos cualesquiera, es igual al área bajo la curva normal entre estos dos puntos.

Mediante la distribución normal, se pueden calcular probabilidades para eventos de variable continua, para este cálculo se deberá contar con:

Media aritmética: Desviación estándar:

Con estos valores procedemos a calcular el valor (variable tipificada):

Proceso para el cálculo de una probabilidad con distribución normal

1. Cálculo del valor para la probabilidad , 2. Gráfico de la campana y ubicación del valor , 3. Ubicación de las áreas en el gráfico, 4. Definir el área (sombrear) que corresponde a la probabilidad a calcular, 5. Cálculo del área sombreada (es el valor de la probabilidad).


pág. 28

5. MÉTODOS DE MUESTREO

5.1. MUESTRA Dentro de la Estadística, la muestra es un subconjunto de la población; es decir, un conjunto formado por algunos elementos tomados de un conjunto mayor que es la población. En conclusión: la muestra es un subconjunto representativo tomado de una población. 5.2. POBLACIÓN FINITA O INFINITA En términos estadísticos una población es finita si se conoce el tamaño de la misma, si no se conoce el tamaño se dice entonces que se trata de una población infinita. Cuando la población es finita, el cálculo numérico se ve afectado del denominado factor de corrección de población finita, este factor se determina con la siguiente expresión:

√

Este factor de corrección siempre será menor que la unidad ( ) y depende del tamaño de la población y del tamaño de a muestra. 5.3. EL MUESTREO ALEATORIO La muestra estadística debe ser tomada con un criterio apropiado de manera que las inferencias que sobre la población de dicha muestra se hagan sean confiables e idóneas. Este criterio se resume en que todos los elementos de la población deben tener la misma probabilidad de ser incluidos en la muestra; este criterio se cumple cuando los elementos de la población que van a ser parte de la muestra son tomados al azar, el muestreo al azar se conoce también como muestreo aleatorio.

5.4. MÉTODOS DE MUESTREO ALEATORIO

Dentro del muestreo aleatorio existen varios métodos de muestreo, en forma resumida se tiene: Muestreo Aleatorio simple.- Es el método de muestreo más común, consiste en seleccionar al azar, uno a uno, los elementos de la población que van a formar parte de la muestra; el criterio del azar se establece el momento en que todos los miembros de la población tienen la misma probabilidad de ser elegidos como parte de la muestra. Una forma de realizar un muestreo aleatorio simple es numerar previamente a los elementos de la población y luego, con la ayuda de una tabla de números aleatorios escoger al azar los elementos de la muestra. Muestreo aleatorio estratificado.- Se toma aleatoriamente y en tamaño proporcional al del estrato, los diferentes elementos que formarán la muestra; de esta manera se obtendrá una representativa de cada uno de los estratos o categoría que conforman la población. Muestreo aleatorio sistemático.- Se divide a la población en tantos grupos como el tamaño de la muestra; luego del primer grupo se elige aleatoriamente el elemento de partida y finalmente se va tomando los elementos que coincidan con el módulo del elemento de partida.


pág. 29

6. DISTRIBUCIÓN DE MUESTREO Con la media aritmética y la proporción de muestras de diferente tamaño se pueden formar las denominadas distribuciones muestrales, entonces podrán existir: Distribución muestral de medias. Distribución muestral de proporciones. 6.1. CLASIFICACIÓN DE LAS MUESTRAS POR SU TAMAÑO De acuerdo con su tamaño, las muestras estadísticas se clasifican en: Muestras grandes. Muestras pequeñas.

Esta clasificación se debe a la experiencia estadística que señala que se considera como muestra grande cuando esta contiene al menos 30 elementos, si el tamaño de la muestra es menor a 30, se considera como muestra pequeña. 6.2. TEOREMA DEL LÍMITE CENTRAL Este es uno de los temas más importantes en la estadística inferencial, este teorema se enuncia de la siguiente manera:

“A medida que el tamaño de la muestra aumenta, la distribución de medias muestrales se aproxima a la distribución Normal”.

El teorema permite entonces asumir a una muestra grande ( ) como aproximada a la distribución normal. 6.3. ERROR DE MUESTREO Se define al error de muestreo como la diferencia entre los valores de los parámetros poblacionales y los estadísticos de una muestra; este error es inversamente proporcional al tamaño de la muestra, es decir mientras mayor sea el tamaño de la muestra menor será el error que se presenta en el muestreo. A continuación se presentan algunas fórmulas que permiten determinar el error de muestreo para las siguientes distribuciones muestrales. Para la distribución muestral de medias:

√

Donde: : Error de la distribución muestral de medias. : Desviación estándar de la población. : Tamaño de la muestra. Para la distribución de las proporciones:


pág. 30

√ ( )

Donde: : Error de la distribución muestral de proporciones.

: Proporción o probabilidad de cumplimiento del evento : Tamaño de la muestra. El caso de pequeñas muestras deberá tomarse en cuenta que los datos ya no tienen el comportamiento de una distribución normal; deberá entonces utilizar la distribución , de Student, tal como se estudiará más adelante.


pág. 31

7. TEORÍA DE ESTIMACIÓN ESTADÍSTICA 7.1. INTRODUCCIÓN La Estimación es una herramienta estadística que permite: partiendo del análisis de los estadísticos de una muestra deducir los parámetros de una población; siendo las estimaciones más usuales: la media poblacional y la proporción poblacional. 7.2. ESTIMADOR POR INTERVALOS Una estimación por intervalos especifica un rango dentro del cual está el parámetro desconocido; este intervalo con frecuencia va acompañado de una afirmación sobre el nivel de confianza que se da sobre su probabilidad de ocurrencia, por esta razón a este intervalo se lo conoce también como intervalo de confianza (IC) En la práctica, es común tomar como nivel de confianza valores tales como el 99%, el 95% y el 90%; en realidad no hay nada de especial en estos valores, por lo que el nivel de confianza puede ser cualquier valor.

7.3. CONSIDERACIONES ADICIONALES PARA LA ESTIMACIÓN ESTADÍSTICA Antes de proceder a determinar el intervalo de estimación estadística, es muy importante tomar en cuenta las siguientes consideraciones: 1. Se requiere conocer si la población se encuentra bajo una Distribución Normal; sin embargo,

esta información no siempre está disponible. 2. En términos estadísticos, se considera que una muestra es grande cuando su tamaño es mayor o

por lo menos igual a 30, entonces de acuerdo con el Teorema del Límite Central que dice: “Si una muestra es grande, entonces está bajo la Distribución Normal”.

3. El intervalo de estimación está en función de la desviación estándar de la población, sin embargo, en la mayoría de las veces este parámetro es desconocido; en esta situación se requerirá remplazar este parámetro por la desviación estándar de la muestra .

7.4. INTERVALO PARA ESTIMACIÓN DE LA MEDIA POBLACIONAL Muestras grandes.- Cuando la muestra proviene de una Distribución Normal, o si el tamaño de la muestra es grande ( ), de acuerdo al Teorema del límite central, se la puede considerar como proveniente de una Distribución Normal, entonces la media poblacional se estima como:

Donde:

: Media poblacional, a estimar. : Media aritmética de la muestra. : Valor de la distribución normal en función del nivel de confiabilidad. : Error de la distribución de medias.


pág. 32

√ (Cuando se conoce la desviación estándar de la población).

√ (Cuando no se conoce la desviación estándar de la población).

Cuando el tamaño de la población es conocida se debe multiplicar al error estándar de la media por el factor de corrección de población finita, este factor es igual a:

√

Muestras pequeñas.-

Cuando los datos provienen de una Distribución Normal, la desviación estándar de la población es desconocida y si el tamaño de la muestra es pequeño ( ), entonces se debe trabajar con la distribución t, conocida también como la Distribución de Student; en estos casos, la media poblacional se estima como:

Donde: : Media poblacional, a estimar. : Media aritmética de la muestra. : Valor de la distribución t, en función del nivel de confiabilidad y de los grados de libertad;

los grados de libertad .

7.5. ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL Para determinar el intervalo de estimación de la proporción poblacional, se asume que la distribución de la que provienen los datos es normal, entonces el intervalo de estimación está dado por:

Donde: : Proporción poblacional a estimar : Proporción de la muestra. : Valor de la distribución normal en función del nivel de confiabilidad. : Error de la distribución de la proporción.

Donde:

√ ( )


pág. 33

8. TAMAÑO DE LA MUESTRA

El tamaño de la muestra es una de las inquietudes de mayor frecuencia y preocupación que se presenta en una investigación; si bien el cálculo del tamaño de la muestra es una operación sencilla puesto, que se han establecido las fórmulas de cálculo correspondientes, es necesario que el investigador tome en cuenta los diversos factores que influyen en su determinación. 8.1. FACTORES QUE INFLUYEN EN EL TAMAÑO DE LA MUESTRA Los factores generales que influyen en el tamaño de la muestra son: a. Conocimiento del tamaño de la población. b. Nivel de confiabilidad o probabilidad de ocurrencia del evento a investigar. c. Tamaño del error de estimación, siendo este la diferencia entre el parámetro poblacional y el

estadístico de la muestra.

Por otro lado, el tamaño de la muestra depende además de la estimación del parámetro que se va a realizar, entonces se tiene como factores particulares: d. Cuando se trata de estimar la media poblacional, el tamaño de la muestra depende de la

desviación estándar de la población, en ausencia de esta, se recomienda tomar la desviación estándar de una muestra piloto de por lo menos 30 unidades ( ).

e. Cuando se trata de estimar la proporción poblacional, el tamaño de la muestra depende de la probabilidad de ocurrencia del evento en estudio en ausencia de esta, se recomienda tomar la como probabilidad de ocurrencia el 50%, es decir el criterio de equiprobabilidad - puede o no puede ocurrir- ( ).

8.2. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA POBLACIONAL a. Si el tamaño de la población no está definida, la media poblacional se estima con:

Dónde: Es el error típico de muestreo para la media poblacional y está dado por:

√

Por otro lado, el error de estimación de la media poblacional , es la diferencia entre la media poblacional y la media de la muestra entonces:

√

√

Despejando se tiene:

(

)


pág. 34

b. Si el tamaño de la población está definido, el error de muestreo para la media poblacional se ve afectado por el Factor de corrección de la población finita, entonces:

Dónde: Es el Factor de corrección de población finita y está dado por:

√

√ √


( )

8.3. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN POBLACIONAL

a. Si el tamaño de la población no está definido, la proporción poblacional se estima con:

Dónde: Es el error típico de muestreo para la proporción poblacional y está dado por:

√ ( )

Por otro lado, el error de estimación de la proporción poblacional , es la diferencia entre la proporción poblacional y la proporción de la muestra entonces:

√ ( )

√ ( )


pág. 35


( )

b. Si el tamaño de la población está definido, el error de muestreo para la proporción poblacional

se ve afectado por el Factor de corrección de la población finita, entonces:

Dónde: Es el Factor de corrección de población finita y está dado por:

√

√ ( )

√

√ ( )

√


( )

[ ( ) ( )]


pág. 36

9. PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIÓN POBLACIONAL

9.1. INTRODUCCIÓN El segundo método de inferencia sobre una característica de la población, basándose en el análisis de la muestra, se denomina Prueba de Hipótesis. Una hipótesis es un enunciado o afirmación que se hace sobre alguna característica estadística de la población, y mediante el análisis estadístico de la muestra, se llega a aceptar o rechazar dicha enunciado o hipótesis. Al igual que en la estimación de los parámetros poblacionales, en este tema se realizarán las siguientes pruebas de hipótesis: Pruebas de hipótesis sobre la media poblacional para muestras grandes. Pruebas de hipótesis sobre la media poblacional para muestras pequeñas. Pruebas de hipótesis sobre la proporción o fracción poblacional. 9.2. PROCESO Básicamente el método de pruebas de hipótesis es el mismo para este tipo de pruebas, la diferencia entre una y otra prueba está en la determinación del estadístico de prueba y la distribución estadística (Normal o t) que respalden dicha prueba. En general, el proceso es el siguiente: 1. Planteamiento de la hipótesis Se deben plantear dos hipótesis: la Hipótesis Nula (Ho) que es un enunciado o afirmación que se hace sobre alguna característica de la población, y la Hipótesis Alternativa (H1) que se plantea como la negación de la hipótesis nula. En ocasiones las hipótesis nula y alternativa vienen como parte del enunciado del problema. 2. Nivel de significancia y tipo de prueba El nivel de significancia es el porcentaje de error que estamos resignados a cometer, es el complemento de nivel de confiabilidad, si el nivel de confiabilidad es el 95%, entonces el nivel de significancia será el 5%.

Los tipos de prueba para este modelo estadístico son: Prueba de dos extremos. Prueba de extremo derecho. Prueba de extremo izquierdo.

La selección del tipo de prueba depende del sentido de la desigualdad expresada en la hipótesis alternativa.

3. Selección del estadístico de prueba

Para pruebas de hipótesis de medias, con poblaciones bajo la Distribución Normal, o de tamaño grande o con desviación poblacional conocida, el estadístico de prueba es:


pág. 37

Para pruebas de hipótesis de medias, con poblaciones bajo Distribución Normal, de tamaño pequeño y con la desviación estándar de la población desconocida, el estadístico de prueba es:

Para pruebas de hipótesis sobre la proporción o fracción poblacional, se asume que bajo la Distribución Normal, entonces el estadístico de prueba es:

4. Valores críticos de la prueba Dependiendo del nivel de significancia escogido, como también del tipo de prueba se determina el valor crítico de la prueba ( );

( )

( )

5. Toma de decisión

En prueba de dos extremos: –

En prueba de extremo izquierdo: – En prueba de extremo derecho:

Alternativa para la Toma de decisiones:

Se define como p value al mínimo valor del nivel de significancia con el que se rechaza la hipótesis nula; entonces la regla de decisión es:

En prueba de dos extremos:

En prueba de un extremo:

El programa SPSS representa al p value como sig. bilateral (nivel observado significancia de dos extremos).

6. Conclusión de la prueba Finalmente se debe expresar el resultado de la prueba traduciendo el resultado obtenido a las características del problema.


pág. 38

10. INFERENCIAS EN DOS POBLACIONES

10.1. INTRODUCCIÓN En los temas anteriores se realizaron deducciones de una población en base del análisis de una muestra tomada de dicha población; en este tema se tratará de establecer herramientas estadísticas que permitan establecer estimaciones de la diferencia que existe entre los parámetros de la población, y comprobar hipótesis acerca de las semejanzas o diferencias que presentan las dos poblaciones. Por otro lado, es muy importante conocer la forma como se han tomado las muestras de las dos poblaciones que intervienen en el análisis estadístico; estas muestras pueden ser: Independientes: Es decir la muestra de cada población se obtiene en forma independiente. Por pares: Las observaciones o elementos de la muestra de la primera población se toman en forma correspondiente con los elementos de la segunda población; un ejemplo característico del muestreo por pares se denomina “antes y después”. 10.2. ESTIMACIONES DE DIFERENCIAS DE PARÁMETROS POBLACIONALES Vamos a revisar la diferencia que existe entre los parámetros de dos poblaciones, así podremos estimar: La diferencia de la durabilidad promedio de las llantas de dos marcas diferentes.

La diferencia entre los salarios promedio de hombres y mujeres cuando realizan el mismo

trabajo.

La diferencia entre la proporción de piezas defectuosas producidas en dos procesos industriales diferentes.

10.3. ESTIMACIÓN DE DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS GRANDES: Cuando el tamaño de cada una de las muestras tomadas de las dos poblaciones es grande, es decir:

La diferencia entre la media poblacional de dos poblaciones está dado por:

( )

Donde:

: Diferencia de la media poblacional de dos poblaciones : Media aritmética de la muestra (primera población). : Media aritmética de la muestra (segunda población). : Valor de z de la Distribución normal para el nivel de confiabilidad asumido.

: Error de estimación para la diferencia de medias.

El error de estimación para la diferencia de medias poblacionales está dado por:


pág. 39

√

Si las varianzas de las poblaciones no se conoce se deberá utilizar las varianzas de la muestra, por lo que la expresión anterior se transforma en:

√

Recuerde que el interés de este capítulo es estimar la diferencia que existe entre las medias poblacionales de dos poblaciones, no es el de determinar el valor de las diferencias entre las medias poblacionales. 10.4. ESTIMACIÓN DE LA DIFERENCIA DE LA MEDIA POBLACIONAL EN MUESTRAS PEQUEÑAS Cuando las muestras tomadas de cada una de las poblaciones son pequeñas, es decir si:

Y la varianza de las poblaciones y

son desconocidas se debe utilizar la distribución t tomando en cuenta si existen evidencias o no de la igualdad de las varianzas aunque estas no sean conocidas. Suposición de igualdad de las varianzas: Si existen evidencias de que las varianzas poblacionales son iguales, a pesar de no conocerlas se debe determinar la varianza común ponderada; en función de las varianzas muestrales y tomando como peso el tamaño de la muestra, es decir:

( )

( )

Una vez establecido el valor de la varianza común ponderada, se puede entonces definir el intervalo de estimación de la diferencia de la media poblacional de la siguiente manera:

( )

Donde: : Es el valor de la distribución t para el nivel de confiabilidad asumido con grados

de libertad. El error de estimación para la diferencia de medias poblacionales está dado por:

√

Si no existen evidencias de igualdad de las varianzas el proceso de cálculo requiere la determinación de los grados de libertad, para esto se aplica la siguiente expresión:


pág. 40

*

+

(

)

(

)

Una vez determinado este grado de libertad se procede a leer en la tabla el valor de para finalmente poder establecer el intervalo de valores de estimación de la diferencia de la media poblacional. 10.5. ESTIMACIÓN DE LA DIFERENCIA DE LA PROPORCIÓN POBLACIONAL El intervalo de estimación para la diferencia de la proporción poblacional está dado por la expresión:

( )

Donde: : Diferencia de la proporción poblacional. : Proporción muestral tomada de la población 1. : Proporción muestral tomada población 2. : Valor de z para el nivel de confiabilidad asumido.

: Error de estimación

El error de estimación para la diferencia de la proporción poblacional está dado por:

√ ( )

( )

10.6. PRUEBAS DE HIPÓTESIS PARA COMPARACIÓN ENTRE DOS POBLACIONES

Al igual que en la estimación de la diferencia entre los parámetros de dos poblaciones se podrán realizar las siguientes pruebas de hipótesis. Pruebas de hipótesis para igualdad de medias con muestras grandes. Pruebas de hipótesis para igualdad de medias con muestras pequeñas. Pruebas de hipótesis sobre la igualdad de la proporción poblacional de dos poblaciones. PROCESO 1. Planteamiento de la hipótesis: Se deben plantear dos hipótesis: la Hipótesis Nula (Ho) que es un enunciado o afirmación que se hace sobre la relación de igualdad entre las medias de las poblaciones y la Hipótesis Alternativa (H1) que se plantea como la negación de la hipótesis nula. 2. Nivel de significancia y tipo de prueba: El nivel de significancia es el porcentaje de error que estamos resignados a cometer, es el complemento de nivel de confiabilidad, si el nivel de confiabilidad es el 95%, entonces el nivel de significancia será el 5%.


pág. 41

3. Estadístico de prueba. Para pruebas de hipótesis de diferencias entre las medias poblacionales, con poblaciones bajo la distribución normal, o de tamaño grande o con desviación poblacional conocida, el estadístico de prueba es:

( ) ( )

Para pruebas de hipótesis de diferencias entre medias poblacionales, con poblaciones bajo distribución normal, de tamaño pequeño y con la desviación estándar de la población desconocida, el estadístico de prueba es:

( ) ( )

Deberá tomarse en cuenta las consideraciones realizadas sobre el conocimiento o presencia de indicios de igualdad o desigualdad de las varianzas poblacionales, tal como se lo hizo en el acápite correspondiente a la estimación por intervalos para la diferencia de las medias poblaciones en muestras pequeñas. Para pruebas de hipótesis sobre la diferencia proporción o fracción poblacional, se asume que la distribución es normal, entonces el estadístico de prueba es:

( ) ( )

4. Valores críticos de la prueba Prueba z: ( ) Prueba t: ( ) 5. Toma de decisión:

En prueba de dos extremos: – Si no se rechaza. En caso de p-value se tiene: ( ) Si no se rechaza. Si se ha definido con anterioridad el intervalo de confianza:

Se puede establecer otra regla de decisión en función del intervalo de confiabilidad: Si el valor del parámetro poblacional está dentro del intervalo de confiabilidad, entonces se acepta la hipótesis nula, caso contrario se rechaza.

6. Conclusión de la prueba: Expresar el resultado de la prueba en términos de las características del

problema.


pág. 42

11. ANÁLISIS DE VARIANZA 11.1. INTRODUCCIÓN El Análisis de Varianza, conocido como ANOVA (ANALYSIS OF VARIANCE) es una herramienta estadística diseñada para la comparación de medias muestrales de más de dos poblaciones; además esta herramienta permite realizar inferencias acerca de la varianza de una población.

La herramienta ANOVA está diseñada específicamente para probar si dos o más poblaciones tienen la misma media; aunque el propósito de la ANOVA es comparar las medias, el proceso se fundamenta en el análisis de la variabilidad de cada una de las muestras; siendo esta la razón de su nombre, en otras palabras:

Mediante el estudio de la variabilidad que presentan las muestras (ANOVA) se pueden realizar inferencias sobre la igualdad de la medias de las poblaciones de donde se tomaron dichas muestras.

Algunos ejemplos donde se puede aplicar el Análisis de Varianza. Se trata de medir los efectos relativos en la producción de los empleados de una fábrica a los

cuales se los ha capacitado mediante tres programas: tradicional, audiovisual y con ayuda de medios informáticos.

Comparar los efectos causados por cuatro promociones mensuales en las ventas de un almacén:

muestra gratis; obsequios, descuentos, envío a domicilio.

Una cadena de restaurantes está preocupada por las excesivas quejas sobre la demora en la atención de las órdenes solicitadas en sus cuatro locales: Centro, Norte Sur y Periferia y desea saber si la demora en que incurren los empleados es la misma en los cuatro locales o en cuál de ellos la demora es diferente.

11.2. FUNDAMENTOS DEL ANOVA

El análisis de varianza está basado en una comparación de dos estimaciones diferentes de la varianza de la población total; estas estimaciones de la varianza están claramente establecidas: La primera estimación de la varianza, conocida como variación intergrupal o inter muestral está dado por la variabilidad de las medias de las muestras, en términos estadísticos se conoce como varianza entre columnas. La segunda estimación de la varianza, se la denomina varianza dentro de las columnas y está dado por la variabilidad de los datos de cada una de las muestras o grupos, es decir será una varianza intra muestral o intra grupal. Por otro lado se debe suponer: Todas las poblaciones involucradas son normales. Todas las poblaciones tiene la misma varianza. Las muestras se seleccionan independientemente.


pág. 43

11.3. PROCESO DE CÁLCULO PARA UNA SOLA VÍA Se presenta el siguiente modelo de organización de los datos:

Grupo 1 Grupo 2 Grupo 3 … Grupo k

…

…

…

… … … … …

…

Se trata de un conjunto de datos agrupados en k muestras; y cada una de las muestras dispone de un número n de datos; el número de datos u observaciones de cada una de las muestras no necesariamente tienen que ser iguales. El proceso de cálculo consta de los siguientes pasos:

1. Determinación de la media aritmética de cada una de las muestras, obteniéndose entonces:

2. Determinación de la gran media.

La gran media o media de las medias muestrales se obtiene ponderando cada una de las medias muestrales, tomando como peso el tamaño de cada una de las muestras, es decir:

3. Primera estimación de la varianza:

( ) ( ) ( ) ( )

∑ ( )

En esta expresión se tiene:

: Primera estimación de la varianza poblacional

: Tamaño de cada una de las muestras, con

: Media aritmética de cada una de las muestras, con

: Gran media : Número de muestras o grupos.

Al numerador de la primera estimación de la varianza se le conoce como la Suma de Cuadrados intergrupal o Suma de cuadrados entre grupos.


pág. 44

4. Determinación de la varianza para cada una de las muestras. A continuación se deberá calcular las varianzas de cada una de las muestras, aplicando la siguiente expresión:

∑ ( )

La varianza de cada una de las muestras permitirá la obtención de la segunda estimación de la varianza de la población.

5. Segunda estimación de la varianza poblacional

La segunda estimación de la varianza poblacional se obtiene mediante la ponderación de la varianza de cada una de las muestras, en este caso la ponderación está en función del tamaño de la muestra, el tamaño de todas las muestras y el número de muestras, es decir:

(

)

(

)

(

)

(

)

∑ (

)

∑ ( )

Al numerador de la segunda estimación de la varianza se le conoce como la Suma de Cuadrados intragrupal, Suma de cuadrados dentro de los grupos o Suma de cuadrados del error.

6. Prueba F

El estadístico de prueba para el Análisis de Varianza se conoce con el nombre de estadístico F, el mismo que compara por cociente el valor de las estimaciones de la varianza poblacional, es decir:

7. Estadístico F

El estadístico de prueba F está en función del nivel de significancia de la prueba, el grado de libertad de la primera estimación de la varianza y el grado de libertad de la segunda estimación de la varianza, entonces:

( )

Donde: : Nivel de significación de la prueba estadística asumido. Grados de libertad del numerador (Primera estimación de la varianza) Grados de libertad del denominador (Segunda estimación de la varianza)

Los valores de F se los puede tomar directamente de una tabla de distribución F o también utilizar software estadístico en la categoría de funciones.


pág. 45

11.4. PRESENTACIÓN DE RESULTADOS

Es muy común, presentar los resultados del ANOVA en una tabla que contiene la información obtenida, esta tabla tiene la siguiente estructura:

Origen de las variaciones Suma de cuadrados

Grados de libertad

Promedio de los cuadrados

F

Entre grupos

Dentro de los grupos

Total

11.5. PRUEBA DE HIPÓTESIS PARA IGUALDAD DE MEDIAS EN VARIAS POBLACIONES Básicamente el procedimiento para la prueba de hipótesis acerca de la igualdad de la media poblacional de varias muestras, es el mismo que para una o dos muestras, es decir: 1. Planteamiento de hipótesis:

Hipótesis nula:

Hipótesis alternativa:

2. Cálculo del estadístico .

3. Determinación del Valor crítico para la prueba :

Se tomará el valor de la tabla de distribución F en función del nivel de significación y los grados de libertad del numerador y denominador.

4. Toma de decisión.

Si , entonces se acepta la hipótesis nula, Si , entonces se rechaza la hipótesis nula, Si ( ), entonces se acepta la hipótesis nula.

5. Conclusión de la prueba:

Finalmente se debe expresar el resultado de la prueba traduciendo el resultado obtenido a las características del problema.

11.6. PRUEBA DE TUKEY Y PRUEBA DMS

Se conoce como diseño balanceado al evento en que todas las muestras que intervienen en el ANOVA son del mismo tamaño; si esta situación no se cumple entonces diremos que el diseño no está balanceado.


pág. 46

Por otro lado, si la prueba de hipótesis que determina igualdad de la media poblacional de varias poblaciones es rechazada; entonces será necesario establecer cuáles son las poblaciones que presentan diferente media poblacional; para esto se han diseñado las siguientes pruebas: Prueba de Tukey. Prueba de la Diferencia Mínima Significativa (DMS). Prueba de DMS alternativo para diseños no balanceado. A continuación se hará una descripción de estas pruebas: Criterio de Tukey para diseños balanceados: a. Se determina el criterio de Tukey con la siguiente expresión:

√

Donde:

Valor de la tabla de rangos estudentizada ( )

Segunda estimación de la varianza para el ANOVA.

Tamaño de las muestras (el mismo en todos los grupos).

b. Se establecen las diferencias absolutas entre las medias poblaciones para cada dos muestras y este valor se lo compara con el valor obtenido de Tukey si la diferencia es mayor entonces se concluye que esos grupos presentan la media poblacional diferente, es decir:

| |

Entonces la media poblacional del grupo no es igual a la media poblacional del grupo

Criterio de la Diferencia Mínima Significativa (DMS). a. Se determina el criterio de la Diferencia Mínima Significativa (DMS)con la siguiente expresión:

√

Donde:

Valor de la Distribución F

( )


Tamaño de las muestras (el mismo en todos los grupos).

b. Se establecen las diferencias absolutas entre las medias poblaciones para cada dos muestras y este valor se lo compara con el valor DMS, si la diferencia es mayor entonces se concluye que esos grupos presentan la media poblacional diferente, es decir:

| |



pág. 47

Criterio de la Diferencia Mínima Significativa (DMS), para diseños no balanceados. a. Para cada par de muestras se determina el criterio de la Diferencia Mínima Significativa

(DMS)con la siguiente expresión:

√*

+

Donde:

Valor de la Distribución F

( )


b. Se establecen las diferencias absolutas entre las medias poblaciones para cada dos muestras y

este valor se lo compara con el valor DMS, si la diferencia es mayor entonces se concluye que esos grupos presentan la media poblacional diferente, es decir:

| |



pág. 48

12. PRUEBAS NO PARAMÉTRICAS 12.1. INTRODUCCIÓN Las pruebas no paramétricas agrupan una serie de pruebas estadísticas que tienen como propiedad común la ausencia de supuestos o presunciones acerca de la ley de probabilidad que sigue la población de la que ha sido extraída la muestra. Por esta razón es común referirse a ellas como pruebas de distribución libre.1 Las pruebas no paramétricas reúnen las siguientes características: son más fáciles de aplicar; son aplicables a los datos jerarquizados; se pueden usar cuando dos series de observaciones provienen de distintas poblaciones; son la única alternativa cuando el tamaño de muestra es pequeño y son útiles a un nivel de significancia previamente especificado. 12.2. PRUEBA CHI CUADRADO PARA LA INDPENDENCIA DE VARIABLES Permite determinar que si dos variables, en formato de tabla de contingencia, son independientes o si estas variables están relacionadas entre sí.

1. Planteamiento de hipótesis:

Hipótesis nula:


2. Cálculo del estadístico (chi cuadrado)

∑( )

Donde: Frecuencia de eventos observados en los datos de la muestra. Frecuencia de eventos esperados en los datos de la muestra. Número de categorías, clases o muestras.

3. Determinación del Valor crítico para la prueba :

( )

El número de grados de libertad, para esta prueba: ( ) ( )

1 Clasificación de pruebas no paramétricas. Cómo aplicarlas en SPSS. Vanesa Berlanga Silvente y María José Rubio Hurtado

Universitat de Barcelona. Institut de Ciències de l’Educació


pág. 49


Si , entonces se acepta la hipótesis nula,

Si , entonces se rechaza la hipótesis nula,

Si ( ), entonces se acepta la hipótesis nula. 5. Conclusión de la prueba:

Finalmente se debe expresar el resultado de la prueba traduciendo el resultado obtenido a las características del problema.


pág. 50

13. MODELO DE REGRESIÓN Y COEFICIENTE DE CORRRELACIÓN LINEAL 13.1. INTRODUCCIÓN Dentro de la Inferencia Estadística, en muchas ocasiones, es necesario estimar la relación existente entre dos o más variables dentro de una población, como también cuantificar la cohesión que presenta la relación entre estas variables. Se citan varios ejemplos de estos problemas: Determinar en forma cuantitativa la relación que existe entre el peso y la estatura de una

persona. La relación entre los gastos de publicidad y el incremento de ventas de algún producto. El nivel socio económico de un individuo y su preparación académica. El grado de relación que existe entre el precio de ciertos productos y la cantidad disponible

para su venta.

El análisis de regresión es la determinación de una ecuación matemática que expresa la relación existente entre dos o más variables dentro de una población, a partir del análisis de muestras extraídas de dicha población.

Por otra parte, la necesidad de disponer de una calificación del grado de relación entre las variables involucradas en un problema de regresión conduce a determinar el coeficiente de correlación; es decir:

El coeficiente de correlación es una medida del grado de cohesión existente entre las variables involucradas en un problema de regresión como también una indicación del sentido (directo o inverso) de la relación existente.

Entonces, si se dispone de la información necesaria, siempre se podrá encontrar una expresión matemática que indique la relación existente entre dichas variables.

13.2. EL ANÁLISIS DE REGRESIÓN La regresión, en términos de la Estadística, consiste en determinar una expresión matemática que indique la relación existente entre dos o más variables, considerando que una de ellas es dependiente de todas las demás; en otras palabras: la relación existente entre dos o más variables donde todas ellas, excepto una, son independientes. Si la relación se presenta entre dos variables solamente diremos que se trata de una relación bivariable; cuando la relación se presenta entre tres o más variables, diremos que se trata de una relación multivariable. Independientemente del número de variables, el análisis de regresión se clasifica en:

Regresión lineal. Regresión no lineal.

Esta clasificación se debe a la tendencia de comportamiento matemático que presentan las variables cuando estas se asocian. Una forma de estimar esta tendencia consiste en observar la nube de


pág. 51

puntos que se obtiene al graficar estas variables en un sistema de coordenadas cartesianas, ubicando en el eje horizontal los valores correspondientes a la variable independiente y en el eje vertical los valores correspondientes a la variable dependiente. Obviamente esto será posible en el caso de relaciones bivariables. En el gráfico que se indica a continuación se puede observar como la asociación de variables presenta una tendencia de comportamiento lineal, es decir: se puede trazar una recta cuya distancia hasta los puntos de observación es mínima.

13.3. MODELO LINEAL BIVARIABLE Cuando se tiene un modelo de dos variables, la ecuación de mejor ajuste tiene la forma:

Donde y son los coeficientes del modelo, estos coeficientes se denominan intercepto y pendiente del modelo respectivamente; el signo del coeficiente permite determinar si la relación entre las variables es creciente o decreciente. Una vez que el modelo ha sido determinado se pueden realizar pronósticos sobre el comportamiento de las variables. 13.4. MODELO LINEAL MULTIVARIABLE Si el modelo está formado por más de dos variables, de las cuales una de ellas depende de todas las demás, se lo conoce como modelo multivariable; la ecuación del modelo multivariable tiene la siguiente estructura:

Donde , son los coeficientes del modelo, estos coeficientes se denomina intercepto y coeficientes de las variables independientes del modelo; la determinación de los coeficientes que

02468

1012

0 5 10Var

iab

le d

ep

en

die

nte

Variable independiente

Tendencia lineal

0

5

10

15

20

25

30

35

0 2 4 6 8

Var

iab

le d

ep

en

die

nte

Variable independiente

Tendencia no lineal


pág. 52

intervienen en el modelo es una tarea extensa y laboriosa, por lo que el uso de sistemas informáticos es lo más recomendado.

13.5. COEFICIENTE DE CORRELACIÓN Una vez encontrada la ecuación de regresión que mejor ajuste a los datos de las variables que intervienen en un modelo no determinístico, surge preguntas como: ¿Qué tan relacionadas se encuentran las variables?, ¿Cuál es el grado de relación que existe en las variables que intervienen en el modelo? Estas preguntas pueden ser respondidas mediante una medida estadística de la relación entre las variables, denominada correlación; se puede afirmar que:

La correlación es una medida estadística que determina el grado de relación existente entre las variables involucradas en un modelo de regresión.

El objetivo de un estudio de correlación es determinar el grado de relación existente entre un grupo de observaciones. El término correlación, literalmente hablando; significa relación mutua o recíproca. Características del coeficiente de correlación El valor de se encuentra en el intervalo que va entre - 1.00 y +1.00, es decir:

Una relación positiva ( ) entre dos variables significa que los valores altos de una variable forman pares con los valores altos de la otra, y que los valores bajos de la una variable forman pares con los valores bajos de la otra.

Una relación negativa ( ) significa que valores altos de una variable forman pares con

valores bajos de la otra.

Una relación cero ( )significa que algunos valores altos forman pares con valores bajos y otros, con valores altos.

13.6. EL COEFICIENTE DE DETERMINACIÓN Una medida muy importante de la correlación se denomina Coeficiente de Determinación, el mismo que se interpreta como el porcentaje de variación explicada que existe en el modelo.

Al coeficiente de determinación se lo puede interpretar como: La variación de una variable que es estadísticamente “explicada” o considerada como tal, por la variación en la otra variable.

El coeficiente de determinación 2r es un valor entre:


pág. 53

13.7. VERIFICACIÓN DE LAS VARIABLES EN EL MODELO

Mediante prueba de hipótesis se puede determinar si verdaderamente las variables que constan en la ecuación pertenecen al modelo, el proceso de prueba de hipótesis es el siguiente: Análisis de Varianza para todas las variables: 1. Planteamiento de hipótesis:

Hipótesis nula:


2. Cálculo del estadístico .

3. Determinación del Valor crítico para la prueba : Se tomará el valor de la tabla de distribución F en función del nivel de significación y los grados de libertad del numerador y denominador.


Si , entonces se acepta la hipótesis nula,

Si , entonces se rechaza la hipótesis nula,

Si ( ), entonces se acepta la hipótesis nula. Pruebas individuales para cada variable: 1. Planteamiento de hipótesis:

Hipótesis nula:


2. Estadístico de prueba:

3. Decisión

Si ( ), entonces se acepta la hipótesis nula.


pág. 54

14. MODELO NO LINEAL Y EXPONENCIAL

14.1. MODELO NO LINEAL El modelo no lineal bivariable corresponde a la siguiente estructura matemática:

Es decir: una función polinómica de grado . Por otro lado, el modelo no lineal también puede ser:

Modelo potencial:

Modelo exponencial: Modelo logarítmico: ( )

Donde: Variable dependiente. Coeficiente del modelo, intercepto. Coeficientes del modelo, donde . Variable independiente. Los coeficientes del modelo se los determina mediante el método de mínimos cuadrados; para decidir cuál es el modelo más adecuado es conveniente analizar el gráfico de dispersión. Determinar los coeficientes en forma manual es una tarea muy laboriosa por lo que será necesario el uso de paquetes estadísticos. El programa SPSS presenta la opción de encontrar varios modelos en forma simultánea lo que permite escoger el modelo más adecuado, es decir el que mejor se ajusta a los datos.

14.2. MODELO EXPONENCIAL O DE POISSON.

Es un modelo que resulta especialmente adecuado para modelar valores enteros no negativos, especialmente cuando la frecuencia de ocurrencia es baja. En este modelo, las variables de conteo o recuento se definen como el número de sucesos o eventos que ocurren en una misma unidad de observación en un intervalo espacial o temporal definido. Así, por ejemplo, el número de artículos adquiridos por una tienda deportiva durante un año es un conteo; en los conteos o recuentos el valor 0 es bastante habitual. A partir de esta definición propuesta por Lindsey (1995b), se derivan dos características principales de una variable de recuento, lo cual la diferencia de una variable cuantitativa continua, estas son su naturaleza discreta y no negativa.


pág. 55

14.3. FORMULACIÓN DEL MODELO

Donde: Variable dependiente. Constante del modelo, intercepto. Coeficientes del modelo, donde . Variable independiente. 14.4. COEFICIENTES DEL MODELO Los coeficientes del modelo deben determinarse mediante el uso de algún paquete informático para cálculo estadístico, puede ser el SPSS u otro paquete. 14.5. MODELO DE REGRESIÓN LOGÍSTICA Los modelos de regresión logística son modelos estadísticos en los que se desea conocer la relación entre: Una variable dependiente cualitativa, dicotómica (regresión logística binaria o binomial) o con

más de dos valores (regresión logística multinomial). Una o más variables explicativas independientes, o covariables, ya sean cualitativas o

cuantitativas, siendo la ecuación inicial del modelo de tipo exponencial, si bien su transformación logarítmica (logit) permite su uso como una función lineal.

La regresión logística es un instrumento estadístico de análisis bivariado o multivariado, de uso tanto explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable dependiente dicotómica (un atributo cuya ausencia o presencia se ha puntuado con los valores cero y uno, respectivamente) y un conjunto de m variables predictoras o independientes, que pueden ser cuantitativas (que se denominan covariables o covariadas) o categóricas. En este último caso, se requiere que sean transformadas en variables ficticias o simuladas (“dummy”). 2. El propósito del análisis es:

Predecir la probabilidad de que a alguien le ocurra cierto evento: por ejemplo, “estar desempleado” =1 o “no estarlo” = 0; “ser pobre” = 1 o “no ser pobre” = 0; “graduarse como sociólogo” =1 o “no graduarse” = 0;

14.5.1. ECUACIÓN DEL MODELO LOGÍSTICO La ecuación del modelo de regresión logística es:

( )

2 Regresión logística CEQC


pág. 56

Donde: ( ) Probabilidad de que suceda dado que ha sucedido. Intercepto o constante del modelo Coeficiente de la variable independiente o covariable. La variable independiente puede ser nominal dicotómica o continua, si la variable independiente está expresada en más de dos valores nominales, será necesario categorizarla en n-1 grupos. El modelo regresión logística también puede presentar más de una variable independiente, es decir:

( )

Como se ve, las covariables pueden ser cuantitativas o cualitativas; las covariables cualitativas deben ser dicotómicas, tomando valores 0 para su ausencia y 1 para su presencia (esta codificación es importante, ya que cualquier otra codificación provocaría modificaciones en la interpretación del modelo). 14.5.2. OBTENCIÓN DE LOS COEFICIENTES Los coeficientes del modelo logístico se obtienen por métodos diferentes al de mínimos cuadrados; su cálculo manual es excesivamente laborioso por lo que será necesaria la utilización de algún paquete estadístico. 14.5.3. EVALUACIÓN DEL MODELO La evaluación global del modelo se puede efectuar mediante los coeficientes de determinación de Cox y Snell, y el de Nagelkerke, los valores de estos coeficientes de determinación se pueden ver en la tabla de “Resumen del modelo” del SPSS. Ambos coeficientes toman valores entre 0 y 1, y su interpretación es similar a la interpretación del coeficiente de determinación del modelo de regresión lineal, es decir, cuanto más cercanos están a 1, mejor es el modelo. 14.5.4. ESTIMACIÓN DE PROBABILIDAD

Una vez que se ha obtenido los coeficientes del modelo es muy sencillo estimar la probabilidad cuando los valores de las variables regresoras asuman diferentes valores; para hacer esto, es suficiente con sustituir los valores en el modelo. Si la probabilidad de que el sujeto este encuadrado en esa categoría es mayor que 0,5 se le asigna, si es menor se le asigna a la otra categoría.

MANUAL DE USUARIO

SEGUNDA SECCIÓN


ESTADÍSTICA CON SPSS MANUAL DE USUARIO SPSS

pág. 57

MANUAL DE USUARIO DEL PROGRAMA SPSS

1. EL PROGRAMA SPSS ............................................................................................................ 59

1.1. INTRODUCCIÓN ..................................................................................................................... 59

1.2. INGRESO AL SPSS ................................................................................................................... 59

1.3. DESCRIPCIÓN DEL ESCRITORIO DEL SPSS .............................................................................. 60

1.4. CONFIGURACIÓN DEL SPSS ................................................................................................... 65

1.5. VISTAS DEL SPSS .................................................................................................................... 66

1.6. VARIABLES EN SPSS. ............................................................................................................. 67

1.7. ETIQUETAS EN LAS VARIABLES .............................................................................................. 69

1.8. CUADROS DE DIÁLOGO ......................................................................................................... 69

1.9. CREACIÓN DE VARIABLES ...................................................................................................... 69

1.10. RECODIFICACIÓN DE DATOS .................................................................................................. 70

1.11. ETIQUETAS DE VALOR ........................................................................................................... 73

1.12. GRABAR ARCHIVOS EN SPSS .................................................................................................. 73

2. ORGANIZACIÓN DE DATOS .................................................................................................. 74

2.1. TABLAS DE FRECUENCIA SIMPLE ........................................................................................... 74

2.2. TABLAS DE CONTINGENCIA ................................................................................................... 75

2.3. TABLAS DE DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS ............................................. 77

2.4. PONDERACIÓN DE DATOS ..................................................................................................... 79

2.5. TABLAS PERSONALIZADAS ..................................................................................................... 80

3. ESTADÍSTICA DESCRIPTIVA. ................................................................................................. 82

3.1. PROCESO FRECUENCIAS ........................................................................................................ 82

3.2. PROCESO “DESCRIPTIVOS” .................................................................................................... 83

3.3. PROCESO “MEDIAS” .............................................................................................................. 84

4.1. PROCESO “EXPLORAR” .......................................................................................................... 85

4. GRAFICOS ESTADÍSTICOS ..................................................................................................... 90

5. PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD. ........................................................ 91

5.1. TABLAS DE CONTINGENCIA ................................................................................................... 91

5.2. DISTRIBUCIÓN BINOMIAL ...................................................................................................... 92

5.3. DISTRIBUCIÓN NORMAL ........................................................................................................ 93

6. MUESTREO ESTADÍSTICO ..................................................................................................... 94

6.1. MUESTREO ALEATORIO ......................................................................................................... 94

6.2. MUESTREO SELECCIONADO .................................................................................................. 95

6.3. MUESTREO ESTRATIFICADO .................................................................................................. 96

6.4. ELABORACIÓN DEL PLAN DE MUESTREO .............................................................................. 96

6.5. MUESTREO SISTEMÁTICO ...................................................................................................... 98


pág. 58

7. ESTIMACIÓN DE LA MEDIA POBLACIONAL. ......................................................................... 101

7.1. PROCESO EXPLORAR............................................................................................................ 101

7.2. PROCESO PRUEBA T PARA UNA MUESTRA ......................................................................... 102

8. PRUEBA DE HIPÓTESIS SOBRE LA MEDIA POBLACIONAL ...................................................... 103

9. INFERENCIA ESTADÍSTICA EN DOS POBLACIONES ................................................................ 104

9.1. INFERENCIA EN DOS POBLACIONES INDEPENDIENTES ....................................................... 104

9.2. INFERENCIA EN MUESTRAS RELACIONADAS ....................................................................... 105

10. PRUEBA DE LA MEDIA POBLACIONAL EN VARIAS POBLACIONES .......................................... 107

11. PRUEBA CHI CUADRADO .................................................................................................... 108

12. MODELO DE REGRESIÓN. ................................................................................................... 110

12.1. OBTENCIÓN DEL DIAGRAMA DE DISPERSIÓN ..................................................................... 110

12.2. PROCESO REGRESIÓN LINEAL .............................................................................................. 112

12.3. PROCESO ESTIMACIÓN CURVILÍNEA ................................................................................... 114

12.4. PROCESO REGRESIÓN LOGÍSTICA ........................................................................................ 115

12.5. PROCESO CORRELACIÓN ..................................................................................................... 117


pág. 59

1. EL PROGRAMA SPSS 1.1. INTRODUCCIÓN El SPSS que corresponde a Stadistical Package for the Social Science, es el programa de software de cálculo estadístico de mayor difusión en el mundo informático, los derechos de autor de este programa corresponden a la Firma IBM. El programa SPSS es muy amigable con el usuario, gracias a su diseño e implementación bajo la plataforma Windows, su aprendizaje es rápido y sencillo; es similar al manejo de las Hojas de Cálculo, y se pueden migrar archivos de datos desde la Hoja electrónica hasta el programa. De hecho se puede hacer cálculo estadístico en la Hoja Excel, pues en la Hoja de cálculo se puede obtener gráficos estadísticos, parámetros y medidas estadísticas mediante funciones electrónicas y la herramienta Análisis de Datos, se puede también determinar estadísticos en bases de datos mediante las funciones BD como también con la herramienta de tablas dinámicas; sin dejar de lado la herramienta gráfica para el modelo de regresión. Si bien la hoja de cálculo Excel puede hacer todo el trabajo estadístico mencionado en el párrafo anterior, en situaciones complejas, por ejemplo en la estadística multivariable, el trabajo se torna laborioso. 1.2. INGRESO AL SPSS Al activarse el programa se despliega la siguiente pantalla:

Esta es la nueva presentación del programa SPSS en su versión 24; la misma que difiere con versiones anteriores, sin embargo se puede trabajar con versiones anteriores.


pág. 60

Para empezar con un trabajo nuevo el usuario deberá activar la opción Nuevo conjunto de datos, al dar un clic sobre este botón se desplegará la ventana que se indica:

Seguramente el usuario notará la similitud de esta pantalla con la de la Hoja electrónica de cálculo Excel; por otro lado, el programa SPSS se encuentra desarrollado bajo el entorno WINDOWS, entonces dispondrá de barras, menús desplegables, tarjetas y cuadros de diálogo y demás elementos de esta plataforma informática. 1.3. DESCRIPCIÓN DEL ESCRITORIO DEL SPSS Barra de identificación En la parte superior se encuentra la barra de identificación del programa y del archivo en ejecución: En el extremo izquierdo de la barra se encuentra el ícono del programa. Junto con el ícono del programa se encuentra la leyenda que contiene el nombre del archivo,

por defecto y hasta que se registre el nombre del archivo aparecerá “Sin título 1”; En el extremo derecho de esta barra aparecerán finalmente los botones que permiten la

manipulación de la ventana, es decir: Minimizar, Restaurar y Salir del programa. En cuanto a los botones del extremo derecho: el primero de estos botones (Minimizar) reduce la pantalla del escritorio hasta su mínima expresión y, en forma de ícono, lo ubica en la barra de tareas; el segundo botón, denominado Restaurar, permite modificar el tamaño y la posición de la pantalla en cualquier punto de escritorio. Para modificar el tamaño se debe colocar el cursor en los bordes verticales u horizontales de la ventana y con el movimiento del cursor del mouse se puede variar el tamaño de la misma, tanto en sentido vertical como horizontal; también podrá modificarse el tamaño en los dos sentidos en forma simultánea al ubicar el puntero del mouse en las esquinas de la pantalla, observe como el cursor cambia de forma.


pág. 61

Estos botones que permiten modificar la posición y el tamaño de la ventana resultan ser de gran utilidad para disponer en el escritorio de más de un programa activo, permitiendo sobre todo el control visual de la información que puede provenir de otros programas. Menú Principal En la segunda barra se encuentran las opciones del Menú Principal, estas son: Archivo, Edición, Ver, Datos, Transformar, Analizar, Marketing directo, Gráficos, Unidades, Ventana y Ayuda. A continuación se presenta una descripción ligera de estas opciones del Menú principal: Archivo: Es esta opción se encuentran agrupadas las operaciones que trabajan con los archivos:

Abrir, Guardar, Guardar como, Imprimir etc. Además, se encuentran opciones de conexión con base de datos y repositorios digitales ubicados en la web.

Edición: En esta opción el usuario encuentra las operaciones de Cortar, Copiar, Pegar, Buscar Reemplazar etc.; además, como opciones particulares de este programa, se encuentran las opciones para insertar variables e insertar casos.

Ver: En esta opción se encuentran los comandos que permiten personalizar la hoja de trabajo del programa mediante la personalización de barras, la selección del tipo de fuente, la activación/desactivación de la cuadrícula, la presentación de la lista de variables etc.

Datos: En esta opción el usuario podrá encontrar los comandos que permiten manipular la información, tales como: ordenar casos y variables, transponer tablas, fundir archivos, seleccionar casos, etc.

Transformar: Aquí se encuentran comandos y herramientas que permiten crear nuevas variables: sea mediante alguna opción de cálculo, por selección o recodificación; en esta opción se destaca la herramienta: Calcular variables que dispone de una calculadora que genera nuevas variables, sea por cálculo directo entre las variables existentes o mediante funciones de cálculo estadístico y de probabilidad.

Analizar: Es la opción de mayor uso en el programa SPSS, aquí se encuentran las herramientas para el análisis estadístico tanto para Estadística Descriptiva como Estadística Inferencial; dispone además de herramientas para el Análisis de regresión y de Series de tiempo.

Gráficos: Con la información almacenada en el programa, el SPSS genera gráficos estáticos,

como resultado de procesos estadísticos, tal como el modelo de regresión, genera gráficos iterativos o dinámicos.

Cada una de estas opciones del Menú principal presentan a su vez varias opciones que se encuentran registradas en su respectiva tarjeta de menú , las mismas que despliegan una vez que se haya activado la Opción principal. Barra de íconos La tercera barra del programa presenta los íconos universales de la plataforma Windows (Abrir, Almacenar, Imprimir, etc.) junto con otros iconos que representan las herramientas propias del programa; al acercar el puntero del mouse a cualquiera de los íconos el sistema mostrará un pequeño rótulo de identificación/descripción del mismo.


pág. 62

Barra de registro de la información La cuarta barra del programa funciona de la misma manera que la barra de fórmulas de la Hoja de cálculo Excel, en esta barra se registra en forma dinámica la información almacenada en cada una de las celdas que conforman la matriz rectangular; está dividida en dos regiones, en la región izquierda aparecen las coordenadas de ubicación de la celda activa y en la derecha aparece la información registrada y almacenada en dicha celda. El usuario podrá personalizar estas barras, es decir: podrá agregar nuevas herramientas o desactivar las que no sean de utilidad frecuente. Matriz de Datos

El área denominada Matriz de datos es el sector donde se almacena la información, en esta Hoja se registran los datos para el análisis estadístico; esta hoja de cálculo es similar a la del programa Excel, aquí las filas toman el nombre de Casos y las columnas toman el nombre de Variables. Una celda queda perfectamente identificada por su columna (Variable) y por su fila (Caso); por defecto, las columnas o variables se identifican con Var, mientras que las filas o casos se identifican con la secuencia numérica de los números naturales: 1, 2, 3, etc. Como es de suponer, los datos o casos de una misma variable se almacenarán en una sola columna; el programa recepta datos de tipo numérico de texto o cadena, de fecha, de moneda, etc. No está permitido ingresar en una misma variable diversos tipos de datos; por ejemplo no podrá ingresar información numérica en un caso e información de texto en otro caso; el programa no registrará el segundo caso. Los datos ingresan al programa de las siguientes formas:


pág. 63

1. Vía directa por medio del teclado.

El usuario ingresa cada uno de los datos por medio del teclado; deberá también ingresar las características de la variable; se recomienda utilizar el teclado numérico.

Tome en cuenta además las flechas direccionales para movilizarse a través de esta ventana; hacia

arriba, abajo, izquierda o derecha; una vez que ha ingresado la información en una celda, proceda a presionar la tecla Enter.

Por defecto, si el usuario no ha indicado las características de las variables, el programa asumirá

que se trata de una variable numérica con dos decimales. Cuando se ingresan números, al igual que en el Excel, el valor ingresado quedará alineado al

margen derecho de la celda.

Cuando se ingresan textos, al igual que en el Excel, el valor ingresado quedará alineado al margen izquierdo de la celda.

Al ingresar textos si aún no se ha indicado las características de la variable, el programa asume que se trata de variable de cadena.

La situación cambia el momento en que se ingresa datos en formato fecha; si aún no se han indicado las características de la variable, el programa asumirá como variable de cadena.

Cuando se trata del formato punto o coma, para separar decimales y millares, el usuario deberá

previamente definir las características de las variables.

Las herramientas copiar y pegar funcionan de la misma forma que en todos los programas, deberá primero definir las celdas que quiere copiar, activar la herramienta Copiar y luego ubicar el lugar donde se va a colocar los valores a copiar; en ese lugar deberá activar la herramienta Pegar. Recuerde que copiar y pegar se encuentran listos al dar clic en el botón derecho del mouse.

Para ubicar al cursor en una celda en particular el usuario

deberá desarrollar el proceso: Editar/Ir al caso; entonces el programa devolverá un cuadro de diálogo en el cual el usuario deberá ingresar el número del caso (fila) o la el número de la variable (columna); podrá escribir la información o en su defecto podrá utilizar las flechas direccionales que permiten llegar al caso (filas) deseado; y al tratarse de las variables (columnas) aparecerá una lista que contiene las variables almacenadas en la base de datos; finalmente cuando el usuario ha ingresado esta información el sistema ubicará al cursor en el caso y variable indicados.

2. Tomando un archivo de SPSS existente

Para abrir un archivo previamente almacenado en el disco o en una unidad exterior, el usuario deberá proceder de la siguiente manera:


pág. 64

Si se encuentra dentro del programa SPSS deberá desarrollar el proceso Archivo/Abrir/Datos, con lo cual se desplegará la siguiente ventana:

Una vez que se ha ubicado el archivo deseado, será suficiente dar un sobre el botón Abrir, con lo cual el archivo seleccionado se desplegará en el escritorio del SPSS. Como alternativa el usuario podrá navegar hacia el sitio donde se encuentra el archivo y proceder a dar doble clic sobre el mismo.

3. Importando los datos de un archivo externo. El SPSS permite trabajar con archivos importados de otros programas, siempre y cuando los datos se encuentren almacenados en formato de tablas, entonces podrá importar archivos de Excel, de gestores de bases de datos como el Access, o inclusive de un Block de notas. Para importar archivos en otro formato el usuario deberá partir del interior del programa y desarrollar el proceso para recuperar un archivo, es decir: Archivo/Abrir/Datos, con lo cual se desplegará la ventana que se indica en esta página; entonces ahora el usuario deberá navegar hasta el lugar donde se encuentre el archivo de Excel o de formato tabla; debe tomar en cuenta que previamente deberá seleccionar el tipo de archivo, para lo cual es necesario abrir la flecha de despliegue colocada en el lado derecho del campo Archivos de tipo. Una vez que ha ubicado al archivo de Excel de donde desea importar la información al dar clic en aceptar se desplegará la siguiente ventana:


pág. 65

A continuación deberá seleccionar la Hoja de trabajo del libro de Excel donde se encuentran los datos que desea importar al SPSS, finalmente, la dar clic sobre el botón Aceptar se desplegará sobre el escritorio del SPSS los datos requeridos para el análisis.

1.4. CONFIGURACIÓN DEL SPSS Para configurar las diferentes características del programa SPSS es necesario desarrollar el proceso: Editar/Opciones, con lo cual se desplegará en el escritorio la siguiente ventana:

A continuación se indica algunas características para la configuración del programa:


pág. 66

En la pestaña General el usuario podrá entre otras cosas indicar por ejemplo la forma de salida de las variables en los cuadros de diálogo, el uso de notación científica para valores numéricos pequeños, la unidad de medida, etc.

Una configuración muy importante es el idioma, para esto el usuario deberá activar la pestaña

Idioma y proceder a seleccionar el idioma, tanto para la salida como también para la interfaz del usuario.

En la pestaña Visor el usuario podrá modificar las características que tiene la hoja de resultados

en cuanto se refiere a su aparición, tipo y tamaño de fuente, etc.

En la pestaña Datos se encuentran las opciones para las operaciones de cálculo, el ancho de columna y el número de decimales, la forma en que se presenta el formato años, etc. Aquí también se puede configurar la Vista de variables.

En la pestaña Moneda se podrá configurar las características personalizadas para la variable Moneda sobre todo lo que tiene que ver con al símbolo y su ubicación en el valor.

1.5. VISTAS DEL SPSS El programa SPSS presenta varias vistas de trabajo, las mismas que se irán desplegando conforme se desarrolle el mismo; inicialmente el SPSS presenta dos vistas: Vista de datos, Vista de variables. Más adelante, el usuario podrá verificar la presencia de las siguientes ventanas:

Vista de resultados. Editor de tablas. Editor de gráficos. El usuario puede acceder a estas Vistas al dar un clic sobre los botones correspondientes que se encuentran en la barra inferior de escritorio del programa; al activar estos botones el usuario podrá verificar las semejanzas y diferencias de estas ventanas: Vista de datos En esta hoja se almacenan los datos para el análisis estadístico, las filas de la Hoja se denominan CASOS y las columnas se denominan VARIABLES; en esta Vista las casos (filas) disponen de una numeración natural, mientras que las columnas tiene en nombre VAR; una vez que se ingrese el nombre de las variables, este quedará registrado en el inicio de cada columna.


pág. 67

1.6. VARIABLES EN SPSS. Al dar un clic sobre el botón de Vistas de variables se desplegará una Hoja similar a la anterior, en esta hoja deberán ingresarse el nombre y demás características de las variable estadísticas que van a intervenir en el análisis.

El programa SPSS realiza el análisis estadístico con diferentes tipos de variables: Variable tipo Numérico.- Representada por números, tienen preestablecido un ancho de campo de 8 caracteres y dos decimales; el usuario podrá establecer un ancho de campo y un número de decimales diferente. Cuando ingresa un dato al que se ha asignado el tipo Numérico, se presenta las siguientes características: El valor se registra en el extremo derecho. Separa a los decimales de los enteros con una coma o con un punto dependiendo de la

configuración de la máquina. Si el número es decimal, menor de 1, por ejemplo: 0,30, el programa registra ,30. Si el número tiene más de 3 cifras enteras, por ejemplo 1245 el programa ingresa 1245,00.

Variable tipo Punto.- Representada por números, tienen preestablecido un ancho de campo de 8 caracteres y dos decimales; el usuario podrá establecer un ancho de campo y un número de decimales diferente. Cuando ingresa un dato al que se ha asignado el tipo Punto se presenta las siguientes características: El valor se registra en el extremo derecho. Separa a los decimales de los enteros con una coma o con un punto dependiendo de la

configuración de la máquina. Si el número es decimal, menor de 1, por ejemplo: 0,30, el programa registra ,30. Si el número tiene más de 3 cifras enteras, por ejemplo: 1245 el programa ingresa 1.245,00.


pág. 68

Variable tipo Coma.- Representada por números, tienen preestablecido un ancho de campo de 8 caracteres y dos decimales; el usuario podrá establecer un ancho de campo y un número de decimales diferente. Cuando ingresa un dato al que se ha asignado el tipo Coma se presenta las siguientes características: El valor se registra en el extremo derecho. Separa a los decimales de los enteros con un punto. Si el número es decimal, menor de 1, por ejemplo: 0.30, el programa registra .30. Si el número tiene más de 3 cifras enteras, por ejemplo, 1245 el programa ingresa 1,245.00.

Variable tipo Notación Científica.- Representada por números, tienen preestablecido un ancho de campo de 8 caracteres y dos decimales; el usuario podrá establecer un ancho de campo y un número de decimales diferente. Cuando ingresa un dato al que se ha asignado el tipo Notación científica, el programa convierte al número al formato 0,00E±001. Variable tipo Fecha.- Representada por números, tienen preestablecido un ancho de campo de 9 caracteres sin decimales; cuando ingresa un dato al que se ha asignado el tipo Fecha, el programa devuelve la fecha en formato previamente establecido; se puede cambiar el formato al dar un clic en la celda Fecha de la columna Tipo en la hoja de variables. Variable tipo Dólar.- Representada por números, tienen preestablecido un ancho de campo de 8 caracteres sin decimales; cuando ingresa un dato al que se ha asignado el tipo Dólar, el programa devuelve el número con el prefijo $. Variable tipo Moneda personalizada.- Representada por números, tienen preestablecido un ancho de campo de 8 caracteres sin decimales; cuando ingresa un dato al que se ha asignado el tipo Moneda personalizada, el programa devuelve el número con el prefijo o sufijo previamente establecido (ejemplo: ptas., USD, euros, etc.) para esto el usuario deberá previamente personalizar el formato moneda, mediante el proceso: Editar/Opciones/Moneda. Variable tipo Cadena.- Representada por letras, números o una combinación de letras y números; se las conoce también como variables alfanuméricas y presentan las siguientes características: El valor se registra en el extremo izquierdo. No se puede hacer ningún cálculo estadístico, aparte de contarlos. Debe definirse previamente el ancho del campo, capaz que permita alojar a todos los caracteres. Se establece una diferencia de registros entre mayúsculas y minúsculas. Variable tipo Número restringido.- Representada por números cuyos valores están restringidos para enteros no negativos. Los valores aparecen con los ceros iniciales llenando el ancho máximo de la variable.


pág. 69

1.7. ETIQUETAS EN LAS VARIABLES En la vista de Variables existe una columna en la cual el usuario podrá escribir un texto breve que describa a la variable, esta información será de utilidad para la generación de tablas y gráficos en los cuales se utilizará la información registrada en la etiqueta en lugar de la variable. 1.8. CUADROS DE DIÁLOGO El programa SPSS presenta los cuadros de diálogo que permiten al usuario escoger las variables que intervienen en el análisis estadístico; los cuadros de diálogo presentan a todas la variables que conforman la base de datos, en esa lista se puede apreciar el nombre de las variables precedidas por un ícono que identifica a la variable como variable de cadena, nominal y de medición; tal como se indica en la siguiente ventana:

El usuario deberá trasladar las variables involucradas en el análisis al recuadro de la derecha, utilizando la flecha direccional; podrá trasladar más de una variable, como también regresarlas a su sitio en el caso requerido.

1.9. CREACIÓN DE VARIABLES El programa SPSS dispone de una herramienta que permite crear nuevas variables a partir de las variables existentes; estas variables se pueden crear utilizando una calculadora virtual que se encuentra dentro del programa. El proceso para acceder a la calculadora virtual es: Transformar/Calcular variable; entonces, realizado el mismo, aparecerá la siguiente ventana:


pág. 70

Para crear una nueva variable el usuario deberá desarrollar el siguiente procedimiento: a. Ingresar un nombre en el recuadro variable destino; entonces inmediatamente se activará el

botón Tipo y etiqueta, allí el usuario podrá seleccionar el tipo de la nueva variable como también la etiqueta asignada a la misma.

b. Ingresar la expresión numérica con la cual se determinarán los valores de la variable creada,

para esto el usuario deberá auxiliarse de las variables que se encuentran en el recuadro de la izquierda, como también de los botones de la calculadora virtual ubicada en el centro de la ventana desplegada.

c. En la calculadora virtual aparece, en el recuadro derecho, una lista de funciones, similar a las funciones de la hoja electrónica Excel; el usuario podrá utilizar estas funciones utilizando como argumentos de las mismas valores numéricos o valores las variables almacenadas en la base de datos.

1.10. RECODIFICACIÓN DE DATOS En SPSS se conoce como recodificar al proceso de asignación de un valor numérico al valor de una variables de carácter cualitativo que previamente ha sido almacenada en el programa; por ejemplo asignar 1 al valor masculino y 2 al valor femenino en el caso de la variable sexo; o también asignar un código al valor de la variable si este se encuentra dentro de un intervalo previamente establecido.


pág. 71

El programa SPSS presenta dos modalidades de recodificación: Recodificar en la misma variable. Recodificar en distinta variable. Ambas opciones se encuentran dentro de la opción Transformar en el Menú principal. La diferencia entre estados modalidades radica en que en la opción Recodificar en las mismas variables el programa cambia los valores originales por los códigos establecidos, perdiéndose así la variable original, mientras que la opción Recodificar en distintas variables el programa crea una nueva variable en la cual registra los códigos establecidos; de esta manera los valores originales se mantienen en su contenido y ubicación. Al tomar la modalidad Recodificar en las mismas variables se presentan las siguientes ventanas:

Ingrese la variable a recodificar y luego debe activar el botón Valor antiguos y nuevos y se desplegará la siguiente ventana:


pág. 72

En esta ventana deberá registrarse el valor antiguo y el valor nuevo, los cambios pueden hacerse para valores puntuales o dentro de un rango o intervalo; siempre y cuando la variable en análisis sea cuantitativa. Una vez registrados los códigos el usuario deberá dar clic en el botón continuar, y regresar a la ventana anterior donde finalmente deberá dar un clic en el botón Aceptar.

Al tomar Recodificar en distintas variables se despliegan las siguientes ventanas:

A diferencia del proceso anterior, ahora aparece un campo adicional en el cual se podrá el nombre de la variable resultado, su etiqueta y el botón para cambiar la variable original por la variable codificada; finalmente se debe dar un clic en el botón Valores antiguos y nuevos para trasladar el sistema a la siguiente ventana:

En esta ventana el usuario deberá ingresar el valor y su código, este recodificación puede ser puntual, por rango o en intervalo; siempre y cuando sea variable cuantitativa; al finalizar deberá dar un clic en Continuar para regresar a la ventana anterior en la cual deberá dar un clic en el botón Aceptar.


pág. 73

1.11. ETIQUETAS DE VALOR A los valores asignados como códigos se les debe ahora asignar su etiqueta de identificación, para esto el usuario deberá, partiendo de la Vista de variables, activar la columna Valores con lo cual se desplegará la siguiente ventana:

Aquí el usuario deberá ingresar el valor asignado como código y su etiqueta correspondiente, luego dar clic en el botón Añadir, con lo cual la etiqueta quedará almacenada en el sistema, al finalizar deberá dar clic en el botón Aceptar. 1.12. GRABAR ARCHIVOS EN SPSS Para almacenar en forma permanente, el usuario deberá dar un clic en el ícono de almacenamiento; si es primera vez entonces se desplegará la ventana característica de Guardar como; en la cual el usuario deberá ingresar el nombre del archivo y el lugar donde va a almacenarlo. El programa SPSS genera dos tipos de archivos: Archivos.sav: Son los que almacenan los datos que han sido utilizados en el proceso estadístico. Archivos.spv. Son los archivos que almacenan los resultados del proceso estadístico que realiza

el SPSS, es decir almacenan la información de la ventana Resultados. Los archivos indicados son independientes y se los puede almacenar en forma individual con el nombre y lugar asignado por el usuario. Estaos archivos podrán ser utilizados posteriormente cuando el usuario los necesita, para esto será suficiente acceder a los mismos y dar doble clic sobre el nombre; inmediatamente el sistema abrirá el programa SPSS y mostrará en el escritorio la hojas de datos o la hoja de variables.


pág. 74

2. ORGANIZACIÓN DE DATOS Una vez que los datos han sido recolectados, es necesario organizarlos, la herramienta más eficaz para ordenar los datos son las tablas de frecuencia; el programa SPSS organiza los datos de varias maneras: 2.1. TABLAS DE FRECUENCIA SIMPLE El programa SPSS puede organizar los datos en una tabla de frecuencia simple, para lo cual el usuario deberá realizar el proceso: Analizar/Estadísticos descriptivos/Frecuencias, entonces el programa activará el siguiente cuadro de diálogo:

En el recuadro de la izquierda el usuario podrá observar el grupo de variables, cualitativas y cuantitativas, que conforman la base de datos, cada una de estas variables dispone de un ícono de identificación del tipo de variable; tal como se había indicado, las variables que intervienen en el proceso estadístico actual deben ser trasladadas virtualmente al campo denominado Variables; también podrá observar que la casilla Mostrar tablas de frecuencias, por defecto, se encuentra activa.

Siempre se podrá acompañar a la tabla de frecuencias de un gráfico estadístico, para lo cual el usuario deberá dar un clic sobre el botón Gráficos, después de esto el programa desplegará la ventana adjunta. En este cuadro de diálogo el usuario deberá indicar el tipo de gráfico que desea obtener, por defecto está activa la opción ninguno; los tipos de gráficos que dispone el usuario son: Gráficos de barras, Gráficos circulares e Histogramas. En forma particular, al activar el botón Histograma se activará la casilla Mostrar curva normal en el Histograma.


pág. 75

A continuación se expone el resultado del proceso estadístico que el programa realiza al tomar la Variable Gerencia:

Gerencia que administra el contrato



Válido Gerencia Comercial 5 5,56 5,56 5,56

Gerencia de Operaciones 19 21,11 21,11 26,67

Gerencia Técnica de Infraestructura 66 73,33 73,33 100,00

Total 90 100,00 100,00

La tabla resultado presenta 5 columnas, en las cuales se establece los diferentes valores que toma la variable Gerencia, la Frecuencia absoluta (Frecuencia), la Frecuencia relativa (Porcentaje) y la Frecuencia relativa acumulada (Porcentaje acumulado); en cuanto a la columna Porcentaje válido es un control interno que realiza el programa SPSS para verificar que toda la información ha sido procesada y que no existen valores ocultos ni valores perdidos.

El gráfico obtenido puede ser editado y personalizado por el usuario, para lo cual deberá, en la ventana de resultados, dar doble clic sobre el mismo; inmediatamente se desplegará la ventana del menú de opciones de edición de gráficos; podrá agregar, cambiar títulos, rótulos, leyendas, colores, proyecciones en tres dimensiones, sombras, etc.

2.2. TABLAS DE CONTINGENCIA Conocidas también como tablas de doble entrada o tablas bivariables, permite la organización de la información de varias variables, generalmente dos, sin embargo se puede introducir más variables que actúan como capas superpuestas.


pág. 76

Para obtener una tabla de contingencia, el usuario deberá desarrollar el proceso: Analizar/Estadísticos descriptivos/Tablas cruzadas, entonces el programa desplegará la siguiente ventana:

En esta ventana el usuario podrá observar, en el recuadro izquierdo, la lista de variables (cualitativas y cuantitativas) que conforman la base de datos; deberá tomar la variable que se ubicará en las filas de la tabla como también la variable que se ubicará en las columnas. Puede ocurrir que se tomen variables para el campo filas como también variables para el campo columnas; entonces el programa entregará tablas bivariables resultado. Se pueden añadir variables a la tabla, las mismas que se ubicarán como capas superpuestas, estas variables deberán ubicarse en el campo correspondiente (capa 1 de 1). El programa incluye también el gráfico de barras adjuntas, para esto el usuario deberá activar la casilla correspondiente; de la misma forma, el usuario podrá suspender la salida de las tablas y permitir solamente la salida de gráficos y estadísticos. A continuación se incluye un ejemplo de la tabla de contingencia que resulta al cruzar las Variables Proceso contractual con Tipo de obra:

Tabla cruzada Tipo de obra*Proceso de contratación pública

Proceso de contratación pública

Total Cotización Emergencia Licitación

Menor cuantía

Tipo de obra

Alcantarillado en ciudad 14 3 12 5 34

Alcantarillado en parroquias 9 2 3 6 20

Agua potable en ciudad 2 2 1 2 7

Agua potable en parroquias 9 3 1 9 22

Obras civiles 5 2 0 0 7

Total 39 12 17 22 90


pág. 77

Para editar una tabla cruzada, sobre todo para pivotar filas y columnas, el usuario deberá activar la ventana de edición de tablas; para esto es suficiente dar un doble clic sobre la tabla y de manera inmediata se activará el menú de edición. Para intercambiar la posición de filas y columnas se la puede hacer fácilmente si se activa la opción Pivotar, o dentro de esta opción tomar Bandeja dinámica, tal como se indica en la ventana adjunta.

2.3. TABLAS DE DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS El programa SPSS permite que el usuario pueda organizar los datos en una tabla de frecuencia dividida en varios intervalos o categorías; estos intervalos podrán ser personalizados de acuerdo con el criterio del usuario. El proceso a desarrollar es el siguiente: Transformar/Agrupación visual; al activar este proceso se desplegará la siguiente ventana:

En esta ventana el usuario podrá observar que las variables que aparecen en el recuadro de la izquierda son variables cuantitativas; entonces se puede concluir que se podrá organizar datos en intervalos solamente en este tipo de variables; el proceso continúa el momento en que el usuario seleccione la variable que desea agrupar.


pág. 78

En esta ventana el usuario podrá observar en primer lugar, en el recuadro izquierdo la lista de variables seleccionadas, como también algunas características particulares de la variable seleccionada; existe también un histograma que representa a los datos seleccionados. La creación de los intervalos o clases se la puede hacer de dos maneras: Ingresando los valores en las casillas del campo Cuadrícula; conforme ingresan los valores que limitan al intervalo el programa creará un renglón adicional; la palabra SUPERIOR indica que el valor del intervalo será hasta el valor superior de los datos. A manera de ejemplo: a la variable Monto contractual se la divide en los siguientes intervalos: 300.000; 600.000; 1’000.000; más de 1’000.000; entonces deberá ingresar la siguiente información:


pág. 79

Nótese que: a. En primer lugar se ha asignado el nombre MONTO1 a la variable agrupada, el programa agrega

como etiqueta la descripción Valor del monto contractual (agrupado); b. En las casillas del campo Valor del recuadro cuadrícula se han ingresado los valores 300000;

600000; 1’000.000; en el último valor se ha dejado la palabra SUPERIOR. c. Al dar un clic sobre el botón Crear etiquetas, el programa agregará las etiquetas correspondiente

para cada uno de los valores ingresados como límites del intervalo.

d. El usuario tiene además la opción de incluir o no al valor del límite superior del intervalo; por defecto el programa incluye el límite superior (ver botón Incluidos<= activo).

Al dar un clic sobre el botón Aceptar, en la hoja de resultados aparecerá la indicación que la variable Agrupada MONTO1, ha sido creada, entonces, en la última columna de la hoja de datos aparecerá esta variable. Una vez creada esta nueva variable se podrá realizar el proceso para obtener la tabla de frecuencias agrupada en intervalos:

Monto contractual (Agrupada)



Válido

<= $300,000.00 52 57,78 57,78 57,78

$300,001.00 - $600,000.00 25 27,78 27,78 85,56

$600,001.00 - $1,000,000.00 7 7,78 7,78 93,33

$1,000,001.00+ 6 6,67 6,67 100,00

Total 90 100,00 100,00

Puede también crearse una distribución de frecuencia con varios puntos de corte, tal como se indica a continuación:

Monto contractual (Agrupada)



Válido

<= $10,499.00 1 1,11 1,11 1,11

$10,500.00 - $510,499.00 71 78,89 78,89 80,00

$510,500.00 - $1,010,499.00 13 14,44 14,44 94,44

$1,010,500.00 - $1,510,499.00 3 3,33 3,33 97,78

$1,510,500.00+ 2 2,22 2,22 100,00

Total 90 100,00 100,00

2.4. PONDERACIÓN DE DATOS


pág. 80

Cuando los datos han sido agrupados previamente en una distribución de frecuencia por intervalos, es necesario ponderar los casos, dado que el SPSS considerará a cada intervalo como un solo caso; al ponderar los casos, se da a cada intervalo o clase su peso propio que viene a ser la frecuencia de cada intervalo. Para ponderar los intervalos se debe realizar el siguiente procedimiento: Datos/ponderar casos; con lo cual se desplegará la siguiente ventana:

En este cuadro de diálogo el usuario deberá previamente activar el botón Ponderar casos mediante, y luego tomar la variable que va a ser ponderada; para el ejemplo de tablas de distribución de frecuencia agrupadas en intervalos o categorías la variable a ponderar es la variable FRECUENCIA; cuando existen variables ponderadas, en el extremo inferior derecho del escritorio aparecerá la frase: Ponderación activada. Para desactivar el proceso de ponderación, en el cual se encuentra el sistema, el usuario deberá repetir el proceso Datos/ponderar casos; y en la ventana que se despliega presionar el botón Restablecer, con lo cual la ponderación desaparecerá al igual que la frase Ponderación activada. 2.5. TABLAS PERSONALIZADAS El programa SPSS puede elaborar tablas personalizadas, es decir tablas en las cuales el usuario selecciona las variables que deben aparecer, tanto en filas como en columnas, algo similar a las tablas dinámicas que genera el programa Excel. Partiendo de esa similitud con las tablas dinámicas del Excel, el SPSS entrega también tablas en las que se involucra a tres variables; como valores de resumen, las tablas personalizadas del SPSS entregan resultados del conteo de datos, porcentajes, y medidas estadísticas que describen a la muestra o población; el procedimiento a realizar es: Analizar/Tablas/Tablas personalizadas. Luego de desarrollar el procedimiento indicado el programa desplegará la siguiente ventana:


pág. 81

En esta ventana el usuario deberá tomar en cuenta lo siguiente: Deberá trasladar las variables que conforman la tabla y ubicarlas en el campo Filas y Columnas.

Podrá incluir más de una variable, tanto en filas como en columnas.

Si la variable a incluir es variable cualitativa, el programa solamente podrá hacer un conteo de la

misma o expresar su frecuencia en porcentaje.

En caso de incluir una tercera variable deberá activar el botón Capas.

Una vez que se han ubicado las variables en filas y/o columnas, en forma inmediata se activará el botón Estadísticos de resumen; al activar este botón el programa permitirá que el usuario seleccione el estadístico de resumen que desea que aparezca en la tabla.

El usuario podrá ingresar títulos, pies de página y demás información que desea que aparezca en la tabla; para esto deberá activar la pestaña Títulos.

En la pestaña Estadístico de Prueba el usuario podrá realizar las operaciones necesarias para pruebas de inferencia estadística, tales como: Prueba t para dos muestras, prueba Chi cuadrado, etc.

Finalmente, si el usuario ha incluido en el análisis una tercera variable y activado el botón Capa,

en la tabla que aparece como resultado aparecerá un botón de filtro, al activar dicho botón, se desplegarán como opciones los diferentes valores que tiene la variable ubicado en Capas.


pág. 82

3. ESTADÍSTICA DESCRIPTIVA. El programa SPSS entrega, en solo proceso los estadísticos que describen a una muestra, es decir: Las medidas de tendencia central (media aritmética, mediana, moda, etc.); las medidas de posición en términos de percentiles, las medidas de dispersión (rango, varianza, desviación estándar), medidas de simetría y de apuntalamiento.

3.1. PROCESO FRECUENCIAS

Partiendo desde el la opción Analizar del Menú Principal, tomar la opción Estadísticos descriptivos/Frecuencia, con lo cual se desplegará la siguiente ventana:

En el recuadro de la izquierda el usuario podrá observar las variables (cualitativas y cuantitativas) que conforman la base de datos, como también la opción Mostrar tablas de frecuencia que se encuentra activa; El usuario deberá previamente seleccionar la(s) variable(s) cuyo análisis estadístico quiere obtener y trasladarlas virtualmente al campo Variables; luego deberá presionar el botón

Estadísticos con lo cual se desplegará la siguiente ventana:


pág. 83

Obviamente, el programa entregará resultados de variables cuantitativas, en caso de haber seleccionado variables cualitativas, el programa simplemente entregará el número de casos. El usuario deberá activar las casillas cuyos estadísticos desea obtener en su análisis, tome en cuenta: Al activar la casilla cuartiles, el programa entregará el primero, segundo y tercer cuartil.

Para obtener otros Cuantiles, tales como Deciles, Quintiles, etc. el usuario deberá activar la

casilla Puntos de corte para… grupos iguales, debiendo también indicar el Cuantil genérico que desea obtener.

Al activar la casilla Percentiles, el programa activará el recuadro derecho en el cual el usuario deberá ingresar el número que identifique al percentil que desea obtener; por otro lado, para obtener más de un percentil deberá, luego de registrar el primero de los percentiles, dar un clic en el botón Añadir, de esta manera el primer valor ingresará al recuadro inferior permitiendo al usuario ingresar el siguiente percentil; note además que ahora están activos los botones Cambiar y Eliminar.

En las medidas de dispersión el programa entrega también el error de estimación de la media, llamado error estándar media, cuyo valor se determina con:

√

Una vez que el usuario ha seleccionado los estadísticos que desea obtener en su análisis, deberá dar un clic en el botón Continuar, con lo cual el sistema retornará a la ventana anterior. Antes de dar un clic en el botón Aceptar es conveniente que se desactive la casilla Mostrar tablas de frecuencias; entonces el análisis estadístico solicitado se procesará y mostrará los resultados en la hoja correspondiente.

3.2. PROCESO “DESCRIPTIVOS” El programa SPSS ofrece como alternativa para el cálculo de estadísticos que describen a la muestra el siguiente proceso: Analizar/Estadísticos descriptivos/Descriptivos, con lo cual se desplegará la siguiente ventana:


pág. 84

Ahora el usuario podrá observar que en la lista de variables no están las variables cualitativas; el usuario deberá como siempre, seleccionar la(s) variable(s) cuyo análisis estadístico se requiere, y después de esto, dar un clic sobre el botón Opciones, con lo cual se desplegará la siguiente ventana: En esta ventana el usuario podrá observar que algunos estadísticos (no todos) están seleccionados por defecto, pues se considera que los mismos son los más importantes; por otro lado, el usuario tiene la opción de escoger el orden de visualización de los datos de salida. Una vez que el usuario ha seleccionado los estadísticos requeridos para su análisis podrá dar un clic en el botón Continuar, con lo cual el programa regresará a la ventana anterior, donde podrá seleccionar si desea obtener los valores

estandarizados de la Distribución Normal; finalmente dará un clic en el botón Aceptar, con lo cual el programa entregará en la hoja de resultados la tabal que contiene los estadísticos solicitados.

3.3. PROCESO “MEDIAS”

El programa SPSS ofrece un proceso para calcular algunos estadísticos que describen a una variable en función de otra variable de carácter independiente; por ejemplo, se puede obtener los estadísticos de la variable Monto contractual en función de la zona distrital. Para esto el proceso es: Analizar/ Comparar medias/Medias, con lo cual se desplegará la siguiente ventana:

En esta ventana el usuario deberá ingresar en la lista de dependientes la(s) variable(s) que se desea analizar, por ejemplo la variable Monto contractual; en la Lista de independientes el usuario deberá ingresar la variable que categoriza a la variable dependiente, por ejemplo la variable Zona distrital.


pág. 85

El programa puede analizar la(s) variable(s) dependiente(s) en función de varias variables independientes, las mismas que ingresar al programa por el método de “Capas”; es decir una encima de otra; por ejemplo se puede agregar la variable Gerencia que solicita; una vez que el usuario ha seleccionado las variables en análisis, deberá dar un clic sobre el botón Opciones, con lo cual se desplegará la ventana en la cual se podrán escoger los estadísticos que el análisis requiera. Por defecto el programa presenta los estadísticos Media, Número de casos y Desviación estándar, el usuario podrá cambiar o añadir los estadísticos que se encuentran en el recuadro de la izquierda, activando el botón de flecha direccional correspondiente. Una vez que se han seleccionado los estadísticos que requiere el análisis, ahora el usuario deberá dar un clic en el botón Continuar, con lo cual el programa regresará a la ventana anterior donde deberá finalmente dar un clic sobre el botón Aceptar para finalizar el proceso; los resultados se despegarán en la hoja correspondiente.

4.1. PROCESO “EXPLORAR”1 El programa SPSS ofrece la herramienta más completa para el análisis de datos: la herramienta Explorar, esta herramienta entrega al usuario el análisis integral de un grupo de datos previamente almacenados en alguna(s) variable del SPSS; este análisis presenta no solamente los valores numéricos que describen a la muestra sino que incluye gráficos para observación de su variabilidad (diagrama de cajas y bigote) y detalle de la variación (diagrama de tallo y hojas). Esta herramienta permite realizar el análisis de una variable dividida en varias categorías por ejemplo analiza la variable ingresos de los empleados de una empresa categorizados por el sexo; entonces el programa entrega datos del análisis de esta variable, tanto para los casos de sexo masculino, como sexo femenino. El programa, mediante la herramienta Explorar entrega adicionalmente a los estadísticos comunes (media aritmética, median, moda, desviaciones, etc.), la media recortada, la amplitud (rango) Intercuartil, los intervalos de confianza para un nivel de confiabilidad previamente establecido, por defecto el programa calcula al 95% y los valores atípicos. La media recortada al 5% corresponde a la media aritmética de una muestra a la cual se la ha recortado el 5% de sus valores extremos (hacia arriba y hacia abajo). El rango intercuartil es la diferencia entre el Tercer cuartil y el Primer cuartil; estos valores se verán representados gráficamente en el diagrama de caja y bigotes. Finalmente, se conoce como valores atípicos aquellos casos cuyos valores numéricos se encuentran bajo o sobre el rango intercuartil a una distancia de 1.5 veces el rango.

1 Valderey Sanz Pablo.- Extracción del Conocimiento a partir del Análisis de datos con SPSS


pág. 86

Para acceder a la herramienta Explorar el procedimiento es el siguiente: Analizar/Estadísticos descriptivos/explorar, con lo cual se desplegará la ventana que se indica:

El usuario deberá ingresar en el campo Lista la(s) variable(s) que van a ser analizadas; además deberá ingresar en el campo Lista de factores la variable de agrupación esta debe ser una variable cualitativa. Luego de esto, al dar un clic en el botón Estadísticos, el usuario deberá ingresar el intervalo de confianza, por defecto el programa trabaja con el 95%; además deberá encender, si desea obtener, la casilla para los Valores atípicos y percentiles. Después deberá activar el botón Gráficos, entonces se despegará una tarjeta en la cual el usuario deberá indicar si aparece o no el diagrama de Tallo y hojas como también los diagramas que involucra el estudio de normalidad de la muestra; por defecto el programa tiene activado el diagrama de caja. Finalmente, en la parte inferior de esta ventana el usuario deberá escoger la forma de visualización de los resultados; el programa permite mostrar los estadísticos, los gráficos o ambos.


pág. 87

Descriptivos

Zona distrital Estadístico Error

estándar

Longitud de redes de agua potable

Centro

Media 768,50 63,40

95% de intervalo de confianza para la media

Límite inferior 635,80

Límite superior

901,20

Media recortada al 5% 772,33

Mediana 770,50

Varianza 80393,53

Desviación estándar 283,54

Mínimo 258,00

Máximo 1210,00

Rango 952,00

Rango intercuartil 434,50

Asimetría ,00 ,51

Curtosis -,72 ,99

Norte

Media 896,85 141,67



Límite superior

1185,43


Mediana 731,00

Varianza 662354,76


Mínimo 73,00

Máximo 3959,00

Rango 3886,00


Asimetría 2,95 ,41

Curtosis 9,30 ,80

Sur

Media 875,43 75,71



Límite superior

1028,99


Mediana 818,00

Varianza 212106,81


Mínimo 248,00

Máximo 3104,00

Rango 2856,00


Asimetría 3,19 ,39

Curtosis 15,05 ,76


pág. 88

Valores extremos

Zona distrital Número del

caso Valor

Longitud de redes de agua

potable

Centro

Mayor

1 84 1210,00

2 27 1187,00

3 70 1181,00

4 31 1130,00

5 87 1063,00

Menor

1 26 258,00

2 89 356,00

3 13 408,00

4 12 425,00

5 29 558,00

Norte

Mayor

1 74 3959,00

2 80 3650,00

3 46 1255,00

4 66 1245,00

5 88 1239,00

Menor

1 86 73,00

2 19 220,00

3 6 359,00

4 79 360,00

5 16 386,00

Sur

Mayor

1 77 3104,00

2 25 1341,00

3 60 1215,00

4 35 1201,00

5 32 1184,00

Menor

1 7 248,00

2 48 413,00

3 52 421,00

4 8 473,00

5 56 496,00

Longitud de redes de agua potable Diagrama de tallo y hojas de ZONA= Centro

Frecuencia Stem & Hoja

4,00 0 . 2344

11,00 0 . 56677777888

5,00 1 . 01112

Ancho del tallo: 1000,00

Cada hoja: 1 caso(s)


pág. 89

Longitud de redes de agua potable Diagrama de tallo y hojas de ZONA= Norte


1,00 0 . 0

5,00 0 . 23333

7,00 0 . 4445555

7,00 0 . 6667777

2,00 0 . 88

6,00 1 . 000011

3,00 1 . 222

2,00 Extremos (>=3650)



Longitud de redes de agua potable Diagrama de tallo y hojas de ZONA= Sur


1,00 2 . 4

,00 3 .

4,00 4 . 1279

2,00 5 . 02

6,00 6 . 124566

4,00 7 . 0467

7,00 8 . 1112478

2,00 9 . 14

2,00 10 . 38

5,00 11 . 03568

2,00 12 . 01

1,00 13 . 4

1,00 Extremos (>=3104)




pág. 90

4. GRAFICOS ESTADÍSTICOS El programa SPSS elabora gráficos estadísticos de distinta índole, clasificados en gráficos estáticos que se obtiene a partir de los datos almacenados y gráficos dinámicos a partir de los modelos de regresión. El proceso para la obtención de un gráfico es: Gráficos/Cuadro de diálogos antiguos. Al desarrollarlo se desplegará la ventana que se adjunta: El usuario podrá observar que el programa presenta todas las alternativas de gráficos de carácter estadístico; además se incluye el gráfico de Diagrama de cajas. Al tomar, por ejemplo, el tipo barras el programa desplegará la ventana que se adjunta; en esta ventana el usuario encuentra la posibilidad de seleccionar el tipo de gráficos de barras verticales simples, verticales agrupadas y verticales apiladas. Por otro lado, se debe seleccionar también si los datos que conforman el gráfico son: Resúmenes para grupos de casos. Resúmenes para distintas variables. Valores individuales de los casos. A continuación se hará una breve explicación de cada una de estas opciones: Resúmenes para grupos de casos.- Esta opción permite realizar gráficos tales que las barras verticales representan el número de casos de una variable cuantitativa (eje vertical) en función de otra variable que puede ser cualitativa o cuantitativa; por ejemplo el número de empleados que laboran en la empresa clasificados por su sexo o el número de empleados clasificados por su nivel de instrucción. Este tipo de gráfico permite además representar otro estadístico que no sea el de conteo, por ejemplo la suma, la media, la mediana, etc.; como ejemplo podemos indicar el promedio de los ingresos en función del área laboral, la suma de inversiones realizadas en cada zona distrital, etc. Resúmenes para distintas variables.- Esta opción permite realizar gráficos comparativos entre dos o más variables cuantitativas; por ejemplo el número de conexiones de agua potable y el número de conexiones de alcantarillado; el promedio de longitud de redes de agua potable y alcantarillado, etc.

Valores individuales de los casos.- Esta opción entrega gráficos en los cuales se incluye como frecuencia a todos los casos almacenados en la hoja de datos; no es muy conveniente si el número de casos es elevado, peros, cuando el número de casos es pequeño (filas de la tabla) resulta ser una opción muy efectiva.

En todas las opciones el usuario dispone de un botón para agregar títulos, subtítulos y pies de página; una vez finalizado el gráfico el usuario podrá dar doble clic sobre el mismo activando de esta manera la ventana de edición de gráficos.


pág. 91

5. PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD. 5.1. TABLAS DE CONTINGENCIA El SPSS permite la creación de tablas de contingencia mediante el proceso: Analizar/Tablas personalizadas, luego de esto se despliega la siguiente ventana:

Una vez que se obtiene esta ventana el necesario continuar con las siguientes actividades: Trasladar las variables cualitativas o categóricas al campo Filas y al campo Columnas, por defecto

se activará la operación recuento o contar. Activando mediante un clic a cada una de las variables de Fila y columna, se activa ahora, en

forma individual, el botón Categorías y Totales, de manera que disponga al programa la orden que totalice filas y columnas; tal como se indica en la siguiente ventana:


pág. 92

Una vez realizado el proceso indicado, al dar clic en el botón Aceptar, se desplegará la tabla de contingencia para las variables seleccionadas. En el ejemplo se incluye la tabla de contingencia al cruzar las variables Proceso de contratación y Zona distrital:


Cotización Emergencia Licitación Menor cuantía Total

Zona distrital

Centro 10 4 2 4 20

Norte 11 4 6 12 33

Sur 18 4 9 6 37

Total 39 12 17 22 90

El siguiente paso será la construcción de la Tabla de probabilidades; esta tabla se construye al

dividir cada uno de los eventos para el total de casos, es decir aplicando la definición clásica de probabilidad.

El programa SPSS entrega al usuario la tabla de probabilidades al repetir el proceso anterior modificando la presentación de resultados al cambiar de número (recuento) a porcentaje del total, entonces, la tabla a obtener para el ejemplo en análisis es la siguiente.


Cotización Emergencia Licitación Menor cuantía Total

Zona distrital

Centro 11,11% 4,44% 2,22% 4,44% 22,22%

Norte 12,22% 4,44% 6,67% 13,33% 36,67%

Sur 20,00% 4,44% 10,00% 6,67% 41,11%

Total 43,33% 13,33% 18,89% 24,44% 100,00%

Con los resultados de esta tabla se obtendrán probabilidades de eventos combinados, eventos marginales y eventos condicionales. 5.2. DISTRIBUCIÓN BINOMIAL Para el cálculo de probabilidades de eventos que se encuentran dentro de una distribución binomial, el SPSS dispone de las funciones: y . Estas funciones se encuentran en el recuadro inferior derecho de la calculadora virtual, recuerde que para acceder a la calculadora virtual debe desarrollar el proceso: Transformar/Calcular variable. Una vez que se encuentra en la ventana de la calculadora virtual el usuario podrá ubicar a las funciones requeridas dando clic sobre la opción todas; entonces se desplegará en el recuadro inferior la lista, ordenada alfabéticamente, de todas las funciones. Cada una de estas funciones tiene una descripción literaria de los argumentos que requiere y del resultado que entrega; para las funciones y . Se tiene: PDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad de que el número de éxitos en n ensayos, con probabilidad de éxito p en cada uno de ellos, sea igual a c. CDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad acumulada de que el número de éxitos en n ensayos, con probabilidad de éxito p en cada uno de ellos, sea menor o igual que c.


pág. 93

Con estas dos funciones y aplicando las propiedades de la Distribución Binomial se tiene un resumen de las fórmulas que permitan calcular probabilidades bajo esta distribución en la mayoría de los escenarios posibles:

Probabilidad Equivalencia SPSS

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1- ( )

( ) ( ) ( ) 5.3. DISTRIBUCIÓN NORMAL Para el cálculo de probabilidades de eventos que se encuentran dentro de una distribución normal, el SPSS dispone de las funciones: y . Estas funciones se encuentran en el recuadro inferior derecho de la calculadora virtual, recuerde que para acceder a la calculadora virtual debe desarrollar el proceso: Transformar/Calcular variable. Una vez que se encuentra en la ventana de la calculadora virtual el usuario podrá ubicar a las funciones requeridas dando clic sobre la opción todas; entonces se desplegará en el recuadro inferior la lista, ordenada alfabéticamente, de todas las funciones. Cada una de estas funciones tiene una descripción literaria de los argumentos que requiere y del resultado que entrega; para las funciones y . Se tiene: PDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad de que el número de éxitos en n ensayos, con probabilidad de éxito p en cada uno de ellos, sea igual a c. CDF.BINOM(c, n, p) Numérico. Devuelve la probabilidad acumulada de que el número de éxitos en n ensayos, con probabilidad de éxito p en cada uno de ellos, sea menor o igual que c. IDF.NORMAL (p, media, desv_típ) Numérico. Devuelve el valor de la distribución normal con la media y desviación típica especificadas, cuya probabilidad acumulada es p. PDF.NORMAL (c, media, desv_típ) Numérico. Devuelve la densidad de probabilidad de la distribución normal con la media y desviación típica especificadas, en c CDF.NORMAL (c, media, desv_tip) Numérico. Devuelve la probabilidad acumulada de que un valor de la distribución normal, con la media y desviación típica especificada sea menor que c.


pág. 94

6. MUESTREO ESTADÍSTICO El muestreo estadístico se lo realiza de manera similar al manejo de filtros en la hoja de cálculo Excel; en esencia el muestreo en SPSS se lo realiza seleccionando casos, sean estos de manera aleatoria o mediante el cumplimiento de alguna condición. En SPSS se podrá realizar muestreos de tipo aleatorio, por estratos y sistemático, para lo cual se debe cumplir con varios procesos. 6.1. MUESTREO ALEATORIO Para obtener una muestra aleatoria el usuario debe desarrollar el siguiente proceso:

Datos/Seleccionar casos; con lo cual se desplegará la siguiente ventana:

En esta ventana, el usuario deberá activar el botón Muestra aleatoria de con lo cual el sistema activará el botón Ejemplo, al dar un clic sobre este botón se desplegará la siguiente ventana:


pág. 95

En esta ventana, el usuario deberá ingresar el tamaño de la muestra a obtener, este tamaño puede ser: Aproximado (en porcentaje), Exacto, indicando cuantos casos requiere la muestra del total de la población. Una vez señalado el tamaño de la muestra procederá a dar un clic sobre el botón Continuar con lo cual se regresará a la ventana anterior en la cual el usuario deberá escoger la forma de salida de los resultados presentándose las siguientes opciones: Descartar casos no seleccionados: Al activar esta opción, el programa presentará los casos seleccionados en la misma Hoja de datos, señalando aquellos que no han sido tomados en cuenta en el muestreo. Copiar casos seleccionados a un nuevo conjunto de datos: Al activar esta opción el sistema presentará los casos seleccionados en otra hoja de datos, a la cual previamente el usuario deberá darle un nombre en el campo que se activa una vez que se haya tomado esta alternativa, como opción de salida; la nueva Hoja de datos se ubicará precisamente debajo de la hoja de datos. Eliminar casos no seleccionados: Al tomar esta opción el programa presentará en la misma hoja de datos los casos seleccionados eliminando los que no ha sido tomados en cuenta; hay que tener mucho cuidado con el manejo de esta opción puesto que algunos registros (casos) de la base de datos han sido eliminados y sin darse cuenta el usuario pude almacenar la hoja, con lo cual se perderá definitivamente los datos iniciales. 6.2. MUESTREO SELECCIONADO En realidad este no es un muestreo, sino más bien una selección de casos o registros de la base de datos que cumplen con alguna condición previamente especificada; entonces el usuario deberá desarrollar el proceso: Datos/Seleccionar casos y en la ventana que se despliega seleccionar la opción Si satisface la condición; finalmente el botón Si la opción… se activará y al dar un clic sobre el mismo se desplegará la ventana de la Calculadora virtual del SPSS (Calcular variable):


pág. 96

6.3. MUESTREO ESTRATIFICADO2 Una muestra compleja puede ser distinta de una muestra aleatoria simple en muchos aspectos: en una muestra aleatoria simple, las unidades de muestreo individuales se seleccionan aleatoriamente con la misma probabilidad y sin reposición (SR) directamente a partir de la totalidad de la población. Por lo contrario, una muestra compleja determinada puede tener alguna o todas las características siguientes: Estratificación.- El muestreo estratificado implica seleccionar muestras independientemente dentro de los subgrupos de la población que no se solapen o estratos. Por ejemplo, los estratos pueden ser grupos socioeconómicos, categorías laborales, grupos de edad o grupos étnicos. Con la estratificación, puede asegurar que los tamaños muestrales de los subgrupos de interés son adecuados, mejorar la precisión de las estimaciones globales y utilizar distintos métodos de muestreo entre los diferentes estratos. 6.4. ELABORACIÓN DEL PLAN DE MUESTREO Proceso: Analizar/Muestras complejas/Seleccionar una muestra con lo cual se desplegará la siguiente ventana:

2 Muestras complejas de SPSS.- IBM Manual de Usuario


pág. 97

En esta ventana el usuario deberá seleccionar si desea Diseñar un plan de muestreo, Editar un diseño muestral existente o extraer una muestra de un diseño existente. Si va a diseñar un plan es necesario que en el campo activo se escriba el nombre del archivo en el cual se ha de registrar el plan; el programa genera un archivo con extensión csplan. Después de que el archivo que contiene el plan de muestreo ha sido creado el programa desplegará la siguiente ventana, en la cual deberá escoger la variable de estratificación y agregar una etiqueta.

Al dar clic sobre el botón Siguiente, el programa SPSS desplegará una ventana en la cual el usuario deberá escoger el tipo de muestro, por defecto el programa tiene activada la opción Muestreo aleatorio simple, sin reemplazo; después de esto deberá dar un clic sobre el botón Siguiente.

En la siguiente ventana el usuario deberá escoger el tamaño de cada uno de los estratos, puede hacerlo fijando un número o una proporción porcentual; el tamaño puede ser el mismo para cada estrato o diferente en cada uno de ellos.


pág. 98

Una vez que el usuario ha indicado el tamaño de la muestra, sea esta por unidades o proporciones ahora deberá dar un clic en el botón Aceptar, con lo cual el sistema abrirá la ventana siguiente En la ventana abierta ahora el usuario deberá seleccionar algunas variables que desea almacenar junto con los datos; si no desea añadir ninguna de las variables indicadas, simplemente debe dar un clic para que el sistema active la siguiente ventana. En la siguiente ventana el usuario deberá indicarle al programa si el muestreo a realizarse es por etapas (polietápicos) o solamente está formado por una etapa; después de esto el usuario deberá dar un clic en el botón siguiente. En la siguiente ventana el usuario deberá decidir si desea extraer la muestra y de que etapa desea hacerlo; en esta ventana también puede generar una semilla de números aleatorios. Finalmente, en la siguiente ventana el usuario deberá indicar al programa donde desea almacenar los datos muestra creada, tiene como opción: en el mismo conjunto de datos (hoja actual), como nuevo conjunto de datos (nueva hoja) o como archivo externo; si toma las dos últimas opciones deberá ingresar el nombre de la nueva hoja o del nuevo archivo en el campo que se activa. 6.5. MUESTREO SISTEMÁTICO Para obtener una muestra sistemática, básicamente el usuario deberá desarrollar el mismo procedimiento que el realizado para el muestreo estratificado; entonces el proceso es: Proceso: Analizar/Muestras complejas/Seleccionar una muestra con lo cual se desplegará la siguiente ventana:


pág. 99

En esta ventana el usuario deberá seleccionar si desea Diseñar un plan de muestreo, Editar un diseño muestral existente o extraer una muestra de un diseño existente. Si va a diseñar un plan es necesario que en el campo activo se escriba el nombre del archivo en el cual se ha de registrar el plan; el programa genera un archivo con extensión csplan. Después de que el archivo que contiene el plan de muestreo ha sido creado el programa desplegará la ventana, en la cual deberá escoger la variable de estratificación y agregar una etiqueta; para un muestreo sistemático simple no es necesario seleccionar ninguna variable como estrato de muestreo, sin embargo si el muestreo lo requiere se deberá hacerlo. Al dar clic sobre el botón Siguiente, el programa SPSS desplegará una ventana en la cual el usuario deberá escoger el tipo de muestro; por defecto, el programa tiene activada la opción Muestreo aleatorio simple, sin reemplazo. En este filtro de selección el usuario deberá seleccionar Muestreo sistemático simple, tal como se indica en la siguiente ventana; después de esto deberá dar un clic sobre el botón Siguiente.


pág. 100

En la siguiente ventana el usuario deberá escoger el tamaño de la muestra; el programa SPSS divide al tamaño (número total de casos) para el número ingresado como tamaño de la muestra obteniendo de esta manera el número de subgrupos. El muestreo sistemático consiste en tomar aleatoriamente un elemento del primer grupo; los demás que forman la muestra se los tomará, uno de cada subgrupo, de acuerdo con la posición del primer elemento seleccionado. Por ejemplo de una población de 250 elementos se desea una muestra sistemática de 10 elementos; entonces:

Luego se toma aleatoriamente un elemento del primer grupo y el numeral que indica la posición del número seleccionado servirá como punto de partida para la ubicación de los siguientes elementos. Por ejemplo, si se selecciona del primer grupo el elemento que se encuentra en la cuarta posición (4), los elementos que conforman la muestra serán los que se encuentran en las posiciones:

4 29 54 79 104 129 154 179 204 229

Nótese que la ubicación de cada uno de ellos se obtiene sumando 25 a la posición inicial. Una vez que el usuario ha indicado el tamaño de la muestra ahora deberá dar un clic en el botón Aceptar, con lo cual el sistema abrirá la ventana siguiente. En la ventana abierta ahora el usuario deberá seleccionar algunas variables que desea almacenar junto con los datos; si no desea añadir ninguna de las variables indicadas, simplemente debe dar un clic para que el sistema active la siguiente ventana. En la siguiente ventana el usuario deberá decidir si desea extraer la muestra y de que etapa desea hacerlo; en esta ventana también puede generar una semilla de números aleatorios. Finalmente, en la siguiente ventana el usuario deberá indicar al programa donde desea almacenar los datos muestra creada, tiene como opción: en el mismo conjunto de datos (hoja actual), como nuevo conjunto de datos (nueva hoja) o como archivo externo; si toma las dos últimas opciones deberá ingresar el nombre de la nueva hoja o del nuevo archivo en el campo que se activa.


pág. 101

7. ESTIMACIÓN DE LA MEDIA POBLACIONAL. Para establecer el intervalo de la media poblacional, en muestras grandes y pequeñas, el programa SPSS presenta dos procesos, en todos ellos el usuario deberá indicar la variable en análisis como también el nivel de confiabilidad, por defecto el programa sume el 95%. 7.1. PROCESO EXPLORAR Para obtener el intervalo de estimación de la media poblacional utilizando la herramienta Explorar el usuario deberá realizar el proceso Analizar/Estadística descriptiva/Explorar; entonces se desplegará la siguiente ventana:

La variable en análisis deberá ingresar en la Lista de dependientes; luego deberá dar un clic en el Botón Estadísticos con lo cual se desplegará el cuadro de diálogo donde podrá ingresar el nivel de confiabilidad:

Una vez que el usuario ha ingresado el nivel de confiabilidad, deberá dar un clic en el botón Continuar y al regresar a la ventana anterior deberá ahora dar un clic en el botón Aceptar; el intervalo de la estimación de la media aparecerá en el segundo renglón de la tabla de resultados;


pág. 102

observe también en la última columna el programa presenta el error estándar de estimación de la media. 7.2. PROCESO PRUEBA T PARA UNA MUESTRA Para obtener el intervalo de estimación de la media poblacional para una variable el usuario deberá realizar el proceso: Analizar/Comparar medias/Prueba T para una muestra independiente, con lo cual el programa despegará la siguiente ventana:

En esta ventana el usuario deberá ingresar en el campo Variables de prueba la variable en análisis, al dar un clic en el botón Opciones se desplegará la ventana en la cual podrá ingresar el nivel de confiabilidad; tal como se indica en la siguiente ventana:

Al finalizar el programa entregará una tabla de resultados en el cual queda registrado el intervalo de estimación de la media poblacional parta el nivel de confianza dado.

Prueba de muestra única

Valor de prueba = 0

t gl Sig.

(bilateral) Diferencia de medias

95% de intervalo de confianza de la diferencia

Inferior Superior

Longitud de redes de alcantarillado

15,583 89 ,000 952,98 831,46 1074,49


pág. 103

8. PRUEBA DE HIPÓTESIS SOBRE LA MEDIA POBLACIONAL Para realizar una prueba de hipótesis sobre la media poblacional en una población, el SPSS presenta el proceso Analizar/Comparar medias/Prueba T para una muestra; al desarrollar este proceso se desplegará la siguiente ventana:

En esta ventana el usuario deberá ingresar la variable en análisis al campo Variables de prueba; en la casilla Valor de prueba debe colocar el valor de la media poblacional asumido para la hipótesis nula; entonces al dar un clic sobre el botón Opciones se desplegará la ventana donde debe colocar el nivel de significación. Una vez que ha ingresado el nivel de significación, debe dar un clic en el botón Continuar y luego, en la ventana que se despliega deberá dar un clic en el botón Aceptar para finalizar el proceso.

Estadísticas de muestra única

N Media Desviación estándar

Media de error estándar

Longitud de redes de alcantarillado 90 952,98 580,18 61,16

Prueba de muestra única

Valor de prueba = 500

t gl Sig.

(bilateral) Diferencia de

medias


Inferior Superior

Longitud de redes de alcantarillado

7,407 89 0,00 452,98 331,46 574,49

Para tomar la decisión de aceptar o rechazar la hipótesis nula el usuario deberá aplicar la regla:

En prueba de dos extremos: ( )

En prueba de un extremo: s ( )


pág. 104

9. INFERENCIA ESTADÍSTICA EN DOS POBLACIONES El programa SPSS dispone de algunas herramientas y opciones para el análisis estadístico en dos poblaciones; considerando a estas como independientes o relacionadas entre sí; el proceso a realizar es: Analizar/Comparar medias. 9.1. INFERENCIA EN DOS POBLACIONES INDEPENDIENTES

Al desarrollar el proceso Analizar/Comparar medias/Prueba T para muestras independientes se despliega la siguiente ventana:

En esta ventana el usuario deberá ingresar en el campo correspondiente la variable de prueba y la variable de agrupación; la variable de agrupación previamente deberá haber sido codificada con números naturales 1, 2; al dar un clic en el botón Definir grupos el programa desplegará la siguiente ventana:

Opciones.- Al dar un clic en el botón Opciones el programa desplegará la ventana que permitirá ingresar el nivel de significación en términos del intervalo de confianza. Al finalizar el proceso en la vista Resultados el programa SPSS entrega los siguientes cuadros:


pág. 105

Estadísticas de grupo

SECTOR N Media

Desviación estándar


RENTA Norte 7 682,86 95,17 35,97

Sur 7 582,86 167,00 63,12

Prueba de muestras independientes

Se asumen varianzas

iguales

No se asumen varianzas

iguales

RENTA

Prueba de Levene de igualdad de varianzas

F 5,05

Sig. 0,04

prueba t para la igualdad de medias

t 1,38 1,38

gl 12,00 9,53

Sig. (bilateral) 0,19 0,20

Diferencia de medias 100,00 100,00

Diferencia de error estándar 72,65 72,65


Inferior -58,29 -62,98

Superior 258,29 262,98

9.2. INFERENCIA EN MUESTRAS RELACIONADAS Al desarrollar el proceso: Analizar/Comparar medias/Prueba T para muestras relacionadas se despliega la siguiente ventana:

En esta ventana el usuario deberá ingresar la variable que presenta los datos antes de la prueba específica y los valores de la variable después de la prueba específica; al dar un clic en la ventana Opciones se despliega la siguiente ventana:


pág. 106

Luego de ingresar el nivel de significación en términos del intervalo de confianza el programa SPSS dispondrá en la hoja de Resultados los siguientes cuadros:

Estadísticas de muestras emparejadas

Media N Desviación estándar


Par 1 R_ANTES 20,19 15,00 3,62 0,93

R_DESPUÉS 17,59 15,00 2,04 0,53

Prueba de muestras emparejadas

Par 1

R_ANTES - R_DESPUÉS

Diferencias emparejadas

Media 2,61


Media de error estándar 1,22


Inferior 0,00

Superior 5,22

t 2,14

gl 14,00

Sig. (bilateral) 0,05


pág. 107

10. PRUEBA DE LA MEDIA POBLACIONAL EN VARIAS POBLACIONES Si se trata de analizar la media poblacional en varias poblaciones se debe realizar una prueba estadística de comparación entre la variabilidad entre los grupos y la variabilidad dentro de los grupos; esta relación estadística se la realiza con el proceso de ANOVA en una sola vía o en un solo factor. ANOVA EN UN FACTOR Al desarrollar el proceso: Analizar/Comprar medias/Anova en un factor, se despliega la siguiente ventana:

En esta ventana el usuario deberá ingresar la variable de análisis en el campo Lista de dependientes y en el campo Factor deberá ingresar la variable de agrupación; al dar un clic en el botón Post hoc el programa desplegará la ventana adjunta, en la cual deberá escoger la prueba DMS o la Prueba Tukey; también deberá finalmente ingresar el nivel de significación.

En la hoja de Resultados el programa SPSS entregará el cuadro estándar del ANOVA.


pág. 108

11. PRUEBA CHI CUADRADO La prueba chi cuadrado es el estadístico más adecuado para comparar variables categóricas o cualitativas; permite también realizar pruebas para determinar la bondad del ajuste de un grupo de datos a una determinada distribución estadística. La prueba chi cuadrado requiere de los valores observados y esperados, organizados en una tabla cruzada entonces, el proceso en el programa SPSS es el siguiente: Analizar/Estadísticos descriptivos/Tablas cruzadas con lo cual se desplegará la siguiente tabla:

Una vez ubicadas las variables categóricas en el campo filas y en el campo columnas, ahora el usuario deberá dar un clic en el botón Exacta, con lo cual se desplegará la ventana en la que se registra el nivel de significación en términos del nivel de confiabilidad. Al presionar el botón Estadísticos, en la ventana que se despliega el usuario deberá activar la casilla correspondiente a la prueba Chi-cuadrado, también podrá activar la casilla correspondiente al Cuadro de correlaciones. Al presionar el botón Casillas el usuario deberá activar la casilla correspondiente a Observado y Esperado; de esta manera, el programa SPSS entregará la tabla cruzada con el registro de los valores observados (Recuento) y esperados (Recuento esperado); estos valores permitirán más adelante calcular es estadístico Chi cuadrado. Al final del proceso; el programa SPSS entregará en la vista de resultados los cuadros que registran la información sobre la prueba estadística realizada, estos cuadros son los que a continuación se indican:


pág. 109

Tabla cruzada Lugar*Silicosis

Silicosis

Total Grado I Grado II Grado III

Lugar Campo Recuento 54 78 72 204

Recuento esperado 65,28 69,36 69,36 204,00

Oficina Recuento 42 24 30 96


Total Recuento 96 102 102 300


En cuanto a la prueba Chi cuadrado el programa entrega el valor de estadístico chi cuadrado de Pearson, los grados de libertad, el valor del nivel de significación bilateral y el intervalo de confiabilidad para el nivel asumido.

Pruebas de chi-cuadrado

Valor df Significación

asintótica (bilateral)

Sig. Monte Carlo (bilateral)

Significación

Intervalo de confianza al 99%

Límite inferior

Límite superior

Chi-cuadrado de Pearson 9,768a 2 0,008 0,008b 0,005 0,010

Razón de verosimilitud 9,657 2 0,008 0,009b 0,007 0,012

Prueba exacta de Fisher 9,560 0,009b 0,007 0,012

N de casos válidos 300

a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 30,72.

b. Se basa en 10000 tablas de muestras con una semilla de inicio 2000000.

La toma de decisión con respecto a aceptar o rechazar la hipótesis nula que expresa el grado de relación o independencia entre las variables categóricas en análisis puede hacerse comparando el valor del estadístico Chi cuadrado con el valor de la tabla de distribución correspondiente o a través de la comparación del valor del Sig bilateral con el nivel de significación asumido.


pág. 110

12. MODELO DE REGRESIÓN. El programa SPSS presenta algunos procesos para la obtención del modelo de regresión, una vez realizado el proceso necesario, el programa devolverá una estadística de las variables que intervienen en el modelo, los coeficientes de correlación y determinación y los coeficientes de modelo; entregará también las herramienta e insumos necesarios para hacer inferencia estadística con los coeficientes obtenidos. 12.1. OBTENCIÓN DEL DIAGRAMA DE DISPERSIÓN El diagrama de dispersión o dispersograma se obtiene siguiendo el proceso: Gráficos/Cuadro de diálogo antiguos/Dispersión/ puntos, con lo cual se desplegará la siguiente ventana:

El usuario podrá observar que está seleccionada por defecto la opción Dispersión simple, el ícono indica que se trata de obtener una nube de puntos que representa la tendencia de las variables; el usuario deberá dar un clic en el botón Definir; inmediatamente se desplegará la siguiente ventana:

En esta ventana el usuario deberá ubicar en el campo denominado Eje Y la variable dependiente y en el campo denominado Eje X la variable independiente, podrá también incluir rótulos y títulos en el gráfico; una vez ubicadas las variables el usuario deberá dar un clic en el botón Aceptar, con lo cual se desplegará el diagrama de dispersión que se indica:


pág. 111

Al dar doble clic sobre el diagrama de dispersión se desplegará la ventana del Editor de gráficos; al activar en el menú del editor de gráficos el proceso: Elementos/Línea de ajuste total se despliega la siguiente ventana:

En esta ventana el usuario deberá seleccionar las características de la línea de ajuste que representa al modelo; por defecto el programa SPSS asume el modelo lineal, además asume como siempre el nivel del 95% para el intervalo de confianza; finamente está activa la opción Adjuntar etiqueta a


pág. 112

línea, esta última acción, al ser activada entrega la ecuación de la recta o curva que mejor ajuste a los datos.

Note además que el programa entrega el coeficiente de determinación R². 12.2. PROCESO REGRESIÓN LINEAL El SPSS entrega el siguiente proceso para la obtención del modelo de regresión lineal bivariable y multivariable: Analizar/Regresión/Lineales, al desarrollar el mismo se desplegará la siguiente ventana:


pág. 113

El usuario deberá colocar la variable dependiente y la(s) variable(s) independiente(s) en los campos correspondientes; al dar clic sobre el botón Estadísticos el usuario podrá ingresar las características para el análisis estadístico de los coeficientes, entre ellos el nivel de confiabilidad, como siempre el programa sume por defecto el valor del 95%; con esto, el programa desplegará la siguiente ventana: Una vez cumplido con los requisitos del programa, al dar clic en el botón Continuar, el programa regresará a la ventana anterior en la cual, al dar clic en el botón Aceptar dará finalizado el proceso, entregando entre otros los siguientes resultados:

Resumen del modelo

Modelo R R cuadrado R cuadrado ajustado Error estándar de la estimación

1 ,98a ,95 ,95 ,14

a. Predictores: (Constante), Temperatura ambiental ° F

Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes estandarizados

t Sig.

95,0% intervalo de confianza para B

B Error

estándar Beta

Límite inferior

Límite superior

1 (Constante) -2,55 0,39 -6,53 0,00 -3,46 -1,65

Temperatura ambiental ° F ,06 0,00 ,98 12,60 1,48E-6 ,05 ,07

a. Variable dependiente: Ventas de helado en miles USD

En el último cuadro de resultados el usuario tendrá a su disposición los coeficientes del modelo con lo cual podrá construir el mismo y hacer proyecciones sobre el comportamiento de la variable dependiente en función de la variable independiente. El programa SPSS presenta la posibilidad de realizar el análisis de regresión lineal múltiple por diverso métodos; por defecto el programa trabaja con el método Intro; sin embargo el programa permite trabajar por el método “Entre pasos”. El método “Entre pasos” desarrolla en forma rápida el proceso de ingresar y eliminar las variables independientes que no aportan significativamente al modelo. Presentando como último resultado la lista de variables que han sido eliminadas. El usuario una vez que conoce las variables que el método “Entre pasos” ha eliminado, podrá volver a desarrollar el análisis de regresión múltiple, esta vez solamente con las variables que no han sido eliminadas. El mejor ajuste del modelo se verá reflejado ahora en el coeficiente de determinación; el usuario podrá ahora disponer de un modelo en el cual están las variables que verdaderamente aportan al modelo. De acuerdo con el valor del coeficiente de determinación el usuario podrá detectar la necesidad de introducir nuevas variables en el modelo, con la finalidad de mejorar su ajuste; de cualquier manera las nuevas variables que ingresen al modelo no podrán ser las variables que ya fueron eliminadas.


pág. 114

12.3. PROCESO ESTIMACIÓN CURVILÍNEA El programa SPSS tiene una herramienta que permite obtener modelos alternativos al modelo no lineal, mediante una estimación curvilínea bivariable; el proceso a desarrollar es: Analizar/Regresión/ Estimación curvilínea con lo cual se desplegará la ventana que se indica:

En esta ventana el usuario deberá colocar las variables dependientes e independiente en los campos correspondientes, luego deberá seleccionar los modelos de curvas que desea estimar; luego de esto, al dar clic en el botón Aceptar se desplegará un cuadro de resultados con los coeficientes de todos los modelos seleccionados como también un gráfico simultáneo de las curvas obtenidas.

Resumen de modelo y estimaciones de parámetro

Variable dependiente: Ventas de helado en miles USD

Ecuación

Resumen del modelo Estimaciones de

parámetro

R cuadrado F df1 df2 Sig. Constante b1 b2

Lineal 0,95 158,81 1,00 8,00 0,00 -2,55 0,06

Logarítmico 0,93 109,00 1,00 8,00 0,00 -18,17 4,69

Cuadrático 0,98 164,35 2,00 7,00 0,00 5,00 -0,13 0,00

La variable independiente es Temperatura ambiental ° F.


pág. 115

12.4. PROCESO REGRESIÓN LOGÍSTICA Al desarrollar el proceso: Analizar/Regresión/Regresión logística binaria el programa desplegará la siguiente ventana:


pág. 116

En esta ventana, el usuario ingresará en el campo correspondiente la variable dependiente y las variables independientes llamadas predictoras o covariables; al dar un clic en el botón Categórica el usuario podrá verificar las variables que van a ser categorizadas;

Al dar un clic en el botón continuar el usuario regresará a la ventana anterior; ahora deberá dar un clic en el botón Guardar con lo cual el programa desplegará la siguiente ventana:

El usuario deberá activar la casilla Probabilidades con lo cual aparecerá en la vista de datos los valores estimados de la probabilidad investigada de acuerdo con el modelo obtenido. En el botón Opciones el usuario podrá ingresar el valor del nivel de significación asignado al modelo. Al finalizar el proceso el programa SPSS entregará el cuadro de resumen en el que se registran los coeficientes del modelo, el error estándar y el coeficiente Exp(B) junto con el intervalo de confianza asumido.


pág. 117

Variables en la ecuación

B Error

estándar Wald gl Sig. Exp(B)

95% C.I. para EXP(B)

Inferior Superior

Paso 1a

E_civil 1,511 4 0,825

E_civil(1) 0,237 0,810 0,085 1 0,770 1,267 0,259 6,193

E_civil(2) -0,508 1,016 0,250 1 0,617 0,602 0,082 4,412

E_civil(3) -0,223 0,914 0,059 1 0,807 0,800 0,133 4,800

E_civil(4) -0,316 1,082 0,085 1 0,770 0,729 0,088 6,077

Empleo 0,541 0,550 0,968 1 0,325 1,718 0,585 5,048

Vivienda 1,129 0,486 5,394 1 0,020 3,091 1,193 8,011

Vehículo -0,047 0,509 0,009 1 0,926 0,954 0,352 2,589

Antecedentes 1,322 0,534 6,123 1 0,013 3,749 1,316 10,679

Cifras 0,393 2 0,822

Cifras(1) 0,352 0,708 0,248 1 0,619 1,422 0,355 5,698

Cifras(2) -0,075 0,496 0,023 1 0,879 0,928 0,351 2,452

Tasa(1) -0,538 0,511 1,110 1 0,292 0,584 0,215 1,588

Constante -1,432 0,964 2,207 1 0,137 0,239

Al igual que en el modelo de regresión múltiple el programa SPSS presenta en el modelo de regresión logística binaria varios métodos para su análisis entre estos, el método Intro, el método de Wald hacia adelante, hacia atrás, etc. 12.5. PROCESO CORRELACIÓN Se puede obtener el coeficiente de correlación entre varias variable de carácter cuantitativo utilizando el programa SPSS, para lo cual el usuario deberá desarrollar el proceso Analizar/Correlaciones/bivariadas de esta manera se desplegará la siguiente ventana:

En esta ventana el usuario deberá colocar en el campo Variables aquellas variables cuantitativas que intervienen en el análisis; por defecto el programa devuelve el coeficiente de correlación de Pearson, pudiendo también entrega el coeficiente de Kendall y el Spearman.


pág. 118

Al dar un clic en el botón Opciones se despliega una ventana que sugiere al usuario la obtención de estadísticos como también el nivel de confiabilidad para la inferencia estadística del coeficiente; finalmente al dar un clic en el botón Aceptar se desplegará un cuadro de resultados a manera de tabla cruzada en la cual se registran los coeficientes de correlación entre las variables involucradas.

Años de

servicio en la Empresa

Cargas familiares

Estatura en m

Sueldo del empleado

Peso en libras

Años de servicio en la Empresa

Correlación de Pearson 1,00 0,03 -0,11 0,06 0,09

Sig. (bilateral) 0,70 ,19 0,46 ,28

N 150 150 150 150 150

Cargas familiares

Correlación de Pearson 0,03 1,00 -0,02 0,05 -0,01

Sig. (bilateral) 0,70 0,77 0,56 ,86

N 150 150 150 150 150

Estatura en m

Correlación de Pearson -0,11 -0,02 1,00 0,03 0,04

Sig. (bilateral) ,19 ,77 0,70 ,60

N 150 150 150 150 150

Sueldo del empleado

Correlación de Pearson 0,06 0,05 0,03 1,00 0,01

Sig. (bilateral) 0,46 0,56 0,70 0,94

N 150 150 150 150 150

Peso en libras

Correlación de Pearson 0,09 -0,01 0,04 0,01 1,00

Sig. (bilateral) 0,28 ,86 ,60 0,94

N 150 150 150 150 150

B I B L I O G R A F I A

1. ANDERSON David, SWEENEY Dennis, WILLIAMS Thomas, “Estadística para Administración y Economía”, Editorial Thomson Learning México 1999.

2. HERRERA Aráuz Daniel, “Probabilidad, Combinatoria y Distribuciones de Probabilidad”, Edición virtual CEDICPAED, Ecuador 2017.

3. IBM, “Manual de usuario SPSS versión 23”, España, 2010

4. LEVIN Richard I., “Estadística para Administradores”, Editorial Prentice/Hall Internacional, México, 1982.

5. LIND Douglas, Marchal Williams, Wathen Samuel, “Estadística aplicada a los Negocios y la Economía”, Editorial McGraw Hill, Colombia 2008.

6. MENDENHALL William, “Introducción a la Probabilidad y Estadística”, Grupo editorial Iberoamérica, México, 1987.

7. QUEZADA Lucio Nel, “Estadística con SPSS”, Empresa Editora Macro, Perú, 2012.

8. SHELDON M. Ross “Probabilidad y Estadística para Ingenieros”, Editorial Mc Graw-Hill México 2001.

9. SPIEGEL Murray R. “Estadística”, Editorial Mc-Hill Schaum, Colombia, 1980.

10. STEVENSON William J. “Estadística para Administración y Economía”, Editorial Harla, México, 1988.

11. WEBSTER Allen L. “Estadística aplicada a los Negocios y la Economía”, Editorial McGraw Hill, Colombia 2000.

12. YAMANE Taro, “Estadística”, Editorial Harla, México, 1992.

ACERCA DEL AUTOR.-

Daniel Herrera Aráuz (Quito, 1960) es Ingeniero Civil y Magister en Docencia Matemática, títulos otorgados por la Facultad de Ingeniería, Ciencias Físicas y Matemática de la Universidad Central del Ecuador; además tiene el título de Diplomado Superior en Gestión de Proyectos, otorgado por la Facultad de Ciencias Económicas de la misma universidad.

Desde marzo de 1990 hasta diciembre de 2014, ejerció las funciones de Fiscalizador de Obras de Agua Potable y Saneamiento en la Empresa Pública Metropolitana de Agua potable y Saneamiento de Quito, EPMAPS.

Desde noviembre de 1993 hasta la presente fecha es profesor de Matemáticas, Estadística e Investigación Operativa de la Facultad de Ciencias Administrativas de la Universidad Central del Ecuador.

A nivel de posgrado, Profesor de Matemática Aplicada, Matemática Financiera y Estadística en la Facultad de Ingeniería en la Universidad Central del Ecuador, En el Instituto de Altos Estudios Nacionales IAEN, en la Dirección General de Posgrados de la Universidad Tecnológica Equinoccial UTE y de la Facultad de Ingeniería Civil de la Universidad Técnica Particular de Loja, UTPL.

Instructor de Excel, SSPS y Ms Project en el Centro de Educación Continua de la Facultad de Ciencias Administrativas de la Universidad Central del Ecuador, en el Centro de Educación Continua de la Escuela Politécnica Nacional, en el Centro de Educación Continua de la Universidad Tecnológica Equinoccial y en el Centro de Actualización de Conocimientos del Colegio de Ingenieros Civiles de Pichincha.

Publicaciones Académicas: Matemática Financiera, Editorial Alfaomega, Colombia, 2017. Probabilidad, Combinatoria y Distribuciones de Probabilidad, formato digital, 2017. Solucionario de Problemas propuestos del Texto de Probabilidad, Combinatoria y

Distribuciones de Probabilidad, formato digital, 2017. Estadística con SPSS, formato digital, 2017. Prácticas de Laboratorio de Estadística con SPSS, formato digital, 2017.

Comentarios: [email protected] www.cedicaped.com

Pedidos a: 0992745563; 022801667; 023444480

ESTADÍSTICA CON SPSS...PRESENTACIÓN: Al igual que las publicaciones anteriores: Matemática...

Documents

Transcript of ESTADÍSTICA CON SPSS...PRESENTACIÓN: Al igual que las publicaciones anteriores: Matemática...