Estadística aplicada con SPSS. Módulo I

237
Estadística aplicada con SPSS. Módulo I Autor: Mario Blacutt Mendoza 1 mailxmail - Cursos para compartir lo que sabes

Transcript of Estadística aplicada con SPSS. Módulo I

Page 1: Estadística aplicada con SPSS. Módulo I

Estadística aplicada con SPSS.Módulo IAutor: Mario Blacutt Mendoza

1

mailxmail - Cursos para compartir lo que sabes

Page 2: Estadística aplicada con SPSS. Módulo I

Presentación del curso

Éste es el Primer Módulo de Estadística Aplicada de cuatro que conforman el

curso total. Está dirigido, principalmente, a los profesionales, estudiantes y hombres

de negocios que necesiten un instrumento valioso aplicable en todas las áreas del

conocimiento. En particular, a economistas, administradores de empresas,

psicólogos, sociólogos y, en general, a todas las personas que deseen contar con

una disciplina expresada en una versión ágil y oportuna para recopilar, organizar,

manipular e interpretar datos.

En los primeros capítulos de esta primera versión analizaremos algunos

conceptos fundamentales en la estructura de la disciplina estadística, para ir

consolidando el uso de los mismos a medida que ingresemos en etapas más

avanzadas. El método es muy sencillo: en cada capítulo se explicará, con los detalles

necesarios, el significado de los conceptos estadísticos correspondientes al capítulo

respectivo, su uso, su utilidad y su interpretación. Todo esto, claro está, con la

ayuda del programa estadístico SPSS, siglas en inglés de su nombre completo:

Scientific  Program for Social Sciences, que es el más conocido y usado de todos los

paquetes estadísticos modernos. Así, haremos algo que generalmente requiere dos

cursos diferentes: aprenderemos Estadística Aplicada, aprendiendo el SPSS. No

habrá un solo paso que esté desconectado al aprendizaje y manipulación de sus

comandos.

Las principales empresas terciarizan los trabajos de investigación de datos;

para cumplir esa tarea, sólo necesitamos conocer la esencia de los conceptos

estadísticos, operar el SPSS e interpretar sus resultados. Las otras fases del Curso,

en sentido ascendente, son las siguientes: Estadística Intermedia, Estadística Media y

Estadística Avanzada , las cuales se irán concatenando entre sí, a medida que los

participantes lo requieran.

2

mailxmail - Cursos para compartir lo que sabes

Page 3: Estadística aplicada con SPSS. Módulo I

1. Estadística Aplicada con SPSS. Metodología delcurso

La Metodología

La parte teórica del curso ofrecerá los conceptos principales y desplegará

algunos ejemplos muy sencillos para mostrar lo que hará la computadora por

nosotros. Esto es, cuando le pidamos resultados sobre el análisis de datos reales

con muestras grandes. En virtud de que se trata de un curso de Estadística Aplicada

orientado a resolver los problemas prácticos que se presentan todos los días, no

habrá demostraciones matemáticas. Los cálculos y toda la  operatividad operacional

serán realizados por el SPSS.

Por lo general, el aprendizaje de la estadística en los cursos universitarios se

hace innecesariamente artificial y difícil, pues se asume que todos serán Estadísticos

Teóricos. Las demostraciones teóricas de las fórmulas ocupan la mayor parte de los

capítulos en los textos tradicionales y los participantes pierden el rumbo,

confundiendo el concepto cualitativo con la el proceso de la demostración.

Este curso, en sus cuatro versiones, está diseñado para brindar al participante

un instrumento ágil y operativo que le sirva para resolver problemas reales en su

respectivo entorno real.

De ahí el nombre: Estadística Aplicada (I) con el SPSS

Lo hace con la ayuda del SPSS, que, reitero, es el más conocido de todos los

paquetes estadísticos en la escala internacional.

Los pasajes sobre la historia de la Estadística y los personajes vienen del

estudio “Figures from the History of Probability and Statistics”, John Aldrich,

University of Southampton, Southampton, UK.

Por último, me gustaría referirme al modo expositivo que caracteriza el

desarrollo del curso; he tratado de que sea conciso y claro

Nada esté por demás ni por de menos.

3

mailxmail - Cursos para compartir lo que sabes

Page 4: Estadística aplicada con SPSS. Módulo I

2. Historia de la Estadística

1 CONCEPTOS FUNDAMENTALES

Primer esbozo de la Historia de la Estadística

Los eruditos, esos señores que tienen la mitad del conocimiento en sus

bibliotecas y la otra mitad en sus cerebros, dicen que la Estadística surgió como un

instrumento de análisis en Egipto, por el celo de las autoridades en conocer la

población, la cantidad de tierra disponible, los repartos de esa tierra y la riqueza que

poseían; pero, sobre todo, para obtener la información necesaria al cálculo de los

impuestos.

Los chinos ya conocían sobre la técnica de levantar censos y los griegos no se

quedaban atrás. Los romanos asimilaron el conocimiento anterior al que le sumaron

sus propios descubrimientos en la tarea periódica de levantar censos, en los que se

incluía datos sobre las cabezas de ganado, los recursos naturales, como también,

los matrimonios, nacimientos y defunciones.

La Edad Media no trajo nada nuevo, pero el Renacimiento sí, fue una época en

la que se dio gran importancia a las técnicas de recopilar, ordenas e interpretar

datos, que es la médula de la Estadística. En la primera mitad del siglo XVI, los

alemanes hicieron una recopilación sobre los recursos naturales, la población. Por

aquellas épocas había una creencia muy difundida en sentido de que en los años

terminados en 7 el número de muertos era mucho mayor que en los demás.

Gaspar Neumann, un científico de gran voluntad y conocimiento se dio a la 

tarea de revisar las partidas parroquiales para comparar el número de nacimientos y

defunciones de decenas de años. Su investigación le permitió negar la fatídica

sombra de los años terminados en 7. Como sucede con todo descubrimiento útil a

la ciencia, los métodos usados por Neumann se expandieron. Un astrónomo inglés

los leyó con gran  atención, los interpretó debidamente, los enriqueció con sus

propias e ideas, que le permitió que el actual cometa Halley llevara su nombre.

Además, los métodos estadísticos le permitieron sentar las bases para la

estructuración de lo que ahora se denominan “Tablas de Mortalidad”, médula

espinal de las compañías de seguros. 

En Grecia, la primera referencia con relación a la futura disciplina estadística

podría ser la que se incluye en el Libro II de Tucidides sobre  la Guerra del

4

mailxmail - Cursos para compartir lo que sabes

Page 5: Estadística aplicada con SPSS. Módulo I

podría ser la que se incluye en el Libro II de Tucidides sobre  la Guerra del

Peloponeso entre espartanos y atenienses. En el texto se anota onceptos propios de

lo que ahora llamamos Muestreo. El problema, al parecer, fue el siguiente.

El ejército debe asaltar una muralla y los jefes militares han decidido que es

preciso contar con una torre móvil que permita a los soldados tomar la ciudadela,

minimizando el riesgo. La tarea exige conocer la altura de la muralla. En un

despliegue de observación científica, los sabios deciden estimar la altura de la

muralla para calcular la altura de la torre. Saben que la muralla está construida con

ladrillos de dimensiones iguales; por ello, solicitan que se envíe una pequeña partida

de soldados para recopilar datos aproximados sobre la altura del bastión, contando,

desde una prudente distancia, el número de ladrillos. Cumplida la misión, los

soldados regresan para informar sobre sus observaciones. Pero surge un

inconveniente: cada soldado da una cifra distinta del número de ladrillos que cree

haber contado y muy pocos de ellos coinciden entre sí. Para resolver el problema,

los sabios deciden tomar como indicador los datos que más se repiten en la visión

de los soldados; esto es, convienen en usar una medida de tendencia central, que

será analizada en esta obra, a la que se denomina la Moda (No; nada que ver con

Christian Dior) Cada capítulo vendrá pre precedido por el personaje principal del

tema.

5

mailxmail - Cursos para compartir lo que sabes

Page 6: Estadística aplicada con SPSS. Módulo I

3. Concepto de variable en Estadística. Tipos devariables

Variable

Es una magnitud que varía pero que puede ser medida, manipulada o

controlada.

Pueden estar relacionadas con otras variables y cambiar en concordancia.

Desde esta óptica, las variables se clasifican en dependientes e

independientes.

Una variable será considerada dependiente, en el marco de un estudio

concreto, si su magnitud cambia debido a los cambios de otra u otras variables.

Por ejemplo, el consumo es una variable que está relacionada al ingreso; si el

ingreso aumenta, el consumo de un bien también aumentará. Aunque todavía no

podemos saber en cuánto; más adelante lo sabremos.

Establecer en cuánto se modificará una variable dependiente como efecto del

cambio de otra, es una de las más importantes fases de la Estadística. Es decir, su

capacidad de pronóstico.

En este caso, en la relación Ingreso-Consumo, el Ingreso sería la variable

independiente, pues cambia sin estar ligado al cambio de otra  en el análisis

concreto.

Los modelos de simulación sirven para diseñar un experimento manipulando

las variables independientes para determinar la reacción de la variable dependiente.

Después de varios intentos, el diseñador lo aplicará a un estudio concreto de

la realidad, estudio que es monitoreado por los responsables.

Tipos de variables

Las variables se dividen en tres grandes grupos: Cuantitativas, Categóricas y

de Intervalo.

Variables cuantitativas: Las conocemos como variables numéricas; este tipo

de variables son las más comunes en los estudios estadísticos, pues varían en su

magnitud.

6

mailxmail - Cursos para compartir lo que sabes

Page 7: Estadística aplicada con SPSS. Módulo I

Variables categóricas: Son las variables cualitativas y se dividen, a su vez, en

dos grandes ramas: las variables nominales y las variables ordinales.

Variables nominales: Son aquéllas que no pueden ser clasificadas ni en una

magnitud cuantitativa ni en una magnitud de jerarquía. Por ejemplo, las categorías

de género;  varón, mujer, son variables de ese tipo.

Variables ordinales: Las que aceptan una jerarquización de importancia.

El ingreso familiar, por ejemplo, es una variable nominal, puesto que puede

ser calificado de acuerdo a un orden, v.g, descendente.

Variables de intervalo: Nos permiten expandir el radio de las variables

numéricas.

Ejm. el promedio del ingreso semanal de un grupo de estudiantes puede

encontrarse entre $30 y 3, intervalo que a veces es más útil que el dato único que

nos brinda la media.

Relación de las variables: Desde el punto de vista de la relación, hay tres

clases de variables.

Variables dependientes: Las que cambian, debido a que otra variable o

variables han cambiado, de acuerdo con un tipo de relación dada entre ambas.

Variables Independientes: Las que cambian sin depender del cambio de

otras o pueden ser manipuladas.

Una de las principales tareas del estadístico es determinar cuáles serán las

variables independientes y cuáles las dependientes en el análisis que debe realizar.

En otros capítulos veremos que una variable Y puede cambiar de magnitud si

la variable X, cambia y, al mismo tiempo, ésta puede cambiar cuando cambia la

primera

Variables neutras: Son las que no están relacionadas con ninguna otra.

Variables Discretas: Las que entre dos valores aproximados entre sí, toman,

a su vez, un número finito de valores; ejemplos: 4 personas, 5 asientos

Variables Continuas: Son las que en un intervalo dado pueden tomar un

número de valores muy grande Ejemplo, la hora, la temperatura, la distancia, la

velocidad….

7

mailxmail - Cursos para compartir lo que sabes

Page 8: Estadística aplicada con SPSS. Módulo I

velocidad….

Hay dos requerimientos que la Estadística exige sobre la relación entre

variables.

Primero, que obedezcan a una teoría pre establecida o a una hipótesis

racional, lógica y que el grado de relación entre ellas sea suficientemente sólido.

Por ejemplo, puede suceder que los precios en España cambien en relación

directa con los nacimientos de niñas en Corea; esta aparente relación no es

aceptable.

No lo es, puesto que no hay ninguna teoría científica que la aval, en cambio la

relación entre el consumo y el ingreso es una relación que proviene de alguna teoría.

Una vez que aceptamos teóricamente la relación entre dos variables, nos toca

establecer el grado en que ambas están relacionadas entre sí.

El valor “p”

Estima el grado en que la relación entre dos fenómenos es real y no se debe

al azar

Cuantifica la probabilidad del error que cometemos al interpretar una relación.

La cuantificación de la probabilidad del error está directamente relacionada

con el grado de confianza que deseamos asegurar en cada caso.

Por lo general aceptamos un error del 5% en el grado de relación de las

variables

El valor p será el que determine si los resultados están o no dentro de ese

margen.

El 5%, que escribimos como 0.05, nos hace saber que de 100 casos

observados, corremos el riesgo de que tomemos por ciertos 5 casos que son

errados.

El concepto del valor p se asentará a medida que lo vayamos usando.

Todos estos datos son computados por el SPSS.

Pero podemos adelantar que mientras más numerosa es la muestra en la que

trabajemos, más explícita se hará la relación o neutralidad de las variables.

8

mailxmail - Cursos para compartir lo que sabes

Page 9: Estadística aplicada con SPSS. Módulo I

Adelantamos algo que luego será analizado en detalle: los estudios

estadísticos se basan en muestras, las que son tomadas de alguna población.

Veremos que los elementos de una población, de la que tomamos la muestra,

están distribuidos de diferentes maneras, pero que habrá una que nos interesará.

Ese tipo de distribución se llama Distribución Normal, y es la que se apega

más a la forma en que los sucesos, procesos y fenómenos se distribuyen en la

realidad.

Por otra parte, la Estadística se divide en dos grandes dimensiones, una como

continuación de la otra: Estadística Descriptiva e Inferencia Estadística.

9

mailxmail - Cursos para compartir lo que sabes

Page 10: Estadística aplicada con SPSS. Módulo I

4. Estadística descriptiva. Recolección de datos

La Estadística Descriptiva

Usa gráficas, tablas y diagramas para conocer las características más

importantes de los datos que nos interesan; es con el estudio de esta dimensión que

empezamos el curso.

Esta rama de la Estadística nos ilustra sobre las medidas denominadas de

tendencia central, tales como: la media aritmética, la mediana, la moda.

También se ocupa de mostrar las medidas de dispersión: la varianza, la

desviación típica, las diferentes distribuciones de cada conjunto de datos… y otros

parecidos.

Muy pronto, cuando  hayamos logrado consolidar los conceptos

fundamentales de cada uno y el manipuleo del SPSS, nos haremos expertos en estos

y otros temas

Finalmente, terminaremos este primer curso con el tema de “test de

hipótesis” material para el que se reserva la Inferencia Estadística.

La Hipótesis

Toda tarea estadística empieza con el lanzamiento de alguna hipótesis sobre

algún aspecto de la realidad; la hipótesis debe ser verificada.

La Estadística es la que hace de verificadora; los  resultados que obtengamos

de los datos decidirán si la hipótesis es aceptable.

Ahora bien la primera actividad operativa es la recolección de datos.

La Recolección de datos

Si no hubiera una base de datos disponible, se diseñará una encuesta

orientada a lograrlos, la primera lección en el SPSS se refiere a cómo codificar una

encuesta.

Datos

Constituyen la materia prima de las tareas referidas a la Estadística.

Información

1 0

mailxmail - Cursos para compartir lo que sabes

Page 11: Estadística aplicada con SPSS. Módulo I

Los datos por sí solos nada nos dicen

Para que sean útiles es preciso que los agrupemos y sistematicemos de la

manera adecuada; es decir, que los convirtamos en información.

Las fuentes de datos pueden provenir de registros que tienen otras

instituciones o de la recopilación directa que realizamos; en este caso, usamos la

encuesta.

La información así obtenida nos permitirá deducir aspectos relativos sobre las

causas y los efectos de los fenómenos que deseamos analizar.

También nos sirve para establecer tendencias sobre los comportamientos de

las personas y de los procesos, pues nos orientan para obrar adecuadamente.

Por ejemplo, supongamos que deseamos realizar un estudio sobre las

preferencias del consumidor por nuestros productos y el comportamiento de la

competencia.

Para averiguar lo que sucede, debemos acudir a las técnicas estadísticas y

deducir de los resultados las medidas que consideremos necesarias.

El concepto de Población

La Población es el total de los elementos potencialmente observables; v.g. el

número de familias que existe en una ciudad determinada.

El levantamiento de estos datos, los que cubren a todas las familias que viven

en una ciudad, se realiza por medio del diseño y la ejecución de un censo.

En la disciplina estadística muy raras veces se usa la Población, pues es muy

difícil llegar a ella; además, es cara; más bien, se usa lo que se llama la Muestra.

La Muestra

Es una parte de la Población, la que, utilizando las técnicas que aprenderemos

en este curso, representa todas las características que tiene la Población.

El Tamaño Muestral

Es el número de elementos que conforman una muestra.

Los datos ordenados pueden ser representados gráficamente por barras,

tortas o varias otras formas visuales que facilitan la percepción primera del análisis.

1 1

mailxmail - Cursos para compartir lo que sabes

Page 12: Estadística aplicada con SPSS. Módulo I

tortas o varias otras formas visuales que facilitan la percepción primera del análisis.

Cuando ingresemos al tema de la distribución de frecuencias aprenderemos a

elaborarlos, identificarlos, distinguirlos de los demás e interpretarlos.

Hay varias maneras de lograr los datos que necesitamos en una muestra.

Para nuestros fines usaremos la encuesta.

La Encuesta

Es la recopilación sistematizada de datos que logramos de una población

determinada y que luego transformaremos en información útil.

En vez de enseñar primero el manejo del SPSS y luego empezar con los temas

del curso, más bien iremos aprendiendo ambos sobre la marcha

Esto es, Aprenderemos haciendo.

Prueba “a la vista”

El gerente de la empresa quiere probar “a la vista” nuestros conocimientos

sobre la elaboración de hojas de encuesta por métodos computarizados.

Desconfiados como son los gerentes, el de nuestra empresa quiere estar

seguro de que vamos a incluir diferentes clases de variables y sus significados.

Aquí empezamos a explayarnos sobre la materia.

Acudimos a nuestro irremplazable amigo, el SPSS, el que nos acompañará a lo

largo de éste y los otros cursos y, claro, de otras pruebas “a la vista”.

El gerente, al pedirnos que realicemos una tarea como ésa, nos da una gran

oportunidad para explicarle, paso a paso, lo que estaremos haciendo para cumplirla.

1 2

mailxmail - Cursos para compartir lo que sabes

Page 13: Estadística aplicada con SPSS. Módulo I

5. Estadística descriptiva. Diseño del Formulario deEncuesta (1/2)

Diseño del Formulario de Encuesta

Hacemos click en el nombre del programa, el que debe estar en la sección

“archivos” con el nombre de IBM SPSS Statistics, versión 19.

Al hacer el click, aparecerán dos archivos.

Escogeremos el segundo de ellos: IBM SPSS Statistics 19.

Luego de la espera, cuya duración dependerá de la potencia del equipo que se

tiene, aparecerá una hoja de diálogo conformada por filas y columnas.

En esa hoja habrá una pregunta en el lado izquierdo: ¿Qué desea hacer?

En el lado derecho aparecerán cuatro opciones.

En esta oportunidad, haremos click en la segunda opción: introducir los datos.

Una vez escogida la opción, pulsamos Aceptar.

De inmediato se muestra ante nosotros una hoja con celdas constituidas por

columnas y filas; esa hoja se llama el Editor de Pantalla o Pantalla de Datos.

En ella veremos que hay columnas y filas; en la parte superior de cada una de

las columnas se lee la misma palabra: var, que es la abreviación de variable.

Es una invitación para que pongamos los nombres de las variables deseadas;

bajamos la vista y vemos que en la parte inferior izquierda de la hoja hay dos casillas

Una, con la leyenda Vista de datos y la otra: Vista de Variables

Nuestra primera tarea será poner nombres a las columnas.

Cada columna representa alguna característica de la variable que deseamos

analizar.

Pulsemos Vista de Variables; el SPSS nos trasladará a  una nueva pantalla.

Esta nueva hoja sí tiene nombres en las columnas, las que usaremos de

inmediato Nuestra primera variable se llamará sexo para definir el género de las

personas.

1 3

mailxmail - Cursos para compartir lo que sabes

Page 14: Estadística aplicada con SPSS. Módulo I

En la primera casilla de la izquierda de Vista de Variables, anotamos la

palabra sexo; las demás casillas horizontales de la misma fila se llenan por defecto.

Recordemos que la variable sexo no es una variable cuantitativa, sino,

cualitativa, El SPSS la va a codificar, asignando un número a cada uno de los dos

sexos.

Antes, vamos a darle al SPSS las características de la primera variables;

llevamos el mouse a la primera, Numérico que está debajo de la segunda columna,

Tipo.

Al pulsar Numérico, aparece una pequeña fila de 3 puntos suspensivos.

Pulsamos esa pequeña fila y se nos presente un cuadro de diálogo.

Allí hay opciones para los tipos de variables que vamos a necesitar.

En este caso, deseamos que la variable sexo.

La variable sexo es cualitativa, pero se codifica por medio de un número, por

lo tanto pulsamos el botón Numérico y aceptamos.

La tercera columna de la pantalla dice Anchura.

El rótulo nos indica cuán ancho ha de ser el espacio que ocupará el nombre

de la variable sexo; por defecto aparece 8 , pero nosotros queremos cambiar a 6.

Pulsamos en 8 y se nos aparecen dos flechas.

La de arriba para aumentar el ancho y la de abajo, para reducirlo.

Como la palabra sexo es más corta, pulsamos la inferior, hasta que aparezca

6.

Hacemos exactamente lo mismo para los decimales, con la diferencia de que

no los necesitamos, presionamos hasta 0.

Seguimos en la fila y llegamos a la casilla Etiqueta, la que debe ser explicada

La palabra sexo, que ya consta en la primera casilla es una variable de

trabajo, en cambio, el mismo nombre en la casilla bajo el rótulo Etiqueta es forma.

Será el nombre que aparecerá cuando demos nuestro informe sobre los

resultados de la encuesta; por eso tendrá que ser formal.

1 4

mailxmail - Cursos para compartir lo que sabes

Page 15: Estadística aplicada con SPSS. Módulo I

En la casilla debajo de Etiqueta escribimos Sexo (la primera con mayúscula)

Una vez realizada estas operaciones nos encontramos con la casilla Valores,

que es en la que convertiremos la variable sexo, que es cualitativa, en una

cuantitativa

Antes, debemos decidir qué número vamos a asignar a cada sexo.

Identificaremos al sexo femenino con el número 1 y al masculino, con el

número 2.

Para convertir la variable cualitativa sexo en una variable cuantitativa,

pulsamos el click en la casilla ninguna, que se encuentra debajo de la columna Valores.

Valores.

Aparecerán tres puntos suspensivos en fila.

Hacemos click en ello; al hacerlo, veremos un cuadro de diálogo.

En la casilla donde dice Valor inscribimos 1; en la casilla donde dice Etiqueta,

registramos la palabra mujer; y pulsamos Añadir.

En el cuadro inferior aparece “1 = mujer”; aceptamos.

La casilla Valor aparece otra vez vacía.

Inscribimos en ella el número 3, y en la casilla Etiqueta registramos la palabra

hombre.

Pulsamos Añadir y en el cuadro aparecerá “3 = Hombre”. Aceptamos.

(Este aparente  error tiene un fin, como veremos)

Continuamos en el siguiente capítulo…

1 5

mailxmail - Cursos para compartir lo que sabes

Page 16: Estadística aplicada con SPSS. Módulo I

6. Estadística descriptiva. Diseño del Formulario deEncuesta (2/2)

El SPSS identificará con esos números el sexo de las personas encuestadas

Vamos a la pantalla Vista de datos, pulsando la casilla, al pie de la  hoja.

La primera columna ya tiene un nombre: sexo; si queremos constatar el

nombre que irá en el Informe Final, la apuntamos con el cursor por unos segundos.

Aparecerá la palaba Sexo, con mayúscula, que es el nombre formal de la

casilla.

El gerente general quiere constatar las características de esa variable.

Vamos a Vista de variables, que está al final de la hoja  y le mostramos lo que

nos pide; el nombre de la variable es sexo; el tipo es numérico

La anchura es de 6 espacios y tiene 0 decimales

Hacemos click en la siguiente casilla, lo que nos lleva al cuadro de diálogo

que ya conocemos: el número 0 identifica a mujer y el 3 (¡!) se reserva para hombre.

Pero nosotros habíamos decidido que el número codificado para hombre sería

1.

Habrá necesidad de modificar el registro.

Hacemos click en el dato “3 = hombre” en el cuadro inferior

Se activará la casilla Eliminar; hacemos clic en ella, el dato equivocado se

elimina y lo cambiamos por 1 siguiendo el mismo procedimiento usado para mujer.

El gerente se percata de que sabemos identificar un error y rectificarlo.

Ahora nos toca registrar las particularidades de la variable Edad.

Este procedimiento es mucho más fácil, porque la Edad es una variable

cuantitativa y discreta, no hay necesidad de hacer ninguna modificación.

Vamos a la hoja Vista de variables; hacemos click en la casilla vacía debajo de

sexo

Allí anotamos: edad; horizontalmente dejamos la palabra que ya está allí

1 6

mailxmail - Cursos para compartir lo que sabes

Page 17: Estadística aplicada con SPSS. Módulo I

Numérico.

Escogemos 4 y en la siguiente casilla anotamos 0 para el número de decimales

En Etiqueta anotamos Edad en años cumplidos y dejamos Ninguna en la

casilla de Valores puesto que la variable es cuantitativa y no necesita ser codificada.

Ya tenemos registrada la segunda variable.

Vamos a Vista de datos; pulsamos unos segundos con el cursor en la casilla edad

edad  y aparece el nombre formal, Edad en años cumplidos que irá en el informe

final.

La tercera variable de la encuesta virtual que estamos haciendo, será Estado

Civil.

Consideramos que hay 5 categorías:

Soltero, Casado, Divorciado, Viudo, Conviviente.

Cada una de estas variables, al igual que sexo, es cualitativa, por lo que

realizamos las mismas operaciones que hicimos para sexo.

Vamos a Vista de variables, pulsamos en la casilla que está debajo de edad;

allí anotamos la siguiente palabra: estci, que es una abreviación de Estado Civil

La razón por la que recurrimos a la abreviación se debe a que para ciertas

operaciones, las variables de trabajo son modificadas por medio del aumento de

letras.

Vamos a suponer los cinco estados civiles siguientes, en ese orden:

Soltero, casado, divorciado, viudo y conviviente

La variable estci será numérica con 6 espacios, 2 decimales

La Etiqueta: Estado Civil.

Llegamos a Valores; pulsamos la casilla correspondiente donde dice Ninguna.

Aparecen los tres puntos, hacemos clic y tenemos acceso al cuadro de diálogo.

Tal como hicimos antes, en la casilla Valor escribimos 1 y en la casilla

Etiqueta, registramos soltero, para luego pulsar Añadir  y aceptar.

Procedemos a llenar la casilla Valor con el número 2 y la casilla Etiqueta con la

1 7

mailxmail - Cursos para compartir lo que sabes

Page 18: Estadística aplicada con SPSS. Módulo I

Procedemos a llenar la casilla Valor con el número 2 y la casilla Etiqueta con la

palabra casado; pulsamos Añadir y aceptamos.

Seguimos con el mismo procedimiento, hasta que tengamos los 5 estados

civiles debidamente registrados.

Ahora nos toca estructurar la variable idiomas.

Observemos que la variable sexo nos permite una sola opción: mujer  u

hombre.

La de estado civil  también nos permite una sola opción de cinco posibles.

En cambio, la variable idiomas nos brinda más de una opción, pues alguien

puede hablar dos o hasta tres idiomas.

En razón de que tenemos más de una opción, cada idioma tendrá su columna

por separado; es decir, ahora se trata realmente de cinco variables, no de una.

Establezcamos los siguientes idiomas: Español, Inglés, Alemán y Francés.

Empezamos con Español; esp, numérico, 8, 0, espanol (sin la ñ)

Lo mismo para todos los demás idiomas.

Ahora vamos a realizar una pequeña prueba para ver si el diseño de la hoja de

encuesta que hemos estructurado es correcto;

Vamos a la hoja de Vista de datos y llenamos cinco filas con datos supuestos;

recordemos que cada fila es una hoja de encuesta con todos los datos solicitados.

Así, llenamos la primera fila con los datos inventados, en el caso de las

variables, como Idiomas, si alguien habla español se anota simplemente 1.

Lo mismo para los demás, el hecho de que hable un idioma se registra con 1

Este “1” no significa que el idioma está codificado, más bien muestra que se

lo habla.

Registrados  los datos supuestos, archivamos el ejercicio en el archivo que

hemos abierto; en este caso el nombre del archivo que hemos habilitado es:

Estadística aplicada I ejercicio 1.sav

Ahora bien, una vez que el gerente ha visto que podemos usar el SPSS, nos

1 8

mailxmail - Cursos para compartir lo que sabes

Page 19: Estadística aplicada con SPSS. Módulo I

confía la tarea de analizar las características principales del personal de la empresa.

Esas características incluyen estimar el sexo, la edad la experiencia y las

medidas

De tendencia central: media aritmética de los sueldos, la mediana, la

varianza…

Añadimos la debida probabilidad de error; para hacer ese ejercicio

acudiremos a un archivo de datos que viene adjunto con el paquete del SPSS.

Todo eso lo hará la computadora.

Pero nosotros tenemos que conocer los conceptos de lo que se nos pide y,

claro, manipular los comandos e interpretar los resultados que el SPSS nos brinde.

1 9

mailxmail - Cursos para compartir lo que sabes

Page 20: Estadística aplicada con SPSS. Módulo I

7. Famosos en la evolución de la Estadística. BlaisePascal y Christiaan Huygens

Blaise Pascal (1623-1662)

Fue un gran matemático como también afamado filósofo, educado por su

padre el que, a su vez, también fue un notable matemático. La correspondencia

espistolar con otro matemático de gran calibre, Fermat,  dio lugar al tratamiento

matemático las investigaciones sobre los índices de mortalidad, muy útiles a las

compañías de seguro de nuestra época.

También dieron origen a los primeros análisis sobre las probabilidades

aplicadas a los juegos de azar, algunos de cuyos resultados fueron dados a conocer

en la obra póstuma de Pascal Tratado del triángulo aritmético que tiene aplicaciones

de la teoría de las probabilidades, con las que argumentó el problema “la ruina del

jugador”, obra que es considerada como pionera del análisis moderno sobre el

proceso de tomar decisiones, aunque los aportes no están en sus trabajos

matemáticos sino en su obra Pensamientos, que son reflexiones sobre la religión.

Christiaan Huygens (1629-1694)                                                  

                                                            

2 0

mailxmail - Cursos para compartir lo que sabes

Page 21: Estadística aplicada con SPSS. Módulo I

Fue otro gran matemático y, además, físico. Sus padres querían que fuera

diplomático, pero él eligió la ciencia en la que tuvo la oportunidad de hacer

significativos aportes en las áreas de la matemática, de la física y de la astronomía.

Estuvo 14 años en la Academia de Ciencias de París. Escribió una obra titulada El

Valor del azar en los juegos de fortuna. Gran parte de su obra está orientada a

calcular el valor de las expectativas en un juego de azar. Este libro fue muy

conocido en su época y estructuró la primera parte de la obra de otro gran

matemático en la historia de la Estadística: Jakob Bernoulli. También conoció a

Pascal y a Fermat.

2 1

mailxmail - Cursos para compartir lo que sabes

Page 22: Estadística aplicada con SPSS. Módulo I

8. Medidas de Tendencia Central. Medida Aritmética

2 MEDIDAS DE TENDENCIA CENTRAL

La Estadística, como disciplina formal tiene sus bases entre los años 1650 y

1700, era de la Revolución Científica, con nombres ilustres como los que vemos en

los retratos.

Una Medida de Tendencia  Central es el punto medio de una distribución de

frecuencias.

Ahora estudiaremos las características de las más importantes medidas con

breves ejemplos manuales, haciendo uso del SPSS.

La Media Aritmética

La conocemos como el promedio de una serie de datos.

Supongamos que deseamos saber el promedio de la edad de 6 personas que

están en un consultorio médico, haciendo un tratamiento especial.

Para sacar ese promedio, sumamos las edades de todos y cada uno; luego

dividimos el resultado entre 6, que es el número de personas que nos interesa.

Media aritmética =  (40 + 34 +28 + 10 + 23 + 50)/6 = 30.83

La media aritmética o promedio de las edades de las seis personas es 30.83

años.

Si queremos saber el ingreso promedio de 5 amigos que desean ir a  tomar un

café, preguntamos a cada uno cuanto tiene y luego hacemos lo mismo que en el

caso anterior.

Los datos que obtenemos de los cinco son los siguientes:

El primer amigo tiene $4

El segundo, $20

El tercero, $12

El cuarto, $9

El quinto, $13

2 2

mailxmail - Cursos para compartir lo que sabes

Page 23: Estadística aplicada con SPSS. Módulo I

Media aritmética = (4 + 20 + 12 + 9 + 13)/5 =  11,60

El resultado dirá que, en promedio, cada uno tiene 11 dólares con 60

centavos, idependientemente de la suma que cada uno tenga en la realidad.

Ese es el concepto fundamental de la media aritmética; luego veremos porqué

es tan útil.

No importa cuán pequeña o grande pueda ser el conjunto de datos que se

nos presente, la media aritmética siempre tendrá la misma definición:

Será la suma de todos los valores, dividida entre el número de casos.

Usando símbolos, tendremos: X* = Xi/n

X* es la media aritmética de la muestra que hemos tomado; Xi, representa a 

cada uno de los valores que serán sumados; n es el número de observaciones.

La misteriosa indica que todos los valores Xi deben ser sumados.

Tomemos otro ejemplo cualquiera

X* = (9 +7 + 7 + 6+ 4+ 4 + 2)/7 = 5.6

En este conjunto hay dos valores repetidos (el 7) pero eso no importa, el SPSS

lo toma en cuenta como cualquiera de los demás valores.

En los libros de Estadística se pone ejemplos sobre las formas de estimar la

media aritmética cuando los datos están ordenados o están desordenados.

Esto no tiene importancia para el SPSS; después, cuando ya sepamos

desenvolvernos mejor, aprenderemos a usar los rangos.

Ventajas y desventajas de la media aritmética

Ventajas, un solo número representa a un conjunto de datos, concepto con el

cual todos estamos familiarizados.

Nos permite realizar comparaciones entre varios conjuntos de datos; por otra

parte, cada conjunto de datos tiene una sola media.

Desventajas; puede haber valores extremos que no son representativos  del

conjunto de los datos  que estamos tomando en cuenta.

Para probarlo, tomemos la media aritmética de los siguientes datos, los que

2 3

mailxmail - Cursos para compartir lo que sabes

Page 24: Estadística aplicada con SPSS. Módulo I

Para probarlo, tomemos la media aritmética de los siguientes datos, los que

representan los ingresos mensuales de 7 personas que trabajan en una empresa.

2400, 3200, 2580, 3260, 2500, 2840, 19000

La media aritmética sería:

X* =  (2400 + 3200 + 2580 + 3260 + 2500 + 2840 + 19000)/7 = 5111

Pero nos damos cuenta de que la media está muy sesgada por el ingreso de

19000

Hagamos la prueba, eliminemos el valor extremo de 19000, que es el sueldo

del gerente general: 2400, 3200, 2580, 3260, 2500, 2840)/6 = 2796.67

Éste es un valor más representativo de los ingresos mensuales que perciben

los empleados; en este caso, será más útil calcular la media anulando el valor

extremo.

2 4

mailxmail - Cursos para compartir lo que sabes

Page 25: Estadística aplicada con SPSS. Módulo I

9. Medidas de Tendencia Central. Medida AritméticaPonderada

La Media Aritmética Ponderada

El siguiente ejemplo es del libro “Estadística para Administradores” Levin y

Rubin

El costo por producto incluye diferentes grados de calificación de la mano de

obra; si utilizamos la media aritmética simple, tendríamos que el salario promedio

sería: 

X* =  (5 + 7 + 9)/3 = $7

Este sería el costo en una jornada normal de 8 horas de trabajo

Tabla 2.1

Tipos de trabajo y salarios

Tipo de trabajo Salario por hora Sillas Mesas

No calificado

Semicalificado

Calificado

5

7

9

1

2

5

4

3

3

En la tabla 2.1 vemos  que la producción de sillas toma 1 hora de trabajo no

calificado; 2 horas de trabajo semicalificado y 5 horas de trabajo calificado

Si estimamos el promedio salarial de $7 por hora sin ponderarlos, tendríamos:

El costo de producir sillas:                    7(1 + 2 + 5) = $56

El costo de producir mesas:           7(4 + 3 + 3) = $70

Estos resultados no serían reales, puesto que el número de hs. de cada

categoría de trabajo varía en la producción de cada item, y con ello, en el costo

respectivo

El costo promedio correcto de la producción de sillas resulta de la

ponderación de del tipo de trabajo, pues cada uno tiene un salario diferente.

La producción de sillas utiliza una combinación de los tres tipos de trabajo.

2 5

mailxmail - Cursos para compartir lo que sabes

Page 26: Estadística aplicada con SPSS. Módulo I

Una hora de trabajo no calificado, cuyo salario es de $5 por hora; dos horas

de trabajo semicalificado y el salario de $7por hora;

5 horas de trabajo calificado, y un salario de 9 por hora; ahora sí, estimamos

el costo correcto de sillas y mesas; es decir, el costo ponderado.

El costo correcto de las sillas:                 (5 x 1) + (7 x 2) + (9 x 5) =  $64

El costo correcto de las mesas:                   (5 x 4) + (7 x 3) + (9 x 3) =  $68

A continuación calcularemos el costo promedio por hora para la producción

de las sillas y, aparte, para la producción de las mesas

La fabricación de sillas tomó un total de 8 horas de trabajo (1+2+5)

El costo promedio de las horas de trabajo usado en las sillas será 64/8 = 8

En el ejemplo de las mesas, como se invirtieron 10 horas de trabajo en su

producción, el promedio salarial será: 68/10 = $6.8 por hora de trabajo.

La distinción entre los conceptos de promedio simple y promedio ponderado

es muy importante y requiere diferentes modos de estimarlos; el SPSS lo hace sin

dificultad.

2 6

mailxmail - Cursos para compartir lo que sabes

Page 27: Estadística aplicada con SPSS. Módulo I

10. Medidas de Tendencia Central. MedidaGeométrica y Medidas de Dispersión

La Media Geométrica

Se usa, principalmente, para estimar los promedios de cantidades que

cambian con el tiempo; tomemos el ejemplo de una cuenta de ahorro que paga

intereses.

Si dejamos el dinero depositado por algunos años, sin retirarlo, a una tasa de

interés anual determinada, el depósito inicial se irá acumulando año tras año.

El interés se irá sumando al capital cada año; cada nuevo monto sumará los

intereses y así sucesivamente.

Ejemplo: Interés compuesto

Supongamos que al comienzo del año depositamos $ 1000 en una caja de

ahorros que nos ofrece un interés anual de 10%.

La condición es que el depósito continúe por 4 años seguidos sin hacer

retiros.

Deseamos saber la cantidad que recibiremos al final del cuarto año.

Al final del primer año tendremos 1100; los 1000 originales más el 10%, que

es $100; los 100 dólares de interés ganados en el primer año, se suman a los 1000

originales.

Para el siguiente periodo nuestro depósito original se habrá convertido en

$1100.

Al final del segundo año, tendremos una ganancia del 10% de $1100, ya no

de 1000.

Nuestra cuenta acumulada a fines del segundo año será 1100 x 0.10  =  110,

los que sumados a los 1100 que ya teníamos, nos dará un total de 1210 y así

sucesivamente

La fórmula concreta para estimar las tasas de interés compuesto en este caso

particular, viene estructurada de la siguiente manera

2 7

mailxmail - Cursos para compartir lo que sabes

Page 28: Estadística aplicada con SPSS. Módulo I

Depósito original  = 1000

Tasa de interés anual = 10%

Número de años que dura el depósito sin retirar fondos = 4

Total del dinero que tendremos al final de cuarto año: 1000 (1+0,10)4 =

1000(1.1)4

Total = 1000(1,4641) = 1464.10

Los 1000 dólares originalmente depositados se han convertido en 1464.10.

Lo dijimos: no habrá demostraciones teóricas, se trata de Estadística Aplicada.

Este tipo de problemas se vuelven muy complicados cuando las cantidades y

el número de años es mucho mayor, algo que no es ningún problema para el SPSS.

Pero quedan todavía otros estadísticos de tendencia central, cuyos conceptos

debemos conocer, distinguir e interpretar, antes de recurrir al SPSS.

La Mediana

Valor que está más al centro de un conjunto de datos ordenados de menor a

mayor

Conjunto de observaciones impar

Registramos los siguientes datos que representan los ingresos semanales de

11 personas tomadas al azar como una muestra y los ordenemos de menor a mayor:

120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750

De acuerdo con la definición dada, la Mediana será $380, pues ese monto

está exactamente al medio del conjunto de datos de la muestra.

El número de observaciones nos indica que hay cinco a la izquierda de la

Mediana y cinco a la derecha; esa simetría se debe a que el número total de

observaciones es impar

Conjunto de observaciones par

Si agregamos un dato más a la muestra, v.g. 780, tendremos:

120, 140, 200, 240, 260, 380, 390, 450, 630, 700, 750, 780

2 8

mailxmail - Cursos para compartir lo que sabes

Page 29: Estadística aplicada con SPSS. Módulo I

El número de datos de la muestra es par (12) por lo que nos encontramos con

dos datos centrales: 380 y 390, pero no podemos escoger uno de ellos

arbitrariamente.

Para calcular la Mediana calcularemos la media aritmética de los dos valores

centrales, de la manera que hemos aprendido: (380 + 390)/2 = $385

El SPSS calculará inmediatamente la Mediana de series de cualquier tamaño y

tipo.

 

Ventajas de la Mediana

La mediana no está influida por valores extremos, como está la media

aritmética.

La Moda

Es el valor que más se repite en el conjunto de datos y que los griegos que

deseaban fabricar una torre para desbaratar la ciudad sitiada utilizaron como

indicador.

Tomemos los datos utilizados en la mediana, pero lo transformemos de tal

manera que el valor 260 se repite tres veces; en ese caso la Moda será 260.

120, 140, 200, 240, 260, 260, 260, 380, 390, 450, 630, 700, 750, 780

La Moda se aplica en el caso de que haya varios valores repetidos en la

muestra.

Cuando lleguemos al capítulo de las distribuciones, usaremos una gráfica de

distribución para comparar la media aritmética, la mediana y la moda, entre sí.

Mientras tanto, diremos que no hay reglas generales que nos permitan

escoger alguna de ellas; pero la media aritmética es la más utilizada.

Tales son las medidas de tendencia central más importantes.

Medidas de dispersión

Vimos que las medidas de tendencia central identifican un valor que se acerca

más al centro de una serie de datos o de elementos.

Las medidas de dispersión nos muestran el grado en que se alejan del centro.

2 9

mailxmail - Cursos para compartir lo que sabes

Page 30: Estadística aplicada con SPSS. Módulo I

Las medidas de dispersión nos muestran el grado en que se alejan del centro.

La primera medida de dispersión, la más simple, es el rango

El Rango

Es la diferencia entre el valor más alto y el más pequeño de los datos.

Acudamos otra vez a las serie de datos utilizados para calcular la Mediana:

120, 140, 200, 240, 260, 260, 380, 390, 450, 630, 700, 750, 780

El Rango será 780 – 120 = 660

El SPSS ordenará cualquier conjunto de datos que no estén ordenados.

El Rango nos da una primera percepción sobre las diferencia extremas que

median en una serie de datos, digamos, en un registro de salarios.

3 0

mailxmail - Cursos para compartir lo que sabes

Page 31: Estadística aplicada con SPSS. Módulo I

11. Medidas de Tendencia Central. Medidas dedesviación promedio (1/2)

Medidas de desviación promedio

Calcula la desviación promedio entre los valores de una serie de datos y una

medida de tendencia central; el SPSS las calcula; aquí nos interesa el concepto.

La Varianza

Es la media aritmética del cuadrado de las desviaciones respecto a la

media de una distribución estadística; la varianza de la muestra se representa por S2

Para aclarar el concepto, tomemos los siguientes datos:  2, 4, 6, 8, 10

La media aritmética será: (2 + 4 + 6 + 8 + 10)/5 = 30/5 = 6

Con ese dato, analicemos los valores originales

El valor 2 se desvía en - 4 de la media aritmética (2 - 6 =  - 4)

El valor 4 se desvía en - 2 unidades: (4 - 6 = - 2)

El valor 6 no se desvía de la media aritmética: (6 – 6 = 0)

El valor 8 sí se desvía en 2 (8 – 6 =  2) que es una desviación positiva.

Lo mismo sucede con el valor de 10, su desviación positiva es 4 (10 – 4 = 6)

Si deseáramos sacar la media aritmética de estas desviaciones nos

encontraríamos que su valor sería 0, pues los valores positivos anularían a los

negativos.

Para eliminar este problema no tomamos en cuenta la desviación simple de

cada observación  con la media aritmética; más bien elevamos cada desviación al

cuadrado

Lo hacemos así, porque una cantidad elevada el cuadrado, ya sea positiva o

negativa, siempre nos dará un resultado positivo, que es lo que se busca.

La suma de los cuadrados de esas diferencias será dividida por el número de

observaciones, que es 5, al que le restaremos 1.

Así lo determinaron los grandes matemáticos. El denominador será 5 – 1

3 1

mailxmail - Cursos para compartir lo que sabes

Page 32: Estadística aplicada con SPSS. Módulo I

S2 = [(2 – 6)2 + (4 – 6)2 (6 – 6)2 + (8 – 6)2 + (10 – 6)2]]/(5 – 1)

S2 = [(-4)2 + (-2)2 + (0)2 + (2)2 + (4)2]4  = [(16 + 4 + 4 + 16)]/4 = 40/4=

1 0

En consecuencia diremos que la varianza de la Muestra es 10.

La Desviación Típica de la Muestra = s

Para estimar la Varianza tuvimos que elevar las diferencias al cuadrado.

Ahora hacemos la operación inversa y sacamos la raíz cuadrada de S2.

De esa manera definimos la Desviación Típica de la Muestra = s

s = raíz cuadrada de S2 (Raíz cuadrada de la Varianza)

En este caso, s = raíz cuadrada de 10 = 3.16

El Coeficiente de Variación

Es la relación entre la desviación típica y la media de la muestra: s/X*

Las medidas de tendencia central y de dispersión son los estadísticos básicos

de la Estadística; por supuesto, son también los más usados en todos los niveles.

Este ejercicio complica cuando la muestra tiene, digamos, 20000

observaciones

Pero, calcular una muestra para esos valores es una tarea rutinaria del SPSS.

3 2

mailxmail - Cursos para compartir lo que sabes

Page 33: Estadística aplicada con SPSS. Módulo I

12. Medidas de Tendencia Central. Medidas dedesviación promedio (2/2)

El Uso del SPSS

Una vez definidas conceptualmente las medidas de tendencia central y las

medidas de dispersión, vamos al SPSS para aprender cómo las obtenemos.

Supongamos que deseamos saber las medidas de tendencia central y de

dispersión de los sueldos actuales que reciben los empleados de la empresa.

Abrimos el SPSS, pulsamos la tecla registrar datos del cuadro de diálogo.

Una vez que tenemos el editor de datos, pulsamos archivo, para abrir

Employee data.sav del archivo que viene incluido en el SPSS 19.

En la pantalla de datos colocamos el cursor en cada uno de los títulos de las

columnas para saber en cual columna  están los salarios actuales de los empleados

Apuntamos el cursor en la columna salary, por unos segundos para ver el

nombre formal y para  instruir al SPSS que calcule los estadísticos deseados.

Sin embargo, de entrada vemos que hay un problema.

Los salarios están registrados con el signo $ = dólar; para calcular los

indicadores que deseamos, tenemos que cambiar los datos al tipo Numérico.

Vamos a Vista de Variables; encontramos la fila donde dice  salary y su

nombre formal es Current Salary, que es el que luego nos interesará

El título de la segunda columna dice Tipo, debajo de ella los datos registrados

tienen el signo $; hacemos doble click en la casilla que dice Dólar en la columna Tipo.

Tipo.

Ingresamos al cuadro de diálogo y allí vemos que, la variable “salary” está

expresada en Dólares; ponemos el cursor en el botón Numérico  y aceptamos.

Volvemos a Vista de datos y vemos que el signo Dólar ($) ha desaparecido.

Ahora podemos instruirle al SPSS que nos calcule los indicadores que

deseamos sobre la variable salary; en el menú superior pulsamos en Analizar.

Se nos presentará un cuadro de opciones; pulsamos Estadísticos Descriptivos

3 3

mailxmail - Cursos para compartir lo que sabes

Page 34: Estadística aplicada con SPSS. Módulo I

A la derecha aparecerá otro cuadro, del cual escogemos Descriptivos

Se nos presentará un cuadro con las variables de Employee data.sa a la

izquierda, de inmediato nos damos cuenta que las variables están registradas con

sus nombres formales.

También vemos un cuadro en blanco a la derecha.

Pulsamos en Current salary en el cuadro de la izquierda y la flecha que apunta

a ese cuadro; la variable Current Salary ya está en el cuadro blanco.

Pulsamos options y en el cuadro que aparece, escogemos: Rango, Salario

Mínimo, Salario Máximo, Media Aritmética, Desviación Típica y Varianza

Volvemos al anterior cuadro de diálogo.

Allí pulsamos aceptar; se nos presentará el Editor con los datos; si el SPSS no

nos lleva directamente al cuadro de resultados, lo hacemos manualmente.

En el menú superior del Editor encontramos la casilla Ventana y hacemos click.

Aparecen dos líneas.

Escogemos la primera que dice Resultados; así nos trasladamos hasta la hoja

de resultados en la que vemos una pequeña tabla, la que se muestra a continuación.

La trasladamos a esta página, simplemente copiándola de la hoja de

resultados.

Estadísticos descriptivos

  N Rango Mínimo Máximo Media Desv. típ. Varianza

Current Salary 474 119250 15750 135000 34419,57 17075,661 2,916E8

N válido

(según lista)474            

N significa el número de observaciones, en este caso nos dice que en la

empresa hay 474 empleados y que el SPSS los ha tomado a todos.

El Rango, es decir, la diferencia entre el salario mayor y el menor, es $473

El Salario Mínimo es $15740 al año; el máximo es $135000.

La Media aritmética o el promedio de los salarios es $34419.57

3 4

mailxmail - Cursos para compartir lo que sabes

Page 35: Estadística aplicada con SPSS. Módulo I

La Media aritmética o el promedio de los salarios es $34419.57

La desviación típica es 17075.661

La Varianza registra un valor de 2,916E8, en notación científica.

La notación científica se usa para ahorrar espacio; en este caso, el número 8

nos dice que después del 2 debe haber 8 dígitos, esto es: 29160000.

A la izquierda de la hoja de resultados hay un menú que registra los rubros y

la información que tenemos en la pantalla blanca.

Una vez que un ejercicio haya sido terminado y debidamente archivado, 

hacemos click en alguno de los rubros de ese menú para borrar los resultados que

ya no necesitemos.

Nos encontramos en el Cuadro de Resultados, deseamos volver a la pantalla

de datos.

Para ello pulsamos Ventana en el menú superior y escogemos Employee

data.save

Supongamos que deseamos saber los mismos estadísticos pero para los

salarios que los empleados ganaban al momento de ser contratados por la empresa;

es decir, salbegin.

Las operaciones serán las mismas que las que realizamos en el anterior

ejercicio: lo primero que nos fijamos es que los registros tienen el signo del dólar

($) debemos anularlo.

Vamos a la pantalla Vista de Variables para ubicar dónde está la variable que

buscamos; está en la fila 7; la casilla de la derecha, bajo la columna Tipo registra la

palabra Dólar.

Pulsamos en la palabra Dólar; aparecen tres puntos suspensivos; pulsamos el

mouse en esos puntos y en el cuadro de diálogo hacemos click en el botón

Numérico; aceptamos.

Antes de salir de ese cuadro notamos que la Etiqueta de salbegin la registra

con el nombre de Beginning Salary; tomamos nota de ello para la operación

siguiente.

Este es un buen momento para recurrir a un proceso más ágil.

3 5

mailxmail - Cursos para compartir lo que sabes

Page 36: Estadística aplicada con SPSS. Módulo I

En esta hoja de Word vamos al menú principal y escogemos Symbol; hacemos

click y luego pulsamos en el símbolo el que nos indicará que un paso lleva a otro

inmediato.

Le asignamos un shortcut key (digamos Control y q) para usarlo cada vez que

lo necesitemos; volvemos a Vista de Datos pulsamos

Analizar Estadísticos Descriptivos Descr ip t i vos

En la parte izquierda de la pantalla blanca vemos la lista de variables

completa, cada una escrita con el nombre formal

Allí nos encontramos con que en el cuadro derecho aún está la variable

Current Salary, la que habíamos analizado anteriormente; ahora debemos sacarla del

cuadro blanco.

Hacemos click en la variable Current Salary  pulsamos la flecha, la que ahora

indica la dirección opuesta, y la variable Current Salary vuelve al cuadro izquierdo.

Pulsamos la columna en salbegin que tiene el nombre formal de Beginning

Salary y luego la flecha de dirección y la introducimos en la pequeña pantalla blanca

de la derecha.

Hacemos click en Opciones y escogemos los estadísticos que nos interesa:

Rango, Salario Mínimo, Salario Máximo, Media Aritmética, Desviación Típica y

Varianza

Pulsamos Continuar Aceptar

El SPSS nos lleva al cuadro de resultados al que copiamos para analizarlo aquí.

La tabla de resultados estará estructurada del siguiente modo.

Si comparamos los promedios entre los salarios actuales y los que se recibían

al comienzo, veremos la diferencia: 34419 para los primeros y 17016 para los otros.

A medida que avancemos, podremos establecer si la diferencia de dos

promedios es o no significativa, determinación que es muy útil en una investigación

de tipo estadístico.

Una vez terminado el ejercicio volvemos a Vista de Datos, vamos al menú para

archivarlo con el nombre de  Employee.ejer.sav 

3 6

mailxmail - Cursos para compartir lo que sabes

Page 37: Estadística aplicada con SPSS. Módulo I

Estadísticos descriptivos

  N Rango Mínimo Máximo Media Desv. típ. Varianza

BeginningSalary 474 70980 9000 79980 17016,09 7870,638 61946944,959

N válido(según lista) 474            

Borrar información de la Pantalla de Resultados

Cada vez que deseamos tener una nueva pantalla de resultados, borramos las

que ya no necesitamos; llevando el cursor a la izquierda y pulsando el botón de

Resultado.

El SPSS borrará todos los elementos que constan en la pantalla.

Si se prefiere borrar de ítem en ítem, se ejecutará el mismo procedimiento.

El Coeficiente de Variación

Vimos que es la relación entre la desviación típica y la media de la muestra:

s/X*

Tomemos la desviación típica de la tabla de Begining salary que es 7870 y la

media, 17016; el coeficiente de variación será 7870/17016 =  0,462

Con esto terminamos el análisis de las medidas de tendencia central y de las

medidas de dispersión, tanto en su percepción conceptual como en la parte

operativa.

En fases ya más avanzadas veremos que estos conceptos son la base misma

de la disciplina estadística, en todas sus ramas; por eso es importante tenerlos en

mente.

3 7

mailxmail - Cursos para compartir lo que sabes

Page 38: Estadística aplicada con SPSS. Módulo I

13. Personajes notables en la Matemática y en laEstadística

Jakob (James) Bernoulli

(1654-1705) Matemático                            

Los eruditos nos hacen saber que ocho miembros de la familia Bernoulli

tienen biografías separadas por sus contribuciones a la ciencia. De los ocho, ahora

nos interesa, Jakob y luego Daniel, después de Moivre.

 Jakob estudió filosofía, pero aprendió matemáticas por su cuenta; inclusive,

fue catedrático de matemáticas en la Universidad de Basel. Su obra más conocida,

ArsConjectandi, fue publicada después de su muerte y ejerció una gran influencia en

esa época como lo es hasta ahora. Fue el primero en introducir los conceptos de

combinaciones y permutaciones, temas que serán abarcados en esta obra. Usó los

término A priori (antes de la experiencia) y a posteriori (después de la experiencia)

para mostrar que si se conocen las probabilidades dadas por la experiencia,

podemos afirmar a priori el resultado de un proceso, con un riesgo de error

predeterminado. Por ejemplo, si arrojamos mil veces una moneda, la probabilidad

de que salga cara o cruz se irá acercando a la probabilidad teórica del 50% para cada

uno de los resultados. Aquí está implícita su teoría de la Ley de los grandes

números, una de sus más conocidos aportes; es en esta dimensión en la que se

concretan las probabilidades   teóricas. El otro aporte, que también es usado al

presente se refiere a un tipo de distribución conocida como la Distribución Binomial,

el que será analizado en este capítulo, junto a otras clases de distribución.

Abraham de Moivre (1667-1754)

3 8

mailxmail - Cursos para compartir lo que sabes

Page 39: Estadística aplicada con SPSS. Módulo I

Este gran matemático buscó refugio en Inglaterra porque en su país, Francia,

era acosado aun-que tenía sólo 20 años. En Inglaterra su talento fue reconocido con

tanto entusiasmo que más tarde sería miembro de la Socieda Real, aunque nunca

tuvo un diploma académico. En 1781 escribió la Probabilidad de los Eventos en el

Juego. En ésta como en todas sus obras, el análisis de la Probabilidad fue

sobresaliente. Llegó a una buena aproximación a la forma de la Distribución

Binomial, que es un referente prioritario para establecer el Teorema del Límite

Central y fue co autor la la Distribución de Poisson. Los comentarios sobre sus obras

resaltan: “no hay duda de que la Teoría de la Probabilidad debe a Moivre más que a

cualquier otro matemático, con la excepción de La Place”. Este homenaje tiene doble

mérito, pues está dirigido a quien nunca tuvo un título académico.

Daniel Bernoulli (1700-1782)

Sobrino de Jakob Bernoulli, educado en la Universidad de Basel, en la que su

padre fue profesor. Originalmente, Daniel estudió medicina, pero su padre le enseño

matemáticas lo que le permitió escribir seis ensayos sobre probabilidad, estadística

y demografía. Su obra más conocida es “Exposición sobre una Nueva Teoría del

Cálculo del Riesgo,” teoría que se basó en lo que se llamaba Expectativa Moral

(Ahora: Utilidad Esperada) Con esa teoría ayudó a resolver un problema denominado

La Paradoja de San Petersburgo, la que inquiría sobre la diferencia entre lo que

3 9

mailxmail - Cursos para compartir lo que sabes

Page 40: Estadística aplicada con SPSS. Módulo I

ahora sería el Valor Esperado Matemático de un suceso y su valor “para mí”: el valor

esperado sería infinito, pero del “valor para mí”, no. En un ensayo que obtuvo un

premio en 1735, Bernoulli testó la distribución aleatoria de las órbitas de los

planetas.

Pierre-Simon Laplace (1749-1827)

Matemático y Físico

John Aldrich, de quien citamos estos resúmenes, dice que Laplace escribió

sobre Probabilidad. En su obra, escrita en 1774, “Memoria sobre la probabilidad de

las causas para los eventos” se aproximó al análisis baynesiano sobre los errores y

las medidas. Su “Teoría Analítica de Probabilidades” fue la más completa en su

época. Entre sus estudios más importantes, debeos citar el Teorema del Límite

Central, imprescindible hoy para la teoría de muestras. También desarrolló

instrumentos  como la función generatriz de probabilidad. Su sistema se basó en la

probabilidad clásica pero la superó con sus trabajos ulteriores. Fue muy admirado

en su época, pero ya en el siglo XX las teoría de Fisher opacaron un tanto la visión

de Laplace; pero no significativamente.

4 0

mailxmail - Cursos para compartir lo que sabes

Page 41: Estadística aplicada con SPSS. Módulo I

14. Distribución de frecuencias. Concepto

3 DISTRIBUCIÓN DE FRECUENCIAS

Concepto

Una distribución de frecuencias es una tabla en la que organizamos los datos

dividiéndolos en Clases o grupos que describen alguna característica de los datos

que usaremos.

Si no dividimos los datos en grupos o clases, entonces, cuando pidamos, v.g,

las frecuencias de los salarios, el SPSS nos dará un cuadro con el salario de cada uno

de los empleados.

Si la fábrica tiene 2000 empleados, tendremos un cuadro de 2000 salarios.

Sin embargo, cuando necesitamos las medidas de tendencia central o

cualquier otra, el SPSS acudirá a los datos originales, no a los grupos.

A no ser que, por alguna razón, necesitemos la media u otro estadístico de

los grupos.

Una distribución de frecuencias muestra el número de observaciones del

conjunto de datos que caen en cada una de las clases en las que hemos dividido los

datos originales.

Para hacerlo, utilizaremos el SPSS y el archivo Employee data.sav vamos a

construir el cuadro de frecuencias del salario actual (Current Salary) de los

empleados de la empresa.

Menú Principal Transformar Recodificar en distintas variables.

Abierto ya el cuadro de diálogo vemos dos pantallas.

La pantalla de la izquierda contiene todas las variables; escogemos Current

Salary y la trasladamos a la pantalla de la derecha, haciendo click en la flecha de

dirección.

En la casilla, Current Salary ha cambiado a salary, que es el nombre que

aparece al comienzo de la columna respectiva, mientras que Current Salary, es la

etiqueta formal.

4 1

mailxmail - Cursos para compartir lo que sabes

Page 42: Estadística aplicada con SPSS. Módulo I

En el cuadro aparece un signo de interrogación después de salary, eso

significa que el SPSS nos pide dar un nuevo nombre a la variable que vamos a

recodificar.

En la parte derecha hay dos casillas: una que dice nombre y la otra etiqueta.

Entramos a nombre y registramos el nombre que deseamos ponerle a la nueva

variable: rsalary (Podría ser cualquier otro).

En la casilla Etiqueta ponemos el nombre formal Salario Actual; pulsamos Cambiar

Cambiar

La variable rsalary ocupa el lugar donde estaba el signo de interrogación.

Así, hemos estructurado una nueva variable, rsalary, sobre la base de la

variable salary.

Desde este momento, el SPSS tratará a la nueva variable como independiente.

Pulsamos en la casilla de la parte inferior:Valores antiguos y nuevos; vemos

un cuadro de diálogo; éste cuadro es el que nos ayudará a dividir nuestros datos en

clases.

Lo que vamos a hacer es codificar las clases, como codificamos la variable sexo

sexo

Vamos a dividir los datos en cuatro clases; para ello pulsamos el botón que

dice: rango, en la parte izquierda del cuadro; al hacerlo, se habilitarán dos casillas

en blanco.

En la primera registramos 15000 (el valor mínimo de los salarios) en la casilla

de abajo, escribimos 45000; vamos a la parte superior derecha valor y en la

casilla anotamos 1.

Click  en Añadir y en la casilla inferior aparece 15000 t rhu 4 5 0 0 0 1 .

La primera de nuestras clases incluirán todos los valores desde 15000 hasta

45000.

Otra vez vamos a la izquierda click “rango” y anotamos 45001 en la casilla

de abajo.

Vamos a la casilla inferior, donde dice “hasta” y anotamos 75000.

4 2

mailxmail - Cursos para compartir lo que sabes

Page 43: Estadística aplicada con SPSS. Módulo I

Nos trasladamos al lado derecho “Valor”, anotamos 2 en la casilla

respectiva cl ick en Añadir; en la pantalla inferior aparecerá un nuevo registro

después del anterior.

Esta vez con la leyenda que dice: 45001 thru 75000 2.

Para la tercera clase; anotamos 75001 en la casilla rango y 105000 en la que

dice thru

Al lado derecho valor, anotamos 3 Añadir; la tercera clase aparece en la

parte de abajo: 105001 thru 135000 anotamos 4 Continuar

Si el SPSS nos lleva a la pantalla de resultados, tendremos que salir de allí

Nos vamos a Vista de Datos para ver que en la última columna de aparecerán

los intervalos codificados 1, 2, 3 y 4, de acuerdo con los valores de cada rango

salarial.

Pero, lo que deseamos es que en la Pantalla de Datos aparezcan,

textualmente, los intervalos, tales como 15000 – 45000 para todos los rangos que

hemos recodificado.

Vamos a Vista de Variables, ubicamos la variable rsalary

En la columna Valores, aparece el rótulo Ninguna

Click en los puntos y se nos abre un cuadro de diálogo.

En la casilla Valor anotamos 1 y en la que dice Etiqueta registramos 15000 –

45000, pulsamos Añadir y esta primera clase aparece registrada en la pantalla

Hacemos lo mismo con 45001 – 75000; seguimos dando los mismos

intervalos anteriores

Estamos recodificando la nueva variable “rsalary”, cuyo nombre formal Salario

Actual incluimos en la casilla correspondiente a la columna Etiqueta.

Continuamos del mismo modo, variando las clases de 75001 en 105000

hasta llegar a la última, la clase número que será 105001 – 135000

Aceptamos y en la pantalla de datos tendremos los intervalos, ya no como

números 1, 2, 3, 4, cada uno de los cuales representaba un intervalo, sino como los

intervalos reales

4 3

mailxmail - Cursos para compartir lo que sabes

Page 44: Estadística aplicada con SPSS. Módulo I

La primera clase 15000 – 25000 ha sido registrada sin ninguna variación,

pero la siguiente empieza con 25001, para no repetir el valor de 25000; lo mismo

con las demás.

Ahora nos corresponde saber cuántas observaciones hay en cada clase.

Frecuencias

En la pantalla de Vista de datos, vamos al menú superior y pulsamos Analizar;

se abrirá el cuadro de opciones; de allí escogemos Estadísticos Descriptivos

Frecuencias.

Se abre el cuadro en el que la lista de variables está a la izquierda.

Hacemos click en la nueva variable RCurrent Salary y con la flecha de

dirección la llevamos a la derecha; aceptamos.

En la pantalla de Resultados aparece el cuadro de frecuencias con las clases

respectivas; Es el cuadro que nos servirá para diseñar nuestra primera distribución

de frecuencias.

4 4

mailxmail - Cursos para compartir lo que sabes

Page 45: Estadística aplicada con SPSS. Módulo I

15. Cómo estructurar una Distribución deFrecuencias

Estructurar una Distribución de Frecuencias

El cuadro que aparece en la pantalla de resultados nos muestra el número

total de casos, 474, y las clases salariales que habíamos estructurado.

La clasificación de los salarios en clases, con los rangos determinados, nos

permite saber cuántas personas hay en cada clase y graficar con mayor claridad los

datos

Hacemos click en el cuadro, pulsamos el botón derecho del mouse y

escogemos copy, y posteamos en la presente página, para realizar las

modificaciones necesarias.

Tabla 3.1

Salario Actual

  Frecuencia Porcentaje % válido % acumulado

Válidos

15000 - 45000 391 82,5 82,5 82,5

45001 - 75000 6 6 13,9 13,9 96,4

75001 - 105000 1 5  3,2  3,2 99,6

105001-135000 2  ,4  0,4      100,0

Total 474 100,0 100,0  

Para formular el cuadro de distribución de frecuencias, reemplazamos el

título “Porcentaje válido” por “Probabilidad” y anulamos la última columna, operando

desde el Word.

Hacemos click con el botón derecho del mouse Delete Cells

En las opciones click en Delete Entire Colum; ponemos el título “Distribución

de Frecuencias de los salarios”; la tabla 3.1 queda estructurada.

El cuadro de probabilidad resulta de la división entre 100 de todos y cada

uno de los datos que aparecen como porcentaje en la tabla anterior.

Los datos de la nueva tabla se interpretan de la siguiente manera

En la empresa hay 391 empleados que ganan un salario comprendido entre

4 5

mailxmail - Cursos para compartir lo que sabes

Page 46: Estadística aplicada con SPSS. Módulo I

En la empresa hay 391 empleados que ganan un salario comprendido entre

15000 – 45000; lo que representa una porcentaje del 82.5%.

Tabla 3.2

Distribución de Frecuencias de los Salarios

  Frecuencia Porcentaje Probabilidad

Válidos

15000 - 45000 391 82,5 0,825

45001 - 75000 6 6 13,9 0,139

75001 - 105000 1 5  3,2 0,032

105001 - 135000 2    ,4 0,004

Total 474 100,0 100,0

La probabilidad de que escojamos a uno de ellos, de entre todos los

empleados, es 0,825

La lectura de los datos del cuadro, nos permite saber lo siguiente:

Hay 66 empleados que perciben un salario comprendido entre 45001–75000

y constituyen el 13,9% del total; la probabilidad de que escojamos a uno de ellos es

0,139

El total de las probabilidades suma 1, tal como se ve en la tabla; cada

probabilidad se obtiene dividiendo el porcentaje respectivo entre 100; para los

decimales se usa la coma.

4 6

mailxmail - Cursos para compartir lo que sabes

Page 47: Estadística aplicada con SPSS. Módulo I

16. Histograma. Gráficas de las distribuciones defrecuencias

Gráficas de las distribuciones de frecuencias: El Histograma

Es una gráfica que consiste en una serie de rectángulos, el ancho de cada uno

mide la distancia que existe entre las cantidades que estructuran una clase

estratificada.

Gráfica 3.1

La distancia vertical nos da los valores para esa clase.

Para obtener el Histograma respectivo vamos al Menú Principal Gráficas

Cuadros de diálogos antiguos Histograma.

Click en la casilla Títulos, que está en la parte superior derecha la casilla

En la primera línea escribimos RCurrent Salary; en la segunda, Niveles

Salariales Estratificados Continuar Aceptar

La clase 1 (15000–45000) está representada por la base del primer

rectángulo; la altura de cada rectángulo señala el número de frecuencias que se

encuentran en ese intervalo.

A la derecha se muestra la media, la desviación típica y el número total de

4 7

mailxmail - Cursos para compartir lo que sabes

Page 48: Estadística aplicada con SPSS. Módulo I

empleados; el histograma es útil para el técnico, pero no es muy claro para los

ejecutivos

El Histograma es de gran ayuda, especialmente cuando queremos comprobar

si la distribución de una variable se aproxima a la distribución normal, tal como

veremos después.

Así, las clases simplemente están representadas por números, los que no

dicen mucho cuando deseamos presentar un informe a los ejecutivos de la empresa.

Para llevar un informe más claro a los ejecutivos, recurrimos a la gráfica de

barras. El SPSS nos presenta varias opciones, las que serán utilizadas en su

oportunidad.

Serán usadas a medida que aprendamos más de Estadística y el manejo del

SPSS.

Gráficas de barras y Pie

Gráfica 3.2

Podemos lograr un resultado más completo en el Menú Gráficas – Generador

de Gráficas

Para obtener las barras de frecuencias, pulsamos Gráficas en el Menú

Principal; elegimos Cuadros de diálogos antiguos Barras Simple Definir

4 8

mailxmail - Cursos para compartir lo que sabes

Page 49: Estadística aplicada con SPSS. Módulo I

No. De Casos

Introducimos RCurrent Salary en la casilla que dice Eje de Categorías

En la parte superior derecha hacemos click en Títulos; allí escribimos: Current

Salary en la Primera Línea y RCurrent Salary.

Copiamos la gráfica y vemos que nos ha dado los intervalos y las frecuencias

de cada uno anotando el intervalo concreto en cada caso; no sólo como categorías

1, 2, ….

Si se quiere cambiar las características del gráfico: el color, la textura, la

letra…hacemos doble click en la gráfica de barras; aparecerá un nuevo menú

En este menú escogemos editar y allí elegimos la opción que nos parezca más

adecuada. 

Gráfico de Sectores (Pie)

La misma información podemos lograr con la gráfica de Sectores o Pie.

Gráfica 3.3

Gráficas Cuadros de diálogos antiguos Sectores Definir definir

sectores por

Es a esa casilla que traemos la variable: RCurrent Salary T í t u l o s

La gráfica que aparece en el cuadro de resultados muestra los datos que le

habíamos pedido; la traemos a la presente página a través de Copy.

4 9

mailxmail - Cursos para compartir lo que sabes

Page 50: Estadística aplicada con SPSS. Módulo I

Cambiamos lo que nos parezca, haciendo doble click en la torta del cuadro de

resultados.

Con esto concluimos la primera parte del uso de gráficas; más adelante

recurriremos a éstas y otras con diferentes significados y grados complementarios

de utilidad

Hagamos una breve pausa para observar cómo vamos aprendiendo Estadística

y, al mismo tiempo, el uso del SPSS.

Me pareció más conveniente este método de “aprender sobre la marcha” en

vez de dar un curso completo de cada dimensión, una a la vez, por separado.

Cuando terminemos el curso de Estadístico, en sus cuatro niveles, éste es el

primero de ellos, habremos concluido también con el aprendizaje del SPSS.

5 0

mailxmail - Cursos para compartir lo que sabes

Page 51: Estadística aplicada con SPSS. Módulo I

17. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (1/10)

4 PROBABILIDAD

Introducción

Aunque para resolver todos los problemas que se nos presenten acudiremos

al SPSS, sin embargo, es necesario conocer los conceptos de la clase de problemas a

solucionar.

Los principales precursores del cálculo de probabilidades fueron Jacob

Bernoulli (1674-1705) Thoma Bayes (1702-1761) Joseph Lagrange (1736-1813)  y

Carl Friedrich Gauss.

La teoría de la probabilidad es la base es la base de las investigaciones

estadísticas en las investigaciones de las ciencias sociales y en la toma de decisiones.

En realidad, las llamadas “leyes” en las ciencias sociales no son sino

tendencias estadísticas en el tiempo, las que pueden ser estimados con un grado de

probabilidad.

Conceptos básicos

Probabilidad es la posibilidad cuantificada de que algo suceda.

Evento: Uno más de los posibles resultados de hacer algo.

Si lanzamos una moneda al aire, saldrá “cruz” o “cara”; cada resultado será un

evento.

Experimento, la actividad que produce un evento; en este caso, el lanzar la

moneda.

¿Cuál será la probabilidad de que una moneda, al ser lanzada, caiga “cara”?

será 0,5

Espacio muestral: al lanzar la moneda el espacio muestral es: {cara, cruz}

Si dos eventos pueden ocurrir al mismo tiempo, serán eventos no son

mutuamente excluyentes; si no pueden ocurrir simultáneamente, serán mutuamente

excluyentes.

5 1

mailxmail - Cursos para compartir lo que sabes

Page 52: Estadística aplicada con SPSS. Módulo I

La probabilidad de sacar una carta de un paquete de 52 cartas, será 1/52

La de sacar una reina será 4/52, pues existen cuatro reinas en el mazo.

La de sacar un trébol será 13/52, pues hay 13 tréboles en un mazo.

La probabilidad de sacar una carta roja es 26/52, dado que hay 26 cartas

rojas.

La probabilidad de sacar un “as” al lanzar un dado es 1/6, porque hay seis

números y un solo “As”: del mismo modo con los otros números. 

Probabilidad Clásica

La probabilidad de que un evento ocurra es definida del siguiente modo:

E = F/(T)

E =  Evento

F =  número de casos favorables

T =  el total de casos

En el ejemplo de las cartas, el número favorable de sacar una reina es 4

El total de casos es 52

En el caso de los dados, el número favorable de sacar un “as” es 1

El total de casos es 6.

La probabilidad clásica es conocida también como probabilidad a priori.

Se denominaría así, porque las probabilidades de los resultados puede ser

conocidos de antemano, tal como sucede con los experimentos de las cartas o los

dados.

Frecuencia relativa de la presentación

Es el porcentaje del resultado de casos favorables con relación al total de

casos.

Probabilidades subjetivas

Se basan en las creencias de las personas que diseñan el experimento

5 2

mailxmail - Cursos para compartir lo que sabes

Page 53: Estadística aplicada con SPSS. Módulo I

La probabilidad subjetiva es útil cuando no hay antecedentes para establecer

una probabilidad objetiva: ¿Cuál es la probabilidad de que un reactor atómico irradie

radiactividad?

Dado que no existe un antecedente, se recurrirá a las suposiciones y al

sentido común.

Los responsables de tomar decisiones en una empresa usan la subjetividad

para los casos únicos que se presentan a diario en asuntos de mercado, precios, y

otros similares.

5 3

mailxmail - Cursos para compartir lo que sabes

Page 54: Estadística aplicada con SPSS. Módulo I

18. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (2/10)

Reglas de la Probabilidad

Los siguientes símbolos son los que se utilizan en el cálculo de

probabilidades:

P(A) = Es la probabilidad de que el evento A suceda.

Si puede llevarse a cabo sólo un evento, la probabilidad será sencilla

Este tipo de probabilidad es conocido como probabilidad marginal o

incondicional.

Si hay un sorteo para ganar un premio y el total de casos es 60, la

probabilidad de que alguien saque el número premiado es 1/60 = 0,0167; sólo un

participante podrá ganar.

Eventos mutuamente excluyentes

Hay casos en los que pueden realizarse dos eventos: uno o el otro;

supongamos que  hay 5 candidatos para un cargo público y que todos tienen los

mismos méritos.

Utilizaremos el concepto marginal de probabilidad:

Diremos que la probabilidad de que uno de ellos sea elegido será 1/5.

Pero si estamos interesados en saber la probabilidad de dos candidatos, la

cosa cambia.

Supongamos que tenemos interés en saber las probabilidades de que Juan  o

María ganen el concurso de méritos; en este caso tenemos dos eventos que se

suman entre sí.

La probabilidad de Juan es de 1/5 y la de María también es 1/5; entonces de

probabilidad de que alguno de los dos sea elegido será 1/5 + 1/5 = 2/5 = 0,40

En el primer caso, el de que uno de los cinco gane, la probabilidad será P(A) =

1/5 = 0,20

En el segundo caso, la probabilidad se representará del siguiente modo: P(A o

5 4

mailxmail - Cursos para compartir lo que sabes

Page 55: Estadística aplicada con SPSS. Módulo I

B) notación que nos indica la probabilidad de que uno de los dos gane el concurso.

Para mostrar gráficamente lo que la suma de probabilidades significa, los

teóricos recurren a los símbolos de los conjuntos en matemáticas.

Esos símbolos son muy útiles en la tarea de comprender los teoremas.

Tomemos la siguiente tabla, del libro de Levin y Rubin, en la que se consignan

datos sobre el número de hijos y sus probabilidades respectivas en una encuesta

familiar.

Número de hijos                   0 1 2 3 4 5 6 omás

Proporción de familias que tienenesa cantidad

0.05 0.10 0.30 0.25 0.15 0.10 0.05

En el cuadro anterior  tenemos una muestra que nos permitirá establecer las

probabilidades de que una familia tenga un número determinado de hijos.

Ejemplo, la probabilidad de que una familia tenga 3 hijos es 0.25.

La probabilidad de que una familia no tenga hijos es 0.05, mientras que la

probabilidad de que una familia tenga 2 hijos será 0.30 y así sucesivamente.

Ahora aplicaremos estos conceptos: deseamos saber la probabilidad de que

una familia del pueblo donde se hizo la encuesta tenga 4 o más hijos.

Nos damos cuenta de que ya no estamos hablando de un solo evento, sino de

varios.

5 5

mailxmail - Cursos para compartir lo que sabes

Page 56: Estadística aplicada con SPSS. Módulo I

19. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (3/10)

Probabilidad de varios eventos

Para plantear el problema recordamos que estamos hablando de varios

eventos y que la simbología para representar esa condición es P(A o B)

En el caso particular que nos interesa, esa expresión toma la forma numérica

siguiente:

P(4,5,6 o más) =  P(4) + P(5) + P(6 o más) =  0.5 + 0.10 + 0.05 = 0.30

De inmediato  interpretamos el resultado: la probabilidad de que una familia

tenga 4, 5, 6 o más hijos es la suma de las probabilidades marginales de cada

evento, esto es, 0.30

Ahora ingresamos a una situación que puede darse en muchas oportunidades.

Supongamos que deseamos obtener un “diez” o un “trébol” de un mazo de 52

cartas.

En este caso, debemos tener en cuenta que también podemos sacar un “diez

de trébol”.

Vemos que sacar un “diez” o un “trébol” no son eventos mutuamente

excluyentes, debido a que hay la probabilidad conjunta de un diez y un trébol al

mismo tiempo.

En este tipo de problemas debemos ajustar la ecuación para evitar el conteo

doble.

De este modo tendremos: P(diez) + P(trébol) – P(diez y trébol)

4/52 + 13/52 – 1/52 = 16/52 = 4/13

Otro ejemplo; los empleados de la empresa han elegido a 5 de ellos para que

los representen en el consejo de administración; los perfiles de los elegidos son:

Hombre, edad   30

Hombre             32

5 6

mailxmail - Cursos para compartir lo que sabes

Page 57: Estadística aplicada con SPSS. Módulo I

Mujer                45

Mujer                20

Hombre             40        

Una vez elegidos, los cinco deciden, a su vez, elegir un portavoz: ¿Cuál será la

probabilidad de que la persona elegida sea mujer o tenga una edad por encima de

35 años?

P(mujer o mayor a 35) = P(mujer) + P(mayor a 35) – P(mujer y mayor a 35)

La probabilidad P(Mayor a 35 años) se refiere al total de todos, hombres y

mujeres, que tienen más de 35 años; hay solamente dos casos de los cinco: 45 y 40.

2/5 + 2/5 – 1/5 = 3/5 = 0.60

Probabilidad bajo condiciones de independencia estadística

En primer lugar, definiremos el concepto de “Independencia”

Dos eventos son estadísticamente independientes entre sí cuando el evento o

resultado de uno de ellos no tenga influencia en el resultado o evento del otro.

Existen tres tipos de probabilidad independiente: Marginal, Conjunta,

Condicional

Probabilidades marginales en condiciones de independencia

Vimos que una probabilidad es marginal o incondicional cuando es la

representación simple de un evento; v.g  el lanzamiento de una moneda normal.

Ese “experimento” tendrá un evento: cara o cruz, con una probabilidad de 0,5

c /u .

No importa cuántas veces lancemos la moneda, la probabilidad de que salga

cara o cruz será la misma; cada lanzamiento es único y no tiene influencia sobre el

próximo.

5 7

mailxmail - Cursos para compartir lo que sabes

Page 58: Estadística aplicada con SPSS. Módulo I

20. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (4/10)

Probabilidades conjuntas bajo condiciones de independencia estadística

La probabilidad de dos o más eventos independientes que se presentan

juntos es igual al el producto de sus probabilidades marginales.

Representamos ese caso de la siguiente manera: P(AB) = P(A) x P(B)

P(AB) = probabilidad de que ambos eventos se presenten juntos o

probabilidad de A y B.

P(A)   =  probabilidad marginal de que se presente el evento A.

P(B)   =  probabilidad marginal de que se presente el evento B.

Ejemplos

¿Cuál es la probabilidad cruz, cara y cruz, en ese orden, en tres lanzamientos

consecutivos de una moneda?

El resultado será: 0.5 x 0.5 x 0.5 = 0.125, debido a que la probabilidad de

que salga a es independiente a la probabilidad de que salga B

¿Cuál es la probabilidad de obtener cruz, cruz y cara, en ese orden luego de

tres lanzamientos consecutivos? La probabilidad será: 0.5 x 0.5 x 0.5 = 0.125.

¿Cuál es la probabilidad de obtener al menos dos caras en 3 lanzamientos

consecutivos?

Estamos ante el caso mixto de eventos mutuamente excluyentes; las que son

aditivas (la probabilidad de obtener una cara más la probabilidad de obtener otra

cara)

Pero, tenemos un evento independiente.

Para visualizar este proceso, tomemos la tabla 4.2 del texto de Levin y Rubin,

en la que se descomponen las probabilidades posibles de los eventos del total del

experimento.

Denominaremos cara = H; cruz = T

5 8

mailxmail - Cursos para compartir lo que sabes

Page 59: Estadística aplicada con SPSS. Módulo I

En la parte superior del cuadro se registra los tres lanzamientos de la moneda.

En el primer lanzamiento los posibles resultados son o una cara (H1) o una

cruz (T1) y la probabilidad para cada uno de estos resultados, tal como vimos es 0.5.

1 y 2 representan el primer y el segundo lanzamiento, en todos los casos.

Lanzada la moneda por segunda vez, nos trasladamos a la columna “Dos

lanzamientos”. Los resultados posibles son: el primer lanzamiento fue cara (H1) el

segundo también (H2)

Éste es un ejemplo de lo que hace la computadora con el SPSS

Tomamos nota que los eventos del segundo lanzamiento están ligados a los

eventos que resultaron en el primero.

Tabla 4.2

Posibles Resultados

Un lanzamiento Dos lanzamientos Tres lanzamientos

ResultadosPosibles

Probabilidad ResultadosPosibles

Probabilidad ResultadosPosibles

Probabilidad

H1T1

0.50.5

H1, H2H1, T2T1, H2T1, T2

0.250.250.250.25

H1, H2, H3

H1, H2, T3

H1, T2, H3

H1, T2, T3

T1, H3, H3

T1,

H2, T3

T1,

T2, H3

T1,

T2, T3

0.125

0.125

0.125

0.125

0.125

0.125

0.125

0.125

5 9

mailxmail - Cursos para compartir lo que sabes

Page 60: Estadística aplicada con SPSS. Módulo I

El segundo evento posible en la columna del segundo lanzamiento es H1, T2,

esto es:  en el primer lanzamiento salió una cara (H1) y en el segundo lanzamiento

salió una cruz (T”).

El tercer evento muestra que en el primer lanzamiento se T1 y en el segundo,

H2

El cuarto evento muestra que en el primer lanzamiento T1 y en el segundo,

cara H2

Las probabilidades en cada caso son 0.25, que resultan de

Cara = probabilidad de 0.5

Cruz = probabilidad de 0.5

La probabilidad, del primer evento del segundo lanzamiento H1, H2 es 0.5 x

0.5 = 0.25

Lo mismo con las demás probabilidades

Los datos del tercer lanzamiento se registran de la misma forma; en el primer

lanzamiento se obtuvo una cara (H1) en el segundo también (H2) y en el tercero, una

cruz (T3)

La probabilidad de este evento será 0.5 x 0.5 x 0.5 = 0,125

El mismo razonamiento para los siguientes eventos, hasta que agotamos

todas las probabilidades posibles de los tres lanzamientos de la moneda.

Ahora ya podemos responder a la pregunta que nos hicimos al iniciar este

capítulo: ¿Cuál es la probabilidad de obtener cruz, cruz y cara, en ese orden, luego

de tres lanzamientos?

La pregunta ya nos hace saber que se trata de un experimento de tres

lanzamientos

En nuestra tabla vemos que los eventos que la pregunta exige son: T1, T2, H3

= 0.125

Estos ejercicios nos muestran lo que hace la computadora, en el programa

SPSS, cuando le pedimos que calcule las probabilidades de un problema en el que

estamos interesados.

6 0

mailxmail - Cursos para compartir lo que sabes

Page 61: Estadística aplicada con SPSS. Módulo I

6 1

mailxmail - Cursos para compartir lo que sabes

Page 62: Estadística aplicada con SPSS. Módulo I

21. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (5/10)

Probabilidades condicionales bajo independencia estadística

Hasta ahora vimos dos clases de probabilidad: la probabilidad marginal (o

incondicional) y la probabilidad conjunta; la primera representada por (PA) y la

conjunta por P(AB)

La Probabilidad Condicional que analizaremos ahora se representa por P(B/A)

que muestra dos eventos: A, y B.

De esta manera, la Probabilidad Condicional P(B/A) representa el caso en que

el segundo evento B ocurre luego que el primero, A, ya ha tenido lugar.

Es decir, nos dice cuál será la probabilidad del evento B una vez que el evento

A ya ocurrió; observemos el proceso que sigue el SPSS.

Antes de continuar, recordemos que para dos eventos independientes, A y B,

la ocurrencia del evento A nada tiene que ver con el la ocurrencia del evento B.

La probabilidad de lograr una cara en un segundo lanzamiento, después de

que el primero dio un resultado, seguirá siendo 0.5, debido a que ambos eventos

son independientes.

A continuación diseñaremos una ayuda-memoria para eventos

estadísticamente independientes; la probabilidad marginal, llamada también

“incondicional” es (PA)

Tabla 4.3

Probabilidades Condicionales

 

 

Tipo de Probabilidad            Símbolo                      Fórmula

Marginal                                    P(A)                              P(A)

Conjunta                                   P(AB)                       P(A) x P(B)

Condicional                               P(A/B)                        P(B)

6 2

mailxmail - Cursos para compartir lo que sabes

Page 63: Estadística aplicada con SPSS. Módulo I

 

Probabilidad Condicional Bajo Dependencia Estadística

Antes de proponer la definición formal, vayamos a un ejemplo ilustrativo.

Hay una caja que contiene diez bolas de colores, distribuidas de la manera

siguiente:

Tres bolas son de color y tienen puntos

Una es de color y tiene franjas

Dos son grises y tienen puntos

Cuatro son grises y tienen franjas

Siguiendo a Levin y Rubin, hacemos un cuadro para visualizar las condiciones

del problema; hay diez bolas, la probabilidad de sacar una cualquiera de ella es

1/10 = 0.10.

Tabla 4.4

La distribución de las diez bolas

 

 

Evento                        Probabilidad del Evento

    1                             0.1

    2                             0.1  (De color y con puntos)

    3                             0,1

    4                             0.1  (De color y con franjas)

    5                             0.1  (Grises y con puntos)

    6                             0.1

    7                             0.1

    8                             0.1  (Grises y con franjas)

    9                             0.1

6 3

mailxmail - Cursos para compartir lo que sabes

Page 64: Estadística aplicada con SPSS. Módulo I

  10                             0.1

 

Supongamos que alguien saca una bola de color:

¿Cuál es la probabilidad de que tenga puntos?

Simbólicamente, el problema puede representarse como P(D/C), es decir:

¿Cuál es la probabilidad de que la bola tenga puntos (D) dado que es de color (C)?

(Vemos que D representa una bola con puntos, C, de color)

Queremos saber la probabilidad de que, siendo la bola de color, que también

tenga puntos; para ello, ignoramos las bolas grises, pues no cumplen con ninguna

condición dada.

Sólo tomaremos en cuenta las que restan.

Hay cuatro bolas de color, tres de las cuales tienen puntos y la cuarta tiene

franjas; con esa información sólo tenemos que encontrar las probabilidades sencillas.

Ahora deseaos saber la probabilidad de que la bola tenga puntos y de que

tenga franjas

Para ello nos damos cuenta que el total de bolas que tienen color son 4 y las

que tienen color y puntos son tres.

Por lo tanto, la probabilidad de una bola a color con puntos es P(D/C) = ¾ =

0.75

Por otro lado, si nos fijamos en la tabla 4.4 hay una sola bola de color y con

franjas.

Por lo tanto, la probabilidad de color con franjas es = ¼ = 0.25; ambas

suman 1.

En el próximo capítulo veremos la fórmula general sobre la probabilidad

condicional

Algunos ejemplos adicionales

¿Cuál es la  probabilidad de que la bola tenga puntos, dado que es de color?

6 4

mailxmail - Cursos para compartir lo que sabes

Page 65: Estadística aplicada con SPSS. Módulo I

Esta pregunta equivale: ¿Cuál es la probabilidad de que la bola sea de color y

tenga puntos (son 3 casos de un total de 10) entre la probabilidad de que sea de

color.

Probabilidad de que la bola sea de color y tenga puntos = 3/10 = 0.3

Probabilidad de que la bola sea de color = 4/10 = 0 0.4

La probabilidad de que la bola tenga puntos, dado que es de color, es =

0.3/0.4

Continuamos los datos de la tabla 4.4

¿Cuál es la probabilidad de que la bola tenga puntos, dado que es gris?

Por otra parte, ¿Cuál la probabilidad de que la bola tenga franja, dado que es

gris?

Para la primera parte del problema, vemos en la tabla vemos que:

La probabilidad de bolas grises con puntos = 2/10 = 1/5 = 0.20

La probabilidad de que sea gris es 6/10 = 3/5 = 0.60

La probabilidad de que la bola tenga puntos dado que es gris es = 0.20/0.60

= 0.33

En la segunda parte, de que la bola tenga franja es = 5/10 = 0.5

La probabilidad de una bola que tenga franja, dado que es gris es = 6/10 =

3/5 = 0.60

6 5

mailxmail - Cursos para compartir lo que sabes

Page 66: Estadística aplicada con SPSS. Módulo I

22. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (6/10)

Probabilidades marginales bajo dependencia estadística

Esta clase de probabilidades se calculan sumando las probabilidades de todos

los eventos del experimento; v.g: calcular la probabilidad marginal del evento bola

de color.

Sumamos la probabilidad de los eventos en los que aparecen bolas de color.

Volviendo a nuestra tabla, vemos que las bolas de color aparecen “bolas de

color con puntos” y “bolas de color con franjas”; sumamos las dos probabilidades

3/10 + 1/10 = 4/10 = 0.4

La probabilidad de una bola gris resultará de la suma de “bolas grises con

puntos” y “bolas grises con franjas” =   2/10 + 4/10 = 6/10 = 0.6

La Probabilidad Total

A partir de las probabilidades del suceso A (de que llueva o de que haga buen

tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente

automovilístico)

Supongamos que ha ocurrido el suceso B (un accidente) sobre la base de ese

accidente se puede deducir  las probabilidades del suceso A (¿estaba lloviendo o

hacía buen tiempo?)

La probabilidad del evento A encierra la probabilidad de varios sub eventos;

¿Llovía en el momento del accidente?; ¿Hacía buen tiempo? ¿Nevaba? ¿Había niebla?

Ese nuevo concepto de probabilidad se denomina “Cálculo de probabilidades

anteriores” y su planteamiento original se debe al conocido estadístico Thomas

Bayes (1702–1761)

Ya a principios del siglo XVIII la teoría de las probabilidades estaba madura,

como para incursionar en otro tipo de modelos, diferentes al que hemos estudiado

hasta ahora.

El tipo de probabilidad estudiado se llama “Probabilidad Clásica”

6 6

mailxmail - Cursos para compartir lo que sabes

Page 67: Estadística aplicada con SPSS. Módulo I

El tipo de probabilidad que estudiaremos ahora, se llama Probabilidad

Baynesiana.

El Teorema de Bayes añade nuevas exigencias a la teoría de probabilidades

analizadas; v.g; supongamos que el suceso A es la probabilidad de que llueva o

haga buen tiempo.

Sobre ese escenario se establecerá la probabilidad de ocurrencia de un

segundo suceso, B, digamos, que ocurra un accidente automovilístico.

De la ocurrencia de B (accidente automovilístico) se establece la probabilidad

A (lluvia, nieve o buen tiempo) este es el método que se llama el Teorema de Bayes.

Ejemplo

Se ha anunciado tres probabilidades sobre el tiempo para el fin de semana

Probabilidad de que llueva =  0.50;

Probabilidad de que nieve  =  0.30;

Probabilidad de niebla:      =   0.20.

La Oficina de tránsito vehicular tiene datos sobre las probabilidades de que

ocurra un accidente automovilístico según los estados meteorológicos.

Lluvia: probabilidad de accidente es =  0.10;

Nieve: probabilidad de accidente es =   0.20;

Niebla: probabilidad de accidente es =  0.05.

Supongamos que ocurre un accidente y no sabemos si llovió, nevó o hubo

niebla.

Para calcular las probabilidades acudimos al Teorema de Bayes

Las probabilidades dadas antes de conocer que ha ocurrido un accidente son

"probabilidades a priori" (lluvia con el 60%, nieve con el 30% y niebla con el 10%)

Una vez conocida la información de que ha ocurrido un accidente, las

probabilidades del suceso son probabilidades condicionadas P (A/B) o

"probabilidades a posteriori".

La probabilidad de que en el momento del accidente lloviera es 0.41

6 7

mailxmail - Cursos para compartir lo que sabes

Page 68: Estadística aplicada con SPSS. Módulo I

Ahora veamos la probabilidad de que el accidente ocurrió mientras nevaba:

La probabilidad de que el accidente ocurrió habiendo nevado es 0.33.

Del mismo modo para la probabilidad de que hubiera niebla.

En el numerador registramos la probabilidad de que nieve en el momento del

accidente (0.20) por la probabilidad de que haya un accidente cuando hay niebla

(0.05)

En el denominador se pone la misma información que se usó para los otros

dos casos.

En capítulos más avanzados seguiremos analizando sobre la Probabilidad

Baynesiana.

6 8

mailxmail - Cursos para compartir lo que sabes

Page 69: Estadística aplicada con SPSS. Módulo I

23. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (7/10)

Distribución de probabilidades

En la tabla 3.2 del capítulo tercero vimos la distribución de frecuencias en la

segunda columna de la tabla correspondiente a los salarios.

En la siguiente de la tabla obtuvimos las probabilidades de cada rango de

salarios

Ahora vamos a estudiar las distintas distribuciones de probabilidades más

usadas en la estadística. Aprehenderemos el concepto de cada una y luego iremos al

SPSS.

Construiremos la tabla que sugiere Levin y Rubin para registrar los posibles

eventos que resultarían del lanzamiento de una  moneda dos veces consecutivas.

Tabla 4.5

Cuadro de probabilidad de lanzar una moneda dos veces consecutivas 

Primerlanzamiento

Segundolanzamiento. 2lanzamientos

No. De cruces enresultadosposibles

Probabilidadde los 4

TTHH

THHT

2101

0.5 x 0.5 = 0.250.5 x 0.5 = 0.250.5 x 0.5 = 0.250.5 x 0.5 = 0.25

“H” significa “cara” y “T” significa “cruz” y las probabilidades son teóricas,

puesto que en la realidad puede que en dos lanzamientos los resultados sean

diferentes.

Pero, si lanzamos una moneda no alterada muchas veces, los resultados

obtenidos se irán acercando cada vez más a las probabilidades teóricas.

Deduciremos del anterior cuadro otro que registre la distribución de la

probabilidad del número posible de cruces que se obtiene al lanzar dos veces una

moneda.

6 9

mailxmail - Cursos para compartir lo que sabes

Page 70: Estadística aplicada con SPSS. Módulo I

Número de cruces (T) Lanzamiento         Probabilidad del Resultado

012

(H, H)(TH + HT)(T, T)

0.250.500.25

Representaremos gráficamente los resultados de la tabla 4.6

Estamos interesados en mostrar la distribución de los resultados referidos a

las cruces.

Para hacer eso, colocamos en el eje de las abscisas de un cuadrante el

número teórico de cruces que observaríamos en dos lanzamientos de la moneda.

En el eje de las ordenadas registramos la probabilidad de cada observación,

de acuerdo con los datos de la tabla 4.6 recordemos que estas probabilidades, son

teóricas.

Gráfica 4.1

En la gráfica 4.1 reflejamos los datos que nos da la tabla 4.6; ambas, la tabla

y la gráfica son dos formas de mostrar una distribución de probabilidades.

Tabla 4.7

Número de pacientes atendidos Número de días que se atendió

100                                          

101                                          

102                                          

103                                          

104                                          

1

2

 3

 5

 6

7 0

mailxmail - Cursos para compartir lo que sabes

Page 71: Estadística aplicada con SPSS. Módulo I

104                                          

105                                          

106                                          

107                                      

108                                      

109                                       

110                                         

111                                          

112                                          

113                                          

114                                          

115

 7

 9

1 0

1 2

1 1

 9

8

 6

 5

4

   2 

100 

En la tabla 4.7 registramos los datos de los pacientes atendidos diariamente,

durante cien días en una clínica; vamos a convertir esos datos en una tabla de

probabilidades.

Este ejercicio es útil para tener una imagen de lo que hace el SPSS en la

computadora.

Definamos algunos conceptos, antes de resolverlo.

7 1

mailxmail - Cursos para compartir lo que sabes

Page 72: Estadística aplicada con SPSS. Módulo I

24. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (8/10)

Variable Aleatoria

Es la variable que toma diferentes valores como resultado de un experimento

aleatorio; puede ser discreta o continua, de acuerdo con el número de valores que

toma.

Si toma sólo un número limitado de valores, será una Variable Aleatoria

Discreta; si puede tomar cualquier valor dentro de un intervalo, será una Variable

Aleatoria Continua.

En la tabla 4.7 anotamos el número de pacientes mujeres atendidas

diariamente en una clínica en los últimos cien días; esto es, una distribución de

frecuencias.

De inmediato, convertiremos los datos de las frecuencias en probabilidades;

tabla 4.8

Tabla 4.8

Distribución de  Probabilidades del número de pacientes de la clínica

En la columna izquierda registramos el número de pacientes que son

atendidos diariamente en la clínica; en la derecha, se anotan las probabilidades para

7 2

mailxmail - Cursos para compartir lo que sabes

Page 73: Estadística aplicada con SPSS. Módulo I

atendidos diariamente en la clínica; en la derecha, se anotan las probabilidades para

cada caso.

Para deducir estas probabilidades, se ha dividido el número de días para cada

número de pacientes de la tabla 4.7 entre cien, que es el número total de días

registrados.

La suma de las frecuencias del número de días anotados en la tabla 4.7 suma

100.

Los datos convertidos en probabilidades en la tabla 4.8, suman en total 1.

La suma de todas las probabilidades siempre es 1, en cualquier caso.

Con los datos de la tabla 4.8 diseñamos una gráfica de distribución de

probabilidad.

Registramos en el eje de las abscisas el número diario de pacientes atendidas

y en el eje de las ordenadas sus respectivas probabilidades.

El gráfico 4.2 es para una distribución de probabilidades para variables

discretas.

No dejamos de notar que la longitud más larga corresponde a la probabilidad

mayor de la distribución; también notamos la simetría de las longitudes a ambos

lados.

Gráfica 4.2

Distribución de Frecuencias de probabilidades

Sobre esa simetría es que Gauss llegó a establecer la Distribución Normal

7 3

mailxmail - Cursos para compartir lo que sabes

Page 74: Estadística aplicada con SPSS. Módulo I

Sobre esa simetría es que Gauss llegó a establecer la Distribución Normal

para valores continuos, que es la que más a menudo usaremos en el SPSS, una vez

que la definamos.

La Curva Normal, lo dijimos ya, refleja la distribución normal de los datos y es

la que los estadísticos tratan de encontrar para realizar sus análisis.

Cuando los datos originales no muestran una distribución normal, los

estadísticos transforman los valores de la muestra por otros.

Por ejemplo, pueden transformar los datos originales en sus  logaritmos

naturales y comprobar si la nueva distribución se acerca más a la normal que la

anterior.

Ese procedimiento será usado por nosotros en un apartado próximo.

Mientras tanto, nos familiarizaremos con lo que significado de Valor Esperado.

7 4

mailxmail - Cursos para compartir lo que sabes

Page 75: Estadística aplicada con SPSS. Módulo I

25. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (9/10)

Valor Esperado de una variable Aleatoria Discreta

Se calcula, multiplicando cada valor que la variable pueda tomar, por la

probabilidad de que ese valor se presente; al final, sumamos total de estos

resultados parciales.

Construiremos un cuadro del Valor Esperado de la variable discreta “Número

de Pacientes”; con ese objeto, tomamos los valores de la tabla 4.7 y estructuramos

la tabla 4.9.

El Valor Esperado de la Variable aleatoria “número de pacientes atendidos

diariamente durante una muestra de cien días” es 108.20.

Tabla 4.9

Este resultado  quiere decir que la clínica, en circunstancias normales,

esperará atender un promedio de 108.20 pacientes por día.

Otro ejemplo; en la tabla 4.10  anotamos la probabilidad para cada venta

diaria de fruta

7 5

mailxmail - Cursos para compartir lo que sabes

Page 76: Estadística aplicada con SPSS. Módulo I

Tabla 4.10

Ventas durante 100 días

La probabilidad de cada venta diaria se obtiene dividiendo el número de días

que se vendió esa cantidad entre 100, que es el total de días que se observó los

niveles de ventas.

7 6

mailxmail - Cursos para compartir lo que sabes

Page 77: Estadística aplicada con SPSS. Módulo I

26. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (10/10)

Definición de las clases de pérdidas

Generalmente, las empresas que venden fruta sufren dos clases de pérdidas:

Pérdidas de obsolescencia, por tener demasiada fruta en un día y botarla al

día siguiente.

Pérdidas de oportunidad, por no tener la suficiente fruta para atender a los

clientes.

Estas pérdidas se evitan cuando se tiene la cantidad precisa para atender la

demanda.

La tabla 4.11 muestra las pérdidas condicionales de nuestro frutero; allí se

muestran tanto las pérdidas por la fruta no vendida en el día, como las pérdidas de

oportunidad.

Cada caja de fruta le cuesta al frutero $ 20; el frutero vende cada caja a $ 50.

Cuando no hay pérdidas, el cuadro las registra con un 0.

Tabla 4.11

Pérdidas condicionales

Todos los valores distintos de 0 representan las pérdidas de oportunidad por

los pedidos no cumplidos; si en existencia hay sólo 10 cajas y solicitan 11, estará

perdiendo $30.

La pérdida de $30 es porque se dejó de ganar $50, a los que se resta $20 que

le costó

Tal es el caso de la casilla de la segunda fila y la primera columna del cuadro.

7 7

mailxmail - Cursos para compartir lo que sabes

Page 78: Estadística aplicada con SPSS. Módulo I

Tal es el caso de la casilla de la segunda fila y la primera columna del cuadro.

Tabla 4.11

Cálculo de pérdidas esperadas

Si la demanda es de 13 cajas, pero sólo tiene 10, la pérdida por oportunidad

será 90

La pérdida esperada resulta de multiplicar la “pérdida condicional”, por la

“Probabilidad de la demanda” para ese día; en la primera fila vemos que no hubo

pérdida

Es la demanda y la disponibilidad de fruta fue de 10 cajones en cada caso.

¿Qué pasa si el frutero tiene una disponibilidad de 10 cajones pero la

demanda es de 13?

La pérdida condicional será de $ 90

Si multiplicamos esos $ 90 por la probabilidad de que la demanda sea de 13

cajones, se obtendrá  $ 22.50 de pérdida esperada; esto es: 90 x 0.25 = 22.50.

7 8

mailxmail - Cursos para compartir lo que sabes

Page 79: Estadística aplicada con SPSS. Módulo I

27. Distribución de probabilidades. DistribuciónNormal (1/5)

5 DISTRIBUCIÓN DE PROBABILIDADES

La Distribución Normal

La Distribución Normal es la más importante de todas y la más usada en

ciencias sociales; es una distribución continua, no discreta.

Fu diseñada por Karla Gauss en el siglo XIX

Por eso se llama también distribución de Gauss.

La Distribución Normal tiene características útiles a muchas situaciones en las

que es preciso decidir, tomando como base las muestras que se levantan de una

población dada.

Representa muy bien las distribuciones de fenómenos reales, incluyendo

características humanas, tales como el peso, la altura, el coeficiente de inteligencia y

otras.

Con el objeto de mostrar el proceso de cómo se llega a la Curva de la

Distribución Normal, reproduzcamos en la gráfica 5.1, la gráfica 4.2 del capítulo

anterior

Gráfica 5.1

Distribución de Probabilidad Normal

Ahora hagamos que los intervalos entre los valores de las probabilidades,

registrados en las ordenadas y los intervalos del número de pacientes, se vuelvan

infinitesimales.

7 9

mailxmail - Cursos para compartir lo que sabes

Page 80: Estadística aplicada con SPSS. Módulo I

infinitesimales.

Es decir, que los valores de vuelvan continuos.

La curva resultante será la Curva Normal que se muestra en la gráfica 5.2

Figura 5.2

Una Curva Normal

De inmediato nos damos cuenta de que la superficie de la Curva Normal está

conformada por la adición de todas las probabilidades de los resultados de un

experimento.

Precisamente, la tarea más importante de operar con la Curva Normal es

encontrar la probabilidad de un resultando como efecto de un experimento.

Particularidades

La Curva Normal tiene un solo pico; lo que significa que sólo tiene una moda,

es unimodal; la Media la Mediana y la Moda, están en el mismo punto central, son

iguales entre sí.

En primer término veamos la simbología de los parámetros de la Curva

Normal:

representa el error típico de la curva normal

X* representará la Media de la muestra; también se usa la X con una barra

encima.

Los extremos, izquierdo y derecho, se extienden y nunca tocan la línea base.

La mayor densidad de frecuencias está en a

Allí son iguales la Media, la Mediana y la oda.

No hay una sola curva normal, sino una familia completa

8 0

mailxmail - Cursos para compartir lo que sabes

Page 81: Estadística aplicada con SPSS. Módulo I

No hay una sola curva normal, sino una familia completa

Para definir una curva normal, lo único que necesitamos es definir dos

parámetros:

La media =

Error típico =

Conociendo esos dos parámetros, se puede diseñar una curva de distribución

normal.

Gráfica 5.2

Curvas normales

En esta serie de tres curvas normales, la de la izquierda tiene la desviación

estándar más pequeña; la del medio, un poco mayor y la tercera tiene la mayor de

todas.

Sin embargo, todas ellas tienen una Media = Mediana = Moda = 50

8 1

mailxmail - Cursos para compartir lo que sabes

Page 82: Estadística aplicada con SPSS. Módulo I

28. Distribución de probabilidades. DistribuciónNormal (2/5)

Área bajo la Curva Normal

El área de cualquier curva normal es 1.00, independientemente de su media o

desviación estándar; el cuerpo mismo de la curva es un conjunto completo de

probabilidades.

Conociendo que La Curva Normal tiene una media y una desviación estándar,

es posible derivan las siguientes características que singularizan a toda clase de

curvas normales:

Alrededor del 68% de los valores de una población normalmente distribuida

se encuentra dentro de una desviación estándar de la media, tanto a la izquierda

como a la derecha.

Alrededor del  95.5% de los valores de una población normalmente distribuida

se encuentra dentro de dos errores típicos de la media, tanto a la izquierda como a

la derecha

Alrededor del 99.7 de los valores de una población normalmente distribuida

se encuentra dentro de tres errores típicos de la media, tanto a la izquierda como a

la derecha.

Gráfica 5.3

Áreas dentro de la Curva Normal

En la gráfica 5.3 vemos que el 68% de los datos están en el centro; el resto,

32% se dividen en las dos alas de la izquierda y la derecha, cada una con el 16%.

En la gráfica 5.4, el 95% de las observaciones están en el área central y el 5%

restante se reparten en las alas de la izquierda y derecha, cada una con el 2.5%

La distancia entre las verticales de esa curva es tres a la izquierda y tres a

8 2

mailxmail - Cursos para compartir lo que sabes

Page 83: Estadística aplicada con SPSS. Módulo I

la derecha

Gráfica 5.4

El 95% de las observaciones

En cada una de las colas, a partir de las verticales, se concentra el 2.5% del

total de las observaciones cuya distribución es normal.

En este momento no tenemos aún una idea clara de lo que esto significa, pero

a medida que avancemos iremos captando la lógica de la curva normal y el uso que

vamos a darle.

Ejercicio 1

Asumamos que la Media Aritmética (la Media) de los ingresos mensuales de

los alumnos del curso es de $ 200 y que el error típico es = 70

Deseamos estimar el valor a la derecha que diste un error típico de la media.

Sabemos que la media es la que representa la mayor frecuencia de todas las

observaciones; de acuerdo con las condiciones del problema, ese punto de máxima

densidad es 200.

Con esos datos podemos diseñar la Curva Normal que se muestra en la

gráfica 5.5.

Podemos hacerlo, porque ya sabemos que = 100 y = 00.

Gráfica 5.5

Ahora bien, el si la desviación estándar es = 70, entonces la observación a

la derecha está a una distancia de una desviación estándar de la media, por eso su

8 3

mailxmail - Cursos para compartir lo que sabes

Page 84: Estadística aplicada con SPSS. Módulo I

valor es 270.

Ejercicio 2

Supongamos que diseñamos una curva normal cuya media es 80 y una

desviación estándar de 10 y nos piden los valores que están a tres desviaciones

estándar de la media.

La gráfica 5.6 es la curva normal que tiene la media de 80 y la desviación

estándar 10; el valor de la derecha es 110: se distancia de la media en tres

desviaciones estándar

El valor de la izquierda es 50, pues se distancia 3 desviaciones estándar de la

media.

Gráfica 5.6

8 4

mailxmail - Cursos para compartir lo que sabes

Page 85: Estadística aplicada con SPSS. Módulo I

29. Distribución de probabilidades. DistribuciónNormal (3/5)

Uso de la tabla normal

Para tener los conceptos claros cuando utilicemos el SPSS, vamos a

familiarizarnos con el uso de la Tabla de Distribución Normal.

En la tabla anterior se representa el área bajo la curva normal entre la media y

cualquier valor que asuma la variable aleatoria normalmente distribuida; tiene

columnas y filas.

En la primera columna anota los valores que toma la desviación estándar de la

curva que usaremos para resolver un problema concreto; ese valor va de 0 hasta 3.9

que es el tope.

A continuación se muestra una tabla de valores de la Distribución Normal

8 5

mailxmail - Cursos para compartir lo que sabes

Page 86: Estadística aplicada con SPSS. Módulo I

Ejemplo, el valor 1 de esa columna significa que la desviación estándar  de la

curva es 1.

Para esa desviación estándar, el área bajo la curva, es decir, la probabilidad

de que algo ocurra es 0.3413. las demás columnas nos muestran los decimales de

la desviación.

El valor de las desviaciones estándar en la columna de la izquierda se

representa por z.

Utilicemos el proceso inverso; buscamos un valor cualquiera, digamos 0.3508;

Ubicado ese valor en la tabla vemos que corresponde a una desviación

8 6

mailxmail - Cursos para compartir lo que sabes

Page 87: Estadística aplicada con SPSS. Módulo I

Ubicado ese valor en la tabla vemos que corresponde a una desviación

estándar  z = 1.04

Gráfica 5.7

El valor z, que es el valor de cada desviación estándar se define  z = (x –

) /                  

z =  número de desviaciones estándar que hay entre el valor x que buscamos

y la media de la distribución.

x = valor de la variable aleatoria que buscamos

= media de la distribución de la variable aleatoria

= error típico de la distribución

Vamos a poner algunos ejemplos, pues con la práctica se aprende mucho más

rápido.

Una vez que tengamos las ideas claras, en otro capítulo acudiremos al SPSS.

Estos ejemplos nos permitirán visualizar el uso de la tabla de áreas bajo la

curva normal

Lo que debemos guardar en mente es que la curva está dividida en dos partes

iguales.

8 7

mailxmail - Cursos para compartir lo que sabes

Page 88: Estadística aplicada con SPSS. Módulo I

30. Distribución de probabilidades. DistribuciónNormal (4/5)

Ejercicio 1

Está en proceso un curso completo de Estadística.

¿Cuál es la probabilidad de que un participante elegido al azar se tome entre

500 y 650 horas para completarlo, dado que el tiempo promedio de aprendizaje es

de 500 horas y se conoce que la desviación estándar es de 100 horas?

Lo primero que anotamos son los estadísticos:

La media = 500 y la desviación estándar, = 100

La pregunta nos pide la probabilidad de que un alumno tome entre 500 y 650

horas para cubrir el curso; la probabilidad es  P(500 a 650)

Asumimos que la distribución de las horas de aprendizaje es normal, 

graficamos nuestra Curva de Distribución Normal.

Gráfica 5.9

Para resolver el problema debemos estandarizar los datos con nuestra

fórmula:

z = (x – ) / ;     z = (650 – 500)/100; 1.5

Convertimos la información en desviaciones estándar, lo que nos dice que la

cantidad de  horas = 650 está ubicada a una distancia de z = 1.5 desviaciones

estándar de la media

Recurrimos a la Tabla de Distribución Normal y buscamos en la columna de

las z = 1.5

Como no hay más decimales, encontramos el valor que buscamos en la

columna inmediata a su derecha (0.00) que es igual a 0.4332

8 8

mailxmail - Cursos para compartir lo que sabes

Page 89: Estadística aplicada con SPSS. Módulo I

columna inmediata a su derecha (0.00) que es igual a 0.4332

Ésa es la probabilidad de que un participante elegido al azar emplee de 500 a

650 horas para terminar el curso es 0.4332.

Con el SPSS

Para comprobarlo vayamos al SPSS; en Vista de Variables anotamos esta; en

Valores:

500 = a

650 = b

Creamos las dos variables a y b y vamos al menú Transformar, anotamos b en

la Variable de Destino, y en la pantalla de la derecha:

CDF.NORMAL(650,500,100)-CDF.NORMAL(500,500,100)

El resultado en la pantalla de vista de datos es 0.433193

Ejercicio 2

Con los mismos datos del anterior problema ¿Cuál es la probabilidad de que

un participante, elegido al azar, se tome más de 700 horas en completar el

programa?

Tomamos nota de los estadísticos dados

x = más de 700 horas;    = 500;    = 100

Diseñamos una curva normal; en ella debemos encontrar la P(más de 700)

Gráfica 5.10

Lo que nos piden es encontrar la probabilidad a la derecha de 700 horas.

Sabemos que = 500; x = más de 700; = 100

Convertimos nuestros datos en desviaciones estándar;  z = (700 – 500)/100

8 9

mailxmail - Cursos para compartir lo que sabes

Page 90: Estadística aplicada con SPSS. Módulo I

= 2

Este dato nos dice que 700 horas está a 2 desviaciones estándar de la media

que es 500.

En la tabla encontramos que para 2 desviaciones estándar, la probabilidad es

0.4772.

Pero el problema no se refiere a 700 horas, sino a más de 700 horas

Es decir, no se refiere a la probabilidad que se encuentra entre 500 y 700,

sino que se encuentra en más de 700 horas.

En la gráfica 5.10 nos indica que lo que buscamos es la probabilidad a la

derecha de 700.

Sabemos que la mitad derecha, como la izquierda, tiene una probabilidad de

0.5

Sabemos que la probabilidad de 700 horas = 0.4772, realizamos la siguiente

operación: Valor total de la mitad derecha de la curva = 0.5, menos la probabilidad

de 700 = 0.4772

Así: 0.5000 – 0.4772 = 0.0228 es la P(más de 700 horas.)

Con el SPSS

Con las mismas variables, vamos a Vista de Datos y en Valores anotamos

500 = a

700 = b

Con el mismo procedimiento que los anteriores vamos a Transformar,

anotamos b en Variable de destino y en la pantalla grande:

1-CDF.NORMAL(700,500,100)

El Resultado es 0.22750

9 0

mailxmail - Cursos para compartir lo que sabes

Page 91: Estadística aplicada con SPSS. Módulo I

31. Distribución de probabilidades. DistribuciónNormal (5/5)

Ejercicio 3

Con los mismos datos del problema original, se desea saber la probabilidad

que a un participante le tome entre 550 y 650 horas aprender el curso total.

Para empezar, nos damos cuenta de que es preciso calcular el valor de dos x;

x1 y x2

Los datos son = 500; x1 = 550; x2 = 650 ; = 100

Primero calculamos el valor de cada x

De inmediato notamos que el valor de 550 está a la derecha de la media =

500

Empezamos calculando el número de desviaciones estándar entre 550 y 500

z = (x – ) /= (550-500) /100 = 0 .5

Buscamos en la tabla el valor de 0.5 en la columna de las desviaciones

estándar (z)

Ese valor es 0.1915; ahora hacemos lo mismo con el cálculo tomando como x

= 650.

z= (650 – 500)/100 = 1.5

El valor para 1.5 desviaciones estándar en la tabla es 0.4332.

El problema consiste en hallar la probabilidad entre 550 y 650 horas

Esto representa hallar el área entre 550 y 650, tal como se ve en la siguiente

curva, recordando que la media es 500

Para encontrar el valor que nos pide el problema, que es entre 550 y 650

horas, tomamos el área entre 650 y 500 y le restamos el área entre 550 y 500.

Es decir, toamos el área A+B y le restamos el área A

Lo que queda es el área B, que es el área que estamos buscando

9 1

mailxmail - Cursos para compartir lo que sabes

Page 92: Estadística aplicada con SPSS. Módulo I

Gráfica 5.11

Área A + B  =  0.4332

Área A        =  0.1915

Área B        =  0.2417

La probabilidad de que un participante necesite un tiempo entre 550 y 650

horas para vencer el curso completo de Estadística, es  0.2417

Resolviendo con el SPSS

Vamos a Vista de Variables, creamos la variable esta, en valores asignamos.

a = 550

b = 650

Creamos las variables a y b variables y vamos a Vista de Datos Transformar;

anotamos b en Variable de Destino

Destinos y en la pantalla de la derecha registramos:

CDF.NORMAL(650,500,100)-CDF.NORMAL(550,500,100)

El resultado con 6 decimales será: 0.241730

Ejercicio 4

¿Cuál es la probabilidad de que un participante escogido al azar se tome

entre 420 y 570 horas para aprobar el curso?

Diseñamos nuestra curva normal con las condiciones requeridas:

El problema nos pide la suma de las probabilidades que se encuentran entre

420 y 500 más la que está entre 570 y 500; necesitamos áreas de las dos mitades

de la curva.

Es decir, sumar las áreas A + B

9 2

mailxmail - Cursos para compartir lo que sabes

Page 93: Estadística aplicada con SPSS. Módulo I

Empezaremos calculando los valores de sus respectivas desviaciones estándar

= z .

z1 = (420-500)/100 = -0.80;            z2 = (570 – 500)/100 = 0.70

Las desviaciones estándar son -0.80 y 0.70 respectivamente; no tomamos en

cuenta el signo negativo y más bien buscamos las probabilidades respectivas a cada

z en la tabla.

Las probabilidades son, respectivamente 0.2881 y 0.2580; sumamos estas

probabilidades: 0.2881 + 0.2580 =  0.5461.

La probabilidad de que un participante escogido al azar requiera entre 420 y

570 horas para aprender el curso de estadística es 0.5461.

Con el SPSS

En Vista de Variables, Valores: a 420 y b 570

Crear las dos variables y en la pantalla Vista de datos poner b debajo de esta

En Transformar, b en Variable de Destino y en la pantalla de la derecha

CDF.NORMAL(570,500,100)-CDF.NORMAL(420,500,100)

Resultado = 0.54618

Ejercicio 5

¿Cuál es la probabilidad de que a un participante le toma más de 500 horas?

El problema nos dice que el alumno puede tomar cualquier número de horas

después de la media aritmética que, como hemos venido usando en todos los

ejemplos, es de 500.

Ya es fácil para nosotros deducir que lo que nos están pidiendo es la

probabilidad total de la segunda mitad de la curva normal, esto es: 0.5000

9 3

mailxmail - Cursos para compartir lo que sabes

Page 94: Estadística aplicada con SPSS. Módulo I

Esa es también la probabilidad de que el participante le tome más de 500

horas.

Lo que hicimos en los anteriores capítulos fue formarnos una idea de cómo se

distribuyen las probabilidades de ocurrencia cuando las distribuciones son discretas.

Pero la Curva Normal es una distribución de variables continuas.

Hay más modelos teóricos de distribución de probabilidades que los

estadísticos usan con gran frecuencia y no son continuas; esos modelos se

encuentran en el SPSS.

Para usarlos con propiedad, debemos captar muy bien el concepto de cada

una.

9 4

mailxmail - Cursos para compartir lo que sabes

Page 95: Estadística aplicada con SPSS. Módulo I

32. Distribución de probabilidades. DistribuciónBinominal (1/2)

La Distribución Binomial

Es una distribución de variables discretas; v.g, el lanzamiento de una moneda

o una distribución en la que haya dos variables: cierto-no cierto, sí-no; éxito o

fracaso

Cada lanzamiento de la moneda tiene sólo dos resultados: cara o cruz; sí o

no; esas probabilidad permanece fija en el tiempo y los intentos son

estadísticamente independientes

Las propiedades de una distribución binomial

p = probabilidad de tener éxito; 0.5

q = 1 – p, es la probabilidad de fracaso; 0.5

r = número de éxitos deseados.

n = número de intentos hechos.

Reconocemos cuándo debemos utilizar una distribución binomial por el tipo

de problema, recordando las características que tienen las variables que la

estructuran.  

La Distribución Binomial y el SPSS

Luego de haber captado el concepto respectivo, usemos el SPSS para resolver

problemas relacionados con varios tipos de distribución de probabilidades.

Ejercicio 1

Un agente de seguros vende pólizas a 5 individuos, todos de la misma edad.

La probabilidad de que un individuo viva 30 años más es 3/5.

Desea estimar la probabilidad de que dentro de 30 años aún vivan:

a) 4 individuos;

b) como mucho 2

c) al menos 3 individuos;

9 5

mailxmail - Cursos para compartir lo que sabes

Page 96: Estadística aplicada con SPSS. Módulo I

d) más de 1 y 4 como máximo.

Solución

Vamos a Vista de Variables y creamos la variable “vida”, numérico, 4 decimales

En “valores” asignamos

a = 4 (Se refiere a que estaos pidiendo la probabilidad de que 4 individuos

vivan los 30 años siguientes, para lo que se ha estimado una probabilidad de 0.6)

b = 2 (Nos Pide que se calcule la probabilidad de que por lo menos 2

individuos van a vivir los siguientes 30 años)

c = (Nos pide estimar la probabilidad de que por lo menos 3 individuos vivan

30 años más)

d = más de 1 y máximo 4 (nos pide la probabilidad de un en número de

individuos que vivan 30 años más se  encuentre entre 1 y 4)

En la Pantalla de Variables también creamos las cuatro variables: a, b, c, d, sin

especificar nada en la columna de “valores” pues ya lo hemos hecho

Al analizar la opción a, nos damos cuenta de que se nos pide exactamente la

probabilidad de 4 individuos, por lo que usaremos la opción PDF.BINOM

En la pantalla de datos anotamos 4 debajo de la variable vida

Vamos al Menú grande: Transform anotamos a en la casilla Variable de

Destino

En la primera pantalla de la izquierda escogemos Todo

En la de abajo aparece el menú de las funciones que tiene el SPSS en esa

dimensión

Escogemos Pdf.Binom

En la pantalla, debajo del teclado, aparece una nota indicando las

características de la distribución Pdf.Binom

Pulsamos la flecha que indica hacia arriba y en la pantalla superior aparece

PDF.BINOM(?,?,?)

Reemplazamos la primera interrogación con 4, que es el número exacto de

9 6

mailxmail - Cursos para compartir lo que sabes

Page 97: Estadística aplicada con SPSS. Módulo I

Reemplazamos la primera interrogación con 4, que es el número exacto de

individuos cuya probabilidad de que vivan, los próximos 30 años, es la que

deseamos estimar.

La segunda interrogación, con 5, es el número de individuos que se ha

escogido al azar para hacer el ejercicio

La tercera interrogación, con 0.6; probabilidad de que un individuo viva 30

años más

Reemplazadas las interrogaciones aceptamos

En la pantalla de datos vemos el resultado: 0.2592

La probabilidad de que un individuo viva 30 años más, a partir de la edad que

tiene, es 0.6 y la probabilidad de que cuatro de ellos lleguen vivir los 30 años más

es 0.2592

Ejercicio 2

Sobre los mismos 5 individuos escogidos y la misma probabilidad de 0.6, la

opción b del problema nos pide estimar la probabilidad de que vivan a lo sumo 2

individuos.

En este caso, como no nos están dando un dato exacto, sino variable, (a lo

sumo 2) ya no usamos el Pdf.Binom, sino que, del mismo menú vamos a Cdf.Binom

En la pantalla de datos anotamos b

En la Variable de Destino anotamos b (según los códigos que hemos dado en

“valores”)

Sustituimos las interrogaciones con: 2,5,0.6 respectivamente

El resultado es 0.31744

9 7

mailxmail - Cursos para compartir lo que sabes

Page 98: Estadística aplicada con SPSS. Módulo I

33. Distribución de probabilidades. DistribuciónBinominal (2/2)

Ejercicio 3

Ahora nos piden estimar la probabilidad de que por lo menos 3 individuos

vivan 30 años más, manteniendo los cinco escogidos y la probabilidad de 0.6

En este caso, seguimos con la versión Cdf.Binom; anotamos 3 en la casilla

Variable de Destino; pero hay algo más que debemos hacer:

A diferencia del anterior problema, en el que nos pedía a lo sumo 2

individuos, ahora nos piden que por lo menos 3 individuos vivan 30 años más; el

planteo es diferente

Ahora se trata de estimar la probabilidad total menos la probabilidad de que

vivan menos de 3, es decir, menos la probabilidad de que vivan uno o dos.

En la pantalla de datos anotamos 3 debajo de vida

Por eso es que resolvemos el problema con el siguiente planteamiento:

1–Cdf.Binom(2,5,0.6)

Es decir, el total de la probabilidad menos la probabilidad de 2 individuos.

Subimos la función Cdf.Binom, llenamos los interrogantes con 2,5,0.6

respectivamente y añadimos la expresión (1-) al comienzo

En la pantalla deberá leerse 1-cdf.Binom(2,5,0.6)

Aceptamos

En la Pantalla de Datos, en la columna c, aparece la probabilidad calculada:

0.68256

Ejercicio 4

La opción nos pide estimar la probabilidad de que el número de individuos

entre 1 y 4 alcancen a vivir los próximos 30 años

(En realidad, nos  piden la probabilidad de que vivan 2 y 3 individuos)

Planteamos el problema de la siguiente manera:

9 8

mailxmail - Cursos para compartir lo que sabes

Page 99: Estadística aplicada con SPSS. Módulo I

Cdf.Binom(4,5,0.6)-CdfF.Binom(1,5,0.6)

En la pantalla de datos aparece la probabilidad debajo de la casilla d =

0.83520

Ejercicio 5

En una escuela, la directora toma como muestra a 5 alumnos escogidos al

azar para estimar las probabilidades de que 0, 1, 2 y 3 alumnos lleguen tarde,

sabiendo que la probabilidad de que un alumno llegue tarde es 0.4

Para empezar, vamos a la Pantalla de Variables y creamos una variable

llamada tard

En Valores anotamos :

0 = a

1 = b

2 = c

3 = d

Debajo de tard anotamos las variables a, b, c y de

Estas variables aparecen en la pantalla Vista de Datos

Si deseamos estimar la probabilidad de a, la escribimos debajo de tard en la

pantalla de Vista de Datos; lo mismo haremos para estimar las demás opciones (b, c,

d)

En cada caso nos piden exactamente una cantidad dada de alumnos, por lo

que recurriremos a la forma Pdf.Binom

En el menú Transformar anotamos a en la casilla Variable de destino

Para estimar la probabilidad de que nadie falte anotamos: subimos la versión

Pdf.Binom y reemplazamos las interrogantes con 0,5,0.4; en la pantalla aparecerá:

F.BINOM(0,5,0.4)

El resultado es 0.07776

Procedemos de la misma manera para cada uno de los casos que se nos pide.

9 9

mailxmail - Cursos para compartir lo que sabes

Page 100: Estadística aplicada con SPSS. Módulo I

Ejercicio 6

Se nos pide estimar la probabilidad de que en tres lanzamientos de una

moneda aparezcan dos caras

En este caso, también nos piden un valor exacto, 2 caras, por lo que

usaremos la versión Pdf.Binom, conociendo que la probabilidad de que salga una

cara es 0.5

El resultado es 0,31250, es decir, la probabilidad de que luego de tres

lanzamientos de una moneda, tengamos dos caras en cualquier orden es 0.37500

Ejercicio 7

Se quiere calcular tres tubos llenos de una sustancia química de una muestra

de seis sabiendo que la probabilidad de lograr un tubo lleno es 0.8

En Lista de Variables anotamos tub, numérico, 0, en valores: 3 para a

Abrimos también la variable a en la misma vista de variables

También la anotamos debajo de la variable tub en la pantalla de datos

En Transform, anotamos a en Variable de Destino

Como nos piden exactamente 3 tubos acudimos a la función Pdf.Binom de la

casilla respectiva; la subimos a la pantalla superior, llenamos los interrogantes con

3,6,0.8

Aceptamos; en la pantalla de datos tenemos la probabilidad 0.08192.

1 0 0

mailxmail - Cursos para compartir lo que sabes

Page 101: Estadística aplicada con SPSS. Módulo I

34. Distribución de probabilidades. Distribución dePoisson

La Distribución de Poisson

Es otra de las distribuciones más usadas para resolver problemas con

variables discretas; esta distribución debe su nombre a su creador, Denis Poisson

(1781-1840).

Hay varios tipos de problemas que requieren de esta distribución

La distribución de llamadas telefónicas que llegan a una central, las llamadas

que los pacientes internados en las clínicas hacen a las enfermeras.

También debemos incluir el número de coches motorizados que llegan a un

control de rodaje y otras; todos se refieren a procesos discretos con una o más

ocurrencias.

Así, el número cotidiano de llamadas a las enfermeras puede representarse

por 1, 2, 3, 4,… lo mismo el de llegadas de vehículos a pagar rodaje.

Podemos darnos cuenta de la diferencia entre distribución de Poisson y la

Binomial: la segunda toma en cuenta dos evento: un sí y un no; la de Poisson

incluye más opciones.

Cálculo con el SPSS

El proceso es igual al que empleamos en el cálculo de la distribución binomial.

Se desea averiguar cuál es la probabilidad de que suceda 0 accidentes, 1

accidente  y 2 accidentes en un día, en una calle donde el promedio es de 5

accidentes por día.

Vamos a estimar la probabilidad de que el número de accidentes sea 0.

En la pantalla de Vista de variables creamos una variable, even.

En Valores asignamos:

0 = a

1 = b

1 0 1

mailxmail - Cursos para compartir lo que sabes

Page 102: Estadística aplicada con SPSS. Módulo I

2 = c

3 = d

Tal como lo hicimos en las otras distribuciones; debajo de ella creamos la

variable x0

En la pantalla Vista de datos, bajo la columna que dice even, anotamos: x0

Menú Principal Transformar Calcular variable: allí ingresamos la variable

x0 con el objeto de estimar la probabilidad de que ese día haya cero número de

accidentes.

En la parte inferior derecha hay un cuadro de funciones con un menú;

pulsamos Todo.

Del menú de funciones buscamos en esa lista la función Pdf-Poisson.

Las características de la función Poisson aparecerán debajo del teclado; la

subimos y en la pantalla aparece Pdf.Poison (?,?)

Reemplazamos el primer interrogante con x0 y el segundo con 5

Aceptar la pregunta que nos hará el SPSS OK.

En la pantalla Vista de datos aparece el número 0,006738, que es la

probabilidad de que se registren cero accidentes en una calle en la que el promedio

de accidentes diario es 5.

Si deseamos saber la probabilidad de que ocurra exactamente 1 accidente ese

día en esa misma calle, repetimos el proceso; vamos a Vista de variables y creamos

la variable x1.

El número de decimales será 6Repetimos el anterior proceso, reemplazando

las interrogantes con 1 y 5 respectivamente.

En la pantalla de Vista de datos aparecerá 0.033690 que es la probabilidad de

que ocurra exactamente un accidente en ese día en la calle cuyo promedio diario es

de 5 accidentes.

Repetimos el proceso para los demás casos; no olvidemos de registrar las

variables creadas (x0, x1, x2, x3) en la Pantalla de Datos cada vez que deseamos

estimar una de ellas.

1 0 2

mailxmail - Cursos para compartir lo que sabes

Page 103: Estadística aplicada con SPSS. Módulo I

1 0 3

mailxmail - Cursos para compartir lo que sabes

Page 104: Estadística aplicada con SPSS. Módulo I

35. Grandes pioneros de la Estadística

Carl Friedrich Gauss

     (1777-1855)

Matemático y Físico; los eruditos dicen que Gauss es considerado como una

de los más grandes matemáticos de todos los tiempos. La “Teoría de los Errores” es

una de sus contribuciones a la Estadística. Estudió en la Universidad de Göttingen,

que era el centro de los matemáticos en Alemania. Inicialmente, Gauss se interesó

por la Economía, pero después se dedicó a la geodesia. Usó del Método de los

Cuadrados Mínimos y fue el gran diseñador de los errores normales, que dieron

lugar a la Curva de Gauss o Curva Normal, la que nosotros analizaremos en este

capítulo. Esa Curva y la Teoría de los Errores fueron deducidas de la Media

Aritmética. En asociación con Markov, proporcionó a la Estadística con otro de sus

instrumentos más importantes: el Teorema Gauss-Markov, que se refiere a la

Regresión Lineal y que aplicaremos cuando nos corresponda analizar ese tema.

Ahora ingresaremos al análisis de una de las mayores contribuciones que Gauss hizo

a la Estadística: La Distribución Normal. Esta distribución de probabilidades también

es conocida con el nombre de la Campana de Gauss.

Lambert Adolphe Jaques Quetelet

               (1796-1874)

1 0 4

mailxmail - Cursos para compartir lo que sabes

Page 105: Estadística aplicada con SPSS. Módulo I

Fue astrónomo y estadísticos; aprendió probabilidad con Fourier, como

resultado, en 1835 escribió su obra Sobre el Hombre y el Desarrollo de sus

Facultades, que fue una Intro-ducción a la “Física Social”, en la cual introdujo el

concepto del “Hombre Medio”. Su obra “Cartas sobre la Probabilidad fue escrita en

1846, en la que describía la distribución de las medidas. Fundó la Sociedad

Londinense de Estadística.

Economistas de su tiempo, tales como Stanley Jevons y homres de ciencia

como Galton, continuaron con su obra. En la prime-ra década del siglo XX, J. M.

Keynes  dijo de él: Tiene todo el derecho de ser recordado como el padre del

método estadístico moderno.

Ludwig Boltzmann

        (1844-1906)

Físico teórico; en trabajo conjunto con Gibbs fue responsible de la

transformación de la teoría probabilística de Maxwll en la mecánica estadísticas.

Obtuvo su doctorado de la Universidad de Viena por su tesis sobre la teoría kinésica

de los gases. La Mecánica Estadística requería soluciones a problemas de la teoría de

las distribuciones y también generan problemas conceptuales. En 1878, Boltzmann

1 0 5

mailxmail - Cursos para compartir lo que sabes

Page 106: Estadística aplicada con SPSS. Módulo I

las distribuciones y también generan problemas conceptuales. En 1878, Boltzmann

nos dio la distribución 2 para dos y tres grados de libertad; posteriormente, en

1881 estructuró la Distribución  2 para n grados de libertad, ambas serán

analizadas en capítulos venideros. La Enciclopedia Stanford incluye dos artículos

muy importantes de Boltzmann: su trabajo sobre Física Estadística y la a Filosofía de

la Mecánica Estadística.

1 0 6

mailxmail - Cursos para compartir lo que sabes

Page 107: Estadística aplicada con SPSS. Módulo I

36. Muestreo y Distribuciones de Muestras

6 MUESTREO Y DISTRIBUCIONES DE MUESTRAS

Introducción

Por lo general, no se tiene datos sobre las poblaciones totales a las que se

desea analizar

La Estadístico depende, sobre todo, de las muestras que deriva de sus

encuestas.

Estas encuestas pueden estar en una base de datos de un país; ya sea el

Instituto Nacional de Estadística o los bancos de datos sobre información específica

Una muestra es sólo una porción del total, a la que llamamos Población, pero

que refleja las características de la población de donde proviene.

Población

Es el total de elementos que conforman el universo sobre el cual realizaremos

los análisis

Muestra

Es una porción escogida de la población.

Tipos de muestreos

Las muestras pueden ser no aleatorias o aleatorias; en las aleatorias todos los

elementos de la población tienen la misma probabilidad de ser escogidos para la

muestra.

Muestreo aleatorio

En estos muestreos conocemos las probabilidades de que un elemento de la

población s.

Este tipo de muestreo acepta las siguientes clasificaciones.

Muestreo Aleatorio Simple

Para comprender este concepto, diremos que se puede derivar, no una, sino

 muchas muestras de una sola población, una tras otra.

1 0 7

mailxmail - Cursos para compartir lo que sabes

Page 108: Estadística aplicada con SPSS. Módulo I

El muestreo aleatorio es el que establece que cada posible muestra tenga la

misma probabilidad de ser seleccionada que cualquiera de las demás.

Exige que cada elemento de la Población  tenga la misma probabilidad que las

demás de ser incluida en la muestra.

Muestreo estratificado

Se divide la población en grupos homogéneos y se pondera cada muestra, de

acuerdo con el número de elementos que contiene con relación al total de las

muestras.

La estratificación por barrios o por manzanos de barrio es una manera muy

utilizada.

Fases del diseño de muestra

Determinar qué es lo que se desea medir.

Definir el tamaño de la muestra

Realizar un pequeño plan piloto con las  hojas de encuestas en la que se

anotan las variables a ser analizadas.

Introducción a las distribuciones de muestreo

Se pueden sacar muchas muestras diferentes de una población.

Supongamos que de una población extraemos varias muestras, una después

de la otra, de manera tal que los elementos de la primera vuelven a la población y

así con las demás.

Supongamos que se trata de una muestra para estimar la altura de hombres

tomados al azar de una población de 100 000 personas, la que puede ser

considerada como infinita.

Supongamos también que sacamos varias muestras del mismo tamaño de esa

población.

Al estimar la altura media y la desviación estándar de los hombres de cada

muestra, nos daríamos cuenta de que serían diferentes de muestra a muestra.

De esta manera llegamos a la siguiente conclusión:

1 0 8

mailxmail - Cursos para compartir lo que sabes

Page 109: Estadística aplicada con SPSS. Módulo I

Una distribución de probabilidad de todas las medias posibles de las muestras

es una distribución de las medias de la muestra.

Los valores estadísticos se conocen como distribución de muestras de la

media.

Descripción de las distribuciones de muestreo

Ya lo vimos: cualquier distribución de probabilidad y, por lo tanto, cualquier

distribución de muestreo puede ser descrita por su media y por su desviación

estándar.

Si sacáramos todas las muestras posibles de una población dada, las medias

de cada muestra, al ser diferentes unas de las otras, estarían distribuidas de alguna

manera.

Esa distribución de las medias tendría, a su vez, una media y un erro típico

propios, dado que se trata de una distribución, aunque sean una distribución de las

medias.

El error típico que usábamos hasta ahora, toma otro nombre cuando se

refiere a la distribución de las medias del conjunto de muestras, se llama Error

Típico de la Muestra.

Otros programas utilizan el nombre “Error estándar de la media”, pero el SPSS

designa a este estadístico como error típico de la media.

El Teorema del Límite Central

La media de la distribución de las medias de las muestras será igual a la

media de la población, sin importar el tamaño de las muestras; esto da lugar a otra

afirmación:

A medida que el tamaño de las muestras crece, la distribución de las medias

de las muestras se acerca a la distribución normal

Por eso es que la muestra no tiene que ser muy grande con respecto a la

población.

El Teorema del Límite Central permite usar los estadísticos de una muestra

para hacer inferencias sobre los estadísticos de la población.

También se puede asegurar que en una muestra con más de 30 elementos, la

1 0 9

mailxmail - Cursos para compartir lo que sabes

Page 110: Estadística aplicada con SPSS. Módulo I

distribución de la media que contiene la muestra, empieza a acercarse a la

distribución normal.

Por eso es que la primera de las acciones que realizamos al recibir una

muestra en la pantalla del SPSS es constatar si su distribución es normal.

Si no es, posiblemente tengamos que transformar la muestra.

Conclusión

Todo lo que hemos hecho hasta ahora ha sido recordar los principales

conceptos que usa la estadística para analizar las muestras que logra de las

diferentes poblaciones.

Excepto en casos como los censos de población, vivienda, ingresos, todas las

estimaciones sobre las estadísticas de una población se realizan utilizando la

muestra.

Continuaremos nuestro estudio aplicando el SPSS.

1 1 0

mailxmail - Cursos para compartir lo que sabes

Page 111: Estadística aplicada con SPSS. Módulo I

37. Estadística Descriptiva. Conceptos

Estadística descriptiva

Lo dijimos ya, la Estadística se divide en dos grandes ramas:

La Estadística Descriptiva describe las propiedades de la muestras, incluyendo

los valores, las tablas, las distribuciones, las gráficas y otros.

La Inferencia Estadística infiere las características de la población a partir del

análisis de los resultados que nos brinda la Estadística Descriptiva.

Tipos de variables

A modo de recordatorio, repetiremos lo que se estableció en el primer

capítulo.

Hay dos tipos principales de Variables: las categóricas y las de escala.

Variables categóricas

Son variables no numéricas, pero que pueden volverse numéricas en su caso.

También se las conoce con el nombre de variables cualitativas.

Las variables categóricas se dividen en nominales y ordinales.

Variables nominales son aquéllas que no necesitan de un orden

preestablecido, tal el Estado Civil: Soltero, casado….

En cambio las Variables Ordinales obedecen a un orden jerárquico de

ordenación.

Marital status, por ejemplo, es una variable categórica nominal, pues no es

cuantitativa , sobre todo, no necesita una jerarquía de ordenación.

Level of education no es una variable ordinal, dado que sigue un orden

establecido.

Ese orden está dado por la sucesión de los que no han asistido a un sistema

formal de educación hasta los que han llegado a un nivel más allá de un grado

universitario.

Variables de Escala

1 1 1

mailxmail - Cursos para compartir lo que sabes

Page 112: Estadística aplicada con SPSS. Módulo I

Son numéricos; también se llaman Variables Cuantitativas.

Frecuencias

Esta opción requiere de Statistics Base option.

El proceso Frecuencias nos ofrece el despliegue de estadísticos y gráficas que

nos son necesarias para describir los tipos de variables cuyos contenidos debemos

interpretar.

Es un buen lugar para que empecemos a familiarizarnos con los datos.

Las gráficas pueden ser expresadas en valores absolutos o en porcentajes.

1 1 2

mailxmail - Cursos para compartir lo que sabes

Page 113: Estadística aplicada con SPSS. Módulo I

38. Estadística Descriptiva. Frecuencias para analizarvariables nominales

Usar la opción Frecuencias para analizar variables nominales

Traigamos el archivo contacts.save (Ver Sample Files para mayor información)

El archivo tiene información sobre un equipo de vendedores de computadoras

para las empresas que desarrollan software.

En cada compañía, cada departamento dispone de representantes que tienen

contacto primario; los contactos están categorizados como con las siguientes

denominaciones:

Development, Computer Services, Finance, Other, Don’t Know

Se desea comprobar si los departamentos cumplen con los objetivos.

Usaremos Frecuencies para analizar la distribución de los departamentos.

Analizar Estadísticas Descriptivas Frecuencias  Departamento (como la

unidad de análisis)   G r á f i c o s  gráfico de sectores   Continuar OK en la caja

de diálogo

En la pantalla de resultados tenemos una tabla y un gráfico de “torta”;

copiamos la tabla

El total de frecuencias registradas es 70, de las cuales 8 son valores perdidos,

lo que es equivalente al 11.4% del total de observaciones. La columna de frecuencias

nos informa que 30 de los contactos se realizaron con el departamento de servicios

de computadora.

Tabla 6.1

Department

1 1 3

mailxmail - Cursos para compartir lo que sabes

Page 114: Estadística aplicada con SPSS. Módulo I

Esto equivale al 42.9% del total de contactos y al 48.4% de los contactos del

número de variables efectivamente tomadas en cuenta.

La información que leemos en las tablas numéricas puede ser reflejada en

gráficos. La “Torta” es una ayuda para tener una idea de las frecuencias relativas de

cada categoría.

Con las instrucciones anteriores, lo que hicimos fue concretar una tabla de

datos y una gráfica de “torta” cuando hicimos click Gráfico de Sectores o Pie.

Gráfico 6.1

Copiamos el gráfico “Pie” para apreciar los valores relativos de una forma más

visual

En la parte derecha del gráfico 6.1 se registra los sectores que tienen

contactos con empresas clientes de la firma que ahora estamos analizando.

Los respectivos porcentajes se muestran en las porciones a colores de la torta.

Para obtener una nueva clase de gráfico, vayamos a la caja de Frecuencias,

pulsemos en Gráficos, elegimos gráfico de barras continuar

1 1 4

mailxmail - Cursos para compartir lo que sabes

Page 115: Estadística aplicada con SPSS. Módulo I

pulsemos en Gráficos, elegimos gráfico de barras continuar

En el cuadro de frecuencias Formato valores descendente  cont inuar

Aceptar

Las barras se muestran de mayor a menor, para una mejor visualización.

Además del departamento respectivo para cada contacto, también vemos el

rango de las observaciones; para ello vamos otra vez a Frecuencias.

Deseamos ver los rangos de la compañía para constatar si cumple con las

metas.

Gráfica 6.2

Resumen de rangos

Para tener un resumen de los rangos de los contactos, escojamos:

Analizar> Estadísticas Descriptivas Frecuencias Restablecer

Introducimos Company Rank (La que es una variable ordinal) en la pantalla de

la derecha, debido a que es la variable de análisis.

Click Gráf icos Gráficos de Barras C o n t i n u a r  Forma Va lo res

descendentes Continuar OK en la caja de diálogo de frecuencias.

En la pantalla de resultados tenemos la tabla 6.2 Company Rank; al igual que

las anteriores, la que copiamos para su respectivo análisis.

1 1 5

mailxmail - Cursos para compartir lo que sabes

Page 116: Estadística aplicada con SPSS. Módulo I

Los resultados nos muestran que las variables ordinales también pueden ser

analizadas de la misma manera y darnos información adecuada.

Por ejemplo, podemos ver en la tabla que los contactos con los

administradores jóvenes constituyen el 15.7% del total de los contactos.

Tabla 6.2

Company rank

Pero, cuando estudiamos datos de tipo ordinal, el porcentaje acumulativo es

más útil. La tabla, que al igual que las barras, ha sido ordenada por magnitudes

descendentes nos lo muestra; para esta clase de análisis, la variable a estudiarse

tiene que ser cuantitativa.

Gráfica 6.4

1 1 6

mailxmail - Cursos para compartir lo que sabes

Page 117: Estadística aplicada con SPSS. Módulo I

39. Estadística Descriptiva. Frecuencias, Asimetría,Curtosis

Frecuencias

Para analizar esta opción usaremos la distribución de la variable Amout of

Last Sale, que se encuentra en el archivo contacts.save, al que traemos a la pantalla

de vista de datos

Analizar Estadística Descriptiva   Frecuencias  Amount of Last Sale

Vamos a llamar a varios estadísticos cuyo significado aún no conocemos; sin

embargo, los iremos analizando uno por uno, cuando los tengamos en las tablas

respectivas

Una vez en la caja de diálogo de frecuencias: pulsamos Estadísticos y luego

hacemos click en los siguientes botones:

Cuartiles, Desviación Estándar, Mínimo, Máximo, Media, Mediana, Asimetría,

Curtosis

Continuar G r á f i c o s  Histogramas Aceptar

Desactivamos la opción tablas de frecuencias Aceptamos

Tabla 6.3

Estadísticos

1 1 7

mailxmail - Cursos para compartir lo que sabes

Page 118: Estadística aplicada con SPSS. Módulo I

La tabla de datos nos muestra los estadísticos acerca de la distribución de la

variable que analizamos, en este caso, de la variable ventas; definamos cada uno de

ellos.

El título del cuadro, Amount of Sales, se refiere al total de lo que se vendió el

último día.

N = 70 significa que se tomó en cuenta 70 valores de la muestra; no hay

valores perdidos.

La Media, nos da el promedio de las ventas últimas en todos los

departamentos de la firma; en este caso, nos dice que el promedio fue de $54.

La Mediana, tal como ya la definimos en los primeros capítulos, es de $24; de

inmediato notamos la diferencia que hay con la media, algo que analizaremos en

unos momentos

La Desviación Típica, $103.9394; nos muestra la dispersión media de las

ventas

Asimetría (También conocida como skewness o sesgo)

Es un estadístico  que describe la simetría de la distribución alrededor de la

media.

1 1 8

mailxmail - Cursos para compartir lo que sabes

Page 119: Estadística aplicada con SPSS. Módulo I

Si el sesgo es igual a cero, la distribución es simétrica (en este caso, es

normal)

Los siguientes gráficos ilustran el concepto de Asimetría.

Si no existe una cola o sesgo, la asimetría tendrá un valor de cero.

Si el sesgo lleva el signo positivo, entonces sabremos que la distribución

tendrá una cola asimétrica hacia los valores negativos

Esto querrá decir que los elementos de la muestra en general estarán

sesgados hacia los valores que se agrupan más en los niveles bajos.

Si el sesgo es negativo, la distribución tendrá una cola asimétrica hacia

valores negativos; esto es, tiende a reunirse más a la derecha de la media, en los

valores altos

Gráfica 6.5

La curva de una distribución asimétrica con skewness (sesgo o asimetría)

negativa indica que los valores estarán más reunidos en niveles superiores a la

media aritmética.

Al centro, la curva muestra la Curva Normal, la asimetría tiene un valor de

cero.

A la derecha se muestra una curva asimétrica con skewness positiva, lo que

nos indica que los valores tienden a reunirse en la zona de los valores menores a la

media.

El valor que nos da la tabla 6.2 para nuestro análisis sobre las ventas últimos

es de 5.325; el error típico de la Asimetría es 0.287

Es un valor positivo, por lo tanto las ventas en general, en los departamentos,

se reúnen en valores menores a la media, mostrando un desempeño no eficiente.

1 1 9

mailxmail - Cursos para compartir lo que sabes

Page 120: Estadística aplicada con SPSS. Módulo I

Curtosis, es un estadístico que describe el grado de “punta” o “achatamiento”

de la distribución de una variable con relación a la distribución normal.

La gráfica 6.6 nos muestra el grado de curtosis de varias curvas como

modelos.

La curtosis positiva indica una distribución que perfila un gráfico “más en

punta”, tal como vemos en la curva del centro, con relación a la normal; será

Leptocúrtica.

Una curtosis negativa indica una distribución relativamente más achatada,

como la que vemos a la derecha; será Platicúrtica.

En una distribución normal la curtosis es igual a 3; es sobre ese valor que se

determina el nivel de Curtosis de una distribución

En esta distribución, lo dijimos, la media, la mediana y la moda son iguales

entre sí.

Gráfica 6.6

Si el coeficiente es positivo, quiere decir que hay una mayor concentración de

los datos en torno a la media.

Si el coeficiente es negativo, la distribución se llama Platicúrtica y muestra

que hay una menor concentración de datos en torno a la media; sería más achatada

que la primera.

El valor de la curtosis en la tabla es 34.2920, lo que indica que los valores

están concentrados alrededor de la media aritmética

El uso del coeficiente de la Curtosis es muy importante para establecer el

grado en el que la distribución de los valores se acerca o aleja de la curva normal.

1 2 0

mailxmail - Cursos para compartir lo que sabes

Page 121: Estadística aplicada con SPSS. Módulo I

40. Estadística Descriptiva. El Rango. Percentiles,Cuartiles, Deciles

El Rango

Es la diferencia entre el valor mínimo y máximo; el Mínimo es$6; el Máximo

es 776.50

El Rango es 770.5

Percentiles

Muestran cómo se agrupan los datos cuando se los ordena en orden

ascendente tendiendo a que cada grupo tenga P% de observaciones.

Por ejemplo, podemos dividir el número de elementos de una muestra en 99%

grupos a los que identificamos con los siguientes símbolos: P1, P2,.. P9 9.

Cada grupo recibirá el nombre de percentil; el percentil  P100 ya queda

establecido.

De esta manera, diremos que el 1% de los datos tienen un valor menor a P1

(No olvidemos que los grupos se forman de una serie de datos ordenados en

sentido ascendente)

El % de los datos tendrán un valor menor o igual a P% y el 70% de los datos

serán menores o iguales a P7 0; por último, el 99% de los datos serán menores que

P9 9.

Vamos a poner un ejemplo concreto, en el próximo subtítulo relativo a los

Cuartiles.

Los Cuartiles

Son los grupos más utilizados, dividen al total de los elementos en cuatro

partes cada uno delos cuales tienen aproximadamente el mismo número de

elementos.

Cada Cuartil queda identificado como: Q1, Q2, y Q3

Q1, es el que tiene el primer 25% de observaciones del total, los cuales son

menores a Q1

1 2 1

mailxmail - Cursos para compartir lo que sabes

Page 122: Estadística aplicada con SPSS. Módulo I

menores a Q1

Q2 es el que tiene el 50% de las observaciones, cada uno es mejor que Q2

Q3 en el que el 75% de los datos son menores que Q3

Ejemplo:

Tomemos los siguientes valores ordenados en forma ascendente:

120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750, 790, 800, 820, 910

Ahora bien, dividamos ese total de elementos en cuatro grupos, es decir en

Cuartiles

120, 140, 200, 240, 260, 380, 450, 500, 630, 700, 750, 790, 800, 820, 910,

980

El primer Cuartil (Q1) es 240, pues todos los valores a su izquierda serán

menores que él.

El Segundo Cuartil (Q2) es 500, pues todos los valores a su izquierda son

menores que él.

Del mismo modo para los demás cuartiles

El último Cuartil (Q4) es 980, todos los elementos tienen un valor menor que él

Obsérvese que la Mediana, tal como la estudiamos en los primeros capítulos

oscila entre 500 y 600,  = 550, es decir, está incluida en el Segundo Cuartil

Es importante tomar nota que el 50% de los datos centrales se encuentra

entre Q1 y Q3

Los Deciles

Dividen la distribución en 10 partes iguales (9 divisiones) y se representan

como D1,...,D9, correspondientes al 10%,...,90%, al igual que los otros estadísticos

descritos.

El SPSS estima todos estos estadísticos, tal como vimos en la tabla 6.3

Volviendo al análisis de la tabla, notamos que la media, la mediana y la moda

difieren en sus valores; lo que nos permite deducir que la distribución de la variable

1 2 2

mailxmail - Cursos para compartir lo que sabes

Page 123: Estadística aplicada con SPSS. Módulo I

no es normal.

La deducción se confirma al leer los estadísticos como la Asimetría y la

Curtosis

El Histograma

Ya tuvimos ocasión de familiarizarnos con el Histograma, que es una

visualización gráfica de la distribución de la variable que deseamos analizar.

Gráfica 6.7

Obsérvese que en el eje de las abscisas se registran los valores de las ventas y

en el de las ordenadas la frecuencia en que esos valores se repiten.

El histograma que vemos en el cuadro de resultados, comparado con la curva

normal, nos muestra una distribución asimétrica con una cola derecha larga.

Es decir, un sesgo o skewness positivo, lo que nos indica que los elementos

están concentrado, preferentemente, en la zona de valores bajos, tal como nos

indicaba la Asimetría

También nos confirma una Curtosis elongada hacia arriba, con relación a la

curva normal; lo que nos confirma que la distribución es Leptocúrtica, lo que ya

vimos en la tabla.

Los valores que nos da la tabla sobre las medidas de tendencia central, la

1 2 3

mailxmail - Cursos para compartir lo que sabes

Page 124: Estadística aplicada con SPSS. Módulo I

Curtosis y la Asimetría muestran que la distribución de la variable Sales no es

normal.

El Histograma confirma la misma conclusión que los datos de la tabla; por lo

tanto, debemos estar seguros de que la distribución de la variable sales no es

normal.

No olvidemos que estamos interesados en que la distribución de la variable

que analizamos se acerque a la curva normal.

Como en este caso la distribución no es normal, recurrimos a la

transformación de las variables, en otros que reflejen mejor las características de la

muestra.

Es decir, trataremos de transformar la variable de manera tal que su

distribución se acerque más a la distribución normal.

1 2 4

mailxmail - Cursos para compartir lo que sabes

Page 125: Estadística aplicada con SPSS. Módulo I

41. Estadística Descriptiva. Transformación deVariables

Transformación de variables

En el siguiente paso veremos cómo se hace esa transformación.

Primer, traemos a la pantalla de datos el archivo

La Opción Transformación

Para usar la opción Transformación, la variable debe ser de escala, es decir,

cuantitativa.

En este caso, parece adecuado transformar los valores en nuevos valores

incluidos en una nueva variable que mostrará los logaritmos naturales de los valores

originales.

Vamos a transformar la variable Amount of last sales del archivo que estamos

usando, esto es, de contacts.save

Para transformar la variable de ventas escojamos del Menú principal la casilla Transformar calcular variable

Transformar calcular variable (o compute variable) aparecerá un cuadro de diálogo

En la parte superior izquierda del cuadro hay una casilla con el nombre

“Variable de destino”, allí escribamos logsale que es nuestra nueva variable

Es decir, allí se inscribirán los valores logaritmizados.

A la derecha hay una pantalla con el título de expresión numérica

Ahora bien, debajo de esa pantalla, a la izquierda, hay dos pantallas: la

primera dice “grupo de funciones”, de las opciones pulsamos Todo.

La pantalla que se encuentra debajo de la anterior tiene como título funciones

y variables especiales; aparecen todas las funciones del SPSS, registradas por orden

alfabético.

Buscamos hacia abajo, hasta llegar a Ln; hacemos click y en la pantalla a la

izquierda y debajo del teclado aparece una leyenda que explica cuál es la tarea de la

función.

Con la flecha de dirección hacia arriba, introducimos esa función en la

1 2 5

mailxmail - Cursos para compartir lo que sabes

Page 126: Estadística aplicada con SPSS. Módulo I

pantalla “expresión numérica”; allí aparecerá la siguiente expresión: LN(?)

El signo de interrogación nos pregunta cuál es la variable que deseamos

logaritmizar.

Del cuadro de la izquierda, donde están todas las variables elegimos Amount

of last sales; con la flecha de dirección introducimos la variable entre los paréntesis;

aceptamos.

Vamos a la pantalla de Vista de datos y nos encontramos que los valores de la

nueva variable logsale están registrados en la última columna de la pantalla.

Observemos también que la nueva variable logsale ha quedado registrada en

la pantalla Vista Variables; aumentamos los decimales a 6

En la columna Etiquetas ponemos Logaritmo de Ventas.

De inmediato comprobaremos si la transformación de la variable sales ha

mejorado con la transformación de sus valores en valores representados por sus

logaritmos naturales.

Menú Principal Descriptivos Frecuencias

Desplazamos la variable sales de la pantalla y la reemplazamos por la nueva

Logaritmos de Ventas pulsamos los estadísticos deseados;

También vemos que en la opción Gráficas, está pulsada la opción Histograma;

aceptamos y una nueva tabla de datos y un nuevo histograma aparecen en la

pantalla de resultados.

La tabla de resultados es muy extensa para traerla.

Pero, al leer los datos vemos que la media, la mediana y la moda están mucho

más cerca entre sí, de lo que estaban antes de la transformación de la variable.

También notamos que los valores de Curtosis y Asimetría se han reducido,

mostrando que la distribución de la nueva variable logsale se acerca más a la

distribución normal.

Una revista al histograma confirma los datos numéricos de la tabla, pues el

nuevo histograma se aproxima mucho más a la curva de la distribución normal.

Gráfica 6.8

1 2 6

mailxmail - Cursos para compartir lo que sabes

Page 127: Estadística aplicada con SPSS. Módulo I

Obsérvese que sobreponiéndose a las barras del histograma se muestra una

curva normal, que es la que hemos solicitado para compararla con el histograma.

Otra vez podemos apreciar que la nueva distribución es más cercana a la

normal.

En resumen, hemos analizado las distribuciones de los contactos que se tiene

con los encargados de las compañías para las que la firma produce hardware.

Se ha analizado la variable de ventas y sus valores han sido transformados en 

logaritmos naturales, para que su distribución se acerque más a la distribución

normal.

Para ello, hemos utilizado la Opción Transformar, lo que ha permitido que los

valores con los que se debe trabajar en adelante sean mucho más útiles que los

anteriores.

Al final del ejercicio sacaremos los antilogaritmos de los valores

pronosticados, pero eso será cuando lleguemos al capítulo de Regresión.

1 2 7

mailxmail - Cursos para compartir lo que sabes

Page 128: Estadística aplicada con SPSS. Módulo I

42. Problemas de Estadística. Datos Cuantitativos

7 DIFERENTES PROBLEMAS

Datos Cuantitativos

Este capítulo será dedicado a identificar los gastos que los consumidores

hacen en el rubro de telecomunicaciones; así estableceremos cuál de los servicios

rinde mayor beneficio

Para ello, tomaremos los datos de una compañía virtual de

telecomunicaciones, que tiene una base de datos de los consumidores que incluye,

entre otros:

Información acerca de cuánto gasta un cliente en llamadas a larga distancia,

llamadas libres, alquiler de equipo, carta de llamadas y servicio

La información pertinente está en el archivo telco.sav del SPSS 19; lo traemos

a pantalla para analizar los datos por medio de la opción Descriptivos.

Vamos al Menú pr inc ipa l Analizar > Estadísticos Descriptivos

Descriptivos...

Pulsamos Long distance last month; Toll free last month, Equipment last

month, Calling card last month, and Wireless last month Aceptar

La tabla de valores que aparece en el cuadro de resultados muestra los

estadísticos sobre el gasto, los que serán comparados entre los gastos en cada

servicio.

Pero, sobre los datos de la tabla es difícil distinguir cuáles servicios son más

rentables.

En promedio, los clientes gastan más en equipment rental, pero hay una gran

escala de variación en las sumas gastadas.

Los clientes de calling card service gastan un poco menos en promedio, que

en equipment rental, pero hay menos variación en los valores que representan el

gasto

Se nos presenta un problema; los clientes no demandan todos los servicios,

por lo que los vacíos respectivos se cuentan como valores “0”

1 2 8

mailxmail - Cursos para compartir lo que sabes

Page 129: Estadística aplicada con SPSS. Módulo I

Solucionamos este problema ratificando el “0”, a los valores faltantes (missing

values)

Tabla 7.1

Estadísticos Descriptivos

Para recodificar los “0” como missing values procedemos del siguiente modo:

Transform Recode Into Same Variables

Nótese que vamos a recodificar en los mismos valores y no en diferentes

valores como habíamos hecho hasta ahora.

Seleccionamos: Long distance last month, Toll free last month, Equipment last

month, Calling card last month, and Wireless last month como valores numéricos

Click Viejos y Valores Nuevos escribimos 0 en la casilla Valor Antiguo

System missing Valor Nuevo 0 Add aparecerá (SYSMIS 0 ) Continuar 

Aceptar en la caja de diálogo

Se verá en la pantalla de Vista de Datos, que los valores “0” aparecen en las

columnas de las respectivas variables transformadas como valores missing (faltantes)

No hay nueva columnas en la Vista de Datos, porque hemos recodificado esta

vez en las mismas variables y no creando otras, al contrario de los casos anteriores.

Analizaremos las variables así recodificadas usando la opción Estadísticos

Descriptivos.

Analizar   Descriptivos; Opciones Media, Mínimo, Máximo, desviación

T í p i c a Aceptar en la caja de diálogo Descriptivos.

Cuando se toma en cuenta los “0” como variables perdidas, los resultados

sobre el gasto de los clientes en cada servicio son muy diferentes, esto es, mejoran

notablemente.

1 2 9

mailxmail - Cursos para compartir lo que sabes

Page 130: Estadística aplicada con SPSS. Módulo I

Los datos nos muestran que los servicios Wireless y equipmente rental son

los más rentables, los promedios de los gastos de los clientes son mayores que los

de otros servicios.

Wireless produce el mayor beneficio (Media = 39.1348) y Long distance last

month tiene la desviación típica menor (10.36349) tal como se ve en la tabla

Los nuevos datos nos han dado una guía acerca de cuáles son los servicios

que merecen una atención mayor en operaciones de marketing.

Cuando se toma en cuenta los “0” como variables perdidas, los resultados

sobre el gasto de los clientes en cada servicio son muy diferentes, esto es, mejoran

notablemente.

Los datos nos muestran que los servicios Wireless y equipmente rental son

los más rentables, pues los promedios de los respectivos gastos de los clientes son

mayores que los de otros servicios.

Wireless produce el mayor beneficio (Media = 39.1348) y Long distance last

month tiene la desviación típica menor (10.36349)

Los nuevos datos nos han dado una guía acerca de cuáles son los servicios

que merecen una atención mayor en operaciones de marketing.

Se puede encontrar clientes que gastan mucho más o mucho menos que otros

clientes en cada servicio; eso lo conseguimos estandarizando los valores de las

variables (z scores)

Tabla 7.2

Estadísticos Descriptivos

Pero hay un problema, los valores z scores requieren que las distribuciones

de las variables sean cercanas a la distribución normal, algo que las variables

escogidas no cumplen.

1 3 0

mailxmail - Cursos para compartir lo que sabes

Page 131: Estadística aplicada con SPSS. Módulo I

Tal como vimos los valores de los estadísticos asimetría y curtosis, son altos,

lo que  muestran que las distribuciones de las variables no son normales.

Un remedio posible, debido a que todos los valores de las variables son

positivos, es transformar las variables en sus logaritmos naturales y luego, estudiar

los z scores.

Recordemos que el ejercicio anterior que hicimos para logaritmizar las

variables.

Una vez que las tenemos en las columnas de la pantalla de Vista de datos

procedemos.

Seguimos trabajando con los datos del archivo telco.sav

Menú principal Estadísticos descriptivos Descriptivos

Seleccionamos las variables desde Log-long distance hasta Log-wireless

variables logaritmizadas Save standardized values as variables, a la izquierda

inferior del cuadro

Aceptamos; los valores logaritmizados aparecen en las nuevas columnas de la

pantalla de Vista de datos; también aparecen en la pantalla Vista de variables.

Para tener una vista más completa sobre los estadísticos de las nuevas

variables, en lo que se refiere a los nuevos valores de asimetría y curtosis, vamos al

Menú principal.

Allí pulsamos Estadísticos Descriptivos Frecuencias

Introducimos las variables logaritmizadas, luego de sacar las anteriores y

pulsamos Estadísticos escogemos los estadísticos de tendencia central y

dispersión  aceptamos

En la pantalla de Resultados vemos la tabla de valores y constatamos que la

asimetría y la curtosis han disminuido con relación a los valores de las variables no

logaritmizadas.

Sin embargo, la variable Log toll-free tiene aún una curtosis apreciable

debido a que un solo cliente gastó una suma mensual considerable en el último mes.

Para analizar esta clase de valores inusuales debemos visualizar los z scores;

antes, debemos familiarizarnos con el instrumento Boxplot  (Diagramas de Caja).

1 3 1

mailxmail - Cursos para compartir lo que sabes

Page 132: Estadística aplicada con SPSS. Módulo I

1 3 2

mailxmail - Cursos para compartir lo que sabes

Page 133: Estadística aplicada con SPSS. Módulo I

43. Diagrama de Caja (Boxplots)

El Diagrama de Caja muestra indicadores sobre el grado de normalidad de la

distribución de la variable; especialmente nos muestra la asimetría y la curtosis

Analizaremos primeros sus características y luego como traerla del SPSS.

En la gráfica 7.1 tenemos un diagrama de caja típico.

La caja está entre dos verticales que apuntan hacia arriba y hacia abajo

respectivamente

La longitud de esas verticales muestra el grado de asimetría de la distribución.

Cada una de las líneas verticales,  hacia arriba o hacia abajo, se llama

Whisker.

Si la distribución de los datos de la muestra fuera normal, ambos whiskers

tendrían la misma longitud, pero eso sucede muy pocas veces.

Si el whisker superior es más corto, la muestra tendrá una asimetría negativa,

esto nos dirá que los elementos estarán más concentrados en los valores superiores

a la Media.

Si el whisker inferior es más corto, la asimetría será positiva, en cuyo caso

sabremos que los elementos de la muestra están preferentemente concentrados en

los valores inferiores.

Cada whisker termina en una línea horizontal, la que marca sus límites.

Las Cajas también nos proveen información de la curtosis de cada

distribución.

Una caja delgada muestra que una gran cantidad de valores están contenidos

en un segmento muy pequeño de la muestra; una distribución con un  pico más

alargado

Una caja inusualmente ancha significará lo contrario; los outliers, o valores

extremos, están simbolizados por puntos, círculos o asteriscos más allá de los

límites.

Gráfica 7.1

1 3 3

mailxmail - Cursos para compartir lo que sabes

Page 134: Estadística aplicada con SPSS. Módulo I

Diagrama de Cajas

Los valores extremos se desvían por encima o por debajo de los otros valores.

La longitud de la caja nos ofrece un referente acerca de la variabilidad de la

distribución de la muestra.

En la gráfica 7.1 que muestra un Diagrama de Caja típico, vemos letras que

representan las características de la misma.

a es el valor máximo dentro de una distancia que no supere 1.5 veces el

rango intercuartílico, el que ya sabemos, es Q3.

Este espacio está conformado por el tercer cuartil más 1.5 veces el rango

intercuartil. 

b  es el tercer cuartil (Q3), también es el 75 percentil

c  es la mediana (Q2) o también el porcentil 50

d es el primer cuartile (Q1) o también es el percentil 25

e es el valor mínimo, a no ser que haya valores menores a 1.5 veces el rango

intercuartílico debajo de Q1, en cuyo caso, será el primer cuartil menos 1.5 veces el

rango intercuartil.

El estadístico Boxplot o Diagrama de Caja es uno de los más complejos para

1 3 4

mailxmail - Cursos para compartir lo que sabes

Page 135: Estadística aplicada con SPSS. Módulo I

captar a pri-mera vista la estructura de la distribución.

Por eso es que analizaremos con mayor detalle sus características; ellas nos

permitirán conocer, a simple vista, la estructura de la distribución de los elementos

de una muestra.

Algo que debemos recordar siempre al analizar una Caja de Diagrama: la línea

del centro es la Medianade la distribución que deseamos analizar.

Gráfica 7.2

Diagrama de Caja mostrando centralidad

La Caja de la izquierda: una muestra de 20 valores con una mediana centrada

en 7.

La Caja de la derecha: una muestra de 20 valores cuya mediana está centrada

en 12.

Gráfica 7.3

La Caja como indicador de dispersión

La Caja de la izquierda: una muestra de 20 valores con una desviación típica

de 1 y cuya mediana, representada por la  línea gruesa del interior de la caja, está

1 3 5

mailxmail - Cursos para compartir lo que sabes

Page 136: Estadística aplicada con SPSS. Módulo I

centrada en 10.

La Caja de la derecha: una muestra de 20 valores con una mediana centrada

en 10 y una desviación típica de 3.

Obsérvese cómo la altura de la caja es menor cuando la desviación típica es

sólo 1, a la izquierda y cómo la altura se hace mayor cuando la desviación típica es

mayor, derecha.

Con las figuras (traídos de Internet, aunque no se pudo identificar al autor)

las características y utilidad de la Caja de Diagrama se hacen cada vez más patentes.

Gráfica 7.4

La Caja como un Indicador de Curtosis

- En esta caja, los 20 valores de la muestra tienen una distribución

mesocúrtica.

La línea gruesa,  esto es, la Mediana, está cerca del centro y los whiskers son

de igual longitud; se acerca a la Normal.

- En esta caja, también de 20 valores, la curva es achatada, platicúrtica, pues

su mediana está en la parte

inferior.

1 3 6

mailxmail - Cursos para compartir lo que sabes

Page 137: Estadística aplicada con SPSS. Módulo I

- La distribución de 20 valores es lepocúrtica, la Mediana está en la parte

superior de la Caja.

Se denominan hinges a los valores que están incluidos en la caja misma.

1 3 7

mailxmail - Cursos para compartir lo que sabes

Page 138: Estadística aplicada con SPSS. Módulo I

44. Boxplot como indicador de Asimetría

La Caja de Diagrama (Boxplot) como Indicador de Asimetría

Las colas son los dos extremos, izquierdo y derecho, de una curva de

distribución; en la curva normal, esas colas son asintóticas con relación al eje de las

abscisas.

La Asimetría se muestra a través de la diferencia de longitudes entre las colas,

pues, si la distribución es asimétrica, una de ellas será más larga que la otra.

La Curtosis ideal sería simétrica, como es la de la curva normal, cuyo

diagrama de caja mostrará sus dos whiskers casi de la misma longitud.

Las cajas que se diseñan en la gráfica 7.5, muestran las formas de asimetría

de la distribución que representan en cada caso.

Gráficas 7.5

Representación de la Asimetría

En la caja de la izquierda, la muestra de 20 valores tiene una distribución de

largas colas, lo que se expresa en la longitud de los whiskers.

Cada longitud es mucho mayor que la altura de la caja

Si la distribución se acercara a la normal, la longitud de cada whisker tendería

a ser igual a la altura de la caja.

En el segundo ejemplo, la longitud de los whiskers es menor a la altura de la

caja, lo que nos indica que la curtosis es menor que en la caja de la izquierda.

En la tercera figura, la distribución de la muestra tiene colas muy cortas y los whiskers

whiskers están ausentes.

1 3 8

mailxmail - Cursos para compartir lo que sabes

Page 139: Estadística aplicada con SPSS. Módulo I

Interpretación

Mostradas la utilidad de la caja de diagramas, es preciso recordar que se debe

evitar deducir conclusiones cuando las muestras son muy pequeñas, diez valores o

menos.

Por otra parte, es necesario tomar en cuenta los valores que no están en la

caja ni en la longitud de los whiskers, los que son valores extremos.

Por eso es que los whiskers realmente no muestran los valores mínimos y

máximos de una muestra, sino los que están a una distancia “razonable” de la caja,

abajo o arriba.

Una muestra con gran asimetría y whiskers, con muchos valores inusuales al

costad puede aparecer razonablemente simétrica en la caja.

Pero el SPSS tiene sus controles sobre estos casos; los valores que son más de

tres veces la longitud de la caja, arriba o abajo, reciben una anotación roja.

Esos valores son identificados con asterix y entran como valores extremos

Los valores que tienen entre 1.5 hasta 3 veces la longitud de la caja, arriba o

abajo, tienen una anotación amarilla; son considerados como outliers.

Debemos recordar que las palabras outliers y extremes deben ser

interpretadas en relación a la distribución de una curva normal.

En todo caso, debemos tener en cuenta que los valores extremos son valores

que están por arriba o por debajo de los valores outliers, no son sinónimos.

1 3 9

mailxmail - Cursos para compartir lo que sabes

Page 140: Estadística aplicada con SPSS. Módulo I

45. Diagramas de Caja con SPSS

Ahora que estamos familiarizados con las características del Boxplot o

Diagramas de Caja y la utilidad que nos presta, ya podemos reiniciar nuestro

trabajo con el SPSS.

Traemos el archivo telco.save a la pantalla de Vista de Datos.

Empezamos con llamar al Diagrama de Caja

M e n ú Graphs cuadros de diálogo antiguos Diagrama de Caja

Resúmenes par distintas variables Definir introducir en la pantalla superior

derecha las 5 variables:

En la pantalla Vista de Datos, vemos que las variables que vamos a convocar

tienen valores missing, es decir, valores que faltan.

Para que la muestra sea más fidedigna, reemplazamos esos valores con 0, de

tal manera que cada valor que tenga 0 significará que es un cliente que no ha

solicitado ese servicio.

Ya lo vimos anteriormente; para hacer esa operación vamos al Menú:

Menú Transformar Recodificar en la misma variable introducir las 6

variables seguidas, desde log distance hasta log income

Vamos a Valores Antiguos y nuevos poner cero en la casilla de la izquierda,

valores antiguos debajo de ella, pulsar perdidos en el sistema

Poner el mismo 0 en Valores en la casilla derecha; en la parte superior de la

pantalla de la derecha aparece el rótulo: AntinguoNuevo

Pulsar Añadir, y en esa pantalla aparecerá la expresión SYSMIS 0

Los valores faltantes de las variables que necesitamos están reemplazadas por

el valor 0

Lo comprobamos al examinar en las columnas de las variables respectivas,

cómo los valores faltantes, fueron reemplazados con 0 en cada caso

Una vez reemplazados los valores missing con el procedimiento anterior, nos

ocupamos de los diagramas de caja para cada uno de los valores que han sido

1 4 0

mailxmail - Cursos para compartir lo que sabes

Page 141: Estadística aplicada con SPSS. Módulo I

logaritmizados

Menú Gráficos Cuadros de diálogo antiguos Diagramas de Caja

Resúmenes para distintas variables Defininir

De la pantalla de la izquierda introducimos en la pantalla de la derecha las

seis variables: desde log long distance hasta log income opciones e xcluir casos

variable por variable continuar aceptar.

En el cuadro de resultados aparecen las 6 Cajas de Diagramas (Boxplots) cada

una representando, individualmente, a la variable correspondiente de las cinco que

analizamos.

Gráfica 7.6

En las cajas vemos, por ejemplo, que la variable Log-long distance hay valores

extremos, como 200 y 207; lo mismo, en la variable Log-income.

En los siguientes acápites veremos la utilidad de las cajas de diagrama, pero

antes, es preciso que nos familiaricemos con el estadístico.

1 4 1

mailxmail - Cursos para compartir lo que sabes

Page 142: Estadística aplicada con SPSS. Módulo I

46. Procedimiento Explore. Estadísticas descriptivascruzando grupos

Análisis de datos: El procedimiento Explore

La exploración de los datos ayuda a determinar si las técnicas de la ciencia

estadística que usamos son o no apropiadas; para eso disponemos del

procedimiento Explore.

El procedimiento Explore nos provee de resúmenes visuales y números de los

datos, ya sea para todos los casos por separado o ya para grupos de casos.

La variable dependiente a ser analizada debe ser una variable de escala.

Las de grupo pueden ser nominales u ordinales.

Con Explore podemos obtener los diagramas de caja, identificar los outliers,

chequear los supuestos y las diferencias entre los grupos.

Estadísticas descriptivas cruzando grupos

Tomemos el siguiente ejemplo; las cosechas de maíz deben ser testadas para

establecer si hay o no el elemento aflatoxin, un veneno cuya concentración varía

entre las cosechas.

Una firma que procesa granos ha recibido 8 diferentes cosechas, pero la

distribución de aflatoxin, en partes por billón, debe ser estimada antes de que el

maíz sea aceptado.

Este ejemplo usa el archivo aflatoxin.sav cuyos datos consisten en 16

muestras de cada una de las entrega de las ocho en que se han transado la

operación.

Menú principal Analizar Etadísticas Descriptivos Explore Aflatoxin

PPB como la variable dependiente y Corn Yield como la variable de factor Aceptar

En la pantalla de resultados tenemos el cuadro general para las 8 entregas

(Yields) y las 16 muestras que se ha elegido de cada una.

Luego nos da la tabla con los estadísticos respectivos para cada una de las 8

entregas.

1 4 2

mailxmail - Cursos para compartir lo que sabes

Page 143: Estadística aplicada con SPSS. Módulo I

Los cuadros son muy extensos para copiarlos, pero podemos analizarlos.

Así mismo, nos despliega la distribución “Tallos y Hojas” la que será

estudiado en el apartado próximo; finalmente nos diseña los diagramas de caja.

De acuerdo con los términos del ejemplo, el límite establecido acepta como

máxima una proporción de 20 unidades  de aflatoxin por billón.

Para interpretar los resultados, debemos obtener la tabla pivoteada, para lo

cual activamos la tabla haciendo click en cualquier lugar dentro de sus límites.

La tabla pivoteada nos muestra que, de acuerdo con la media, sólo las

entregas 4, 7 y 8 caen por debajo de las 20 unidades por billón establecidos.

También aparecen los Diagramas de Caja para cada una de las muestras, cuyo

concepto ya fue analizado en el anterior acápite.

En este caso, los valores extremos merecen una atención especial.

Ya lo dijimos, la línea gruesa dentro de una caja marca la Mediana de la

distribución, que es también el percentil 50 de esa misma distribución.

Ejemplo, la Mediana del nivel de  aflatoxin en el grupo 1 es 21.50 por billón.

Observemos que las medianas varían considerablemente entre los diagramas

de caja.

Sabemos la longitud de cada caja, no la de los whiskers, marcan el percentil

25 y el percentil 75 de cada distribución.

Para el grupo 2, v.g, el valor inferior de la caja es de 24.75 y el valor superior

36.75.

Recordemos que estos valores registran los que están incluidos en la caja

misma (hinges) desde la base hasta la línea que cierra el rectángulo; aún no

hablamos de los whiskers.

Los whiskers aparecen encima y debajo de los límites de las cajas, es decir,

por encima y debajo de los hinges; para el grupo 2 el valor mínimo es 22 y el

máximo es 52.

Gráfico 7.7

1 4 3

mailxmail - Cursos para compartir lo que sabes

Page 144: Estadística aplicada con SPSS. Módulo I

Los valores outliers, están identificados con la letra mayúscula “O”.

El grupo 2 tiene un valor outlier de 68 y está etiquetado con 20

Esto nos dice que el elemento número 20 de la muestra tiene un valor de 68,

es decir, un valor por encima de los demás; es un outlier.

El grupo 5 tiene un valor outlier de 49, etiquetado con 71, lo que nos indica

que el elemento número 71 de la muestra tiene un valor 49, que está por encima de

los demás

Las etiquetas representan al número de fila en la pantalla de dato;

compruébese que en la fila 20, el valor del elemento es 68; lo mismo en la fila 71

para el valor outlier 49

Los valores extremos son identificados con asterisk (*)

No hay valores extremos en estos datos.

Se puede comparar los valores del diagrama de caja con los que muestra la

Mediana en el cuadro de Estadísticos.

El uso de Explore nos permitió crear una tabla que muestra los estadísticos, a

través de los cuales nos enteramos que el nivel de alfatoxin no son seguros para 5

de los 8 grupos.

Esto fue confirmado por los diagramas de caja; el procedimiento Explore

ofrece muchas opciones que permiten una mirada de mayor detalle.

1 4 4

mailxmail - Cursos para compartir lo que sabes

Page 145: Estadística aplicada con SPSS. Módulo I

ofrece muchas opciones que permiten una mirada de mayor detalle.

De ese modo logramos una imagen más adecuada en cuanto a la forma cómo

difieren los grupos, tanto entre sí, como de algún valor estadísticamente esperado.

La identificación de valores atípicos, es decir, extremos para arriba o para

abajo, es de gran ayuda cuando se trata de medir muestras no influidas por valores

extremos.

1 4 5

mailxmail - Cursos para compartir lo que sabes

Page 146: Estadística aplicada con SPSS. Módulo I

47. Para continuar el análisis necesitamos definir unnuevo concepto.

Descriptivos

Explorando los datos de las Muestras

Ahora vamos a ingresar al análisis de temas un tanto más avanzados.

Especialmente el concepto de “capa” (layer) el uso del estadístico “hojas y

tallos y la manera de establecer el grado de cercanía o alejamiento de una

distribución a la normal.

Siguiendo nuestra metodología, lo haremos por medio de ejemplos concretos.

Una compañía manufacturera usa nitrido de plata para fabricar soportes de

cerámica que deberán resistir temperaturas de 1500 grados centígrados o mayores.

Se sabe que la distribución de una aleación estándar de  resistencia al calor es

normal; Sin embargo se prueba una nueva aleación “premiun” cuya distribución no

es conocida.

Se nos pide comparar los resultados y, en su caso, las diferencias sobre las

características entre dos muestras logradas en la fábrica.

Plantearemos un problema específico y una vez que tengamos los datos, los

interpretaremos en detalle; para el problema usaremos la opción Explorar.

Traemos el archivo ceramics.save

Menú principal Analizar Estadísticos Descriptivos Explore Degrees

Centigrade como la variable dependiente

Seleccionamos Alloy (Aleación) como el factor variable y labrunid como

etiqueta de casos.

La Tabla incluye las variaciones de Alloy: Degrees Centigrade para Premiun y

Estándar; la Variable Alloy sirve de capa (Layer) a las variables Premiun y Standard.

Lo primero que nos llama la atención es el valor de las Medianas; ésta es

mayor en el soporte Premiun, 1539,72, que en el soporte Standard, 1514,53.

Por otro lado, en la tabla  vemos que la media de calor del soportePremiun,

1 4 6

mailxmail - Cursos para compartir lo que sabes

Page 147: Estadística aplicada con SPSS. Módulo I

1542 grados es mayor que la media del soporte Standard, 1514

Pero la simetría y la curtosis son menores en el soporte Standard.

Esto nos sugiere que la distribución Standard tiende más a la Normal que la

Premiun.

Sobre todo, si vemos que la diferencia entre la Media y  la Mediana, en

Premiun, parece significativa; En el próximo capítulo aprenderemos a usar las

Pruebas de Normalidad.

Mientras tanto, analicemos los estadísticos que nos muestra la tabla de

resultados.

Tabla 7.4

Para continuar el análisis necesitamos definir un nuevo concepto.

1 4 7

mailxmail - Cursos para compartir lo que sabes

Page 148: Estadística aplicada con SPSS. Módulo I

48. Medida Recortada (Trimmed mean)

Trimmed mean (Media recortada)

Observemos que la tabla de estadísticos divididos por soporte Premiun y

Standard del anterior capítulo incluye la Media Recortada (Trimmed mean)

La Media Recortada deriva de la exclusión del 2.5% de los valores más bajos  y

el 2.5% de los valores más altos de cada muestra; eso es lo que significa el 5%

escrito al lado.

Lo hace así para omitir los valores extremos que podrían deformar la muestra.

Si el valor de la Trimmed mean, excluido el 5% de los valores extremos, es

muy diferente de la media, sabremos que nos encontraremos con valores outliers.

La Media recortada en el soporte Premium, 1541,28 es mayor que la de

Standard 1514,73 lo que corrobora que el soporte Premiun tiene mayor resistencia

al calor que el Standard.

La Pantalla de resultados también desplegó los Diagramas de Caja

individuales para ambas aleaciones Premiun  y Standard  con sus respectivos outliers

y valores extremos

Estos datos apoyan lo que ya sabíamos por los anteriores indicadores:

Los datos de la distribución referidos a la resistencia al calor del soporte

Standard tienen una distribución más cercana a la norma, que las aleaciones del

soporte Premiun.

Los diagramas de caja también despliegan valores extremos y outliers

mayores y menores, clasificados por Alloy (muestra) para ambos soportes Premiun y

Standard

Apreciamos que algunas veces, los soportes premium pueden soportar un

grado más alto de calor que los soportes Standard y nunca bajan por debajo de

1530 grados centígrados.

Los diagramas de caja nos sugieren que dada la presencia de outliers en el

soporte Premiun es necesario comprobar si ambas muestras tienen la misma

varianza.

1 4 8

mailxmail - Cursos para compartir lo que sabes

Page 149: Estadística aplicada con SPSS. Módulo I

Gráfica 7.8

Boxplot

Ése es aspecto que cuyo estudio corresponde al capítulo Análisis de la

Varianza ANOVA, el que será incluido con detalle en otro capítulo.

Por ahora, vayamos al nuevo Estadístico: Hojas y Tallos (Stem-and-leaf plots)

opción que nos muestra los valores exactos de las observaciones individuales

Para visualizar mejor sus características, repitamos el ejercicio anterior.

Traigamos el archivo ceramics.save, repitamos el proceso, incluyendo el click

en pruebas de  normalidad, pero en la opción gráficos del cuadro de diálogo de

Explores, pulsemos la casilla Stem-and-Laf plots

En la pantalla de Resultados aparecerá la siguiente información; dado que la

segunda gráfica es más completa que la primera, empezaremos el análisis del

soporte Standard.

1 4 9

mailxmail - Cursos para compartir lo que sabes

Page 150: Estadística aplicada con SPSS. Módulo I

49. Gráficos de Tallo y Hojas. Interpretación.Estadística

Gráficos de Tallo y Hojas

(Stem-and-Leaf Plot for batch= Standard)

El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones

que soportan desde 1538 hasta 1539 grados centígrados de calor.

Habrá ocho muestras que soportan desde 1550 hasta 1551 grados

centígrados de calor

Aleluya: con esto hemos terminado la primera parte de este curso básico,

es decir, hemos concluido el programa de los Estadísticos Descriptivos.

La Estadística Descriptiva es el pivote central en el que descansan las otras

ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será

muy útil.

Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.

Interpretación de la gráfica Tallos y Hojas

La columna izquierda registra las frecuencias de cada nivel de temperatura

En total suman 240 valores, los que coinciden con el número que nos da el

cuadro de Resumen del procesamiento de los casos

Los datos de columna del medio, se llama Stem y los de la última columna,

Leaf.

Escojamos, al azar, una fila, digamos la que muestra una frecuencia de 22.00

La columna de Stem registra 150 y la columna de Leaf los valores que

1 5 0

mailxmail - Cursos para compartir lo que sabes

Page 151: Estadística aplicada con SPSS. Módulo I

La columna de Stem registra 150 y la columna de Leaf los valores que

completan el valor 150 de la columna Stem, empezando por 0.

Si escogemos el primer “0” de Leaf y lo añadimos a150 de Stem, tendremos

1500; hay tres ceros en la columna Leaf, habrá 3 casos que soportan temperaturas

de 1500 grados

Escojamos ahora el valor de Stem de 151; hay, como en el caso anterior, dos

frecuencias para ese valor, que son 54 y 43; elijamos el que tiene la frecuencia de 54.

Si agregamos el primer 0 de la columna de Leaf al valor de 151,éste se

convertirá en 1510; como hay ocho ceros en la columna Leaf, entonces habrá 8

observaciones de 1510.

Ahora, en vez de completar el valor Stem de 151 con cada cero, haremos lo

mismo, pero esta vez añadiendo al valor Stem el primer 1 de la columna Leaf.

El valor Stem se convertirá en 1511; como hay doce valores “1”, entonces

sabremos que habrá doce observaciones que representan soportes de 1511 grados

centígrados.

Hacemos lo mismo con los valores “2”, “3” y “4”, respectivamente; lo que nos

dará 7 valores de 1512, 15 valores de 1513 y 12 valores de 1514 que soportan esas

temperaturas.

El valor de la primera columna a la izquierda, Frecuency, nos dice que en total

hay 54 soportes que resisten emperaturas desde 1510 hasta 1514 grados

centígrados.

Los datos nos indican que los valores se concentran, principalmente, entre

1505 y 1519 grados, esto quiere decir que la mayor parte de los elementos de

Standard soportan temperaturas entre 1505 y 1519 grados.

Realizaremos el mismo análisis de los datos con la tabla Stem-and-Leaf para

los soportes Premium.

Gráficos de Tallo y Hojas

(Stem-and-Leaf Plot for batch= Premium)

1 5 1

mailxmail - Cursos para compartir lo que sabes

Page 152: Estadística aplicada con SPSS. Módulo I

El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones

que soportan desde 1538 hasta 1539 grados centígrados de calor.

Habrá ocho muestras que soportan desde 1550 hasta 1551 grados

centígrados de calor

Aleluya: con esto hemos terminado la primera parte de este curso básico,

es decir, hemos concluido el programa de los Estadísticos Descriptivos.

La Estadística Descriptiva es el pivote central en el que descansan las otras

ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será

muy útil.

Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.

1 5 2

mailxmail - Cursos para compartir lo que sabes

Page 153: Estadística aplicada con SPSS. Módulo I

50. Divisiones de inferencia estadística. Hipótesisnula y alternativa

PRUEBAS DE HIPÓTESIS

La prueba de hipótesis ya forma parte de la Inferencia Estadística.

Por lo general se define la Inferencia Estadística como:

Una de las dos ramas  fundamentales de la Estadística cuyo objeto es llegar a

conclu-siones sobre las características de una población usando como escenario de

análisis la muestra que se ha obtenido de esa población .

Los teoremas que se han dado en la disciplina estadística coinciden en el

hecho de que para conocer las singularidades de una población basta una muestra

pequeña.

Queda claro, a partir de la definición, que si en vez de la muestra se tiene los

datos completos de la población, la Inferencia Estadística deja de tener sentido.

Por otro lado, recordemos que, a diferencia de las matemáticas, la estadística

no es una ciencia exacta; al contrario, siempre toma en cuenta la probabilidad de

error

La Inferencia Estadística exige un conjunto ya probado de técnicas para medir

el grado de certidumbre de las conclusiones a las que llegamos, a partir del estudio

de la muestra.

La Inferencia Estadística acepta dos divisiones principales:

La Inferencia Paramétrica

Opera sobre muestras cuyas poblaciones tienen una forma determinada de

distribución (La Normal, la de Poisson, la Binomial…)

En este tipo de inferencia se conoce las distribuciones de los valores pero se

ignoran los parámetros que son, precisamente, los que deseamos saber

Inferir sobre los parámetros de la población a través del análisis de una

muestra es la tarea principal de la Inferencia Estadística

La Inferencia no Paramétrica

1 5 3

mailxmail - Cursos para compartir lo que sabes

Page 154: Estadística aplicada con SPSS. Módulo I

En este caso se desconoce tanto los parámetros como la forma de la

distribución.

Por otro lado, la Inferencia Estadística se abre en dos escenarios de análisis

La Estimación de los parámetros, estimación que puede ser puntual o por

intervalos.

El contraste de hipótesis, que consiste en el conjunto de procedimientos para

comprobar la adecuación de la hipótesis planteada.

Por otra parte es necesario tener presente que hay varias clases de muestra

para el análisis y las inferencias respectivas acerca de la población.

De todas ellas, en este curso usaremos la muestra aleatoria, tal como quedó

definida en capítulos anteriores.

La Muestra Aleatoria

Conocemos ya que  de una población dada es posible extraer un número muy

grande de muestras, si es que, tomada una, introducimos sus elementos otra vez en

la población.

Si todas y cada una de esas muestras tienen la misma probabilidad de ser

escogidas, entonces tendremos una Muestra Aleatoria.

Por otra parte, todos los elementos que componen una muestra aleatoria

también son aleatorios, es decir, todos tienen la misma probabilidad de ser

escogido.

Con estas breves consideraciones ya podemos encarar la segunda parte de

este curso.

Para empezar nuestro trabajo es preciso definir algunos términos.

Hipótesis nula

Es la suposición que deseamos testar; se simboliza con Ho.

Supongamos que deseamos testar la hipótesis de que la media de una

población es 500.

La manera de representar esta suposición es: Ho: = 500

Ho (la hipótesis nula) representa la suposición de que la media de la

1 5 4

mailxmail - Cursos para compartir lo que sabes

Page 155: Estadística aplicada con SPSS. Módulo I

Ho (la hipótesis nula) representa la suposición de que la media de la

población, , es 500

Ahora bien, supongamos que realizados los análisis respectivos sobre la

muestra que hemos obtenido, encontramos que la media de la población no es 500.

En este caso, rechazamos la hipótesis nula; de este modo, vemos que la

prueba de hipótesis consiste en contrastar la hipótesis nula con otra, llamada

Hipótesis Alternativa,

Hipótesis alternativa

Se simboliza como H1; esta hipótesis puede presentarse de tres maneras:

H1:      >  500; la media, según la hipótesis alternativa, es mayor que 500.

H1: <  500; la media según la hipótesis alternativa es menor que 500.

H1:   500; la hipótesis alternativa dice que la media no es igual a 500

En este último caso, no especifica si es mayor o menor; simplemente postula

que los estadísticos muestran que la Ho es falsa

1 5 5

mailxmail - Cursos para compartir lo que sabes

Page 156: Estadística aplicada con SPSS. Módulo I

51. Nivel de Significancia y Confianza. Muestraaleatoria poblacional (1/2)

El nivel de significancia

Supongamos que nos parece suficiente que de cien muestras teóricas de la

población exista la probabilidad de que en 5 muestras la hipótesis alternativa esté

errada.

Es decir, el 5% mostraría el riesgo que corremos de cometer un error

Esa probabilidad de error, en este caso, del 5%, se conoce como el Nivel de

Significancia.

El Nivel de Confianza

Si estamos dispuestos a correr el riesgo de un error del 5% (=.05) entonces

diremos que el Nivel de Confianza que aceptamos es del 95%.

Si exigiéramos un nivel de significancia del 1% (0.01) el Nivel de Confianza

sería del 99%.

En Síntesis

De acuerdo con el Teorema del Límite Central, una muestra aleatoria

consigna en sí los estadísticos de la población; para obtenerlos procedemos del

siguiente modo

Primero, establecer una hipótesis nula: Ho. la que será testada por la H1

Segundo, establecer un nivel de significancia o error (el 5% o el 1%)

Complementamos estos conceptos con los siguientes

1 5 6

mailxmail - Cursos para compartir lo que sabes

Page 157: Estadística aplicada con SPSS. Módulo I

Error de Tipo I

Cuando la hipótesis nula es cierta y sin embargo la rechazamos.

Error de Tipo II

Se comete cuando se acepta una hipótesis nula siendo que ésta es falsa.

Dadas las definiciones de los tipos de error, ahora nos ocupamos de las

distribuciones.

Hemos asumido que la distribución de probabilidades de una muestra es

normal.

Sin embargo, cuando el tamaño de la muestra es menor que 30

observaciones, la distribución normal ya no es posible.

En su lugar, se usa la distribución “t”.

A medida que el número de elementos de una muestra va aumentando por

encima de los 30, la distribución de esa muestra tiende a convertirse en una

distribución normal.

La Hipótesis nula se representa con el símbolo H0

La Hipótesis Alternativa tiene tres opciones:

H1: X* ; la media muestral (X*) es diferente de la media de la población ()

H1:  X* > ; la media muestral es mayor que la media de la población

H1: X* < ; la media muestral es menor que la media de la población

x = Varianza de la muestra

x =  _­/(raíz cuadrada de n)

s = Error típico de la Muestra

La Varianza ( x) es el promedio del cuadrado de las distancias entre cada

observación y la media de la muestra, dividido entre el número de casos.

2 x = ( x i – X*)2/n

En esta fórmula, x  significa Varianza, el símbolo xi es el valor de cada

elemento de la muestra; X* es la media aritmética de la muestra.

1 5 7

mailxmail - Cursos para compartir lo que sabes

Page 158: Estadística aplicada con SPSS. Módulo I

El símbolo indica la suma de todas las diferencias dentro del paréntesis, las

que previamente han sido elevadas el cuadrado

La desviación típica (s) es la raíz cuadrada de x; es decir, s = Raíz cuadrada

d e x

Ahora aprenderemos a usar los valores de la tabla “t”, por medio de ejercicios

que nos permitan familiarizarnos con este importante estadístico.

1 5 8

mailxmail - Cursos para compartir lo que sabes

Page 159: Estadística aplicada con SPSS. Módulo I

52. Nivel de Significancia y Confianza. Muestraaleatoria poblacional (2/2)

Del mismo modo que procedimos con la Curva Normal, antes de recurrir al

SPSS, aprenderemos a usar manualmente la tabla “t”.

El principio es similar al que rige la tabla “z” o normal que vimos en capítulo 

anterior.

Para ello, se ha copiado una tabla de los parámetros de la distribución “t”.

De acuerdo con nuestro método, aprenderemos a usar la tabla “t” en el

proceso de resolver un problema concreto.

1 5 9

mailxmail - Cursos para compartir lo que sabes

Page 160: Estadística aplicada con SPSS. Módulo I

El problema se plantea del siguiente modo:

Una maestra de escuela dice que el promedio de calificaciones de sus alumnos

es de 90 puntos; el director desea saber si está en lo cierto.

Nos pide que realicemos los estudios necesarios con un margen de error del

10%, esto es, nos indica un nivel de significancia del 10%

Lo primer que hacemos es obtener una muestra de 20 alumnos del total.

El promedio de notas, según la muestra es 84

El error típico de la muestra es = x = 2.46

1 6 0

mailxmail - Cursos para compartir lo que sabes

Page 161: Estadística aplicada con SPSS. Módulo I

Antes de acudir a la tabla 8.2, ordenamos los datos respectivos

X* = 84, que es la media de la muestra de los 20 elementos

 = 90 la media de la población, sustentada por la profesora.

S =  error típico 11

n = el número de elementos en la muestra

Nivel de significancia: 10%.

Dado que el director no nos dijo si él cree que la nota sea mayor o menor a

90, asumimos que estamos ante un test de hipótesis de la forma que ahora

planteamos

Ho : = 90

H1:   9 0

Es decir, se trata de un problema de dos colas, puesto que H1la hipótesis

alternativa simplemente plantea que la media puede ser mayor o menor que la

hipótesis nula, Ho.

Con este valor vamos a la tabla “t”, lo que deseamos es comparar el valor de

la tabla con el valor encontrado manualmente, de acuerdo con la fórmula que

utilizaremos.

En la primera fila (One Sided) obtendremos los valores para resolver

problemas de una sola cola; en la segunda fila (Two Sided) nos proveerá de los

valores para dos colas.

Los valores a lo largo de cada una de esas filas son los niveles de confianza

para cada caso: una cola o dos colas (One Sided or Two Sided)

En la primera columna de la tabla “t” se registra el número de elementos de

las diferentes muestras, dado que no sobrepasen los 30, que es el máximo que se

opera con la tabla “t”

En las filas de cada número de elementos, están los valores “t” en cada caso.

El número de elementos en la muestra que tenemos  es 20

Pero la fórmula con que fue construida la tabla “t” disminuye 1 elemento a

1 6 1

mailxmail - Cursos para compartir lo que sabes

Page 162: Estadística aplicada con SPSS. Módulo I

cada muestra que debe ser contrastada, por lo tanto debemos operar con un valor

de 19.

Identificamos el valor 19 en la primera columna; ahora recorremos la fila

donde está el valor de 19 hasta encontrar el valor de 90% de dos colas.

Ese 90% es el nivel de confianza, emergente del nivel de significancia del 10%

que estamos usando; el valor es 1.729, valor que recibe el nombre de valor crítico.

Nuestra tarea es ver si el valor “t” que vamos a calcular manualmente está por

encima o por debajo de 1.729, para saber si el promedio real de notas es más o

menos 90.

Si el resultado que vamos a obtener es menor que ese valor crítico,

aceptaremos la hipótesis nula, es decir, el promedio de las evaluaciones da un

puntaje del 90%.

Si el resultado es mayor, rechazaremos la hipótesis nula.

(Cuando el resultado pasa de 3 la rechazamos automáticamente)

Sin embargo, antes debemos hacer una diferenciación con relación a la

desviación típica de la población, es decir, la desviación típica de los niveles de

calificación.

Nos dieron el valor S = 11.

Habíamos dicho que cada muestra tiene una media aritmética que representa

a la media aritmética de la población, pero que no es exactamente igual a la media

de la población.

Por esta razón, lo dijimos, si se extraen 100 muestras del mismo tamaño de

una población, las medias de cada población tendrán una distribución normal.

Dijimos también que el error típico de esa distribución se llama error típico de

la media

Es decir, la media aritmética de la muestra tiene su desviación típica con

relación a la media de la población; esta desviación típica se llama error típico de la

mues t ra = x

La fórmula que se utiliza para estimarla es =   x =   S/(raíz cuadrada de n)

1 6 2

mailxmail - Cursos para compartir lo que sabes

Page 163: Estadística aplicada con SPSS. Módulo I

Reemplazando, tenemos: x = 11/(raíz cuadrada de 20) = 11/(raíz cuadrada

de 20) = 2.46

El error típico de la muestra es = x = 2.46

Ahora sí tenemos los datos necesarios para aplicar la fórmula respectiva:

t = (X* – ) / x; t = (84 – 90)/ 2.46 = -2.44

La “t” estimada es -2.44; el signo es negativo, porque nos muestra que el

promedio de la muestra = 84 es menor que el presentado por la directora = 90.

El nuevo valor absoluto de  “t”  -2.44 es mayor que el valor de la tabla =

1.729, por lo que rechazamos la hipótesis nula de la Directora

La media aritmética de las calificaciones de los alumnos (la población) es

menor a 90.

Tales las operaciones necesarias para resolver un caso de test de hipótesis

manualmente.

Establecer las relaciones entre variables es una de las tareas fundamentales

que las empresas e instituciones en general requieren para el cumplimiento de sus

actividades.

Las relaciones pueden vincular  inclusive a variables categóricas (nominal u

ordinal) controladas por otras a las que se denominan “variables de capa”.

Testar la independencia y medidas de asociación para datos de tipo ordinal y

nominal son requerimientos que demandan gran tiempo y esfuerzo en el interior de

las empresas.

Por otra parte, es necesario estimar de riesgo relativo de un evento, dada la

presencia o ausencia de una característica particular.

Pero antes de ir a los estadísticos, es preciso diferenciar dos vocablos, cuyos

significados se confunden entre sí muchas veces.

1 6 3

mailxmail - Cursos para compartir lo que sabes

Page 164: Estadística aplicada con SPSS. Módulo I

53. Estadística. Concepto y tipos de variables

Estadística

Es la disciplina que recoge, ordena, analiza datos para inferir a través de ellos

las características de una población determinada por medio de una muestra.

También se la considera como la ciencia que mide la intensidad de los hechos

sociales y deducir las leyes que rigen en cada ciencia social y realizar predicciones.

En mi concepto, la Economía no tiene leyes deterministas, más bien

tendencias probabilísticas cuya identificación hace que la estadística sea más

importante que la matemática

Bajo los principios del Caos, de la Incertidumbre y del Conocimiento

complejo, la Estadística reemplaza varias de las funciones atendidas por las

matemáticas.

Los científicos de la física teórica, de la biología o de la astrofísica han

establecido el hecho de que ya no es posible hablar de leyes deterministas.

Ahora se inclinan por referirse a las “leyes probabilísticas”, lo que hace de la

Estadística una ciencia transversal a todas las demás, tanto naturales como sociales.

Estadístico

Es un indicador que mide el grado de asociación, de correlación o de

pronóstico de las variables que analizamos entre sí.

La Media Aritmética, la Varianza son, los coeficientes de regresión… son

“estadísticos”.

Ya nos hemos referido a las tres ramas de los estadísticos: cuantitativas

(también llamadas de “escala”) de intervalo y categóricas; dada su importancia las

definimos otra vez

Variables Cuantitativas  o de Escala

Son las variables que se expresan numéricamente, tales como el peso, las

calificaciones los años de estudio, la población…  y otros similares.

Variables de Intervalo

1 6 4

mailxmail - Cursos para compartir lo que sabes

Page 165: Estadística aplicada con SPSS. Módulo I

Se expresan dentro de un intervalo dado; v.g. la media de los salarios en una

empresa puede ubicarse entre $ 1500-3000; lo mismo con el Ingreso Nacional y

otros similares.

Variables Categóricas o Cualitativas

Son las que no tienen valor cuantitativo por sí mismas, pero que en el proceso

de tabular información computarizada se les puede asignar valores cuantitativos.

En esta definición se encuentran, v.g, el género, los idiomas que se habla….

Las Variables Categóricas se dividen en dos sub categorías: Nominales y

Ordinales.

Variables Nominales

Son variables que no especifican jerarquías de ningún tipo.

Por ejemplo, la nacionalidad, la procedencia étnica.

Variables Ordinales

Son las variables categóricas que implican una jerarquía entre las

observaciones; por ejemplo, la edad, los ingresos y otras parecidas.

Ahora bien, la realización manual de estos quehaceres es muy complicada,

por lo que los profesionales de la Estadística recurren a los programas

computarizados, como el SPSS.

Veamos el siguiente problema

Para determinar el grado de satisfacción de los clientes, una compañía

condujo una encuesta que tomó la opinión de 582 de ellos en las cuatro tiendas

diferentes de la firma.

De los resultados de la encuesta, se puede deducir que la calidad del servicio

al cliente es el factor más importante en un análisis integral de la satisfacción de los

consumidores.

Con esta información, se desea testar si cada una de las filiales provee niveles

similares y adecuados de servicio al cliente; para indagar, convocamos el archivo satisf.sav

satisf.sav

Usando el procedimiento de análisis cruzado, vamos a testar la hipótesis de

1 6 5

mailxmail - Cursos para compartir lo que sabes

Page 166: Estadística aplicada con SPSS. Módulo I

que los niveles de satisfacción en los servicios al cliente son constantes en todos los

sectores.

Menú principal Analizar Estadísticas Descriptivas Tablas de

Contingencia (Crosstabs)

Escogemos Store como la variable de fila (Row) y la variable Service

Satisfaction como la variable de columna (column)

En la pantalla de resultados aparece la Tabla de Contingencia, a la que hemos

clasificado como Tabla 8.3; registra los niveles de satisfacción para cada tienda.

Si cada tienda ofreciera un nivel similar de servicio, las respuestas serían

similares en las cuatro; pero, la diferencia en la calidad de servicios hace que las

respuestas difieran.

La tienda 2 parece tener un número menor de clientes satisfechos.

La tienda 3 muestra un número menor de clientes no satisfechos.

La tienda 4 tiene el mayor número de respuestas fuertemente positivas (34)

Pero también tiene el mayor número de respuestas fuertemente negativas (27)

Pero, de esta tabla de contingencia no es posible determinar si estas

diferencias son

reales o se deben a una variación del azar.

1 6 6

mailxmail - Cursos para compartir lo que sabes

Page 167: Estadística aplicada con SPSS. Módulo I

54. Análisis del estadístico chi-cuadrado

Para estar seguros, analizaremos el Estadístico chi-cuadrado (X2 ) la que en

inglés recibe el nombre de Chi-Square.

Antes de llamar a este estadístico de asociación planteamos nuestras

hipótesis.

Ho: Las Variables no está asociadas, son independientes una de las otras

H1: Las Variables son dependientes entre sí

Es la hipótesis nula que vamos a testear con el Estadístico chi-cuadrado ( X2 )

Menú Analizar Tabla de Contingencia Store en la f i la Service

Satisfaction como variable de columna chi-cuadrado.

La nueva tabla en la pantalla de resultados despliegan los estadísticos

abiertos.

La tabla que nos ofrece la pantalla de resultados consigna las medidas

direccionales o de asociación, ordinal por ordinal, con los siguientes valores.

El estadístico chi-cuadrado se usa para evaluar si hay o no una asociación

entre las variables de las filas y las variables de las columnas de una tabla de

contingencia.

Es decir, nos da información acerca de independencia o no de las variables

entre sí.

Mientras menor es el grado de asociación, menor es el valor de X2; cuando la

independencia entre ellas es nula el valor de chi-cuadrado es cero.

Por el otro lado, mientras mayor sea el grado de independencia entre las

variables, el valor de chi-cuadrado será mayor hasta alcanzar la independencia

1 6 7

mailxmail - Cursos para compartir lo que sabes

Page 168: Estadística aplicada con SPSS. Módulo I

variables, el valor de chi-cuadrado será mayor hasta alcanzar la independencia

absoluta.

Para que el valor X2 sea confiable, las frecuencias esperadas no deberán ser

“pequeñas”

Esto es, si hay valores de frecuencias  esperadas menores a 5 observaciones,

el número de estos casos no debe superar el 20% del total de frecuencias esperadas

en la muestra.

Al desplegar la tabla de X2 , el SPSS indica la o las casillas en las que la

frecuencia esperada es menor a 5 y su porcentaje con relación al total

En la tabla 8.4, ese dato está registrado en la parte inferior de la tabla:

a. 0 casillas tienen una frecuencia esperada inferior a 5.

Si la tabla de chi-cuadrado muestra que el porcentaje de esas frecuencias

supera al 20% del total de  las frecuencias esperadas, la prueba X2 debe

complementarse con otras.

Con los datos de la tabla se testa la hipótesis nula de que no hay asociación

entre los datos de las columnas y de las filas de una tabla de contingencia.

A mayor valor de X2 mayor es la diferencia entre los valores observados y los

teóricos.

Esto quiere decir que los valores observados están más lejos de los valores

calculados teóricamente bajo el supuesto de que las variables fuesen

independientes.

En consecuencia, a mayor valor del estadístico X2 , mayor será el grado de

asociación entre las variables y la hipótesis nula deberá ser aceptada.

En caso contrario, será rechazada

El Sig es la probabilidad de error que aceptamos: 0.05.

Si el Sig es menor que 0.05, la hipótesis nula será rechazada.

Recordemos que la Ho: plantea que no hay relación de asociación entre las

variables.

En la tabla 8.4 vemos que el valor de chi-square es 16,293

1 6 8

mailxmail - Cursos para compartir lo que sabes

Page 169: Estadística aplicada con SPSS. Módulo I

Ahora bien, para evaluar esta cifra, nos fijamos en el valor Sig, que es 0.178,

mayor que 0.05; por ello aceptamos la hipótesis nula: las variables son

independientes entre sí.

En este caso,  las variables Store y Service Satisfaction no están asociadas

entre sí

Pero se sabe que no todos los clientes de la muestra han tenido un contacto

directo con un representante del servicio al cliente.

Por lo que nos interesará saber si hay diferencia entre ambas categorías de

clientes.

La introducción de esa variable es muy importante.

Creemos que nos dará valores diferentes para los clientes que han tenido

contacto con el empleado de servicio al cliente y los que no lo tuvieron.

Para analizar ese caso, debeos dividir las observaciones en dos categorías: los

clientes que han tenido contacto con el empleado de Servicio al cliente y los que no.

En la práctica, necesitamos una variable de “capa” (Layer) que permite la

división

Con el objeto de establecer si hay o no diferencia entre la variable satisfaction

service y store cuando los clientes han visitado o no al encargado de satisfaction

service en cada tienda, vamos a la casilla capa.

Ingresamos a tablas de contingencia, las variables de fila y de columna siguen

siendo las mismas pero, en la casilla capa 1 de 1 introducimos la variable Contacs

with employees.

La pantalla de resultados nos muestra una nueva tabla de contingencia.

Lo que ahora nos interesa es si los nuevos resultados apoyan o no la

hipótesis nula.

1 6 9

mailxmail - Cursos para compartir lo que sabes

Page 170: Estadística aplicada con SPSS. Módulo I

Para conocer esos estadísticos, copiamos la tabla 8.5, la que muestra los

resultados obtenidos cuando se toma en cuenta la variable capa “Contacto con el

cliente”.

El valor de Chi-cuadrado para los clientes que no visitaron al empleado es

20,898 y su nivel de significación crítica, Sig es 0.052.

Esos datos sugieren, pero no son conclusivos, que hay una relación entre

Store y Service Satisfaction, debido a que el Sig (0.052) está prácticamente sobre

0.05

El nivel de significación para los que sí tuvieron contacto con un empleado es

0.012, valor claramente menor que 0.05.

Encontramos que con la incorporación de la variable capa, Contactos con el

empleado hay una relación entre Store y Satisfaction service.

1 7 0

mailxmail - Cursos para compartir lo que sabes

Page 171: Estadística aplicada con SPSS. Módulo I

55. Sistemas para formulación de informes y tablasestadísticos (1/2)

Existen sistemas muy útiles para redactar informes que incluyen análisis

estadísticos.

Dedicaremos este acápite a la tarea de mostrar uno de esos sistemas.

Como de costumbre, lo hacemos sobre el escenario de un ejemplo concreto,

sobre el caso de un agente de bienes raíces que ayuda a un cliente a vender su casa.

Como primer paso el agente reúne información de todas las casas que se han

vendido el año pasado y desea preparar un informe

Traemos el archivo marketvalues.sav  para crear una tabla-resumen de los

estadísticos para venta de casas, agrupadas por la calle en la que se encuentran.

Menú principal Analizar Informes Resúmenes de casos

En la pantalla superior introducimos Purchase Price como la variable que será

resumida

House Street como la variable de grupo.

No elegimos la lista de casos individuales debido a que nos referimos al

grupo.

Pulsamos el botón borrar casos en la parte inferior del cuadro de diálogo.

Click Statistics Mean, Median, Minimun and Maximun

1 7 1

mailxmail - Cursos para compartir lo que sabes

Page 172: Estadística aplicada con SPSS. Módulo I

El número de casos aparecerá por defecto en esa lista

Cont inue Opt ions en la caja de diálogo de Summarize

Escribamos Home Sale Statistics  como título; en la casilla de abajo

escribimos Grouped by Street como caption (Pequeño texto que se pone al pie de

una tabla) 

Continue aceptar en caja de diálogo de Summarize.

Observemos el sitio del título, sobre y de la nota, al pie de la tabla.

En la tabla 8.6 tenemos los registros solicitados.

Los datos aparecen para cada calle en el orden que fueron seleccionados:

Número de casos (N) Media, Mediana, Minimun y Maximun

El cliente que solicitó el servicio del agente vive en la calle Fairway View

En esa calle la media del precio de compra es arrastrada hacia arriba por la

influencia de alguna propiedad cara en la vecindad.

Por eso escogemos la Mediana, es más resistente a los extremos.

Si deseamos tener el mismo cuadro pero no agrupado por la calle en la que se

encuentran, sino por el número de días que están en oferta, procedemos del

siguiente modo

Analizar Informes Resúmenes de casos

En la casilla inferior, en vez  House Street introducimos Days on the market

before sold Estadís t icos Mediana Aceptar

La tabla 8.7registra las casas de acuerdo con el precio y los días que

permanecieron en el mercado antes de ser vendidas.

En la tabla vemos que dos casas estuvieron en el mercado durante 5 días cada

una antes de ser vendidas; una casa tardó 33 días en venderse y así sucesivamente.

1 7 2

mailxmail - Cursos para compartir lo que sabes

Page 173: Estadística aplicada con SPSS. Módulo I

1 7 3

mailxmail - Cursos para compartir lo que sabes

Page 174: Estadística aplicada con SPSS. Módulo I

56. Sistemas para formulación de informes y tablasestadísticos (2/2)

El dueño estimó que su casa vale $315000 y le pide al agente que le

proporcione una lista de las casas que hubieran sido vendidas en el área a un precio

igual o mayor

La primera tarea es seleccionar solamente las casas que se vendieron en

$315000 o mayores; Menú principal Datos Seleccionar casos.

Ahora bien, hay una condición que los datos deben cumplir, esto es, que las

casas hayan sido vendidas por un precio de $315000 o mayores.

Click en el botón si la opción es satisfecha

Se nos presentará un nuevo cuadro de diálogo con una pantalla a la derecha y

el nombre de las variables a la izquierda.

Con la flecha de dirección introducimos la variable Purchase Price a la pantalla

derecha. Allí aparece la palabra value, a la cual le añadimos la expresión >= 315000

Continuar Aceptar en la caja de diálogo.

En la Pantalla Vista de Datos han sido tachadas con una línea todas las casas

cuyo precio es menor a $315000; sólo están habilitadas las de precios mayores a

esa cifra.

En la última columna se destaca con palabras Selected no Selected la misma

información

Ahora debemos ordenar las casas seleccionadas por su valor y por la calle

donde fueron construidas; para ordenar los datos realizamos el siguiente proceso:

Menú principal Data Ordenar Casos Purchase Price  como la primera

variable a ser ordenada en el botón de abajo Descendente

Pulsamos House Street como la segunda variable Aceptar

Vamos otra vez a Informes Resúmenes de casos introducimos Purchase

Price House Street como variables en la primera casilla

Click Statistics Media, Mediana, Mínimo, Máximo   Continue Options

1 7 4

mailxmail - Cursos para compartir lo que sabes

Page 175: Estadística aplicada con SPSS. Módulo I

En la caja de diálogo de Summarize escribimos Case Lists como título y Only houses with prices equal over 315000

Only houses with prices equal over 315000 como caption

Escribimos Unavailable como la variable en el lugar de missing values; Click el

botón mostrar número de casos mostrar sólo casos válidos Continuar

Aceptar

La nueva tabla que aparece en la pantalla de resultados muestra la lista de

todas las casas cuyo precio de venta son iguales o superiores a $ 315000.

La  Opción Informes sirvió para que el dueño decida entre esperar hasta que

la casa sea vendida en este mercado o si debería reducir el precio en busca de una

venta más rápida.

Los procedimientos más cercanos a esta opción son los Análisis de Variables

de Escala que será analizada en el próximo acápite.

Con esos instrumentos tendremos a disposición estadísticos adicionales y

gráficos cuyos datos describen el comportamiento de variables de controladas por

variables de grupo.

1 7 5

mailxmail - Cursos para compartir lo que sabes

Page 176: Estadística aplicada con SPSS. Módulo I

57. Análisis de Variables de Escala. Uso de Meanspara Estadísticos Descriptivos

La disciplina estadística siempre recurre a las medidas de tendencia central o

de dispersión para llevar adelante sus análisis en forma sistemática.

El procedimiento Means es útil para la descripción y análisis de variables de

escala, con sus estadísticos se puede estimar las medidas descriptivas para testar

las variables.

Cualquier número de variables de grupo pueden se divididos por capas

(layers) o estratificadas en casillas que definen con precisión los grupos que deben

ser comparados.

Se puede testar las diferencias entre grupos usando el procedimiento

One-way ANOVA, el que nos provee de tests de linearidad y medidas de asociación.

Con esa opción, la que estudiaremos en el próximo capítulo, podremos

entender mejor la fuerza de las asociaciones; pero vayamos primero a los valores

descriptivos.

El uso de Means para lograr Estadísticos Descriptivos

Se desea analizar los salarios de las enfermeras de acuerdo con niveles

variables de experiencia, las tareas que desempeñan y el cargo que tienen en un

hospital.

Menú pr inc ipal Analizar Compare Medias Medias Hourly Salary (Como

variable dependiente) Years Experience como variable independiente

Aceptamos

No pedimos estadísticos, pues el SPSS, por defecto, nos da la primera

información.

Los datos quedan registrados en la tabla

La tabla de resultados nos despliega dos cuadros de los cuales copiamos el

que relaciona el salario por hora y los años de experiencia.

En este caso, ya estratificados por intervalos para un total de 2911

observaciones.

1 7 6

mailxmail - Cursos para compartir lo que sabes

Page 177: Estadística aplicada con SPSS. Módulo I

Tabla de Medias (Means) con una variable de un grupo

La tabla de resultados muestra los estadísticos del salario para cada nivel de

experiencia.

Los salarios de las enfermeras no varían solamente como una función de la

experiencia.

Es probable que hayan empezado con diferentes rangos salariales.

El uso del procedimiento Means permite usar la posición con la experiencia y

observar la diferencia salarial.

Vamos otra vez a la caja de diálogo de Medias y en el mismo cuadro

pulsamos siguiente

Capa 2 de 2 (Incremento de la variable capa a dos niveles)

Elegimos Nurse Type como la variable independiente OK.

La tabla que despliega la pantalla de resultados muestra los estadísticos para

las enfermeras del hospital que tienen cinco o menos años de experiencia.

La primera Columna muestra los estadísticos para las enfermeras que

trabajan en el hospital como tales y que tienen una experiencia como enfermeras de

hasta cinco años.

1 7 7

mailxmail - Cursos para compartir lo que sabes

Page 178: Estadística aplicada con SPSS. Módulo I

La segunda Columna tiene dos niveles: “Hospital”, “Office”

Esa división nos indica que se ha clasificado a las enfermeras por el trabajo

que realizan, ya sea como tales ya de oficina; los niveles de experiencia son los

mismos

La tercera Columna, muestra los estadísticos para cada categoría de

enfermeras.

La columna de las Medias exhibe cómo el promedio salarial difiere entre las

enfermeras tomando en cuenta su posición de trabajo en el marco de los niveles de

experiencia.

Las enfermeras que trabajan como tales en el hospital tienen salarios más

altos que las enfermeras que realizan labores de oficina a través de todos los niveles

de experiencia.

Pero la brecha tiende a cerrarse a medida que aumentan los años de

experiencia.

La Desviación Típica indica que el salario de las enfermeras de oficina varía

con mayor amplitud alrededor del salario promedio, que las enfermeras de hospital.

Resumen

La división por grupos mediante las variables Layers nos permite apreciar las

1 7 8

mailxmail - Cursos para compartir lo que sabes

Page 179: Estadística aplicada con SPSS. Módulo I

La división por grupos mediante las variables Layers nos permite apreciar las

variaciones salariales de las enfermeras a través de la experiencia en años y las

tareas que realizan

Las enfermeras “de planta”, que trabajan en el hospital, como las que realizan

tareas de oficina tienen habilidades que les permite desarrollar adecuadamente sus

tareas.

1 7 9

mailxmail - Cursos para compartir lo que sabes

Page 180: Estadística aplicada con SPSS. Módulo I

58. Asociaciones de ordinales estadísticos

Asociaciones Ordinal por ordinal

Hasta aquí hemos  analizamos la asociación de variables cuando ambas son

nominales.

Para ello nos valimos de los estadísticos diseñados con ese propósito.

Ahora analizaremos los grados de asociación entre variables ordinales;

recordemos que una variable ordinal es categórica pero que entraña una jerarquía

de posición.

Variables Ordinales

Recordemos que las variables Ordinales son las que, siendo categóricas, sin

embargo están sujetas a una jerarquía de ordenación entre sus elementos.

Asociaciones Ordinal por Ordinal

De inmediato analizaremos las relaciones entre dos variables ordinales.

Seguimos con el archivo satisf.sav.

La compañía quiere testar la influencia de la frecuencia de compras con

relación a la satisfacción general de los clientes.

Dado que las categorías de ambas variables son ordinales, es posible

establecer medidas para cuantificar el grado de fuerza y el signo, positivo o

negativo, de su asociación.

Acudimos a la tabla de contingencia para establecer las medidas de

asociación entre ambas variables: Shopping frecuency y Overall satisfaction.

Menú Principal Estadísticos Descriptivos Tablas de Contingencia En la

fila Shopping frecuency y en la columna Overall Satisfaction

Esadísticos Gama, d de Somers, tau-b de Kandall y Tau –c de Kendall.

La Tabla 9.1 despliega la información sobre el total de los casos, 582 ninguno

perdido.

La Tabla 9.2 es Tabla de contingencia para Shopping frequency * Overall

1 8 0

mailxmail - Cursos para compartir lo que sabes

Page 181: Estadística aplicada con SPSS. Módulo I

satisfaction

La tabla registra los valores que miden el grado de asociación entre las

variables Shopping frecuency y Overall satisfaction.

Por ejemplo, se lee que los clientes que tienen un mes de antigüedad tienen

un nivel de satisfacción Fuertemente Negativa en 26 casos.

La percepción “Algo Negativa” consigna 38 casos, hay 39 Neutrales, “Algo

Positiva” 34 y Fuertemente Positivo” 16; el total de los clientes con un mes de

antigüedad es 52.

1 8 1

mailxmail - Cursos para compartir lo que sabes

Page 182: Estadística aplicada con SPSS. Módulo I

59. Cálculo del estadístico "d Sommer" o "Somer's d"

La Pantalla de resultados también exhibe los datos sobre las Medidas

Direccionales que trasladamos aquí como la Tabla 9.3

El estadístico “de Somer” o “Somer’s d”

Somer's d establece si las variables ordinales son dependientes e

independientes entre sí.

Mide el grado de asociación entre dos variables ordinales y toma un valor

entre -1 y 1.

Los valores absolutos cercanos a 1, muestran una relación fuerte entre las

variables.

Los valores cercanos a 0 indican que hay poca o ninguna relación entre las

variables

La Variable Shopping frecuency  tiene un valor de 0.104, un valor T bajo y un

Sig 0.001

El valor para la variable Overall satisfaction es de 0.110, y un nivel Sig de

0.001.

Podemos deducir que no hay una relación significativa entre ambas variables.

En la Tabla 9.4 tenemos las Medidas Simétricas: Tau-b de Kendal, Tau-c de

Kendall y Gamma

1 8 2

mailxmail - Cursos para compartir lo que sabes

Page 183: Estadística aplicada con SPSS. Módulo I

Las anteriores tablas no están controladas por una variable muy importante:

el contacto del cliente con el encargado de atención al cliente.

Para contar con esa información, iremos nuevamente al Menú Principal

Descriptivos Tablas de Contingencia Shopping Style en la casilla de Fila

Overall satisfaction en la casilla de Columna

Contact with employee en la casilla dentro de Capa 1 de 1.

Estadísticos d deSommers, Kendall-b; Kendal-c, Gamma

La tabla 8.8 muestra el recuento de las interacción de las variables Shopping Frecuency, Overall Satisfaction y Contact with employee

Frecuency, Overall Satisfaction y Contact with employee

La tabla se divide ahora en tres partes principales

No, para quienes no tuvieron contacto con el empleado de atención al cliente

Sí, para los clientes que sí tuvieron contacto

Total

En la tabla de recuento podemos ver algunas diferencias con la tabla de

recuento anterior

En el Anterior, cuando las variables no estaban controladas por la variable

Contact with employee,  las cifras para los clientes que tenían un mes de antigüedad

eran:

La Nueva Tabla, que incluye la variable control despliega los siguientes datos

para quienes no tuvieron con el encargado de control de calidad.

1 8 3

mailxmail - Cursos para compartir lo que sabes

Page 184: Estadística aplicada con SPSS. Módulo I

Obsérvese que en este caso estamos tratando de analizar la satisfacción

general de la empresa, no sólo de cada tienda, por eso se escoge la variable Overall

satisfaction.

Los datos internos en la tabla 9.5 mostrarían que el número de clientes con

una anti-güedad que no tuvieron contacto con el empleado no difieren de los que sí

tuvieron

Tampoco parece haber un gran cambio los clientes que tienen un mes de

antigüedad con relación a la actitud positiva.

Para cerciorarnos vamos a traer la tabla 9.6 que registra las medias

direccionales por medio del estadístico “d de Somer”.

El valor para los que no tienen contacto con los empleados de atención al

1 8 4

mailxmail - Cursos para compartir lo que sabes

Page 185: Estadística aplicada con SPSS. Módulo I

cliente es de 0.091 con un nivel Sig 0.05, lo que no asegura si hay o no asociación

entre las variables.

El valor para los que sí hablaron con el empleado es de 0.119, con un nivel

Sig 0.011 que es menor que 0.05, lo que nos muestra que no hay relación entre las

dos variables que analizamos ahora.

1 8 5

mailxmail - Cursos para compartir lo que sabes

Page 186: Estadística aplicada con SPSS. Módulo I

60. Estadístico de Kendall's Tau. Cálculo del Riesgomediante Tabla de Contingencia

Ahora analizamos los datos de la segunda tabla que nos dio la pantalla de

resultados.

Los nuevos datos se registran en la tabla 9.10.

Analicemos ahora los datos de la tabla 9.7 que registra los dos estadísticos

Tau y Gamma

a. Asumiendo la hipótesis alternativa.

b. Empleando el error típico asintótico basado en la hipótesis nula.

El estadístico Kendall’s Tau mide la probabilidad de las diferencias entre las

probabili-dades de que los datos observados estén en el mismo orden, versus la

probabilidad de que no estén en el mismo orden.

Hay dos variantes de Tau: Tau b y Tau c, variantes que difieren en la manera

cómo se percibe las ordenaciones de las variables relacionadas entre sí.

Kendall’s Tau-b es una medida de asociación que computa los excesos de los

pares de los datos observados concordantes en relación a los discordantes

Todo eso de acuerdo con una fórmula establecida.

Tiende a un valor 0 cuando las variables son estadísticamente dependientes

En el cuadro de análisis su valor es 0.107 y su Sig 0.001

Estos bajos niveles nos permite desechar la hipótesis de que ambas variables,

Shopping frecuency y Overall satisfaction, sean independientes entre sí.

Esto es, aceptamos la hipótesis alternativa de que las variables están

asociadas entre sí.

1 8 6

mailxmail - Cursos para compartir lo que sabes

Page 187: Estadística aplicada con SPSS. Módulo I

Tau-c, también conocida como Kendall-Stuart Tau-c, es una variante de

Tau-b pero para tablas mayores; iguala el exceso de concordancia sobre los pares

discordantes.

Su valor en la tabla que analizamos también está respaldado por Sig. 0.001,

que es otra razón para desechar la hipótesis nula que sostiene la independencia de

las variables.

Uso de la Tabla de Contingencia para medir el riesgo relativo de un evento.

Una compañía que vende revistas envía tradicionalmente correos a clientes

que figuran en la base de datos; el porcentaje de respuestas es típicamente bajo.

Para mejorar las respuestas mensuales, decidieron enviar correos  mensuales

a personas que tienen suscripciones de periódicos.

Esta iniciativa se basaba en el supuesto de que la gente que lee periódicos

estará más interesada en suscribirse a una revista.

Para tener los estadísticos que les permita tomar una decisión al respecto,

nos encargan  testar las bondades del nuevo sistema y nos entregan los datos en el

archivo demo.sav.

Nuestra tarea consiste en estimar el Riesgo Relativo de que una persona que

está suscrita a un periódico responde o no a los avisos que se les hace llegar

mensualmente.

Vamos a usar el procedimiento referido a las Tablas de Contingencia para

testar la teoría, construyendo una tabla de dos por dos, con relación a las

suscripciones de periódicos.

Menú principal Estadísticos Descriptivos Tablas de Contingencia

Newspaper en la casilla de Filas y Response  en la casilla de Columna.

Todavía no pedimos Estadísticos; pero en la misma pantalla, debajo

Estadísticos c l i ck en Casilla Recuentos: click observado esperado

A la derecha, click en comparar las proporciones de columna; abajo, en la

sección Porcentajes click columna continuar aceptar.

Los datos aparecen en la tabla que copiamos como tabla 9.8

El Riesgo

1 8 7

mailxmail - Cursos para compartir lo que sabes

Page 188: Estadística aplicada con SPSS. Módulo I

El riesgo relativo es una razón de las probabilidades de dos eventos, en este

caso, nos interesa el riesgo relativo  de una respuesta a los correos mensuales.

Medimos ese riesgo por medio de una razón de probabilidades.

La razón de la probabilidad de que alguien suscrito a un periódico responda a

los correos, con relación a la probabilidad de que alguien que no está suscrito 

también responda.

Así, de la tabla anterior el estimado del riesgo relativo es 13.7%/8.2% = 1.668.

Veamos ahora el riesgo relativo de no respuesta

Es la razón de la probabilidad de que alguien suscrito a un periódico no

responda con relación a la probabilidad de que una persona no suscrita tampoco

responda.

Esto es 86,3%/91.8% = 0.94

Podemos afirmar que la probabilidad de que una persona suscrita a un

periódico res-ponda es 1.6680 veces que alguien no suscrita responda a los correos.

También se puede llegar a la misma conclusión diciendo que una persona que

está suscrita a un periódico responda, es 0.94 veces que alguien no suscrito no

responda.

1 8 8

mailxmail - Cursos para compartir lo que sabes

Page 189: Estadística aplicada con SPSS. Módulo I

61. Grandes Estadísticos y Matemáticos en la Historia

Karl Pearson (1857-1936).

Fue biométrico, estadístico y matemático; tuvo gran interés en la medición de

la evolución de los animales, con lo que nació la Biometría. Pearson aportó con

instrumentos de gran importancia al fortalecimiento de la Estadística, especialmente

en lo que se refiere a temas relacionados con la correlación, a los que nos

abocaremos en los últimos capítulos de este curso. Por el momento, nos interesan

los estudios que realizó sobre la distribución de una nueva variable Chi-cuadrado

( X2 ) que es muy conocida y que nosotros utilizaremos en este capítulo, además de

otros estadísticos.

A.A. Markov  (1856-1922)

Dedicó su vida a la docencia universitaria en la Universidad de St. Petersburgo

y fue, con L Yapunov, el más distinguido alumno de Chabyshev en el campo de la

probabilidad. Markov contribuyó a establecer temas como el Teorema del Límite

Central, y la Ley de los Grandes Números. La extensión de este último tema le

permitió introducir la Cadena Markov. También demostró cómo la desigualdad de

Chebyshev podía ser aplicado en el caso de variables aleatorias dependientes.

Analizó la alternación de vocales y consonantes como dos estaos de la cadena de

Markov y trabajó en la Teoría de la Dispersión. Tenía una opinión desfavorable del

1 8 9

mailxmail - Cursos para compartir lo que sabes

Page 190: Estadística aplicada con SPSS. Módulo I

trabajo de Pearson. Su Teoría de la Probabilidad fue un texto de gran influencia,

especialmente en Berstein y Neyman. Éste último reconoció la obra de Markov

cuando propuso el término El Teorema de Markov, aunque ahora se denomina el

Teorema de Gauss-Markoc. J. V. Uspensky hizo conocer las ideas de Markov a los

estudiosos de los EE.UU en su obra Introducción a la Probabilidad Matmática.

Ronald Fisher (1909-1962).

No podía leer con luz artificial debido a su visión defectuosa, pero ello no le

impidió graduarse, en la universidad de Cambridge en 1912. Su interés por la

aplicación de la teoría de errores en Astronomía le llevó a investigar problemas

estadísticos. Durante siete años ejerció de profesor, teniendo como colega a Karl

Pearson –el famoso creador del criterio de chi cuadrado y que, ya en 1893, había

introducido el término desviación Estándar,  con el que mantuvo un largo

enfrentamiento  acerca del tamaño de las muestras. Ambos estaban interesados por

las aplicaciones de la estadística a los problemas que planteaba la biología, y

Pearson, a diferencia de Fisher, era partidario de usar en sus investigaciones

muestras grandes. En 1925 publicó uno de los libros históricos en esta disciplina:

Statistical methods for research workers, introduciendo las técnicas de análisis de la

varianza y el método de máxima verosimilitud. Escribió también algunas memorias

detallando sus avances en genética y biología gracias al uso sistemático de los

métodos estadísticos; como ejemplo, su investigación sobre la relación entre la

cosecha de trigo en Rothamsted y la lluvia caída durante el año. Este capítulo inicia,

precisamente, el Análisis de Varianza (ANOVA) que es una de las contribuciones más

grandes en la ciencia estadística.

William Sealy Gosset (1876–1937)         

1 9 0

mailxmail - Cursos para compartir lo que sabes

Page 191: Estadística aplicada con SPSS. Módulo I

Es el científico que nos legó la Distribución t-student que analizamos en

capítulo anterior. Trabajaba en una fábrica  de productos agroquímicos y se interesó

en la selección de las mejores variedades de centeno, como de su mayor

rendimiento. Logró aprender parte de la estadística por medio de prueba y error

hasta que conoció a Karl Pearson, quien le ayudó con el enfoque matemático de sus

ensayos. Pero Karl Pearson no estaba interesado en pequeñas muestras, sino en los

grandes números. Antes de esos encuentros, Gosset había publicado un pequeño

ensayo sobre estadística que comprometía algunos datos confidenciales de la firma,

por lo que se le prohibió que publicara nuevamente, sin importar el tema. Así es

que para hacer conocer sus resultados publicó sus ensayos bajo el seudónimo de

“Student”, de donde proviene la “t” con la que se conoce su obra. Tuvo la suerte de

conocer a R.A Fisher, quien apreció el trabajo de Gosset, pues Fisher, recordemos, a

diferencia de Pearson, estaba interesado en los “números pequeños” Fisher se

entusiasmó tanto con la obra de  Gosset que encontró en ella una revolución de la

lógica. A continuación estudiaremos, con ejemplos, el uso de este importante

estadístico creado por Gosset.

Andrei Nikolaevich Kolmogorov(1903-1987).

Fue uno de los más importantes matemáticos del siglo pasado y sus grandes

1 9 1

mailxmail - Cursos para compartir lo que sabes

Page 192: Estadística aplicada con SPSS. Módulo I

trabajos en el campo de la Probabili-dad fueron sólo una parte de su obra total. Al

igual que Khinchin, fue estudiante en la Unversidad Estatal de Moscú. En 1924

empezó a trabajar con Khinchin y juntos lograron la Ley del Logaritmo Iterativo y la

Ley de los Grandes Números. La más grande contribución de kolmogorov en el

estudio de la Probabilidad fue su propuesta de reconocer los fundamen-tos

axiomáticos en la Probabilidad. Esto hizo posible un tra-tamiento riguroso del

proceso estocástico. Su ensayo “Méto-dos Análiticos en la Teoría de la Probabilidad”

le permitió es-tablelcer los fundamentos dela teoría del Proceso de Markov Este

ensayo contiene las ecuaciones Chapman-Kolmogorov. En 1941, Kolmogorov

desarrolló una teoría de la predicción por los procesos aleatorios paralelo al de

Wiener. En los años 60 retomó la teoría de la probabilidad de von Mises y la

desarrolló en la dirección de la teoría de la Complejidad Algorítmica. Este trabajo fue

continuado por el matemático sueco P. Martin-Löf. En el campo de la Estadística es

muy conocido el Test sobre normalidad Kolmogorov-Smirnov. Desde 1938 su

nombre fue asociado con el Instituto de Matemáticas Steclov.

1 9 2

mailxmail - Cursos para compartir lo que sabes

Page 193: Estadística aplicada con SPSS. Módulo I

62. Definición de Odds. Razón de Odds vs. RiesgoRelativo

Odds: definición

Los programas de computadora usan de la palabra ingresa Odds para definir

la razón de los sucesos favorables con relación a los sucesos no favorables.

Tomemos los datos del cuadro Tabla de contingencia Newspaper subscription

* Response.

El porcentaje de los sucesos favorables, es decir, de que haya respuesta a los

correos por parte de quienes están suscritos por lo menos a un periódico, es del

13,7%

La razón de que haya respuesta a los correos por parte de quienes no están

suscritos a un periódico es del 8.2%; a cada una de estas razones se llama Odds.

Por otra parte, vemos que el porcentaje de personas suscritas a un periódico

que no responden a los correos, según los datos de la tabla es del 86,3%.

También vemos que las respuestas  negativas (No) de quienes no están

suscritos a un periódico representan el 91,8%.

La razón Odds es una razón de los eventos Odds

En este caso, los odds de que una persona suscrita a un periódico responda a

los correos es 13.7%/86.3; esto es, 0.158.

Del mismo modo procedemos con los odds de una persona no suscrita a un

periódico

La razón de que esa persona responda es 8.2%/91.8% = 0.089

En consecuencia la razón de Odds es 0.158/0.089 = 1.775

Este resultado de Odds también puede lograrse como la razón del riesgo

relativo de obtener respuesta con relación al riesgo relativo de no tener respuesta

Esto es, 1.6880/0.94 = 1.775.

Razón de Odds vs. Riesgo Relativo

1 9 3

mailxmail - Cursos para compartir lo que sabes

Page 194: Estadística aplicada con SPSS. Módulo I

La razón Odds es una razón de razones y por lo tanto algo más difícil de

entender.

El Riesgo Relativo, por su parte, es más fácil de interpretar, de modo que la

razón de odds, por sí sola, no es muy útil.

Sin embargo, hay ciertas situaciones en las que los estimados del Riesgo

Relativo no son muy buenos, en cuyo caso se puede usar la razón Odds.

Puede usarse como una aproximación al riesgo relativo del evento de interés,

cuando se cumple una condición: la probabilidad del evento es pequeña, digamos <

0.1. Por el momento, podemos adoptar el valor 1.668 como el riesgo relativo en vez

del valor de la relación Odds.

Los otros cuadros de resultados serán analizados en capítulos más avanzados

del curso.

1 9 4

mailxmail - Cursos para compartir lo que sabes

Page 195: Estadística aplicada con SPSS. Módulo I

63. Análisis estadístico. ANOVA y test de linearidad( 1 / 2 )

ANOVA, en las siglas del idioma inglés, significa Análysis of Variance.

Si tenemos solo dos muestras y deseamos comparar sus medias, se podría

usar lo que se llama el t - test , cuyo significado analizamos ya en el capítulo

respectivo.

Pero ANOVA  es un test más general, pues trata de varias muestras, aunque

para empezar, estudiaremos el ANOVA  con el objeto de comparar las medias de dos

muestras.

En el ejemplo, se supone que se está realizando un estudio sobre el grado de

adicción al tabaco por parte de los jóvenes.

Se cree que los fumadores más adictos empezaron a fumar a una edad más

temprana que los fumadores ocasionales.

También se quiere averiguar si la asociación entre grado de adicción y edad

en que se empieza a fumar es linear; usamos el archivo smokers.sav.

La primera etapa será ponderar los datos que reflejan las tendencias de la

población de la que se ha sacado una muestra aleatoria.

Menú principal Datos Ponderar Casos Ponderar Casos Mediante.

Elegimos Final person-leve simple weight como la variable de ponderación

Aceptamos

Ahora los datos están ponderados por la variable citada y podemos

analizarlos.

Menú Principal Analizar Comparar Medias Medias.

Seleccionamos Age when first smoked a cigarette (Edad en la que comenzó a

fumar) como dependiente; # Cigarettes smoked per day past 30 days como la

variable independiente

Options Anova e ta Tes t para l inear idad Cont inuar Aceptar  en la

caja de diálogo de Means; el cuadro de resultados nos da la tabla 10.1

1 9 5

mailxmail - Cursos para compartir lo que sabes

Page 196: Estadística aplicada con SPSS. Módulo I

La Pantalla de resultados exhibe las tablas pertinentes; traemos la tabla 9.1;

en la parte superior izquierda se anota el título de los cigarrillos fumados en los

últimos 30 días.

Allí vemos que  los adolescentes que fuman un promedio de hasta una

cajetilla de cigarrillos al día empezaron fumar cerca de los 16 años (16 to 25)

La Tabla ANOVA contiene tests de relaciones lineales, no lineales y

combinadas.

Esas relaciones reflejan las que se dan entre la variable de la edad en que se

empezó a fumar y la cantidad de cigarrillos que el adolescente fumó en los últimos

30 días.

En la tabla ANOVA el test para la linearidad tiene un valor Sig. = 0.000 < 0.05

Este Sig nos indica que hay relación lineal entre la edad en que se empezó a

fumar y la cantidad de cigarrillos que fuma.

El test para estimar la desviación de la condición de linealidad tiene un Sig.

1 9 6

mailxmail - Cursos para compartir lo que sabes

Page 197: Estadística aplicada con SPSS. Módulo I

El test para estimar la desviación de la condición de linealidad tiene un Sig.

0.000; nos indica que, además de una asociación lineal, se tiene un componente

adicional no lineal.

Estos resultados coinciden con lo observado en la tabla Means, en la que

vimos cómo la edad tendía, más o menos, a reducirse  con la cantidad de cigarrillos

que se fuma.

Sin embargo, las medidas de la asociación cuadrada son, ambas, cercanas a

cero.

Esto es, en general la variación de la edad en que se empieza a fumar, la que

es explicada por lo que actualmente fuman, si bien es significativa, también es

relativamente pequeña.

1 9 7

mailxmail - Cursos para compartir lo que sabes

Page 198: Estadística aplicada con SPSS. Módulo I

64. Análisis estadístico. ANOVA y test de linearidad( 2 / 2 )

Resumen

El procedimiento Compare Medias nos permitió identificar una asociación

entre el número de cigarrillos que los jóvenes fuman cada día y la edad en la que

empezaron a fumar

Pero, la asociación, siendo estadísticamente significativa no nos da una idea

robusta de lo que sucede entre ambas variables.

Uno de los estadísticos más conocidos en el ANOVA es la función F que

aparece en la tabla cuyo significado veremos en seguida aunque en este caso no es

muy alto.

Una firma de telecomunicaciones desea reducir la proporción de clientes que

se cambian a otra firma que provee el mismo servicio (chum)

Los expertos en estadística fueron consultados y encontró las

recomendaciones necesarias para reducir el número de personas que se va a otras

firmas.

Recurrieron al procedimiento OLAP Cubes para establecer las actitudes de los

clientes durante el último es, a través de las 3 zonas geográficas o áreas de ventas

de la firma.

Este ejemplo fue archivado en telco.sav.

Lo primero que se hace en el procedimiento OLAP Cubes es crear la variable

pertinente para medir el número de servicios disponibles que cada cliente demanda.

M e n ú Transform Contar valores dentro de los casos

En la casillaVariable de destino escribimos Servicios que es la variable que

vamos a crear

# de servicios disponible como la variable que registramos en la casilla

“etiqueta”.

Del cuadro izquierdo elegimos desde Multiple lines hasta Electronic billing

como las variables de conteo Definir valores en la casi l la Valor escribimos 1

1 9 8

mailxmail - Cursos para compartir lo que sabes

Page 199: Estadística aplicada con SPSS. Módulo I

Añadir para transferir el valor “1” a la pantalla Contar los valores Continuar

Aceptar

Basta anotar el número 1 en la pantalla de Contar los valores para que el

programa lo interprete como el punto de partida de todas las demás categorías.

La nueva variable así transformada aparece en la última columna de la

pantalla de datos.

Allí se registra el número de veces que un cliente solicita los servicios de la

empresa.

La misma variable fue creada en la Pantalla Vista de Variables, en la que

borramos el número de decimales, pues no los necesitamos

Ahora se quiere averiguar el promedio de gasto mensual de cada cliente por

los servicios que usa;  debemos crear otra variable, tal como la última.

Menú principal Transformar Calcular variable mensual como Variable

de destino

Escribimos “Promedio mensual de gasto” en la casilla Tipo y Etiqueta

De la pantalla de Vista de Variable copiamos los nombres (Sólo los nombres)

de las siguientes variables: (longten + tollten + equipten + cardten +

wireten) /tenure

Nótese el uso del paréntesis

Las trasladamos a la pantalla de Calcular Variable Expresión Numérica

Aceptamos

Con el traslado de estas variables a la pantalla Expresión Numérica le

instruimos al SPSS que divida los montos anuales entre 12 meses

En la última columna de la pantalla Vista de Datos tendremos el monto de los

pagos totales mensuales que realizan los clientes por todos los servicios que

demandan.

La Empresa nos pide identificar a los clientes que abandonan la empresa, pero

esta vez tomando en cuenta la región geográfica.

Esta clase de problemas exige la opción cubes OLAP

1 9 9

mailxmail - Cursos para compartir lo que sabes

Page 200: Estadística aplicada con SPSS. Módulo I

Menú pr inc ipa l Analizar Informes cubes OLAP

Elegimos Months with service, age in years, household income in thousands,

Servicios y Promedio mensual del gasto como las variables de resumen.

Elegimos Chum en el último mes y Geographic Indicator como las variables de

grupo.

Seleccionamos Estadísticas; eliminamos de la pantalla cualquier variable

antigua que aún permanezca allí.

Seleccionamos Median, Media, Número de casos, Desviación Típica Añadir

en la casilla de la lista de Estadísticos Continue   Title en el cuadro de diálogo de

OLAP cubes.

Escribimos Estadísticas Descriptivas como título; también escribimos Por

cambio del cliente y Región eográfica como pie de nota Continuar Acep ta r .

La pantalla de resultados despliega la tabla 10.3

Ahora vayamos a la pantalla de resultados y hagamos doble click en la tabla

Aparecerá otro cuadro con dos títulos:

Churn within last month y su casilla Total.

Geographic Indicator y su casilla Total

Pulsamos la fleche direccional de Churn y elegimos Yes; aparecerá una tabla

nueva con los valores de los estadísticos de Churn within last month

Si pulsamos la flecha direccional de Geographic Indicatoraparecerá un

pequeño cuadro de opciones sobre la zona que deseamos analizar

Escogemos, v.g. Zona 1, aparecerá un cuadro con los estadísticos de las

variables  para la Zona 1; lo mismo para las demás.

2 0 0

mailxmail - Cursos para compartir lo que sabes

Page 201: Estadística aplicada con SPSS. Módulo I

65. Uso de OLAP cubes para análisis estadísticos

En este acápite aprenderemos a captar la información escondida en las tablas

que hemos diseñado; lo haremos usando la misma opción OLAP cubes y las tablas

que ya tenemos.

Nuestra meta es tener información específica de la variable Chum por cada

zona

Realizamos el mismo proceso que hicimos para lograr la tabla 10.3

2 0 1

mailxmail - Cursos para compartir lo que sabes

Page 202: Estadística aplicada con SPSS. Módulo I

Hacemos doble click sobre ella en el Menú principal de la Pantalla de

Resultados se activará Pivotar, que es parte de un menú particular.

Pulsamos el botón que dice Paneles de Pivotado y se nos presenta una

pantalla a color.

En la pantalla verde de la izquierda hay dos casillas:

Churn within last month: Total y Geographic indicator: Total

En la parte derecha hay tres casillas verticales, la primera de ellas tiene

inscrito el nombre de Variable y dos más a su derecha, las que están en blanco.

Arrastramos la variable Churn within last month hasta la casilla vertical que

está en blanco, al lado derecho de la casilla Variable.

La Variable Geographic Indicator queda en la primera casilla de la pantalla

verde.

Esto quiere decir, que la tabla que obtendremos estará controlada por la Zona.

Cerramos la tabla de pivotar y en la pantalla de resultados se nos aparece el

cuadro con los datos, la misma que será copiada en la próxima página como tabla

10.4

En este caso, la variable que controla es Geographic Indicator.

Las otras variables aparecen en parte izquierda de la tabla.

La Variable Churn within last month se muestra ahora  bajo dos formas:

Yes, para los tránsfugas que se van a otra firma

No, para los que continúan durante el periodo de análisis

De los datos disponibles obtenemos una información mucho más completa.

Ahora bien, supongamos que deseamos la misma información que está en la

tabla 10.4, pero clasificada por cada una de las zonas, no por el total.

Para conseguir esa información, hacemos doble click en la tabla que se

encuentra en la pantalla de resultados y que acabamos de copiar con el nombre de

tabla 10.4.

Como respuesta aparece otra tabla, pero se diferencia de la original porque al

2 0 2

mailxmail - Cursos para compartir lo que sabes

Page 203: Estadística aplicada con SPSS. Módulo I

lado del título Geographic Indicator en la en la parte superior, aparece una casilla

“Total”.

Pulsamos la flecha de dirección y tendremos un menú con las siguientes

opciones:

Zona 1, Zona 2, Zona 3

Escogemos, vg. Zona 1, la pantalla nos ofrece la información específica sobre

la Zona 1.

Lo mismo con las otras zonas.

Ahora, supongamos que deseamos que las tablas estén controladas por la

variable Churn within last month; para lograrlo hacemos doble click en la pantalla

anterior

Aparece otra vez el menú Pivotar en la parte superior, pulsamos el botón que

dice Paneles de Pivotado y se nos presenta la pantalla a color.

Ahora, trasladamos a la casilla vertical de la pantalla derecha la variable

Geographic indicator, dejando en la pantalla verde la variable Churn within last

month.

La tabla que se presentará nos mostrará un cuadro con las zonas

especificadas y los totales para cada una; hagamos doble click en esa tabla y

tendremos una nueva opción.

En la parte superior aparecerá un cuadrito de diálogo al lado de Churn within

last month.

Abierto el cuadro, tendremos las opciones “Yes”, para los tránsfugas, “No”

para los fieles

Además del total se puede escoger la opción Yes o la No para obtener

estadísticos acerca del comportamiento de los tránsfugas y los fieles.

Manipulando de diferentes maneras las posibilidades, incluyendo los

estadísticos, llegamos a la tabla 10.5.

Nos enteramos, por ejemplo, que a través de las zonas geográficas los

“tránsfugas” (chumers) tienen mucho menos tenure, casi la mitad de los clientes no

tránsfugas.

2 0 3

mailxmail - Cursos para compartir lo que sabes

Page 204: Estadística aplicada con SPSS. Módulo I

La tabla 10.5 nos da la información sobre la Mediana de cada una de las

variables clasificadas por zonas, los datos vienen de acuerdo con el orden que

fueron demandadas.

La Mediana nos muestra que, por lo general,  los tránsfugas tienen un ingreso

más bajo que los fieles; sin embargo esa diferencia no se expresa en la variable

gastos

El gasto mensual por el uso de los servicios que demandan, no difiere de los

clientes que no son tránsfugas; ése es un dato muy revelador.

Por lo tanto, podemos decir que los tránsfugas gastan en los servicios que

requieren cantidades más que proporcionales a sus ingresos, en relación a los no

tránsfugas.

También notamos que, de acuerdo con la Mediana, los tránsfugas que viven

en la zona 1 tienen un ingreso más alto que los clientes no tránsfugas.

Pero esos estadísticos no se cumplen con la Media; manipulen los comandos

necesarios para comprobarlo, no sólo en este caso, sino en una gran variedad de

comportamientos.

Por otra parte, parece existir una interacción entre transfugio y zona, con

relación a los meses que utilizan el servicio, si vemos el total de las zonas

La Mediana para los no tránsfugas en la Zona 1 es 41.5 meses, en tanto que

para los tránsfugas es 17 meses apenas.

Resumen

2 0 4

mailxmail - Cursos para compartir lo que sabes

Page 205: Estadística aplicada con SPSS. Módulo I

Resumen

Utilizamos técnicas apropiadas para analizar las variables con la introducción

de capas, lo que amplía significativamente la información que necesitamos sobre

diversos temas.

Estos instrumentos nos serán muy útiles cuando desarrollemos capítulos más

avanzados

El uso de OLAP cubes es útil cuando queremos concentrarnos en las

diferencias entre las características de grupos; también sobre los estadísticos

descriptivos en general.

2 0 5

mailxmail - Cursos para compartir lo que sabes

Page 206: Estadística aplicada con SPSS. Módulo I

66. Error típico de la medida

Empezaremos explicando dos conceptos muy importantes.

Error Típico

En estadística se usa, indistintamente, los términos Desviación Estándar o

Error típico.

Ambos se refieren a la medida de dispersión de la distribución de los valores

de una muestra con relación a la media de esa muestra; nosotros utilizaremos el

Error Típico.

El Error Típico de la Media

Por otra parte, algunos textos de Estadística usan la expresión Error Estándar

de la Media, la que exige una pequeña síntesis explicativa.

Como éste es un curso de Estadística Aplicada, no incluimos demostraciones

ni fórmulas; más bien damos por aprobadas todas las demostraciones y fórmulas

usadas por el SPSS.

En el capítulo de muestreo vimos que era posible extraer una gran cantidad

de muestras diferentes de cualquier población dada, cada una con su respectiva

Media.

Pero, el Teorema del Límite Central establece que la media de una muestra

cualquiera reflejará la Media verdadera de la Población.

Se tendrá tantas Medias como muestras se conciba y cada una de estas

medias tendrá una desviación propia con relación a la Media verdadera de la

población.

Es a esta desviación que la mayoría de los libros de Estadística denomina Error

Estándar de la Media; nosotros utilizaremos Error Típico de la Media.

Ya tuvimos oportunidad de operar con la Tabla de Distribución “t” para

resolver problemas manuales usando la fórmula respectiva.

En este capítulo conoceremos más no sólo acerca de la historia de la

Distribución “t” sino de las aplicaciones que tiene en la dimensión estadística.

2 0 6

mailxmail - Cursos para compartir lo que sabes

Page 207: Estadística aplicada con SPSS. Módulo I

En el capítulo respectivo usamos la distribución “z” que se refería a la curva

normal, la que podía ser utilizada cuando las muestras eran “grandes”.

Es decir, que contuvieran un número de elementos mayor a 30. La

distribución “t” permite operar con muestras menores a 30.

La distribución “t” al igual que la de X2 introdujo el concepto de grados de

libertad, término que surge de la formulación de la varianza de la muestra.

Recordemos que la varianza es la sumatoria de los cuadrados de la diferencia

de cada elemento de la muestra con su respectiva Media. La varianza de la muestra

es:

En la fórmula, “n” es el número de elementos de la muestra.

Por ejemplo, si la muestra tiene 12 observaciones, las diferencias de las

primeras 11 observaciones con relación a su media (Xi- X*) determinarán el valor de

la última.

Es por eso que la expresión (n – 1) recibe el nombre de grados de libertad.

En esta primera parte del capítulo analizaremos la distribución “t” como el

instrumento que nos permite testar las hipótesis que realizamos.

2 0 7

mailxmail - Cursos para compartir lo que sabes

Page 208: Estadística aplicada con SPSS. Módulo I

67. Test "t" Hipótesis de una Muestra. Problema decontrol de calidad

Test “t” de Hipótesis de una Muestra

Testa la diferencia entre la media de una muestra la media que se mantenía

como hipótesis; nos permite especificar el nivel de confianza para la diferencia.

También despliega una tabla de estadísticos descriptivo para el test de cada

variable.

Un problema de Control de Calidad

Una fábrica de automóviles de alto rendimiento produce discos de frenos,

cuyo diámetro debe ser de 322 milímetros en promedio.

Planteamos el problema de la siguiente manera:

Ho : = 322

H1: 3 2 2

Obsérvese que la hipótesis alternativa  sólo propone que la es diferente de

322 mm, por lo tanto, la puede ser mayor o menor, lo que requiere un análisis de

dos colas.

Ahora tomaremos los datos emergentes de la muestra tomada por el

departamento del control de análisis, consistente en 16 discos tomados al azar,

para medirlos

Usaremos el archivo brakes.sav y un haremos un T Test de una muestra para

determinar si las medidas de los diámetros de los frenos difieren significativamente

de los 322 mm.

La variable nominal, Machine Number identifica la máquina de producción

usada para fabricar los discos de freno.

Los datos de la producción de cada máquina deben ser testados como

muestras separadas, por lo que dividiremos las máquinas en grupos separados

Pero las identificaremos por sus respectivos números.

Para dividirlos, vamos al menú principal y escogemos: D a t a Segmentar

2 0 8

mailxmail - Cursos para compartir lo que sabes

Page 209: Estadística aplicada con SPSS. Módulo I

Para dividirlos, vamos al menú principal y escogemos: D a t a Segmentar

archivo Comparar los grupos introducir la variable número de la máquina

Aceptar.

Las máquinas han sido divididas por el número que las identifica

específicamente.

Había 8 máquinas, de cada una de la cuales se extrajo una muestra de 16

elementos.

Cumplida esta fase preliminar, empezamos el análisis de t-test de una

muestra.

El test Student para una muestra asume que la población tiene una

distribución normal

El test Student para dos muestras testa la hipótesis de que las medias de dos

poblaciones, son iguales, pero cada distribución es normal y las varianzas entre sí

son iguales

Para testar la hipótesis nula de la media de las poblaciones se usa la siguiente

fórmula:

                                           

La media de la muestra es la x con barra, s la desviación estándar de la

muestra y n es el tamaño de la muestra; los grados de libertad son  n – 1.

2 0 9

mailxmail - Cursos para compartir lo que sabes

Page 210: Estadística aplicada con SPSS. Módulo I

68. Test "t" de una muestra. Resultados

El Test “t” de una Muestra

Menú pr inc ipal Analizar Comparar medias Prueba T para una Muestra

Disc Brake Diameter (mm) como la variable a ser testada.

Hay en ese cuadro de diálogo una casilla inferior  que dice Valor de la Prueba; 

en esa casilla escribimos 322, pues éste es el valor que deseamos testar.

Options en la casilla superior aparece porcentaje del intervalo de confianza

y por defecto, la cifra 95 que nosotros aceptamos.

Esto significa que el programa nos dará un valor mínimo y otro máximo

dentro de los cuales son válidos los valores que buscamos.

En este caso, “95” significa que los valores, mínimo y máximo del intervalo

respectivo, aceptan el 95% como el nivel de significación; es decir, un nivel de

significancia del 5%.

Aceptamos en la caja de diálogo de Prueba T para una muestra.

La tabla de resultados nos despliega dos tablas: la de Estadísticos para una

Prueba y la que se identifica como Prueba para una Muestra.

La tabla 11.1, Estadísticos para una Muestra despliega el tamaño de la

muestra, la media, la desviación típica y el error típico para cada una de las ocho

muestras.

La tabla 11.1 registra las medias de cada una de las 8 muestras que se tomó

para el análisis; cada muestra consta de 16 elementos.

Las medias de cada muestra no parecen alejarse mucho de los 322 mm.

A primera vista, se nota que hay diferencias entre las medias de las muestras

y los 322 mm; pero necesitamos saber si las diferencias son estadísticamente

significativas.

2 1 0

mailxmail - Cursos para compartir lo que sabes

Page 211: Estadística aplicada con SPSS. Módulo I

Esa información nos la proporcionará la tabla 11.2

La tabla11.2, Prueba para una Muestra consigna los resultados que estamos

buscando. Cada uno de los valores “t” ha sido calculado del siguiente modo.

Primero: Se ha establecido la diferencia al cuadrado entre 322 mm y cada uno

de los valores de las medias observados para cada muestra.

Segundo: ha dividido el total de estas diferencias por el Error típico de la

media de la muestra; la columna gl expone los grados de libertad que se usó en el

test, esto es, 15.

La columna Sig (que en este caso es de dos colas) muestra la probabilidad de

los valores “t” para 15 grados de libertad, debido a que cada una de las muestras es

de 16 elementos

La columna Sig (que en este caso es de dos colas) muestra la probabilidad de

los valores “t” para 15 grados de libertad.

La columna Sig muestra las probabilidades de obtener un valor absoluto igual

o mayor al observado por el estadístico “t”.

La columna de la diferencia de la Media se obtiene sustrayendo el valor

testado (322) de la media de cada muestra

Los intervalos de confianza de la diferencia de medias muestran los límites

mínimo y máximo, conformando los rangos en los que se encuentran las medias

respectivas.

Los intervalos de confianza así establecidos se apoyan en el nivel de

confianza del 95%

2 1 1

mailxmail - Cursos para compartir lo que sabes

Page 212: Estadística aplicada con SPSS. Módulo I

Lo que es lo mismo, aceptan un nivel de significancia (o error) del 5%.

Por lo general, ambos estadísticos, los límites, superior e inferior del Intervalo

de Confianza y el valor Sig de una muestra van en la misma dirección.

2 1 2

mailxmail - Cursos para compartir lo que sabes

Page 213: Estadística aplicada con SPSS. Módulo I

69. Análisis de Estadísticos de muestras porseparado. Máquinas

Analicemos los estadísticos de cada muestra por separado.

Máquina 1

Los límites del intervalo de confianza para la Diferencias de Medias van de

-0,007431 a 0,004459, es decir de un valor negativo a un positivo.

Pero, la diferencia con la Media es -0,0014858, negativa y su valor Sig es

0.602, superior a 0.05, por lo tanto, para la máquina 1 aceptamos la Ho.

Máquina 2

La Diferencia de la Media es 0,0142629, positive, el Intervalo de Confianza

para la diferencia de la Media  va de 0,008566 a 0,019960, ambos superan el valor

0.00.

Su valor Sig es 0.00, menor que 0.05.

Sobre la base de estos datos rechazamos la Ho., esto es, deducimos que la

máquina 2 produce discos de frenos de un diámetro diferente de 322 mm.

Además, sobre la base del intervalo de confianza que ubica a la media entre

dos valores positivos, podríamos deducir que la máquina 2 produce discos mayores

a 322 mm.

Máquina 3

2 1 3

mailxmail - Cursos para compartir lo que sabes

Page 214: Estadística aplicada con SPSS. Módulo I

La diferencia de Media es -0,0017174; el Intervalo de Confianza de la

Diferencia de la Media va de -0,007302 a ,003868 y su nivel Sig es 0,522, mucho

mayor que 0.05.

Aceptamos la Hipótesis nula.

Del mismo modo procedemos para el análisis de resultados de las otras

máquinas; si hay discrepancia entre el Sig y el Intervalo de Confianza se aceptará el

valor Sig.

2 1 4

mailxmail - Cursos para compartir lo que sabes

Page 215: Estadística aplicada con SPSS. Módulo I

70. Test "t" de dos muestras. Test "t" pareado (1/2)

El Test “t” de dos Muestras

Vimos que el test “t” de una muestra se usa cada vez que una media debe ser

comparada con un valor dado en la hipótesis nula.

En todo caso, se asume que los datos están razonablemente distribuidos en

una curva normal, eso es muy importante para avalar cualquier prueba “t”.

Sobre todo, por la asimetría; por ello, los valores extremos o outliers deben

ser chequeados, tarea en la que, como vimos, los Diagramas de Caja son muy útiles.

Hay procedimientos para testar el supuesto de distribución normal, algo que

estudiaremos en un capítulo próximo.

El Test “t” de dos muestras acepta la división entre test pareados y tests no

pareados.

El Test “t” pareado

Uno de los diseños experimentales más comunes es el de “Antes y Después”.

Consiste en tomar dos medidas sobre el mismo sujeto: una antes y otra

después de la adopción de un tratamiento cualquiera; la idea básica es simple.

La hipótesis nula sostiene que no hay diferencia entre ambas muestras; eso

es, si el tratamiento no tiene efecto la diferencia de los promedios entre las medias

es igual a 0.

En ese caso aceptamos la Hipótesis Nula de que no hay diferencia entre

ambos tratamientos; nuestro planteamiento es:

H o : 1 = 2

H1: 1   2

Por el otro lado, si el tratamiento tiene efecto, la diferencia de los promedios

antes y después del tratamiento, será diferente de cero, por lo que se rechazará la

hipótesis nula.

El procedimiento del test T pareado se usa para testar la hipótesis de que no

hay diferencia entre dos variables.

2 1 5

mailxmail - Cursos para compartir lo que sabes

Page 216: Estadística aplicada con SPSS. Módulo I

hay diferencia entre dos variables.

Los datos pueden ser considerados como dos medidas tomadas del mismo

sujeto.

También podemos interpretarlo como una medida de igualdad entre dos

sujetos.

Adicionalmente, el procedimiento ofrece estadísticas descriptivas para cada

variable.

La correlación de Pearson entre cada par de variables y su nivel de

significación.

Un intervalo de confianza con un nivel de confianza del 95% para la diferencia

promedio

Ejemplo

Un médico está evaluando una nueva dieta para sus pacientes con un historial

familiar de enfermedades del corazón.

Para testar la efectividad de la dieta, 16 pacientes la tomaron por 6 meses.

Sus pesos y los niveles de triglicéridos fueron medidos antes y después de la

dieta.

El médico quiere saber si hubo variación en los datos; este ejemplo usa el

archivo.

De inmediato nos damos cuenta de que el problema es de “antes y Después”.

Vamos a usar Test “t” de muestras pareadas para determinar si hay una

diferencia estadísticamente significativa entre los pesos y los triglicéridos antes y

después de la dieta.

El Término Estadísticamente Significativo se usa cuando las pruebas nos dan

razones para deducir que hay o no hay una Diferencia Estadísticamente Significativa.

Vamos a resolver el problema por medio del SPSS, para lo cual traemos a la

pantalla el archivo: dietstudy.sav.

Del Menú pr inc ipal Anal izar Comparar Medias Muestras Relacionadas T

Test

2 1 6

mailxmail - Cursos para compartir lo que sabes

Page 217: Estadística aplicada con SPSS. Módulo I

Elegimos Triglicéridos Final y Triglicéridos como el primer par de variables

pareadas.

Elegimos Peso Final y Peso y como el segundo par

Es preciso tener en cuenta que en la primera casilla van dos variables: el par

Triglicéridos Final y Triglicéridos; y en la segunda, también dos: Peso Final y Peso.

El test comparará el primer par entre sí y el segundo par entre sí.

Aceptamos

La Tabla 11.3 despliega la diferencia promedio entre los niveles de triglicérido

y de los pesos antes y después de la dieta.

También se muestra la desviación típica de la diferencia promedio de ambos

grupos.

Los niveles de triglicéridos han bajado entre 14 y 15 puntos.

El error típico  de la Media nos proporciona un índice de variabilidad de lo

que se puede esperar en muestras aleatorias repetidas, similares a la que ahora se

analiza.

En cuanto al peso, los sujetos han perdido  alrededor de 8 libras en promedio

con la aplicación de la dieta.

Lo que deseamos testar es si esa diferencia es Estadísticamente Significativa.

2 1 7

mailxmail - Cursos para compartir lo que sabes

Page 218: Estadística aplicada con SPSS. Módulo I

71. Test "t" de dos muestras. Test "t" pareado (2/2)

En la tabla, vemos que las muestras relacionadas con los niveles de

triglicéridos  tienen un Coeficiente de Correlación de Pearson de 0.286 y un nivel Sig

de 0,283.

La Casilla “Correlación” muestra el Coeficiente de Correlación de Pearson, el

mismo que estudiaremos con mayor detalle en próximos capítulos.

Especialmente, cuando ingresemos al tema de Regresión.

Mientras tanto diremos que su valore para la diferencia de triglicéridos

(-0.286) no es estadísticamente significativo, pues su nivel Sig es mayor que 0.05.

Con estos primeros datos podríamos decir que no hay una diferencia

estadísticamente significativa en la cantidad de triglicéridos cuando se comparan

ambas medias.

Esto es de las muestras: antes y después de la dieta.

Por el otro lado, la Correlación de Pearson para el peso, entre pre y post dieta

es 0.996, coeficiente que designa una correlación casi perfecta entre ambas medias.

Este dato nos indica  que todos los sujetos perdieron peso consistentemente.

Ahora necesitamos saber si las diferencias en ambos test son

estadísticamente significativas; para ello traemos la tabla 11.5, Prueba de muestras

relacionadas

El intervalo de confianza de la diferencia, al nivel del 95%, nos provee un

estimado de los límites entre los que se encuentra la Media de la diferencia entre los

grupos.

Precisamente, ése es el resultado que nos interesa.

Este intervalo de confianza es similar a cualquier otra muestra de 16

2 1 8

mailxmail - Cursos para compartir lo que sabes

Page 219: Estadística aplicada con SPSS. Módulo I

elementos que se hubiera logrado de la misma población para aceptar la dieta

durante los seis meses.

El estadístico “t” se obtiene dividiendo la media de la diferencia por su error

típico

En este caso se usó una distribución “t” de dos colas (H1: 1   2) cuyos

valores deben ser comparados con los de la tabla de la distribución de t.

Pero eso es cuando hacemos los ejercicios manualmente, en esta ocasión, el

SPSS lo hace

El valor Sig de “t” que es 0.249 para los triglicéridos y es mayor que 0.05, lo

que significa que la dieta no fue eficaz en reducir sus niveles.

Sin embargo el nivel Sig para la pérdida de peso es 0.00, nivel que es menor

que 0.05.

Basados en esta información podemos concluir que el promedio de la pérdida

de peso de 9.06 libras por paciente es estadísticamente significativa, se debe a

eficacia de la dieta.

En este caso, no aceptamos la hipótesis nula que sostiene que hay igualdad

de medias.

No hay igualdad de medias; en este caso aceptamos la hipótesis H1.

La conclusión a la que podríamos llegar es que la dieta no es efectiva para el

tratamiento de triglicéridos pero sí lo es para la reducción del peso.

Hasta aquí hemos analizado dos de las tres opciones del análisis del Test “t”:

El que corresponde al estudio de los estadísticos de una muestra, la que

2 1 9

mailxmail - Cursos para compartir lo que sabes

Page 220: Estadística aplicada con SPSS. Módulo I

El que corresponde al estudio de los estadísticos de una muestra, la que

necesita ser comparada con una Media ya existente.

Por el otro lado, hemos estudiado las características relativas al análisis de las

diferencias de Medias cuando se tiene dos muestras relacionadas entre sí.

Para completar este capítulo, nos corresponde el estudio de dos muestras, las

que, a diferencia de las dos que ya revisamos, no se relacionan entre sí

Esto es, se trata de dos muestras independientes una de la otra.

2 2 0

mailxmail - Cursos para compartir lo que sabes

Page 221: Estadística aplicada con SPSS. Módulo I

72. Test "t" para muestras independientes

Analizaremos ahora la diferencia entre las Medias de dos muestras

independientes una de la otra; la opción que vamos a usar también nos provee de la

siguiente información:

Ambas muestras deben tener el mismo número de elementos y la misma

varianza.

Cuando estas condiciones no se cumplen, hay otros métodos que usaremos

en los próximos capítulos; mientras tanto, asumiremos que las dos condiciones se

cumplen.

Para testar las medias de dos muestras, con las condiciones establecidas, el

SPSS emplea la siguiente fórmula:

El denominador del test “t” Student tiene la siguiente expresión:

La misma que designa  la desviación estándar grande, es la desviación

conjunta para los grupos 1 y 2 que se quieren testar

El denominador de t es la desviación estándar de la diferencia entre las dos

medias testadas y los grados de libertad son 2n – 1.

Ejemplo

Un analista de una tienda de departamentos quiere evaluar la promoción de

una nueva tarjeta de crédito; para ello fueron escogidos, al azar, 500 propietarios de

la tarjeta.

La mitad de ellos recibió una promoción adicional; se les redujo la tasa de

interés sobre las compras que realizaren en los próximos tres meses.

La otra mitad no recibió ningún beneficio.

Para este ejemplo traemos a la pantalla de datos el archivo creditpromo.sav

2 2 1

mailxmail - Cursos para compartir lo que sabes

Page 222: Estadística aplicada con SPSS. Módulo I

Sobre la información que el archivo nos trae aplicaremos un Test T para

comparar los gastos ambos grupos.

Menú Analizar Comparar Medias Independent

En la casilla superior introducimos $ spent during promotion como la variable

que será testada; en la de abajo, como Variable de grupo insertamos Type e mal

received.

Una vez introducida la variable de grupo, en la misma casilla aparecen dos

signos de interrogación entre paréntesis; debajo de la casilla hacemos click en

Definir grupos.

Escribimos 0 para el valor del grupo 1.

Escribimos 1 para el valor del grupo 2 Continuar Aceptar

La tabla 11.6, Estadísticas de Grupo  despliega el tamaño de la muestra, la

media, la desviación típica y el error típico para cada uno de los dos grupos.

En promedio, los clientes que recibieron la tasa de interés reducida de

promoción cargaron a su tarjeta de crédito alrededor de 70$ más que el otro grupo.

2 2 2

mailxmail - Cursos para compartir lo que sabes

Page 223: Estadística aplicada con SPSS. Módulo I

73. Análisis del test de "Levene". Igualdad devarianzas

La prueba de dos muestras independientes exige que ambas tengan la misma

varianza

La Prueba Levene testa si las varianzas de dos grupos son iguales entre sí.

La tabla de la prueba de Levene es muy extensa para traerla.

La hipótesis nula de la Prueba Levene sostiene que las varianzas de los

grupos son iguales entre sí; la hipótesis alternativa, supone que las variables son

diferentes entre sí.

Una de las ventajas del test Levene es que no exige normalidad en las

distribuciones y es usado antes de una comparación entre medias.

Cuando el test de Levene es significante, se usa procedimientos que no

asumen varianzas iguales; por eso es que el SPSS realizó dos tests de la diferencia

entre los dos grupos.

El nivel Sig cuando se asume que la varianza de los grupos es igual, es 0.276,

valor superior a 0.05, lo que nos indica que la varianza es similar en ambos grupos.

Si bien el SPSS testó para “se ha asumido varianzas iguales” nada nos dice

sobre el segundo test, el que debería testear “No se han asumido varianzas iguales”

La opción del Pivote

Con la opción Pivotear solamente nos muestra la información acerca de la

igualdad de varianzas; hagamos doble click en la tabla del Test para activarla.

En el Menú Pivot Pivoting trays

En la segunda casilla vertical de la pantalla verde ya está la variable Supuestos.

Cerramos la ventana

Con la tabla de test ya pivoteada, los supuestos ya están en la capa, el

supuesto de No se ha supuesto varianzas iguales aparece en la nueva tabla

desplegada

La columna “t” pone a nuestra disposición los estadísticos observados para

2 2 3

mailxmail - Cursos para compartir lo que sabes

Page 224: Estadística aplicada con SPSS. Módulo I

cada muestra

La columna gl exhibe los grados de libertad; para un test de independencia

de muestras, los grados de libertad son iguales al número de casos en las dos

muestras menos 2.

La columna de Sig (para dos colas) despliega la probabilidad de la distribución

con 498 grados de libertad

Los valores obtenidos en la columna ordenan la probabilidad de lograr un

valor absoluto mayor o igual que el estadístico “t” observado.

El intervalo de confianza de la diferencia de grupos, al 95%, nos provee un

estimado de los límites entre los que se encuentra la verdadera media de diferencias.

El nivel de Sig del test para ambas alternativas son iguales.

Cada uno tiene el valor de 0.024 que es menor que 0.05.

Con este último estadístico podemos llegar a una conclusión

La diferencia de medias que nos muestra la tabla es de 71.11 dólares.

De acuerdo con los datos de la tabla pivoteada, Prueba de Pruebas

Independientes, los 71.11dólares adicionales gastados por los clientes que

recibieron la tasa de interés reducida está asociada a la política de promoción

realizada.

La empresa decide continuar con la nueva política.

2 2 4

mailxmail - Cursos para compartir lo que sabes

Page 225: Estadística aplicada con SPSS. Módulo I

74. Análisis comparativo entre ANOVA y test "t"

En el capítulo referido a la presentación inicial del ANOVA dijimos que la

palabra deriva de sus iniciales en inglés Análysis of Variance.

Conceptos

El Test “t” es muy útil para muestras pequeñas y para establecer la diferencia

entre las Medias Aritméticas de dos variables solamente.

ANOVA amplía el rango del “t” test para determinar si las medias de varios

grupos, no sólo de dos, son o no iguales

Si tenemos deseamos analizar la variabilidad de una variable numérica debido

al comportamiento de otra, pero de tipo categórica, ésta última recibe el nombre factor

factor

En este caso, estaremos hablando del análisis de la varianza para un solo

factor, aunque este factor, a pesar de ser solo uno, puede tener varios niveles.

Un ejemplo sería el análisis de los promedios del ingreso de dos grupos

independientes de funcionarios de dos empresas, de acuerdo con el grado de

educación que tienen.

La variable dependiente, cuantitativa, será el Ingreso.

El grado de educación será el factor

Las fases: primaria, secundaria, universitario y post grado serán los niveles

del factor educación

ANOVA compara las medias de ambos grupos para establecer si hay o no

diferencia y, en su caso, el grado de diferencia.

Estos niveles pueden ser fijos, tales como los que acabamos de describir;

también pueden ser aleatorios; v.g, si se escoge al azar las empresas que

participarán en el estudio.

Si los resultados proporcionados por las muestras no tienen errores

sistemáticos, sus medias no serán significativamente diferentes entre sí.

La dispersión que pudiera notarse se deberá a errores aleatorios que

2 2 5

mailxmail - Cursos para compartir lo que sabes

Page 226: Estadística aplicada con SPSS. Módulo I

representarán la dispersión de los elementos de una muestra

Fuentes de variación

Habrá dos fuentes de variación cuando comparamos dos muestras:

La que se debe a la diferencia de los estadísticos que separan ambas medias.

La que se debe a los errores dentro de cada muestra.

La Suma Total de Cuadrados

La Suma total de estas variaciones se denomina Suma Total de Cuadrados =

SST

Esta Suma Total se descompone en dos sumas de cuadrados.

STT  Es la suma de las diferencias al cuadrado de cada resultado individual

con relación a la Media de todos los resultados, por lo que representa la variación

total de los datos.

SSI Mide las desviaciones entre los resultados individuales de cada muestra

con relación a su propia Media, por lo que es una medida de dispersión dentro de

cada muestra.

SSE mide las diferencias entre los resultados medios de cada muestra y el

resultado medio global de todas las muestras; de este modo se tiene:

STT = SSI + SSE

Si se divide SSI  por los correspondientes grados de libertad se obtiene la

Media Cuadrática (Mean Square) dentro de cada muestra (MSI)

De esta manera, STT = SSI + SSE

¿Por qué “Diferencia de cuadrados”?

Tomemos la siguiente serie de números: 1, 2, 3, 4, 5

La Media aritmética de esa serie será: (1 + 2 + 3 + 4 + 5)/5 = 3

Ahora bien, tomemos la suma de cada elemento individual con relación a la

media:

(1 – 3), (2 – 3), (3 – 3), (4 – 3), (5 – 3) y las sumemos, -2 + (-1) + 0 + 1 + 2 =

2 2 6

mailxmail - Cursos para compartir lo que sabes

Page 227: Estadística aplicada con SPSS. Módulo I

0

El resultado es 0: los valores negativos de las diferencias se contrapesan con

los positivos

Para evitar que eso suceda, se suma los cuadrados de las diferencias, puesto

que los cuadrados de números negativos o positivos siempre serán positivos.

De esta manera tendremos:

(1 – 3)2 + (2 – 3)2 + (3 – 3)2 +  (4 – 3)2 +  (5 – 3)2 = 1 + 1+ 0 + 1 + 4 = 7

Éste resultado es la Suma de Cuadrados, que se usa para medir las diferencias.

Por el momento, nos enfocaremos en el modelo ANOVA de una sola vía (One

way ANOVA).

2 2 7

mailxmail - Cursos para compartir lo que sabes

Page 228: Estadística aplicada con SPSS. Módulo I

75. ANOVA de una sola vía. One way ANOVA.Aplicaciones (1/3)

Se usa el One Way ANOVA para testar la hipótesis de que las medias de dos o

más grupos son o no son significativamente diferentes unas de las otras.

También ofrece estadísticos a nivel grupal para la variable dependiente.

Nos proporciona, además, un test de igualdad de varianzas, una nube de

puntos de medias de grupo y un test de rango de comparaciones múltiples y

contrastes.

Con este último estadístico se describe la naturaleza de las diferencias de

grupo.

Ejemplo

Un gerente de ventas quiere determinar el número óptimo de días de

entrenamiento para algunos empleados nuevos.

Hasta el momento tiene los datos del desempeño de los tres siguientes

grupos:

Empleados con uno, dos y tres días de entrenamiento.

Para empezar el análisis de esos datos traemos el archivo

salesperformance.sav

Antes de correr el ANOVA es necesario graficar las medias y los errores

típicos.

Menú principal Gráficos Generador de gráficas galería de barras

lista de tipos de gráfica.

Arrastramos con el mouse el ícono de Simple Bar dentro del espacio superior.

Arrastramos Score on training exam en el eje de la Y’s.

Con el botón derecho del mouse, hacemos click en Sales training group y

elegimos Nominal para el nivel de medida.

Arrastramos Sales training en el eje de las X’s; luego hacemos click en

Element Properties.

2 2 8

mailxmail - Cursos para compartir lo que sabes

Page 229: Estadística aplicada con SPSS. Módulo I

Error tìpico en la Barra de Error Represent group; aplicar Aceptamos 

En la tabla 12.1 de resultados aparecerán las siguientes gráficas de error. En

las que observamos que la longitud de los whiskers se hacen más pequeñas a

medida que aumentan los días de entrenamiento.

Esto podría significar que las varianzas de las muestras son diferentes entre sí.

En el siguiente acápite aprenderemos a interpretar los demás resultados.

La variación de las varianzas en los datos de las muestras es muy importante,

puesto que ANOVA asume la igualdad de varianzas a lo largo de los grupos.

2 2 9

mailxmail - Cursos para compartir lo que sabes

Page 230: Estadística aplicada con SPSS. Módulo I

76. ANOVA de una sola vía. One way ANOVA.Aplicaciones (2/3)

Las aplicaciones de ANOVA

El ANOVA requiere que las muestras que serán testadas tengan varianzas

iguales.

Por ello es que, con carácter previo, se testa la hipótesis nula, que asume la

igualdad de varianzas entre las muestras.

Test de igualdad de varianzas

Para testar la igualdad de varianzas de los grupos,

Menú pr inc ipal Analizar Comparar Medias One Way ANOVA

Score on training exam, (variable dependiente) Sales Training group (factor)

Opciones Prueba de homogeneidad de la Varianza Continuar Aceptar

La Pantalla de Resultados consigna dos tablas

La Primera tabla 12.1 es el estadístico Levene, que Testa la homogenidad de

las varianza

Su nivel Sig es 0.014 < 0.05, por lo que rechazamos la hipótesis nula de que

las varianzas de las muestras sean iguales entre sí.

Esa es la primera conclusión a la que llegamos.

Implicaciones de la no igualdad de varianzas

N. George Mankiw, en su libro “A Quick Refresher Course in Macroeconomics,

Journal of Economics Literature noviembre 1990”, afirma al respecto:

“La heterocedasticidad jamás ha sido una razón para desechar un modelo 

que de otra forma sería adecuado”.

2 3 0

mailxmail - Cursos para compartir lo que sabes

Page 231: Estadística aplicada con SPSS. Módulo I

que de otra forma sería adecuado”.

Por su parte, John Fox en su obra “Aplied Regression Análysis”, pg. 306

afirma:

“… una varianza de error desigual vale la pena corregirlo sólo cuando el

problema resulta severo.”

Compara la variación entre los promedios de los grupos con la variación

natural dentro de los grupos; es el resultado de la siguiente relación:

En los siguientes acápites aprenderemos a interpretarlo.

El caso presente

Al no encontrar varianzas iguales, el SPSS obvia el primer cuadro y continúa el

segundo paso; ahora enfocamos nuestro análisis al cuadro de Descriptivos.

Para lograr la tabla de descriptivos:

Menú Principal Analizar Compare Medias ANOVA one factor Score

on training  exam (Variable dependiente) Sales Training group (Factor)

Opciones  Descriptivos C o n t i n u a r A c e p t a r

La desviación típica y error típico confirman que las varianzas no son iguales; 

2 3 1

mailxmail - Cursos para compartir lo que sabes

Page 232: Estadística aplicada con SPSS. Módulo I

pues a medida que los días de entrenamiento aumentan, la variación en el

desempeño decrece

ANOVA controla estas violaciones cuando los grupos tienen el mismo o

aproximadamente el mismo tamaño; podemos transformar los datos o realizar test

no paramétricos.

2 3 2

mailxmail - Cursos para compartir lo que sabes

Page 233: Estadística aplicada con SPSS. Módulo I

77. ANOVA de una sola vía. One way ANOVA.Aplicaciones 3/3)

Otra aplicación de One Way ANOVA

Una firma electrónica está desarrollando un nuevo reproductor de DVD; se

lanzó un prototipo, el que sirvió para que los expertos en mercadotecnia recolecten

datos de grupo.

Se recurrió al test ANOVA para establecer si los clientes de grupos de edades

distintas reaccionaron de maneras diferentes ante el nuevo diseño.

Para averiguarlo, traemos el archivo dvdplayer.sav

Analizar Compar Medias One Way ANOVA Total DVD Assessment,

(dependiente)

Age group (Factor) Opciones Prueba de homogeneidad de las

muestras Gráfico de las Medias Continuar Aceptamos.

La pantalla de resultados registra dos tablas, una de ellas es la tabla 11.4

El nivel Sig del test Levene nos e 0.279  0.05, aceptamos la hipótesis nula: las

varianzas son iguales.

Para analizar la segunda tabla, 11.5 recordemos sobre las sumas de cuadrados

La suma Total (STT en nuestra simbología) es suma de las diferencias al

cuadrado de cada resultado individual con relación a la Media de todos los

resultados.

Representa la variación total de los datos.

La Suma de Cuadrados Intra grupos mide las diferencias entre los valores de

cada muestra con relación a su propia Media.

Es una medida de dispersión dentro de cada muestra; es el error en ANOVA.

2 3 3

mailxmail - Cursos para compartir lo que sabes

Page 234: Estadística aplicada con SPSS. Módulo I

Es una medida de dispersión dentro de cada muestra; es el error en ANOVA.

La Suma de Cuadrados Inter grupos es la Media de las diferencias entre los

elementos de las muestras con relación a la Media general,

En realidad la Suma de Cuadrados Inter grupos es la que importa para los

análisis.

En el cuadro ANVOA vemos que la Suma de Cuadrados Inter Grupo es

1294,481.

El nivel Sig para la suma de cuadrados Inter grupos es 0,000 > 0,05

Si se divide la Suma de cuadrados Inter-grupos entre los correspondientes

grados de libertad, se obtiene la Media Cuadrática (Mean Square)

En este caso, la Media Cuadrática es 258,896.

El valor de la Media Cuadrática para la suma de cuadrados Intra-grupos

también resulta de la división de la Suma de Cuadrados Intra grupos entre sus

grados de libertad.

La Media Cuadrática correspondiente es 6.993.

La Suma Total de Cuadrados es 1294,481 + 2295,532

Los grados de libertad para el total es igual al número de todos los elementos

que fueron tomados en cuenta en las muestras menos 1; en nuestro caso es 67.

Los grados de libertad para la Suma de cuadrados inter-grupos es igual a K-1

donde K es el número de muestras; en nuestro caso, 5.

Los grados de libertad para la Suma de cuadrados Intra-grupos es igual a N –

K,  62.

Ahora nos toca interpretar la Prueba F.

2 3 4

mailxmail - Cursos para compartir lo que sabes

Page 235: Estadística aplicada con SPSS. Módulo I

78. Prueba "f". Análisis del Estadístico

La Prueba F

Contrasta la Hipótesis nula de que las distribuciones normales de las

poblaciones tienen la misma varianza.

Vimos en el anterior cuadro que la Suma de cuadrados Inter-grupo (la Media

de las diferencias entre los elementos de las muestras con relación a la Media

general) es 1294,481

La suma de cuadrados Intra grupos es 2295,532.

Si dividimos esta cifra entre 62 grados de libertad tendremos 32,064.

El SPSS no toma en cuenta esta suma de cuadrados, pero tiene su utilidad,

pues nos sirve para estimar el valor F, el que es definido de inmediato.

Su valor se calcula dividiendo la Media cuadrática Inter-grupos sobre la Media

cuadrática  intra grupos; es decir  la variabilidad explicada sobre la variabilidad no

explicada.

Esto es, 258,8960/37,0250 =  6,9930 que es el valor del estadístico F.

Un valor F con Sig por debajo del 0.05 nos indicará que debemos rechazar la

hipótesis nula, pues las muestras tienen varianzas diferentes.

Ahora bien, el nivel de Sig de F es 0,000, lo que nos indica que se debe

rechazar la hipótesis nula que postula la igualdad de varianzas.

Sobre este resultado es posible afirmar que los clientes de grupos de edades

distintas reaccionaron de maneras diferentes ante el nuevo diseño.

2 3 5

mailxmail - Cursos para compartir lo que sabes

Page 236: Estadística aplicada con SPSS. Módulo I

Ahora que sabemos que los grupos difieren en sus percepciones sobre el

nuevo modelo DVD necesitamos saber más sobre la estructura de esas diferencias.

La Gráfica 11.2 de Medias nos ayuda a visualizar mejor la estructura.

Así es como notamos que las personas entre 35 y 54 años otorgan una mayor

preferencia a los nuevos DVD’s que las personas de los otros grupos.

Si necesitáramos nuevos análisis, podríamos usar el test de rangos, las

comparaciones de pares o también las características de contraste de One-Way

ANOVA.

En general, el estadístico F establece si hay o no diferencia significativa entre

las medias de los grupos.

Por su parte, las gráficas de Medias sugieren dónde puede estar la diferencia.

Identificar dónde está la diferencia es tan importante como saber que existe.

Con este capítulo concluimos el primer módulo del Curso Estadística Aplicada

I con SPSS

Recorrimos un amplio escenario que incluyó desde los principios básicos

hasta ANOVA.

Es decir, hemos abarcado un curso completo de un semestre formal en

cualquier universidad en la que se enseñe la Estadística.

Espero estar con ustedes cuando decidan tomar los otros tres módulos del

2 3 6

mailxmail - Cursos para compartir lo que sabes

Page 237: Estadística aplicada con SPSS. Módulo I

curso.

2 3 7

mailxmail - Cursos para compartir lo que sabes