Descripcion de Variables Cualitativas

download Descripcion de Variables Cualitativas

of 14

Transcript of Descripcion de Variables Cualitativas

DESCRIPCIN DE VARIABLES CUALITATIVAS En este captulo se exponen las tcnicas ms sencillas que se utilizan para describir una variable cualitativa. Definiremos las variables cualitativas nominales y ordinales, los conceptos asociados a la distribucin de frecuencia y los limitados estadsticos que pueden emplearse en la descripcin. El captulo se cierra con algunos de los procedimientos grficos empleados para representar las distribuciones de estas variables. Datos nominales y ordinales Las variables pueden ser cualitativas o cuantitativas. Variables cualitativas Aquellas que no aparecen en forma numrica, sino como categoras o atributos (sexo, profesin, color de ojos) y slo pueden ser nominales u ordinales. Variables nominales Lo nico que puede hacerse es establecer frecuencias en cada atributo y la igualdad o desigualdad entre los diferentes casos, ver cul es el grupo que tiene mayor frecuencia alcanzando el concepto de moda (y tambin obtener algunas medidas de asociacin cuando se relacionan variables entre s). Variables ordinales Recogen la idea de orden pero no tiene sentido realizar operaciones aritmticas con ellas (acuerdo o desacuerdo con un proyecto de ley) ya que no puede medirse distancia entre una categora y otra. Se puede establecer aqu igualdad y desigualdad, y relaciones como mayor que, y menor que. Puede establecerse orden, pero no medirse distancia dentro de ese orden. La medida estadstica de tendencia central ms apropiada para estas escalas es la "mediana". En una encuesta sobre el gasto turstico se pregunta a los visitantes de una autonoma cul es la impresin que han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes: La impresin que ha tenido de su viaje ha sido: Muy buena. Buena. Normal. Mala. Tambin se pregunta cul es la categora socio-profesional en la que se sita el encuestado: Su profesin es: Profesional liberal. Directivo o empresario. Administrativo. Trabajador manual.

Trabajador Autnomo. Funcionario. Jubilado. Estudiante Otras. Las anteriores variables son de tipo cualitativo, calificndose como de tipo ordinal (la primera) y nominal (la segunda). La distincin entre ellas es clara. En la pregunta sobre la impresin del viaje, la respuesta muy buena indica un nivel de satisfaccin mayor que buena, sta ltima respuesta estara a su vez por encima de normal y mala sealara en nivel mnimo de satisfaccin. Las respuestas pueden, en algn sentido, ordenarse de menos a ms. En cambio, no es posible ordenar de menos a ms las respuestas de una variable como la categora profesional. Las variables cualitativas nominales nicamente ponen nombre a una caracterstica, las variables ordinales llevan asociadas un orden en las respuestas. Las categoras de una variable nominal, al contrario de las de una variable ordinal, no pueden ordenarse de menos a ms. Distribucin de frecuencias, Frecuencia relativa y frecuencia relativa acumulada La principal herramienta de anlisis de una variable de tipo cualitativo es el simple recuento del nmero de los casos dentro de cada categora. Adems de referirnos a las categoras de una variable, emplearemos tambin el trmino valores de la variable. Supongamos que tenemos una variable A, que puede tomar las categoras A1, A2,, AI. El primer objetivo es conocer cuntos individuos tienen cada caracterstica. La principal herramienta de anlisis de una variable de tipo cualitativo es el simple recuento del nmero de los casos dentro de cada categora. En estadstica, el nmero de veces que se repite una de las categoras o valores de la variable se denomina frecuencia o, de manera ms precisa, frecuencia absoluta (que denotaremos ni). Por distribucin de frecuencias se entiende el registro de todas las posibles categoras o valores de la variable, junto con sus frecuencias asociadas. Adems de las frecuencias absolutas se suelen presentar las frecuencias relativas de cada categora. La frecuencia relativa se define como la frecuencia absoluta dividida por el total de observaciones:

Cuando se trabaja con una variable de tipo ordinal (cuyas categoras se pueden ordenar de menor a mayor) se pueden calcular las frecuencias acumuladas. La idea de acumulacin facilita conocer rpidamente el nmero de observaciones que estn por debajo de un determinado valor o categora. Se distingue entre frecuencias acumuladas absolutas y

relativas. La frecuencia absoluta acumulada se define como:

Y la frecuencia relativa acumulada como:

Recuerde que tiene sentido hablar de valores acumulados cuando las respuestas de la variable se han ordenado de menor a mayor, lo que slo es posible si la variable cualitativa es de tipo ordinal. La imagen estndar de una distribucin de frecuencias es tan sencilla como la que se muestra en el (cuadro 1). En la misma apareceran, para el total de n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas, las frecuencias relativas y las frecuencias relativas acumuladas.

Ejemplo 1: El rgimen de propiedad de la vivienda familiar puede considerarse como una variable cualitativa, distinguiendo tres posibles categoras: la vivienda est en alquiler, la vivienda es de propiedad con la hipoteca pendiente o la vivienda es de propiedad sin hipoteca. Ante una muestra concreta de familias, podemos describir de una manera cuantitativa su relacin con la propiedad de su vivienda. En el (cuadro 2) se muestra la distribucin de frecuencias de una muestra de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser cmodo, cuando se graban los datos, convertir las categoras en etiquetas numricas. En nuestro ejemplo se ha definido una variable denominada vivienda que toma un valor igual a 0 cuando la vivienda

es de alquiler, igual a 1 cuando la vivienda es de propiedad pero tiene la hipoteca an vigente y valor 2, si la vivienda es de propiedad y sin hipoteca.

En el cuadro 2 aparecen los siguientes conceptos: Los valores que toma la variable (Value) Para esta variable los valores 0, 1 y 2 reflejan las categoras de alquiler, vivienda con hipoteca vigente y vivienda de propiedad (en la columna Value Label se muestran las etiquetas de la variable). La Frecuencia absoluta (Frequency) El nmero de individuos que tiene cada una de las categoras. La frecuencia relativa (Percent) Definida como el cociente entre la frecuencia absoluta y el nmero total de observaciones. La frecuencia relativa acumulada (Cum Percent) La frecuencia relativa acumulada se define como la suma acumulada de los porcentajes relativos de las categoras anteriores y hasta la propia categora. La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes tiene el mayor porcentaje de individuos. La segunda es la categora de vivienda en alquiler, con un 36.8% de declarantes. Finalmente, la categora con menos individuos corresponde a la de declarantes que viven en vivienda de propiedad, an no pagada. La importancia de cada una de las categoras es fcil de percibir cuando el nmero de categoras de la variable es muy pequeo. Los porcentajes acumulados no tienen una interpretacin inocente cuando se tratan variables de tipo cualitativo. La informacin de que el 56.9% de los individuos viven en rgimen de alquiler o en vivienda propia con hipoteca puede ser una informacin sin sentido. La frecuencia relativa se define como la frecuencia en cada clase dividida por el total de observaciones:

La frecuencia relativa acumulada en cada clase se define, una vez ordenadas las respuestas desde la categora inferior a la superior, como:

En variables de tipo cualitativo nominal el porcentaje acumulado de frecuencias no debe leerse de manera automtica, puesto que al no existir un orden en las categoras, el sentido de la acumulacin puede ser confuso. Diagrama de barras Los resultados de la distribucin de frecuencias se pueden acompaar de ayudas grficas que facilitan la lectura de la informacin. El diagrama de barras representa, para cada una de las categoras de la variable (indicada en uno de los ejes de la grfica), su frecuencia absoluta o relativa (que se muestra en un segundo eje). Su objetivo es disponer de una visualizacin clara y rpida de la importancia de cada una de las categoras de la variable. En la grfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior. El diagrama de barras representa grficamente las frecuencias (absolutas o relativas) de la variable.

Moda En el Ejemplo 1 sobre el rgimen de propiedad de la vivienda uno de los resultados obtenidos era que la categora con un porcentaje mayor de individuos era la 2 (vivienda en propiedad sin hipoteca). Esta percepcin puntual puede convertirse en el primer estadstico de resumen, ya que saber cul es la categora ms frecuente de una variable dice algo del comportamiento general del grupo de individuos. Conocer el valor con mayor frecuencia permite disponer de una medida sinttica de cul es la tendencia general de las observaciones. A este valor se le denomina moda de la distribucin. La moda de una distribucin es el valor de la variable con mayor frecuencia. En ocasiones, las distribuciones de frecuencias se pueden caracterizar en funcin de la

moda, distinguiendo entre distribuciones con una nica moda (distribuciones unimodales) ydistribuciones en las que son dos o ms de dos los valores que alcanzan la mxima frecuencia (distribuciones bimodales o multimodales, respectivamente).

Es difcil encontrar distribuciones empricas que sean multimodales en el sentido estricto en que aqu se han definido, es decir, que de manera exacta varios valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar distribuciones en las que dos o ms valores tienen frecuencias ms altas que los dems. En la prctica estas distribuciones se denominan tambin multimodales. La explicacin de esta flexibilidad puede encontrarla en la comparacin de las grficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que tomara ocho categoras. En la primera distribucin se observa una doble moda, con las categoras A3 y

A7 con superior e igual frecuencias absolutas. En la segunda distribucin la moda seencuentra en la categora A3, pero resulta obvio que cualquier comentario sobre la distribucin que ignorase la categora A7 falseara la imagen de conjunto que se desea transmitir. Hablar de una distribucin bimodal, con una primera moda situada en la categora A3 y una segunda moda en la categora A7 resultara ser un retrato ms fiel de las observaciones.

Mediana En el caso de variables cualitativas ordinales la moda no es el nico estadstico con significado. Puesto que en las variables ordinales existe un sentido de orden en sus categoras, si stas se ordenan de menos a ms, la distribucin de frecuencias acumuladas tendr una interpretacin. La mediana es aquella caracterstica de la distribucin que ocupa la posicin central de la misma. Ordenados los valores de la variable (de menor a mayor), la mediana define aquel punto que deja por debajo de s mismo el 50% de la distribucin. Ordenados los valores de la variable (de menor a mayor) la mediana es aquel valor de la distribucin que ocupa el valor central de la misma. Ejemplo 2. Investigacin comercial de un nuevo producto . Las empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su aceptacin. Una prctica habitual es ofrecer una muestra del producto a algunos consumidores potenciales. Una encuesta posterior permitir conocer el nivel de satisfaccin del consumidor y las modificaciones que podran resultar adecuadas. Supongamos que una empresa productora de un abrillantador de muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre un nmero igual de posibles consumidores, realizando despus una encuesta sobre el nivel de satisfaccin respecto al producto. En el cuadro 3 se reproduciran los resultados obtenidos.

La variable cualitativa presenta cuatro posibles respuestas, indicando cada una de ellas el nivel de satisfaccin del consumidor. Existe una quinta opcin que recoge la categora de aquellas personas que finalmente no han empleado el producto y que, en esta ocasin, se han definido como valores perdidos (missing). En los resultados del programa aparecen dos columnas de porcentajes. En la primera, el total de observaciones (hayan empleado o no el producto) se recoge como referencia para calcular las frecuencias. En la segunda columna (valid percent) se calculan lo que se denominan porcentajes vlidos, calculndose las frecuencias con referencia al nmero de individuos que han empleado el producto. Las caractersticas ms relevantes de la distribucin seran una moda para la categora de bastante satisfactorio (43% de las respuestas vlidas) y un valor mediano en la misma categora, al acumularse dentro de ella el 50% de consumidores. Adems, en los porcentajes acumulados puede leerse que slo el 16,6% de los consumidores consideran el producto nada o poco satisfactorio.

El diagrama de barras de la distribucin se representa en la grfica 4, apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los resultados anteriores el hecho de que la lectura de los porcentajes acumulados (y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa de tipo ordinal.

Pictograma Junto a los diagramas en barra es posible representar la importancia de cada una de las categoras usando otro tipo de grficas. El pictograma no es ms que un crculo en el que se representan las categoras de la variable proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue definiendo los ngulos proporcionalmente a las frecuencias. As, una categora con una frecuencia relativa del 40.4% debera cubrir un ngulo igual a 0.4043600=145.440. En la grfica 5 se representan las frecuencias relativas del ejemplo anterior por medio de un pictograma.

Grfica 5

Diagrama de Pareto Si se quiere resaltar la distribucin de frecuencias acumuladas puede emplearse el denominado diagrama de Pareto. ste no es ms que un diagrama en barras en el que las categoras se ordenan de mayor a menor frecuencia, dibujando sobre las barras una lnea indicativa de la frecuencia acumulada hasta esa categora. La grfica se puede realizar tanto sobre variables nominales como ordinales. El diagrama de Pareto es un diagrama de barras en el que las categoras se ordenan de mayor a menor frecuencia, dibujando una lnea indicativa de la frecuencia acumulada hasta esa categora. Ejemplo 3.

Control de produccin. Una empresa sufre continuas paradas en su cadena de produccin.Dada la importancia de las consecuencias econmicas de estas paradas se decide controlar durante un mes cules son las razones que las ocasionan. Para ello se solicita de los operarios que anoten el tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta hasta que se soluciona el problema. Las causas detectadas (seis causas particulares a este proceso de produccin) as como su frecuencia y el tiempo de parada se reproducen en el (cuadro 4).

En total, como consecuencia de 39 paradas, se han perdido 204 minutos en un mes de trabajo. El tiempo de parada y el nmero de paradas se pueden analizar a partir de los correspondientes diagramas de Pareto. En la grfica 6 se observa que las tres causas ms frecuentes de parada son la sexta, primera y segunda, por este orden. Estas tres primeras causas, tal como se observa en la lnea continua del diagrama, representan un porcentaje alto del total de paradas, en concreto un 79,5% de stas, (11+10+10)/39. En la grfica 7 se puede observar, sin embargo, que no todas las paradas tienen igual importancia en cuanto al tiempo de interrupcin. Las tres primeras causas (primera, sexta y tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el inters de la empresa se encuentra en reducir al mximo el tiempo de parada (y no tanto el nmero de veces en que la produccin

se detiene) debera centrarse en los determinantes de la rotura de tornillos, los desajustes de temperatura y la rotura o bloqueo de cintas.

MEDIDAS DE APUNTAMIENTO Y ASIMETRA

MEDIDA DE APUNTAMIENTO O CURTOSIS Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica Presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

El nmero de das necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales caractersticas han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 das. Calcular la media, mediana, moda, varianza y desviacin tpica.

SOLUCIN:La media Suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone:

La mediana Es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80. Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana.

La moda El valor de la variable que presenta una mayor frecuencia es 60 La varianza S2 Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

S x 2=

La desviacin tpica S Es la raz cuadrada de la varianza.

S = 427,61 = 20.67 El rango Diferencia entre el valor de las observaciones mayor y el menor. 80 - 15 = 65 das El coeficiente de variacin Cociente entre la desviacin tpica y el valor absoluto de la media aritmtica CV = 20,67/52,3 = 0,39 Coeficiente de apuntamiento La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la simetra hemos de tomar una referencia para ver si la distribucin de los datos es apuntada o no. Esa referencia ser la distribucin normal, distinguiremos tres casos que la distribucin sea ms picuda que la normal, igual a ella o ms aplastada. Para poder comparar las distribuciones con la normal podemos tomar el estadstico

La distribucin normal toma para a4 el valor 3, por tanto podemos hacer dos cosas tomar este estadstico y clasificar el apuntamiento en funcin de que su valor sea mayor, igual o menor que 3, o bien hacer una correccin para que el centro de referencia est en cero. Con esta premisa se define el coeficiente de aplastamiento de Fisher (curtosis) como

Teniendo en cuenta el coeficiente de aplastamiento de Fisher podemos decir que: Si normal. Si la distribucin se llama Mesocrtica, la distribucin tiene el mismo apuntamiento la distribucin se llama Leptocrtica, las frecuencias son ms apuntadas que la

que la normal. Si se denomina Platicrtica, es menos apuntada que la normal.

MEDIDA DE ASIMETRA Diremos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica coinciden. Diremos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o relativas) descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la distribucin es asimtrica a la izquierda. Existen varias medidas de la asimetra de una distribucin de frecuencias. Una de ellas es el Coeficiente de Asimetra de Pearson:

Su valor es cero cuando la distribucin es simtrica, positivo cuando existe asimetra a la derecha y negativo cuando existe asimetra a la izquierda.