Curso Estadistica Descriptiva 1 (61 Diap)

61
I. ESTADISTICA DESCRIPTIVA I. ESTADISTICA DESCRIPTIVA Tablas de distribución de frecuencias. Tablas de distribución de frecuencias. (Frecuencias relativas y relativas acumuladas. )Graficas estadísticas (Frecuencias relativas y relativas acumuladas. )Graficas estadísticas Histogramas Histogramas Polígonos Polígonos Ojivas Ojivas Grafico de Torta o Pastel Grafico de Torta o Pastel Medidas de tendencia central Medidas de tendencia central Media Media Mediana Mediana Moda Moda percéntiles y cuartiles percéntiles y cuartiles Medidas de dispersión Medidas de dispersión Rango Rango Varianza Varianza desviación estándar desviación estándar coeficiente de variación coeficiente de variación Diagrama de cajas Diagrama de cajas. Actividad Actividad : Práctica en sala de cómputo. instrucciones sobre manejo : Práctica en sala de cómputo. instrucciones sobre manejo de paquete estadístico para descripción de datos de paquete estadístico para descripción de datos

description

Estadistica.

Transcript of Curso Estadistica Descriptiva 1 (61 Diap)

  • I. ESTADISTICA DESCRIPTIVATablas de distribucin de frecuencias. (Frecuencias relativas y relativas acumuladas. )Graficas estadsticasHistogramasPolgonosOjivasGrafico de Torta o PastelMedidas de tendencia centralMediaMedianaModapercntiles y cuartilesMedidas de dispersin RangoVarianzadesviacin estndarcoeficiente de variacinDiagrama de cajas. Actividad: Prctica en sala de cmputo. instrucciones sobre manejo de paquete estadstico para descripcin de datos

  • 1. Introduccin:La palabra "estadstica" suele utilizarse como coleccin de datos numricos.- esto es el significado ms vulgar de la palabra estadstica. Se sobrentiende que dichos datos numricos han de estar presentados de manera ordenada y sistemtica. Una informacin numrica cualquiera puede no constituir una estadstica, para merecer este apelativo, los datos han de constituir un conjunto coherente, establecido de forma sistemtica y siguiendo un criterio de ordenacin

  • Introduccin:En si, es una serie de tcnicas ligadas con el fin de recolectar puede ser por medio de test, encuestas, censos, entre otras formas, un conjunto de datos. Luego organizar de manera cuantitativa o cualitativamente, segn sea el caso. Presentar ya sea por tablas o por grficos y finalmente analizar el conjunto de datos para sacar conclusiones y as poder tomar una buena decisin.

  • Introduccin:Es obvio que todo estudio estadstico ha de estar referido a un conjunto o coleccin de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos poblacin.Las personas o cosas que forman parte de la poblacin se denominan elementos. En sentido estadstico un elemento puede ser algo con existencia real, como un automvil o una casa, o algo ms abstracto como la temperatura, un voto, o un intervalo de tiempo.

  • Introduccin:A su vez, cada elemento de la poblacin tiene una serie de caractersticas que pueden ser objeto del estudio estadstico. As por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres:Sexo, edad, nivel de estudios, profesin, peso, altura, color de pelo, etc.Luego por tanto de cada elemento de la poblacin podremos estudiar uno o ms aspectos cualidades o caracteres.

  • Tipos de poblacinLa poblacin puede ser segn su tamao de dos tipos: Poblacin Finita: cuando el nmero de elementos que la forman es finito, por ejemplo el nmero de alumnos de un centro de enseanza, o grupo clase.Poblacin Infinita: cuando el nmero de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos... Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacin podra considerarse infinita.

  • PoblacinAhora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado nmero de elementos de la poblacin, sin que en principio tengan nada en comn; o una subpoblacin, que es el subconjunto de la poblacin formado por los elementos de la poblacin que comparten una determinada caracterstica, por ejemplo de los alumnos del centro la subpoblacin formada por los alumnos de 3 eso, o la subpoblacin de los varones.

  • Variables y Atributos.Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: dos grandes clases:Variables cuantitativas. Variables cualitativas o atributos

  • Variables cuantitativas.Las variables cuantitativas son las que se describen por medio de nmeros, como por ejemplo el peso, altura, edad, nmero de suspensos A su vez este tipo de variables se puede dividir en dos subclases:Cuantitativas discretas. Aquellas a las que se les puede asociar un nmero entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo nmero de hermanos, pginas de un libro, etc. Cuantitativas continuas: aquellas que no se pueden expresar mediante un nmero entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualquier la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. Etc. No obstante en muchos casos el tratamiento estadstico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa.

  • Los atributos son aquellos caracteres que para su definicin precisan de palabras, es decir, no le podemos asignar un nmero. Por ejemplo sexo profesin, estado civil, etc. A su vez las podemos clasificar en:Ordenables: aquellas que sugieren una ordenacin, por ejemplo la graduacin militar, el nivel de estudios, etc. No ordenables: aquellas que slo admiten una mera ordenacin alfabtica, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc. CENSO.Decimos que realizamos un censo cuando se observan todos los elementos de la poblacin estadstica

  • TABLAS DE DISTRIBUCION DE FRECUENCIAS.

    Es una tcnica estadstica para organizar datos en clases y cada una se les aplica la frecuencia correspondiente. Sirve para visualizar y organizar los datos. Una de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de resultados, es decir, recoger la informacin de la muestra resumida en una tabla en la que a cada valor de la variable se le asocian determinados nmeros que representan el nmero de veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc. Estos nmeros se denominan frecuencias: as tenemos los siguientes tipos de frecuencia:

  • Frecuencia Absoluta: La frecuencia absoluta de una variable estadstica es el nmero de veces que aparece en la muestra dicho valor de la variable, la representaremos por niFrecuencia Relativa: La frecuencia absoluta, es una medida que est influida por el tamao de la muestra, al aumentar el tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta. Esto hace que no sea una medida til para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamao de la muestra. La denotaremos por fi

  • Frecuencia Relativa:

    Donde n = tamao de la muestra

  • Porcentaje: La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. La denotaremos por pi.

  • Frecuencia Absoluta Acumulada:Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadstica ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el nmero de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por Ni.

  • Frecuencia Relativa Acumulada:Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el tamao de la muestra, y la denotaremos por Fi

  • Porcentaje Acumulado:Anlogamente se define el porcentaje acumulado y lo vamos a denotar por pi como la frecuencia relativa acumulada por 100.

  • EjemploVeamos esto con un ejemplo: tomamos para ello los datos relativos a las personas activas.

    En este ejemplo se puede ver fcilmente como se calculan estas frecuencias.

  • Tablas de frecuenciasExisten dos formas diferentes de tablas de frecuencia, teniendo Que la variable estadstica tome pocos valores diferentes (ya sea grande o pequeo el tamao de la muestra). Que, en una muestra de gran tamao, la variable estadstica tome muchos valores diferentes, ya se trate de variable estadstica discreta como de variable estadstica continua (este ltimo caso es el ms habitual).

  • En el segundo caso por tratarse de variable continua o discreta pero con un nmero de datos muy grande, es aconsejable agrupar los datos en clases.Agrupamos los valores de la variable estadstica en intervalos de clase contiguos y elegidos convenientemente para no perder mucha informacin. No existe un criterio claro de cul debe ser el nmero de intervalos que debemos escoger, Norcliffe establece que el nmero de clases debe ser, aproximadamente igual a la raz cuadrada positiva del nmero de datos. Normalmente, el nmero de intervalos de clase se suele fijar entre 5 y 15 y de tal manera que en cada clase se tengan, al menos, 5 observaciones. De todas formas el investigador los acomodar a las condiciones especificas del problema estadstico objeto de estudio (se tomarn tantos intervalos solapados como sean necesarios para recubrir todo el recorrido de la variable).

  • Los extremos de los intervalos de clase se denominan extremos de clase y sus puntos medios marcas de clase (valor que nos representa la informacin que contiene un intervalo). Como cada observacin debe quedar perfectamente encasillada en uno y slo un intervalo de clase, debemos decidir a qu intervalos pertenecen los extremos de las clases, por lo que habrn de tomarse intervalos semiabiertos o tomando el extremo de cada clase con un decimal ms que las observaciones. Con el fin de que la clasificacin est bien hecha, los intervalos se deben construir de manera que el lmite superior de una clase coincida con el lmite inferior de la siguiente, y adems, adoptando el criterio de que los intervalos sean cerrados por la izquierda y abiertos por la derecha.

  • Por otro lado tenemos la amplitud de cada intervalo, que puede ser constante o variable. Si procuramos que todas las clases tengan la misma amplitud y los lmites de cada clase sean nmeros redondos (mltiplos p. ej. de 5) conseguiremos simplificar mucho los clculos (siempre y cuando no se pierda demasiada informacin con estas consideraciones). Debemos observar un hecho importante, se entiende que cuando hacemos una agrupacin en intervalos de clase, para nosotros solamente cuenta el nmero de observaciones que caen dentro de cada uno de los intervalos y no la colocacin en su interior, es decir, suponemos que la distribucin de estos valores en el intervalo es homognea, en esto radica la prdida de informacin que supone agrupar los datos de las observaciones.

  • (Frecuencias relativas y relativas acumuladas.)Graficas estadsticasEjemplo.En la siguiente tabla se muestra el total de vacunas aplicadas durante el verano de l991 en un estado de la Repblica Mexicana.

  • HISTOGRAMA.

    Es una representacin grafica de una distribucin de frecuencias por medio de rectngulos. Es un recurso comn e importante para representar datos, consiste en una escala horizontal para valores de los datos que se estn representando, una escala vertical de las frecuencias de dichos datos.El histograma es especialmente til cuando se tiene un amplio nmero de datos que es preciso organizar.Histograma de frecuencia absoluta. (Xi y fi)Histograma de frecuencia relativa (Xi y Fi)Histograma de frecuencia relativa porcentual (Xi y hi)Histograma de frecuencia relativa acumulada (Xi y Hi)Con la distribucin de frec. anterior se tiene:

  • POLIGONOS DE FRECUENCIA

    Es una representacin grafica de la distribucin de frecuencia que resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos los centros de las bases superares de los rectngulos del histograma.

  • OJIVA.

    Una grafica similar al polgono de frecuencias es la ojiva, pero esta se obtiene de aplicar parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que estas, existen las ojivas mayor que y menor que.Una grfica de distribucin de frecuencias acumuladas es llamada una ojiva. Se trazan los lmites reales superiores contra las frecuencias acumuladas.

  • Ojiva Porcentual Polgono de frecuencias relativas acumuladas.

    Se trazan los lmites reales superiores contra las frecuencias relativas acumuladas.

  • DIAGRAMA CIRCULAR, PASTEL O TORTA.

    Cuando lo que se desea resaltar son las proporciones que representan algunos subconjuntos con respecto al total, conviene utilizar la grafica o diagrama circular. Es un grafico en el que cada valor o modalidad se le asigna un sector circular de rea proporcional a la frecuencia que representan.Es un grfico que se basa en una proporcionalidad entre la frecuencia y el ngulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ngulo central de 360. Para construir se aplica la siguiente formula:X = frecuencia relativa * 360/ frecuencia relativa

  • Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la variable son pocos, la ventaja que tiene este diagrama es que es fcil de hacer y es entendible fcilmente, la desventaja que posee es que cuando los valores de la variable son muchos es casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona principalmente informacin acerca de las frecuencias de los datos de una manera entendible y sencilla.Se forma al dividir un crculo en sectores circulares de manera que: a) Cada sector circular equivale al porcentaje correspondiente al dato o grupo que representa. b) La unin de los sectores circulares forma el crculo y la suma de sus porcentajes es 100.

  • Diagramas de caja o boxplots los pasos para construirlo son los siguientes: Dibujar y marcar un eje de medida horizontal Construir un rectngulo cuyo borde izquierdo esta arriba del cuarto inferior y cuyo borde derecho esta arriba del cuarto superior Dibujar un segmento de recta vertical dentro de la caja arriba de la mediana Prolongar rectas desde cada extremo de la caja hasta las observaciones ms lejanas que estn todava a menos de 1.5fs de los bordes correspondientes Dibujar un circulo abierto para identificar cada observacin que caiga entre 1.5fs y 3fs del borde al cual esta ms cercano estas se llaman puntos inusuales suaves

  • Dibujar un circulo de lnea llena para identificar cada observacin que caiga a mas de 3fs del borde ms cercano, estas se llaman puntos inusuales extremosDonde fs= cuarto superior cuarto inferiorEste diagrama se usa cuando se necesita la mayor informacin acerca de la distribucin de los datos, la ventaja que posee con respecto a los dems diagramas es que este grfico posee caractersticas como centro y dispersin de los datos, y la principal desventaja que posee es que no presenta ninguna informacin acerca de las frecuencias que presentan los datos

  • PARAMETROEs un nmero que caracteriza a un conjunto de datos, se clasifican en:Parmetro de centralizacinMiden alrededor de que valor se agrupan los datos. Ejemplo, media, mediana, moda, cuarteles, percentiles, etc. MediaTambin llamado promedio o esperanza matemtica, es un numero calculado mediante ciertas operaciones a partir de los elementos de un conjunto de nmeros, x1, x2,, xn, y que sirve para representara este. Hay distintos tipos de media.

  • Media Aritmtica:La media aritmtica de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresin:Xi representa el valor de la variable o en su caso la marca de clase.

  • Propiedades:Si multiplicamos o dividimos todas las observaciones por un mismo nmero, la media queda multiplicada o dividida por dicho numero. Si le sumamos a todas las observaciones un mismo nmero, la media aumentar en dicha cantidad. Adems de la media aritmtica existen otros conceptos de media, como son la media geomtrica y la media armnica.

  • Media geomtrica:La media geomtrica de n observaciones es la raz de ndice n del producto de todas las observaciones. La representaremos por g.

    Media armnica:La media armnica de n observaciones es la inversa de la media de las inversas de las observaciones y la denotaremos por h

    Al igual que en el caso de la media geomtrica su utilizacin es bastante poco frecuente.

  • Mediana:La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra.Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua.Clculo de la mediana en el caso discreto: Tendremos en cuenta el tamao de la muestra. Si n es impar, hay un trmino central, el trmino que ser el valor de la mediana.Si n es par, hay dos trminos centrales, la mediana ser la media de esos dos valores

  • Ejemplo

  • Clculo de la mediana en el caso contino:Si la variable es continua, la tabla vendr en intervalos, por lo que se calcula de la siguiente forma:

    Nos vamos a apoyar en un grfico de un histograma de frecuencias acumuladas. De donde la mediana vale: donde ai es la amplitud del intervaloVemoslo por medio de un ejemplo.Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma:

  • Como el tamao de la muestra es n=50, buscamos el intervalo en el que la frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3 y aplicamos la frmula anterior. Luego la mediana ser Me=

  • MODALa moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo.Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso.Por lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una explicacin mayor; sin embargo, debemos detenernos un poco en el clculo de la moda para distribuciones cuantitativas continuas.

  • Apoyndonos en el grfico podemos llegar a la determinacin de la expresin para la moda que es:

    Otros autores dan una expresin aproximada para la moda que viene dada por la siguiente expresin:

    Veamos su clculo mediante un ejemplo, para ello usaremos los datos del apartado anterior

  • Veamos su clculo mediante un ejemplo, para ello usaremos los datos del apartado anterior

  • Parmetros de localizacin.Cuartiles, deciles, percentiles

    Las medidas de localizacin dividen la distribucin en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada poblacin o muestra. As en psicologa los resultados de los test o pruebas que realizan a un determinado individuo, sirve para clasificar a dicho sujeto en una determinada categora en funcin de la 53-1-u-puntuacin obtenida.

  • CuartilesMedida de localizacin que divide la poblacin o muestra en cuatro partes iguales.Q1= valor de la variable que deja a la izquierda el 25% de la distribucin. Q2= valor de la variable que deja a la izquierda el 50% de la distribucin = mediana. Q3= valor de la variable que deja a la izquierda el 75% de la distribucin. Al igual que ocurre con el clculo de la mediana, el clculo de estos estadsticos, depende del tipo de variable.

  • Caso i: variable cuantitativa discreta: En este caso tendremos que observar el tamao de la muestra: n y para calcular q1 o q3 procederemos como si tuvisemos que calcular la mediana de la correspondiente mitad de la muestra. Caso ii: variable cuantitativa continua: En este caso el clculo es ms simple: sea la distribucin que sigue: Siendo el intervalo coloreado . donde se encuentra el cuartil . . correspondiente:Y

  • DecilesMedida de localizacin que divide la poblacin o muestra en 10 partes igualesNo tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas.Dk = decil k-simo es aquel valor de la variable que deja a su izquierda el k10 % de la distribucin.

    Intervalo donde se encuentra el . . decil correspondiente:k = 1... 9

  • Percentiles:Medida de localizacin que divide la poblacin o muestra en 100 partes igualesNo tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas.Pk = percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribucin. Intervalo donde se encuentra el . . . percentil correspondiente k=1... 99

  • Ejemplo:Como se puede observar la forma de calcular estas medidas es muy similar a la del clculo de la mediana.Veamos el clculo de algunas de estas medidas en el ejemplo que estamos estudiando.Vamos a calcular q1, q3, d3, y p45

    Clculo de q1: buscamos en la . . columna de las frecuencias . . . . . acumuladas el valor que supere al . 25% de n=50, corresponde al 2 . . intervalo.(50/4=12.5)

  • Anlogamente calculemos q3, buscamos ahora en la misma columna el correspondiente al 75 %de n que en este caso es el 4 intervalo (3.50/4=37.5)

    Veamos ahora el decil 3. (Corresponde al 30 % 3 50 / 10 = 15) sera el 2 intervalo.

    Por ltimo veamos el percentil 45 (4550/100 = 22.5) corresponde al intervalo 3.

  • Parmetro de dispersin.

    Las medidas de dispersin indican que tan lejos o tan cerca se encuentran unos datos de otros en una distribucin de frecuencia. La medida representativa mas utilizada para analizar la dispersin de datos es la media. Las ms importantes son el rango, la desviacin media, la desviacin tpica o estndar, el coeficiente de variacin, la varianza.

    Rango Es la medida de dispersin que indica la distancia entre el valor mayor y menor en un grupo de datosSe denota como r. Realmente no es una medida muy significativa e la mayora de los casos, pero indudablemente es muy fcil de calcular.

  • Desviacin: Es la diferencia que se observa entre el valor de la variable y la media aritmtica. La denotaremos por di.No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviacin, por lo que precisaremos una medida que resuma dicha informacin.

    Varianza: Es una medida de dispersin que se halla mediante la suma de los cuadrados de la desviacin respecto a las medias, divididas entre el nmero de datos. Es la media de los cuadrados de las desviaciones, y la denotaremos por si se trata de una muestra o tambin por si se habla de una poblacin.

  • Aunque tambin es posible calcularlo como:

    Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendr en cm2.

  • Desviacin Tpica:Es la raz cuadrada de la varianza, se denota por sx o x.

  • Este estadstico se mide en la misma unidad que la variable por lo que se puede interpretar mejor.

  • Coeficiente De Variacin:Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitir decir entre dos muestras, cual es la que presenta mayor dispersin. La denotaremos por c.v.

    Diagrama de cajas.????Actividad: prctica en sala de cmputo. Instrucciones sobre manejo de paquete estadstico para descripcin de datos