Estadistica Descriptiva Presentacion

53
Estadística descriptiva La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) y trata de extraer conclusiones sobre el comportamiento de estas variables

Transcript of Estadistica Descriptiva Presentacion

I. ESTADISTICA DESCRIPTIVA

Estadstica descriptivaLaestadstica descriptivaes una ciencia que analiza series de datos (por ejemplo, edad de una poblacin, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) y trata de extraer conclusiones sobre el comportamiento de estas variablesOtros conceptos bsicos

Estadgrafo: Son las medidas descriptivas inherentes a una muestra, las cuales pueden usarse como estimacin del parmetro como ejemplo podra tomarse los salarios promedio de una muestra de los empleados de la empresa.Despus de haber ordenado y descrito un conjunto de datos, aun el anlisis resulta un tanto incompleto; es necesario entonces resumir la informacin y facilitar as su anlisis e interpretacin utilizando ciertos indicadores. A estos indicadores se les denomina tambin estadgrafos o medidas de resumen, permiten hallar un valor numrico, el mismo que representa a toda la poblacin o muestra en estudio.

Clasificacin: Las medidas de resumen mas importantes se clasifican en tres grupos:Medidas de tendencia central Media, mediana y moda.Medidas de posicin Desiles, cuartiles y percentiles.Medidas de dispersin Desviacin estndar, varianza y coeficiente de variacin.

Estadstico: Es todo aquello que sirve para ordenar informacin acumulada, para tener una estadstica de diferente ndole, por ejemplo:Programas de configuracinArchivos de datosResultados de conteosBitcoras de operacin Porcentajes de crecimiento o decrecimiento de utilidades y gastos y en general todo lo que intervengan con informacin de un proyecto o suceso para efectuar comparaciones, en su caso no es siempre indispensableEstadistica:Ciencia que utiliza conjunto de datos numricos para obtener a partir de ellos inferencias basadas en el calculo de probabilidades, hizo un curso de introduccin a la estadsticaEstudio que rene, clasifica y recuenta todos los hechos que tienen una determinada caracterstica en comn, para poder llegar a conclusiones a partir de los datos numricos extrados.Conjunto de los datos o los hechos recogidos y clasificados las ultimas estadsticas indican una ligera mejora econmica.Censo o recuento del numero de habitantes de un lugar , de los recursos naturales e industriales, del trafico o de cualquier otra manifestacin relacionada con un estado, una provincia, una localidad, etc.

Variables y Atributos.Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: dos grandes clases:Variables cuantitativas. Variables cualitativas o atributos Variables cuantitativas.Las variables cuantitativas son las que se describen por medio de nmeros, como por ejemplo el peso, altura, edad, nmero de suspensos A su vez este tipo de variables se puede dividir en dos subclases:Cuantitativas discretas. Aquellas a las que se les puede asociar un nmero entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo nmero de hermanos, pginas de un libro, etc. Cuantitativas continuas: aquellas que no se pueden expresar mediante un nmero entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualquier la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. Etc. No obstante en muchos casos el tratamiento estadstico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa.AtributosLos atributos son aquellos caracteres que para su definicin precisan de palabras, es decir, no le podemos asignar un nmero. Por ejemplo sexo profesin, estado civil, etc. A su vez las podemos clasificar en:Ordenables: aquellas que sugieren una ordenacin, por ejemplo la graduacin militar, el nivel de estudios, etc. No ordenables: aquellas que slo admiten una mera ordenacin alfabtica, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc. CENSO.Decimos que realizamos un censo cuando se observan todos los elementos de la poblacin estadstica TABLAS DE DISTRIBUCION DE FRECUENCIAS.

Es una tcnica estadstica para organizar datos en clases y cada una se les aplica la frecuencia correspondiente. Sirve para visualizar y organizar los datos. Una de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de resultados, es decir, recoger la informacin de la muestra resumida en una tabla en la que a cada valor de la variable se le asocian determinados nmeros que representan el nmero de veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc. Estos nmeros se denominan frecuencias: as tenemos los siguientes tipos de frecuencia:Tipos de frecuenciaFrecuencia Absoluta: La frecuencia absoluta de una variable estadstica es el nmero de veces que aparece en la muestra dicho valor de la variable, la representaremos por niFrecuencia Relativa: La frecuencia absoluta, es una medida que est influida por el tamao de la muestra, al aumentar el tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta. Esto hace que no sea una medida til para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamao de la muestra. La denotaremos por fiFrecuencia Relativa:

Donde n = tamao de la muestra

Porcentaje: La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. La denotaremos por pi.

Frecuencia Absoluta Acumulada:Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadstica ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el nmero de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por Ni.Frecuencia Relativa Acumulada:Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el tamao de la muestra, y la denotaremos por Fi

Porcentaje Acumulado:Anlogamente se define el porcentaje acumulado y lo vamos a denotar por pi como la frecuencia relativa acumulada por 100.

EjemploVeamos esto con un ejemplo: tomamos para ello los datos relativos a las personas activas.

En este ejemplo se puede ver fcilmente como se calculan estas frecuencias.

Tablas de frecuencias Ladistribucin de frecuenciasotabla de frecuenciases una ordenacinen forma detablade losdatos estadsticos, asignando a cadadatosufrecuencia correspondiente.

HISTOGRAMA.

Unhistogramaes unarepresentacin grficade unavariableen forma debarras.Se utilizan paravariables continuaso paravariables discretas, con un gran nmero de datos, y que se han agrupado enclases.En eleje abscisasse construyen unosrectngulosque tienen por base la amplitud del intervalo, y poraltura, lafrecuencia absoluta de cadaintervalo.Lasuperficiede cadabarraesproporcionala lafrecuenciade los valoresrepresentados.

POLIGONOS DE FRECUENCIA

Es una representacin grafica de la distribucin de frecuencia que resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos los centros de las bases superares de los rectngulos del histograma.

OJIVA.

Una grafica similar al polgono de frecuencias es la ojiva, pero esta se obtiene de aplicar parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que estas, existen las ojivas mayor que y menor que.Una grfica de distribucin de frecuencias acumuladas es llamada una ojiva. Se trazan los lmites reales superiores contra las frecuencias acumuladas.

DIAGRAMA CIRCULAR, PASTEL O TORTA.Las graficas circulares, tambin llamados grficos de pastel, grficos de torta o grficos de 360 grados, son recursos estadsticos que se utilizan para representar porcentajes y proporciones. El numero de elementos comparados dentro de un grafico circular pueden ser mas de cuatro. Al igual que en la grafica de barras, el empleo de tonalidades o colores facilita la diferenciacin de porcentajes o proporciones. A diferencias de otros tipos de grficos, el circular no tiene ejes X o Y.Se utilizan en aquellos casos no solo mostrar el numero de veces que se da una caracterstica o atributo de manera tabular sino mas bien de manera grafica, de tal manera que se pueda visualizar mejor la proporcin en que aparece esa caracterstica respecto del total.

Diagramas de cajaEs un grafico basado en cuartiles, mediante el cual se visualiza un conjunto de datos.Esta compuesto por un rectngulo la caja y dos brazos los bigotes.Es un grafico que suministra informacin sobre los valores mnimo y mximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atpicos y la simetra de la distribucin.Primero es necesario encontrar la mediana para luego encontrar los dos cuartiles restantes.

Media

Tambin llamado promedio o esperanza matemtica, es un numero calculado mediante ciertas operaciones a partir de los elementos de un conjunto de nmeros, x1, x2,, xn, y que sirve para representara este. Hay distintos tipos de media.Media Aritmtica:La media aritmtica de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresin:

Xi representa el valor de la variable o en su caso la marca de clase.Propiedades:Si multiplicamos o dividimos todas las observaciones por un mismo nmero, la media queda multiplicada o dividida por dicho numero. Si le sumamos a todas las observaciones un mismo nmero, la media aumentar en dicha cantidad. Adems de la media aritmtica existen otros conceptos de media, como son la media geomtrica y la media armnica.

Mediana:La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra.Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua.Clculo de la mediana en el caso discreto: Tendremos en cuenta el tamao de la muestra. Si n es impar, hay un trmino central, el trmino que ser el valor de la mediana.Si n es par, hay dos trminos centrales, la mediana ser la media de esos dos valores

Ejemplo

Clculo de la mediana en el caso contino:Si la variable es continua, la tabla vendr en intervalos, por lo que se calcula de la siguiente forma:

Nos vamos a apoyar en un grfico de un histograma de frecuencias acumuladas. De donde la mediana vale: donde ai es la amplitud del intervaloVemoslo por medio de un ejemplo.Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma:

Como el tamao de la muestra es n=50, buscamos el intervalo en el que la frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3 y aplicamos la frmula anterior. Luego la mediana ser Me=

MODALa moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo.

Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso.

Por lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una explicacin mayor; sin embargo, debemos detenernos un poco en el clculo de la moda para distribuciones cuantitativas continuas. Apoyndonos en el grfico podemos llegar a la determinacin de la expresin para la moda que es:

Otros autores dan una expresin aproximada para la moda que viene dada por la siguiente expresin:

Veamos su clculo mediante un ejemplo, para ello usaremos los datos del apartado anterior

Parmetros de localizacin.Cuartiles, deciles, percentiles

Las medidas de localizacin dividen la distribucin en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada poblacin o muestra. As en psicologa los resultados de los test o pruebas que realizan a un determinado individuo, sirve para clasificar a dicho sujeto en una determinada categora en funcin de la 53-1-u-puntuacin obtenida. CuartilesMedida de localizacin que divide la poblacin o muestra en cuatro partes iguales.Q1= valor de la variable que deja a la izquierda el 25% de la distribucin. Q2= valor de la variable que deja a la izquierda el 50% de la distribucin = mediana. Q3= valor de la variable que deja a la izquierda el 75% de la distribucin. Al igual que ocurre con el clculo de la mediana, el clculo de estos estadsticos, depende del tipo de variable.Caso i: variable cuantitativa discreta: En este caso tendremos que observar el tamao de la muestra: n y para calcular q1 o q3 procederemos como si tuvisemos que calcular la mediana de la correspondiente mitad de la muestra. Caso ii: variable cuantitativa continua: En este caso el clculo es ms simple: sea la distribucin que sigue: Siendo el intervalo coloreado donde se encuentra el cuartil correspondiente:

YDecilesMedida de localizacin que divide la poblacin o muestra en 10 partes igualesNo tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas.Dk = decil k-simo es aquel valor de la variable que deja a su izquierda el k10 % de la distribucin.

Intervalo donde se encuentra el decil correspondiente:

k = 1... 9Percentiles:Medida de localizacin que divide la poblacin o muestra en 100 partes igualesNo tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas.Pk = percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribucin. Intervalo donde se encuentra el . . . percentil correspondiente

k=1... 99 Parmetro de dispersin.Las medidas de dispersin indican que tan lejos o tan cerca se encuentran unos datos de otros en una distribucin de frecuencia. La medida representativa mas utilizada para analizar la dispersin de datos es la media. Las ms importantes son el rango, la desviacin media, la desviacin tpica o estndar, el coeficiente de variacin, la varianza.

Rango Es la medida de dispersin que indica la distancia entre el valor mayor y menor en un grupo de datosSe denota como r. Realmente no es una medida muy significativa e la mayora de los casos, pero indudablemente es muy fcil de calcular. Desviacin: Es la diferencia que se observa entre el valor de la variable y la media aritmtica. La denotaremos por di.No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviacin, por lo que precisaremos una medida que resuma dicha informacin.

Varianza: Es una medida de dispersin que se halla mediante la suma de los cuadrados de la desviacin respecto a las medias, divididas entre el nmero de datos. Es la media de los cuadrados de las desviaciones, y la denotaremos por si se trata de una muestra o tambin por si se habla de una poblacin. Aunque tambin es posible calcularlo como:

Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendr en cm2.

Coeficiente De Variacin:

Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitir decir entre dos muestras, cual es la que presenta mayor dispersin. La denotaremos por C.V.

Ejemplo

Muchas Gracias