Texto Guia de Estadistica y Probabilidades i Ing. Sistemas

129
UNIVERSIDAD AMAZÓNICA DE PANDO CIENCIAS Y TECNOLOGÍA – INGENIERÍA DE SISTEMAS 67 PRESENTACION El origen del presente texto guía obedece a una decisión del estamento docente y las autoridades de la Universidad Amazónica de Pando, de aplicar reformas profundas en el campo académico, determinación que en la práctica se inicia el 8 de enero del año 2001, inicialmente con una autocrítica y reflexión profundas que concluyeron con la decisión de encaminar e introducir variantes en lo que hasta entonces constituía la cátedra tradicional en nuestra superior casa de estudios. Pretender alcanzar la excelencia académica no sólo representaba en los hechos encarar transformaciones en el terreno administrativo-organizativo, sino fundamentalmente dar un giro substancial de 180 grados en la práctica docente, vale decir la práctica en el aula. La Universidad no sólo debía ser testigo de un crecimiento cuantitativo en la ampliación de su oferta curricular y la mejora espectacular de la infraestructura y equipamiento, sino que la cualificación de la cátedra universitaria era una necesidad que en el corto plazo debía trasuntarse en logros académicos concretos en favor del universitario pandino, que sumido en su impotencia no atina aún a dar crédito a lo que la nueva universidad pretende para su propio beneficio. El contenido de la presente guía constituye una recopilación de textos tradicionales y clásicos en la enseñanza de la estadística y las probabilidades, asignatura no siempre asequible al estudiante novato por el contenido matemático que conlleva consigo. La experiencia de muchos años en la cátedra universitaria en la asignatura de Estadística y probabilidades ha constituido paralelamente un incentivo para profundizar en los aspectos esenciales de la asignatura y ofertar al estudiante universitario un apoyo didáctico que espero vendrá a contribuir a paliar la aguda escasez de textos especializados y técnicos en el medio. ESTADISTICA Y PROBABILIDADES I (Texto Guía) COBIJA - PANDO Preparado por el Lic. René Mamani Quisbert 1

Transcript of Texto Guia de Estadistica y Probabilidades i Ing. Sistemas

PRESENTACION

1UNIVERSIDAD AMAZNICA DE PANDO

CIENCIAS Y TECNOLOGA INGENIERA DE SISTEMAS

67

PRESENTACION

El origen del presente texto gua obedece a una decisin del estamento docente y las autoridades de la Universidad Amaznica de Pando, de aplicar reformas profundas en el campo acadmico, determinacin que en la prctica se inicia el 8 de enero del ao 2001, inicialmente con una autocrtica y reflexin profundas que concluyeron con la decisin de encaminar e introducir variantes en lo que hasta entonces constitua la ctedra tradicional en nuestra superior casa de estudios.

Pretender alcanzar la excelencia acadmica no slo representaba en los hechos encarar transformaciones en el terreno administrativo-organizativo, sino fundamentalmente dar un giro substancial de 180 grados en la prctica docente, vale decir la prctica en el aula. La Universidad no slo deba ser testigo de un crecimiento cuantitativo en la ampliacin de su oferta curricular y la mejora espectacular de la infraestructura y equipamiento, sino que la cualificacin de la ctedra universitaria era una necesidad que en el corto plazo deba trasuntarse en logros acadmicos concretos en favor del universitario pandino, que sumido en su impotencia no atina an a dar crdito a lo que la nueva universidad pretende para su propio beneficio.

El contenido de la presente gua constituye una recopilacin de textos tradicionales y clsicos en la enseanza de la estadstica y las probabilidades, asignatura no siempre asequible al estudiante novato por el contenido matemtico que conlleva consigo.

La experiencia de muchos aos en la ctedra universitaria en la asignatura de Estadstica y probabilidades ha constituido paralelamente un incentivo para profundizar en los aspectos esenciales de la asignatura y ofertar al estudiante universitario un apoyo didctico que espero vendr a contribuir a paliar la aguda escasez de textos especializados y tcnicos en el medio.

Sin embargo, como todo texto en proceso de elaboracin, el mismo con seguridad adolecer de muchas falencias que se irn corrigiendo y complementando paulatinamente en la medida en que se vaya aplicando en este y posteriores cursos regulares.

En otro orden de cosas es digno ponderar la iniciativa de las autoridades universitarias en implementar el proceso evaluativo y la titularizacin de docentes, por cuanto ello permitir en el corto plazo mejorar la prctica docente en el aula; en este sentido la UAP en sus cortos aos de vida viene encarando de manera responsable el anhelo acadmico de toda casa superior de estudios: La excelencia Acadmica, y de esta manera en muy poco tiempo ponerse a tono con las transformaciones acadmicas y parangonarse con las grandes universidades, para de esta manera insertarse en el fenmeno de la globalizacin.

Posteriormente, a partir de la gestin 2003, adelante, la UAP vive un intenso proceso de modernizacin en la parte acadmica con la incorporacin en el mbito acadmico del enfoque Basado en Competencias FBC, que en la prctica ha trado muchos beneficios a la universidad. Hoy en da todos los hechos acadmicos estn enmarcados dentro de este enfoque, incluso la readecuacin del presente Texto-Gua cuya planificacin se trasunta en un proyecto formativo. Como vern, queridos estudiantes, todos absolutamente todos, debemos contribuir al proceso de excelencia acadmica para mejorar la educacin superior en Pando, que no es obra de unos pocos sino es responsabilidad compartida de todos: Docentes, estudiantes, autoridades y pueblo pandino en general.Finalmente, quiero nuevamente expresar mi gratitud a los estudiantes de la Universidad Amaznica de Pando, por brindarme esta oportunidad de contribuir al progreso de un pueblo en franco proceso de desarrollo y crecimiento econmico.

Gracias: EL AUTOR

Cobija, Marzo del 20121. NOCIONES GENERALES DE LA ESTADISTICA

COMPETENCIA DE TEMA:

1.1. INTRODUCCION.-

No es posible precisar con exactitud el origen de la estadstica en el tiempo, su gnesis se remonta hasta los albores mismos de la humanidad. Se cree que ste surge como producto de la necesidad que sinti el hombre primitivo de registrar en principio y luego controlar los resultados de la caza y la pesca, que son las actividades primarias del ser humano. Sin embargo, estas actitudes del hombre primitivo no fueron intencionadas sino intuitivas, que con el pasar de los aos y la evolucin del ser humano se fue estructurando como tcnica y posteriormente como ciencia hasta constituirse, hoy en da, en un instrumento muy valioso para el desarrollo cientfico.

1.2. DESARROLLO HISTORICO DE LA ESTADSTICA.-

El desarrollo histrico de la estadstica presenta tres etapas en su desarrollo. Estas etapas son:

a) ETAPA INICIALEste perodo se extiende desde la antigedad hasta mediados del Siglo XVIII. Se caracteriza por que se asocia la estadstica a los censos poblacionales y el registro de los bienes y servicios de un estado o pueblo, para medir su podero como estado. El desarrollo de la estadstica, en este perodo, se asocia con el mercantilismo como modelo de desarrollo econmico, donde la riqueza de un pueblo o estado se pretenda medir en trminos de la cantidad de metlico que este posea, para ello obviamente los estados deban implementar un sistema confiable de registro de manera tal que estn permanentemente informados de la situacin de un estado con respecto del otro.

Los pasajes histricos ms relevantes en esta etapa son:

La cultura Egipcia muestra en la composicin de su patrimonio cultural interesante y abundante material sobre recopilaciones de datos estadsticos en su administracin estatal, e incluso divinizaron a SAPHKIT como diosa de los libros y de las cuentas.

Los romanos, otra importante cultura de la humanidad, llevaron registros numricos con fines tributarios. El nacimiento de Cristo mismo, en esos tiempos, est relacionado con un empadronamiento poblacional.

En la poca de los reyes catlicos de Espaa (SIGLO XV), se practicaron censos bastante completos y sofisticados para su poca y durante la vigencia del mercantilismo los estados desarrollaron tcnicas de registro para cuantificar el volumen de metlico que reflejaba el podero y riqueza de un estado.

Para no ir muy lejos, en el imperio incaico, en lo que hoy es Latinoamrica, existen indicios de que se practicaron registros de cuentas y poblacin mediante los quipus, en la cultura quechua.

a) ETAPA DE LA SISTEMATIZACINEsta etapa se caracteriza por la aparicin de escuelas estadsticas cuya pretensin es la de sistematizar el estudio de esta ciencia, desde una ptica cientfica. Se destacan en el tiempo tres escuelas:

La escuela Alemana.- Cre la primera ctedra de estadstica, considerando esta disciplina como la descripcin de los fenmenos concernientes al estado y la administracin estatal.

La Escuela Inglesa.- Cuantificaron las leyes que rigen los fenmenos sociales, a travs de aritmetizacin de la estadstica. En esta etapa se disearon modelos conductistas, vale decir modelos estadsticos no paramtricos.

La Escuela Francesa.- Introduce la teora de las probabilidades asocindola con los juegos de azar. La Place, famoso estudioso de la estadstica, es el representante ms destacado de la poca. En este perodo se desarrolla la inferencia estadstica a partir del clculo de probabilidades, cuyo fundamento es la matemtica.

c) ETAPA ACTUAL: Est comprendida entre principios del siglo XIX hasta nuestros das. En esta etapa la matemtica se plasma en la columna vertebral de la estadstica y se caracteriza por el gran desarrollo alcanzado como ciencia y como una metodologa de la investigacin cientfica aplicada a todas las ramas del saber humano: Ingeniera, Biologa, Economa, medicina, agronoma, etc.

Se destacan estudiosos como: Pearson, Student, Newman y Fisher.

1.3. DEFINICION DE LA ESTADISTICA La palabra Estadstica parece derivar de la palabra latina Status, que en el latn tena el sentido de estado poltico.

STATUS = ESTADO POLITICO

Luego, se us la estadstica en poltica econmica y significaba la exposicin sistemtica y ordenada de las caractersticas ms notables de un estado, consista en la recoleccin y el anlisis de los datos relativo a la poblacin y riqueza para los fines de la guerra y de las finanzas. Se trataba de los famosos censos para fines tributarios.

DEFINICIONES.- A continuacin presentamos algunas definiciones de estadstica:

DICCIONARIO LAROUSSE: Es la ciencia cuyo objeto es reunir, clasificar y contar todos los hechos en un mismo orden.

GUALBERTO AGUIRRE: Es una descripcin numrica sucinta de las caractersticas de grandes conjuntos de observaciones, que en algunos casos, se denomina reduccin de datos y condensa en algunos estadgrafos toda la informacin obtenida.

KENDALL Y STUART.-Es la rama del mtodo cientfico que trata de los datos obtenidos al contar o medir las propiedades de las poblaciones de fenmenos humanos.

H. CRAMER.- El objeto fundamental de la teora estadstica consiste en investigar la posibilidad de extraer de los datos estadsticos inferencias vlidas, elaborando los mtodos mediante los cuales pueden obtenerse dichas inferencias

FILOMENO CARVAJAL.- Por estadstica entendemos a la ciencia o conjunto de conocimientos que se ocupan de la recoleccin, tabulacin, anlisis e interpretacin de datos numricos relativos a un conjunto de individuos y observaciones que nos permiten extraer conclusiones vlidas y tomar decisiones lgicas basadas en dicho anlisis.

HORACIO DOTTONE.- La estadstica comprende el conjunto de mtodos y procedimientos para obtener, describir e interpretar conjuntos de datos y para basar decisiones y predecir fenmenos que pueden expresarse en forma cuantitativa.

MARIO MURILLO OPORTO.- El significado de la estadstica es mucho ms amplio. Se refiere tambin a un cuerpo de tcnicas o metodologas para la recopilacin, presentacin y anlisis de los datos cuantitativos y cualitativos y al uso de tales datos para toma de decisiones.

Pero esto no es todo, ya que se refiere tambin a la prediccin frente a la incertidumbre de los fenmenos de la naturaleza. En otras palabras, podemos decir que la estadstica es un mtodo que sirve para tomar decisiones cuando hay incertidumbre, sobre la base de datos numricos y calcular su riesgo.

CELESTINO GARCIA ORE.- Estadstica es una disciplina que nos proporciona un conjunto de mtodos y procedimientos que permiten: recopilar , clasificar, presentar y describir datos en forma adecuada para tomar decisiones frente a la incertidumbre o predecir o afirmar algo acerca de la poblacin o sus parmetros a partir de los datos extrados de la misma.

1.4. DIVISION DE LA ESTADISTICA En un proceso de investigacin, una vez definido el objetivo y delimitada claramente la poblacin, en muchos casos, resulta imposible o es sumamente difcil abarcar la totalidad de los elementos de la poblacin; esto debido a una serie de factores como ser:

La distancia y dificultades de acceso a ciertos lugares.

Carencia de recursos econmicos

Carencia de recursos humanos

Otros factores limitantes

Para superar estas deficiencias, en vez de observar la totalidad de los elementos de la poblacin es posible referirse a una proporcin adecuada de los elementos de la misma, la cual recibe el nombre de MUESTRA.

ESQUEMA SIMPLIFICAD0O DEL CONTENIDO DE LA ESTADSTICA

REGULARIDADES

AXIOMAS DE COMPORTAMIENTO

MODELOS TEORICOS

POBLACION.- Es el conjunto mayor de objetos (UNIVERSO) que poseen al menos una caracterstica comn, cuyo estudio nos interesa o acerca de los cuales se desea informacin. Los elementos de este conjunto se denominan unidades estadsticas.

MUESTRA: Es una parte representativa del universo y se recurre a ella cuando es dificultoso utilizar todos los componentes de la poblacin.

A partir de ello, podemos establecer la siguiente divisin de la estadstica:

1. Estadstica Descriptiva

2. Estadstica Inferencial

1.4.1. ESTADISTICA DESCRIPTIVA: Es la parte de la estadstica que toma en cuenta el total de los elementos de la poblacin en el proceso de anlisis de un fenmeno en estudio. Se denomina Estadstica Descriptiva por que trata de la recopilacin, clasificacin, presentacin y descripcin de los datos estadsticos provenientes de una poblacin. Los datos o caractersticas que se obtienen de la poblacin se llaman PARAMETROS.

1.4.2. ESTADISTICA INFERENCIAL: Nos proporciona la teora necesaria para tomar decisiones frente a la incertidumbre o afirmar algo acerca de la poblacin a partir de los datos bajo estudio. Los datos o caractersticas obtenidas de esta manera se llaman ESTADIGRAFOS.

1.5. VARIABLESe denomina variable a una caracterstica o un aspecto determinado de las unidades elementales de una poblacin, que cuantificados, toman diferentes valores dentro de ciertos lmites, cuyos valores son nmeros.

* En este sentido, si la variable toma un solo valor se llama VARIABLE

CONSTANTE.

* Si la variable toma cualquier valor en un intervalo se llama VARIABLE

CONTINUA.

* Si la variable toma valores enteros se llama VARIABLE DISCRETA.

En consecuencia, las variables discretas surgen del proceso de conteo, en cambio las variables continuas surgen de la medicin.

Ejemplo de variable continua: Estatura de los estudiantes de la UAP.

Ejemplo de Variable Discreta: Nmero de hijos por familia: 0, 1, 2, 3,............ n

ATRIBUTOS: la variable atributo o cualitativa es la propiedad de los fenmenos susceptibles de ser expresados cualitativamente, ejm:

Profesin

Color de la Piel

Sexo

Estado Civil

etc.

Las variables cualitativas pueden ser NOMINALES que no implican un orden y ORDINALES donde existe algn orden o jerarqua entre atributos.

1.6. DATOS UNIVARIANTES Y MULTIVARIANTES.- En el estudio de un fenmeno puede interesar el tratamiento de una sola variable o atributo o ms de una variable o atributos.

De acuerdo a la forma como se encare el anlisis se puede hablar de diferentes tipos de distribuciones:

a) UNIDIMENSIONAL.- hace referencia a una sola variable o atributo. Ejm. Estatura de alumnos (Variable)

Sexo ( Atributo)

b) BIDIMENSIONAL.- Hace referencia a una variable o atributo al mismo tiempo. Ejm. Clasificacin de los empleados por sueldos y por secciones.

c) MULTIDIMESIONAL.- Cuando al mismo tiempo se expresan ms de dos atributos y/o variables. Ejm. Edad, sexo, peso y estado civil.

1.7. ESCALAS DE MEDICINLa asignacin de valores a cada una de las unidades estadsticas mediante una variable, se hace siguiendo determinadas escalas de medicin.

1.7.1. DEFINICIN.- Se denomina escala de medicin a un instrumento de medida, con el que se asigna valores (cualidades o nmeros) a las unidades estadsticas para una variable definida. El conocimiento de las escalas de medicin es muy importante, pues cada una de ellas contiene mtodos estadsticos especficos. Las escalas de medicin son de los siguientes tipos: Nominal, Ordinal, De intervalos, De razones

1.7.2. ESCALA NOMINAL.- Se tiene una escala NOMINAL si dos o ms valores de una variable, slo permiten percibir las diferencias o semejanzas de las unidades estadsticas que se midan. Tales valores son como etiquetas que identifican a las unidades estadsticas y las hacen iguales o diferentes entre s.

Si se asignan nmeros a estos valores cualitativos (modalidades), con estos no se pueden realizar operaciones aritmticas. Slo son vlidas las relaciones de igualdad (=) y no igualdad ().

Por ejemplo, la variable sexo asigna a las personas dos valores: masculino y femenino, que son de la escala nominal. Con los valores de esta variable las personas estn en una misma modalidad o en modalidades diferentes. Si se asigna un 0 al sexo masculino y un 1 al sexo femenino, con estos nmeros no se pueden realizar operaciones aritmticas. Slo se puede decir que el smbolo 0 es distinto al smbolo 1, pero no podemos decir que 1 es mayor que 0, o que 0 es menor que 1. Las variables estadsticas: estado civil, ideas religiosas, entre otras, tienen modalidades que son de escala nominal.

El mtodo estadstico con datos obtenidos en escala nominal consiste bsicamente en obtener el nmero o porcentaje de casos en cada modalidad y obtener la moda (valor de mayor frecuencia).

1.7.3. ESCALA ORDINAL.- Una escala ORDINAL es una escala nominal donde los valores de la variable se pueden ordenar en forma ascendente o descendente. En una escala ordinal los valores o modalidades reflejan el orden de las unidades estadsticas. Si se asignan nmeros a tales modalidades, con estos, no se pueden realizar operaciones aritmticas. Slo son vlidas las relaciones de igualdad (=), de no igualdad () y de orden (=).

Por ejemplo, la variable estatus econmico con sus modalidades de: clase baja, media y alta se mide en escala ordinal. La variable orden de mrito, cuyas modalidades son: 1,2,3 etc, miden las calificaciones de las unidades estadsticas en escala ordinal.

El mtodo estadstico con datos obtenidos en escala ordinal consiste bsicamente en obtener el nmero o porcentaje de casos en cada modalidad y obtener la moda, la mediana, los percentiles y el coeficiente de correlacin por rangos.

1.7.4. ESCALA DE INTERVALOS.- Una escala de INTERVALOS es una escala ordinal con cuyos valores no slo se pueden verificar: igualdad, no igualdad y orden, sino tambin, se puede elegir una unidad de escala y comprobar cuntas veces la diferencia entre dos valores es igual a la diferencia entre otros dos valores de la escala (es decir, podemos comparar intervalos).

Esto es, si X1, X2 y X3 son tres valores en la escala de intervalo, se verifica por ejemplo, la relacin:

X3 X1 = c (X2 X1) X3 X1 = c

X2 X1

Donde c es una constante.

Esta relacin se interpreta como que la escala de intervalos tiene un cero relativo. Este cero no significa ausencia total de la propiedad que se observa.

Se miden en escala de intervalos, por ejemplo: La temperatura (grados, Celsius o Fahrenheit), el tiempo, que se registra en nuestros calendarios, las calificaciones de una prueba de conocimientos o de aptitud. Estas mediciones tienen un cero elegido arbitrariamente, por ejemplo, el agua se congela a 0oC ( = 32oF).

La calificacin cero de un alumno en un examen de matemtica bsica, no quiere decir que no sabe nada de tal materia, pues con otra prueba ms fcil podra tener otra calificacin.

Con los valores de esta escala son vlidas las relaciones de igualdad, de no igualdad y de orden. Tambin, son vlidas las operaciones de adicin y sustraccin entre los valores de la escala, y la multiplicacin y divisin entre las diferencias de dos valores de la escala. Pero no es vlida la multiplicacin y divisin entre los mismos valores de la escala.

Por ejemplo, si la variable X es el puntaje obtenido en un examen calificado de 2 a 20 donde la unidad de medida es un punto a partir de 2 (cero relativo), entonces, se tiene una escala de intervalos.

En efecto, si tres alumnos A,B y C han obtenido los puntajes: 2, 4 y 16 respectivamente, no slo se verifican las relaciones: 2 4 16 y 2 < 4 < 16, sino tambin: 16 2 = 7 ( 4 2); es decir la diferencia de los puntajes de C menos A es igual a siete veces la diferencia de los puntajes de B menos A. No es vlida la divisin 16/4, pero si lo es : (16-2)/(4-2).

1.7.5. ESCALA DE RAZON O PROPORCIN.- La escala de razn o proporcin es una escala de intervalo con cuyos valores adems podemos comprobar cuntas veces un valor de la escala es igual a otro valor de la escala. Esto es, si X1 y X2 son dos valores, en la escala de razn se verifica la relacin:

X2 = c X1 X2 = c

X1

Donde c es una constante, y X1 = 0.

La escala de razn tiene un cero absoluto (ausencia de la caracterstica que se observa). Con los nmeros de esta escala son vlidas las relaciones de igualdad, de no igualdad, de orden y todas las operaciones matemticas. Los valores de esta escala se obtienen en general, por mediciones tipo conteo (discretos) o por mediciones tales como de longitud, peso, volumen, vida til, etc. (continuos).

Por ejemplo, si la variable X es la longitud (en metros) de un objeto, entonces, los valores de esta variable son de escala de razn. En efecto, si tres objetos A, B y C miden 2, 4, y 16 metros, se pueden establecer las relaciones:

2 4 16

2 < 4 < 16

16 2 = 7(4 2)

Adems: 4/2 = 2; 16/2 = 8; y 16/4 = 4

Es decir, la longitud de B es el doble que la de A, el de C es 8 veces que la de A y el de C es 4 veces que la de B.

En la siguiente tabla resumimos las principales caractersticas de las diferentes escalas existentes:

TEMA N 2

PROCESO ESTADSTICO RECOPLICACIN DE INFORMACINCOMPETENCIA DE TEMA:

La Estadstica Descriptiva, tal como se la defini en el captulo anterior, bsicamente comprende cuatro fases:

a) Recopilacin

b) Clasificacin DE DATOS

c) Presentacin

d) Descripcin

2.1. RECOPILACION DE DATOS.-

Se denomina recopilacin de datos a la operacin que consiste en acopiar o recolectar datos; dicha operacin se la puede realizar de dos maneras: Si se toman en cuenta a todos los elementos de la poblacin y se registran sus caractersticas comunes, que pueden ser variables o atributos, se denomina CENSO y la informacin obtenida de esta manera se llama dato censal. En cambio, si se seleccionan slo algunos elementos de la poblacin se llama muestra y la informacin obtenida a partir de ella se llama datos obtenidos por muestreo.2.2. TCNICAS DE MUESTREOUna parte fundamental para realizar un estudio estadstico de cualquier tipo es obtener resultados confiables y que puedan ser aplicables. Como ya se coment anteriormente, resulta casi imposible o imprctico llevar a cabo algunos estudios sobre toda una poblacin, por lo que la solucin es llevar a cabo el estudio basndose en un subconjunto de sta denominada: muestra.

Sin embargo, para que los estudios tengan la validez y confiabilidad buscada, es necesario que tal subconjunto de datos, o muestra, posea algunas caractersticas especficas que permitan, al final, generalizar los resultados hacia la poblacin en su conjunto. Esas caractersticas tienen que ver principalmente con el tamao de la muestra y con la manera de obtenerla.

2.3. IMPORTANCIA DEL MUESTREO

Usualmente se hace referencia a dos tipos de razonamiento: el deductivo y el inductivo. El primero est relacionado directamente con la teora de probabilidad, y que a partir de las caractersticas de la poblacin se obtienen las posibles caractersticas de una muestra. El segundo tipo de razonamiento se relaciona con la denominada inferencia estadstica: utilizar las caractersticas de un subconjunto de la poblacin (la muestra) para hacer afirmaciones (inferir) sobre la poblacin en general. ste ser el caso de nuestro inters.

El muestro, como ya se mencion, implica algo de incertidumbre que debe ser aceptado para poder realizar el trabajo, pues aparte de estudiar una poblacin resulta ser un trabajo en ocasiones demasiado grande, para Wonnacott y Wonnacott las razones principales para utilizar muestras son:

Recursos limitados. Es decir, no existen los recursos humanos, materiales o econmicos para realizar el estudio sobre el total de la poblacin. Es como cuando se compra un aparato, un automvil usado (por ejemplo), que se prueba unos minutos (el encendido, una carrerita, etc.) para ver si funciona correctamente y luego se adquiere, pero no se espera a probarlo toda la vida (encendindolo y apagndolo o, simplemente, dejndolo encendida) antes de realizar la adquisicin.

Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para el estudio paleontolgico de los dinosaurios (el T. Rex por ejemplo) sera muy bueno contar con, al menos, muchos restos fsiles y as realizar tales investigaciones; sin embargo, se cuenta slo con una docena de esqueletos fosilizados (casi todos incompletos) de esas criaturas en todo el mundo.

Pruebas destructivas. Es el caso en el que realizar el estudio sobre toda la poblacin llevara a la destruccin misma de la poblacin. Por ejemplo, si se quisiese saber el conteo exacto de hemoglobina de una persona habra que extraerle toda la sangre.

El muestreo puede ser ms exacto. Esto es en el caso en el que el estudio sobre la poblacin total puede causar errores por su tamao o, en el caso de los censos, que sea necesario utilizar personal no lo suficientemente capacitado; mientras que, por otro lado, el estudio sobre una muestra podra ser realizada con menos personal pero ms capacitado.

2.4.TIPOS DE MUESTREO.- Deben seguirse ciertos procedimientos de seleccin para asegurar de que las muestras reflejen observaciones a la poblacin de la que proceden, ya que solo se pueden hacer observaciones probabilsticas sobre una poblacin cuando se usan muestras representativas de la misma. Los tipos ms comunes de tcnicas de muestreo aleatorios son: el muestreo aleatorio simple, el muestreo sistemtico, el muestreo estratificado y el muestreo por conglomerados.a) MUESTREO ALEATORIO SIMPLE

Es aquella en la que los elementos se escogen del total de la poblacin en forma individual con una oportunidad igual e independiente para todas. Por lo general se utiliza una tabla de nmeros aleatorios.

Si la poblacin es infinita el muestreo aleatorio ocurre cuando la extraccin de los elementos de la muestra se hace con o sin reemplazo. Si la poblacin es finita de tamao N, el muestreo aleatorio ocurre tambin si la extraccin es con o sin reemplazo.

Con reemplazo, la probabilidad de cada elemento de ser elegido es 1/N. Si es sin reemplazo, la probabilidad de cada elemento de ser elegido es 1/N en la primera extraccin, es 1/(N-1) en la segunda extraccin, es 1/(N-2) en la tercera extraccin y as sucesivamente.

Si una muestra aleatoria se elige de tal forma que todos los elementos de la poblacin tengan la misma probabilidad de ser seleccionado, se llama muestra aleatoria simple.

Ejemplo:

Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadstica de 20 alumnos. 20C5 da el nmero total de formas de elegir una muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda, luego los colocamos en un recipiente y despus los revolvemos, entonces podremos tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco nombres. Un procedimiento ms simple para elegir una muestra aleatoria sera escribir cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y despus extraer cinco papeles al mismo tiempo.

Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco prctico, imposible o no deseado; aunque sera deseable usar muestras aleatorias simples para las encuestas nacionales de opinin sobre productos o sobre elecciones presidenciales, sera muy costoso o tardado.

b) MUESTREO SISTEMTICO

Una muestra aleatoria sistemtica es aquella en la que sus elementos se eligen de la poblacin a intervalos uniformes a partir de un listado ordenado. El k-simo elemento de la muestra es k=N/n, donde n es el tamao de la muestra y N el tamao de la poblacin.

Por ejemplo: al elegir una muestra sistemtica de 100 alumnos de una unidad educativa que tiene 3000 estudiantes. K = 3000/100 =30, entonces el primero se elige en forma aleatoria de los 30 primeros de la lista y los dems sistemticamente cada 30 alumnos de la lista.

c) MUESTREO ESTRATIFICADO.- Primero se clasifican a los elementos de la poblacin en sub-grupos separados de acuerdo con una o ms caractersticas importantes (estratos). Despus se obtiene por separado una muestra aleatoria simple o sistemtica en cada estrato. El tamao de cada sub-muestra debe ser proporcional al tamao del estrato para asegurar la representatividad.

Por ejemplo: Para obtener una muestra aleatoria de 600 electores de una poblacin de 600.000 electores de los cuales 300.000 son de clase baja, 200.000 de clase media y 100.000 de clase alta. Para ello, primeramente se obtiene el % de participacin de cada estrato sobre el total: 300.000/600.000 = 0,5 x 600 = 300; 200.000/600.000 = 0,33 x 600 = 200; y finalmente 100.000/600.000 = 0,166x600 = 100. Al interior de cada estrato se eligen en forma aleatoria simple.

d) MUESTREO POR CONGLOMERADOS.- Los elementos de la poblacin se dividen en forma natural en sub-grupos o por conglomerados. Luego se eligen al azar los sub-grupos que forman la muestra. Ejemplo: Al estudiar las pensiones que se pagan en los colegios particulares donde no es posible tener la lista de todas las pensiones, pero puede obtenerse una lista de los colegios particulares (grupos). Entonces, con esta lista puede obtener una muestra aleatoria de colegios y as obtener las pensiones que se pagan en estos colegios.

El muestreo por conglomerados requiere de elegir una muestra aleatoria simple de unidades heterogneas entre s de la poblacin llamadas conglomerados. Cada elemento de la poblacin pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogneos o dismiles.

En el muestreo por conglomerados, stos se forman para representar, tan fielmente como sea posible, a toda la poblacin; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.

En la leccin anterior analizamos las diferentes modalidades de muestreo y tipos de muestreo: Muestra probabilstica, muestra no probabilstica, etc.

En este captulo profundizaremos algunas consideraciones relativas a las distribuciones que se dan dentro del muestreo.

2.5. DETERMINACIN DEL TAMAO DE UNA MUESTRA.- Uno de los aspectos que deben definirse en el proceso de muestreo, es el tamao de la muestra. Para ello, deben tomarse en cuenta los siguientes aspectos:

a) Tamao del universo o poblacin = N

b) Grado de heterogeneidad de dicho universo, expresado por el valor de la desviacin estndar de la variable aleatoria.

c) Magnitud del error estadstico que estemos dispuesto a aceptar en los resultados. Dicho error dar lugar a un intervalo de valores en torno al valor medio que produzca la muestra. Llamamos I a la amplitud total del intervalo, es decir, a la diferencia entre sus lmites superior e inferior.

d) Grado o nivel de confianza que quisiramos poder depositar en los resultados. A dicho nivel corresponder el coeficiente z, dado que, segn la ley de los grandes nmeros, la distribucin de la media de muestras, en la que nos apoyamos conceptualmente para el clculo, es normal; a menos que se trate de una muestra pequea (n G(X)

USOS DE LA MEDIA GEOMTRICA:

Se usa el promedio geomtrico cuando los datos observados presentan una progresin geomtrica de donde deriva su nombre, cuando los datos presentan razones de cambio o porcentajes.

EJEMPLO: Supngase que la poblacin de cierta ciudad tuvo un incremento de 100.000 a 120.000 habitantes, durante el perodo 1920-1950. Cul es la razn o ndice promedio por dcada?

SOLUCION: Normalmente hacemos esta operacin: El valor posterior lo decidimos entre el valor inicial. Esto dar:

120.000 = 20 % = 6,67 % por dcada.

100.000 3

Nos preguntamos ahora Es correcta esta operacin? No, por que la poblacin crece a razn compuesta. Entonces, para responder adecuadamente tendremos que aplicar otra frmula: El razonamiento para la resolucin de este problema es el siguiente:

SOLUCION: Denotemos el crecimiento medio de cada dcada por ( r ), luego tendramos:

1

Al finalizar la primera dcada = 100.000 + 1000r = 1000 ( 1 + r )

2

Al finalizar la segunda dcada = 100.000 (1 + r) + 1000(1+r) r = 1000(1+r)

2 2 3

Al finalizar la 3ra dcada = 100.000(1+r) + 100.000(1+r) r = 100.000(1+r)

3

Esta ltima expresin debe dar 120.000. Por tanto, 100.000( 1 + r) =

EJERCICIO DE APLICACION EN CLASES:

1.- Los siguientes datos son las velocidades ( Km/hora) de 30 carros que pasaron por un punto de control de velocidad:

60303860452055204054383540 10 456049493055462938804028

15827265

Hallar la media geomtrica.

Xi - XjxiNiLog xini x Log xi

10 - 201521,1760912,352182

20 - 302541,3979405,59176

30 - 403561,5440689,264408

40 - 504581,65321213,225696

50 - 605531,7403635,221089

60 - 706541,8129137,251652

70 - 807531,8750615,251652

SUMA-.-30-.-48,53197

Aplicamos la frmula de la media geomtrica para datos agrupados:

G(X) = 1 ni x Log xi Respuesta: G(x) = 41,46 n

2.- Que capital final se tendr al cabo de 6 aos, si se invierten $u$ 1.000 al 8 % de inters anual?

Calcule a partir de la aplicacin de la media geomtrica.

4.10.-- LA MEDIA ARMONICA: La media Armnica H(x), de una serie de datos: x1, x2, x3,.........., xn, se define como LA INVERSA DE LA MEDIA ARITMETICA DE LOS VALORES INVERTIDOS y que corresponden a los datos observados.

H(X) = 1 = 1 = n = 1 + 1 + 1+ .........+ 1 1 1

x1 x2 x3 xn xi xi n n

En general tenemos:

EJEMPLO: Si x1 = 4

x2 = 7 n = 2

H(x) = . 2 . = . 2 . = 56 = 5,09 1 + 1 7 + 4 11 4 7 28

G(X) = 5,29 M(X) = 5,5 H(X) = 5,09

sea: M(X) > G(X) > H(X)

b) LA MEDIA ARMNICA PARA DATOS AGRUPADOS: Cuando los datos estn agrupados en una distribucin de frecuencias, la frmula para calcular la media armnica es el siguiente:

H(X) = . n .

ni

xi

EJEMPLO: se tiene la siguiente distribucin de frecuencias:

XiNinixixi niLog xini Log xi

320,6760,477120,95424

430,75120,602060,80618

520,40100,698971,39794

620,33120,778151,5563

710,1470,845100,8451

?102,2947-.-6,55976

H(X) = 4,37

M(X) = 4,7

G(X) = 4,53

Entonces corroboramos que:

La relacin anterior se explica, por que la M(X) es la ms afectada por los valores extremos o pronunciados, que la media geomtrica (G(X) y la Media Armnica H(X). Si bien, estas ltimas G(X) y H(X) son tambin afectadas por los valores extremos, el uso del producto y la raz en el caso de la G(X) y el inverso en el caso de la H(X), amortiguan de algn modo la incidencia de los valores extremos.

APLICACIONES DE LA MEDIA ARMONICA: La Media Armnica H(X) es til para promediar razones al igual que la media geomtrica G(X). En el caso en que se trata de:

a) Promediar velocidades

b) Promediar rendimientos laborales

EJEMPLO: Una fbrica de muebles de madera ha asignado a cinco de sus trabajadores para completar una orden de 200 sillas de un cierto tipo. Las razones de productividad de los cinco trabajadores estn dadas por la siguiente relacin.

TRABAJADOR RENDIMIENTO/OBERO

A

5 HRS/SILLA

B

8

C

6

D

12

E

4

Hallar el rendimiento promedio de los trabajadores.

M(X) = 5 + 8 + 6+ 12 +4 = 35 = 7 sillas/hora 5 5

G(X) = Log G(X) = Log xi

n

H(X) = . 5 . = . 5 . = 6,06

1 + 1 + 1 + 1 + 1 0,825

5 8 6 12 4

SUPUESTO: Todos los trabajadores ha laborado el mismo nmero de horas.

4.11. LA MEDIA CUADRATICA.

DEFINICION: La Media Cuadrtica de n valores se define como la raz cuadrada de la media aritmtica de los cuadrados de las observaciones.

a) PARA DATOS SIN AGRUPAR:

2

Mc (X) = xi

n

b) PARA DATOS AGRUPADOS:

2

Mc (X) = xi . ni n

EJEMPLO: Se tiene los siguientes datos

5, 8, 6, 12, 4

Mc (X) = 5 + 8 + 6 + 12 + 4 = 285 = 7,54

5 5

La aplicacin de la Media Cuadrtica MC (X) se ver en los prximos captulos, en el tratamiento de las medidas de dispersin.

EJERCICIO DE APLICACION EN CLASES DE LA MEDIA ARMONICA: Una Cia. de compra-venta de terrenos ofrece en venta 400 metros cuadrados de terreno desrtico a 0,5 dlares cada metro cuadrado, 1000 metros cuadrados de terreno cultivable a 10 dlares cada metro cuadrado y 500 metros cuadrados de terreno urbanizado a 400 dlares cada metro cuadrado. Se pide calcular el precio promedio por metro cuadrado de los terrenos ofertados. Calcule la media armnica y la media aritmtica y luego compare los resultados.

Como usted explica las diferencias entre ambos resultados? Cul es la medida o promedio ms acertado? Explique por que.

4.12. LA MEDIANA:

ALGUNAS CONSIDERACIONES PREVIAS: Se ha podido apreciar que las medidas anteriores estn influenciadas, en mayor o menor grado, por los valores extremos, entonces cuando esto acontece la media aritmtica y otras medidas estudiadas no constituyen un indicador adecuado.

EJEMPLO: Si un obrero produce diariamente 4 sillas de lunes a jueves, pero el da viernes por una dolencia apenas produce 1 silla, entonces su rendimiento promedio desciende considerablemente. Una forma de evitar la influencia perniciosa de los valores extremos, cundo se calcula un promedio, es utilizando la medida alternativa, que viene a ser la MEDIANA.

LA MEDIANA- DEFINICIN

La mediana (Me) es un valor de las observaciones que divide en dos partes iguales el nmero total de observaciones cuando stos estn ordenados de acuerdo a sus valores.

a) LA MEDIANA PARA DATOS SIN AGRUPAR:

Para calcular la mediana cuando los datos no estn agrupados, se sigue el procedimiento siguiente:

EJEMPLO 1: Tenemos los siguientes valores.

4, 5, 8, 2, 7, 2, 3

Que valor es la Mediana ?

1) Previamente se ordenan los datos en forma correlativa:

2, 2, 3, 4, 5, 7, 82) Se elige el valor que divide exactamente en dos partes iguales la informacin:

Entonces la Mediana = Me = 4

EJEMPLO 2: Tenemos las siguientes observaciones:

3, 4, 6, 7, 7, 8

Cul es la Mediana ?

En este caso dos valores se ubican fsicamente en el medio 6 y7. Cuando ello acontece, se toman ambos valores y se promedia entre dos para hallar la mediana:

Me = 6+7 = 6,5 llega a ser la mediana.

2

La caracterstica tpica de la Mediana es que divide al conjunto de las observaciones exactamente en dos partes iguales.

50 % 50 %

______________________x__________________________

Que viene a ser el punto de equilibrio que balancea el nmero de observaciones de la serie estadstica.

b) LA MEDIANA PARA DATOS AGRUPADOS: Cuando la mediana est representada en una distribucin de frecuencias, es posible distinguir dos situaciones:

b.1. CUANDO LA CLASE ES UNICA Y DISCRETA: Cuando ello acontece, es preciso seguir los siguientes pasos:

1 SE DEBE CALCULAR LA FRECUENCIA ABSOLUTA ACUMULADA Ni

2 SE CALCULA EL VALOR DE n/2

GRAFICAMENTE TENEMOS: Ni

Nj

n/2

N j-1

X j-1 Xj

Xi

3 SE APLICAN LAS SIGUIENTES REGLAS:

a) Si: n > N Mediana = Me = X 2 j - 1 j

X + X

b) Si: n = N Mediana = j - 1 j

2 j - 1

2

EJEMPLO:

Se tienen las calificaciones de 50 alumnos distribuidos de acuerdo a la siguiente distribucin de frecuencias:

CALIFICACIONES

XiFRECUENCIA ABSOLUTA

NiFREC. ABSOLUTA

ACUMULADA

Ni

1044

20610

301121

401233

50841

60748

70250

?50-.-

Calculamos n/2 = 50/2 = 25

Entonces: Como n/2 > N = Me = X

j - 1 j

sea: Me = 40

b.2. CUANDO SE TIENEN INTERVALOS DE CLASE:

Cuando se tienen intervalos de clase, se aplican los siguientes pasos:

Paso N 1.- Se calcula n/2

Paso N 2.- Se ubica n/2 entre las frecuencias absolutas Acumuladas Ni

Paso N 3.- Se identifica la CLASE MEDIANA

Si n/2 est o se ubica en un punto intermedio, la clase mediana ser la que corresponde a la frecuencia Absoluta Acumulada Inmediata Superior.

En cambio, si n/2 coincide con un punto de las Frecuencias Absolutas acumuladas, la Clase Mediana ser la que corresponde a este punto.

Paso N 4: Luego se desarrolla una de las siguientes frmulas:

X + c n/2 - N

a) Si: n/2 > N Me = j - 1 j j - 1

j - 1

N - N

j j - 1

b) Si: n/2 = N Me = X

j - 1 j - 1

GRAFICAMENTE TENEMOS:

Ni

Nj

n/2

N j-1

c

X j-1 cj Xj

Xi

EJERCICIO:

CALIFICACIONES

Xj-1 - XjNiNi

2 - 311

3 - 434

4 - 5812

5 - 6714

6 - 7625

SUMA25-.-

n/2 = 25/2 = 12,5

En este caso:

n/2 - N

n/2 > N Me = X + c j - 1 j - 1 j - 1 N - N

j j - 1

Remplazando datos tenemos:

12,5 - 12 = 5 + 0,5 = 5,07

Me = 5 + 1 19 - 12 7

Entonces: Me = 5,1

EJERCICIO PARA RESOLVER EN CLASES:

Se tiene la siguiente distribucin de frecuencias correspondiente a los salarios semanales de 100 obreros.

INGRESOS

Xj - 1 - Xj N DE OBREROS

niNi

280 - 29544

295 - 31059

310 - 3251019

325 - 340928

340 - 3651341

365 - 3701556

370 - 3851874

385 - 4001286

400 - 415894

415 - 4306100

SUMA100-.-

Calcular la mediana:

n/2 = 100/2 = 50

n/2 - Nj - 1Entonces: Xj - 1 + cj Nj - Nj - 1

Me = 15 + 50 - 41 = 364

56 - 41

4.13. CUANTILAS O FRACTILAS

A.- INTRODUCCION: En forma similar a la definicin de Mediana, pueden derivarse otros estadgrafos llamados genricamente: CUANTILAS O FRACTILAS, que cumplen con la condicin de superar a no ms de un cierto porcentaje de las observaciones y de ser superado simultneamente por no ms del porcentaje complementario de las observaciones. Entre estos tenemos:

Los cuartiles

Los deciles CUANTILAS O FRACTILAS

Los percentiles

B.- CUARTILES:

Como su nombre lo indica, divide en cuatro partes iguales al conjunto de las observaciones:

0 1 Q 2 Q 3Q 4Q

Por lo tanto, existen tres cuartiles que responden a las siguientes definiciones:

B.1. LOS CUARTILES PARA DATOS SIN AGRUPAR:

Los pasos para determinar los cuartiles cuando los datos se presentan sin agrupar, constan de las siguientes etapas:

1 Paso: Se ordenan los datos en forma correlativa y ascendente.

2 Paso: Se determina el cuartil j-simo, que viene a ser el valor del dato que

ocupa la posicin , para ello recurrimos a la siguiente relacin:

( j / 4 ) ( n + 1 )

EJEMPLO: Dado el siguiente conjunto de datos: 15, 13, 2, 4, 10

Calcular los tres cuartiles.

SOLUCION.-

Primero ordenamos los datos:

24131519

x1x2x3x4x5

PRIMER CUARTIL:

Para el primer cuartil tenemos los siguientes datos: j = 1 y n = 5

( 1 / 4 ) ( 5 + 1 ) = 1,5 valor que no es un entero, por lo tanto el primer cuartil estar entre las observaciones x1 y x2. Para ello efectuamos la siguiente operacin:

24131519

x1x2x3x4x5

Posicin: 0 Q1 Q2 Q3 posicin n+1

Me

Para calcular el 1er cuartil extrapolamos las proporciones:

Q1 - x1 = 0,5 Q1 = x1 + (x2 + x1) (0,5)

x2 - x1 1

Remplazamos datos: = 2 + ( 4 - 2 ) ( 0,5 ) = 3

Entonces el primer cuartil es igual a 3

SEGUNDO CUARTIL:

El 2o cuartil es igual a la mediana, y se calcula de la siguiente manera:

j = 2

n= 5

Q2 = Me = (2/4) + ( 5 + 1) = 2/4 . 6 = 3 , Osea x3 viene a ser el 2do

Cuartel.

Entonces Q2 = x3 = 13

TERCER QUARTIL.- Para calcular el 3er cuartil tenemos:

j = 3

n=5

( 3/4) (5+1) = 3/4.6= 4,5 Que no es un valor entero, entonces el 3er cuartil est entre x4 y x5

Para ello extrapolamos: Q3 - x4 = 0,5

x5 - x4 1

Despejamos Q3:

Q3 Q3 - x4 = (0,5) ( x5 - x4 )

Q3 = x4 + 0,5 . x5 - 0,5 . x4

Q3 = 15 + (0,5) (19) - (0,5) ( 15)

Q3 = 15 + 0,5 ( 19 - 15)

Q3 = 15 + 2

Q3 = 17

B.2. LOS CUARTILES PARA DATOS AGRUPADOS: Cuando los datos estn distribuidos en una tabla de distribucin de frecuencias, el procedimiento que se sigue para determinar los cuartiles es similar al utilizado para calcular la mediana para datos agrupados, sea:

1 .- Se calculan las Frecuencias Absolutas Acumuladas

2 .- Se calcula n/4 ( Q1 = ; Q2 = 2/4 = = Me ; Q3 = )

3 .- Se ubica n/4 entre las frecuencias absolutas acumuladas Ni

4 .- Se determina la clase del cuartil

5 .- Se aplica la siguiente regla:

PRIMER CUARTIL:

Para el primer cuartil Q1 = Osea; n/4 =

n/4 - Nj - 1

Q1/4 = Xj -1 + c Nj - Nj - 1

EJEMPLO:

Se tienen los siguientes datos, organizados en una tabla de distribucin de frecuencias:

Xj-1 - XjNiNi

2 - 311

3 - 424

4 - 5812

5 - 6719

6 - 7625

SUMA25-.-

n/4 = 6,25

Remplazamos Datos:

Q1/4 = 4 + 1 6,25 - 4 = 4 + 0,28

12 - 4

Q1/4 = 4,28

SEGUNDO CUARTIL:

El segundo cuartil o cuartil medio coincide exactamente con la Mediana, para lo cual se utiliza el mismo procedimiento de la mediana.

Q2/4 = Q = Me

TERCER CUARTIL:

El Tercer Cuartil ( Q 3/4) o cuartil superior es un valor que supera a no ms del 75 % de las observaciones y es superado por no ms del 25 % de las mismas.

3n/4 = Q3

Q3/4 = Xj-1 + c 3n/4 - Nj-1

Nj - Nj-1

EJEMPLO: Calculamos el Q3 para el ejercicio anterior:

Xj-1 - XjNiNi

2 - 311

3 - 434

4 - 5812

5 - 6719

6 - 7625

SUMA25-.-

Q3/4 = 3n/4 = 3 x 25 = 18,75

4

Q3/4 = 5 + 18,75 - 12 = 5 + 0,96 = 5,96

19 - 12

Q3/4 = 5,96

4.14. LOS DECILES: Los deciles dividen en 10 partes iguales al conjunto de las observaciones. Por lo tanto, existen los siguientes deciles:

PRIMER DECIL : P 1/10

SEGUNDO DECIL: P 2/10

TERCER DECIL : P 3/10

.

.

NOVENO DECIL: : P 9/10

0 1 2 3 4 5 6 7 8 9

El 5to. decil coincide con la Me

El procedimiento tanto para datos sin agrupar y agrupados es axactamente el mismo que se aplica a los cuartiles.

4.15. LOS PERCENTILES: El uso de los percentiles o centiles solo es justificable cuando existen tantos numerosos valores de la variable, como una frecuencia total bastante alta. Los percentiles dividen en 100 partes iguales el nmero de observaciones.

PRIMER CENTIL

: P 1/100

SEGUNDO CENTIL

: P 2/100

TERCER CENTIL

: P 3/100

CUARTO CENTIL

: P 4/100

.

.

.

NOVENTA Y NUEVE CENTIL: P 99/100

El procedimiento al igual, que en el caso anterior es el mismo.

EJERCICIOS EN CLASES:

Sea el siguiente conjunto de datos:

3, 10, 0, 9 8, 4, 4, 3, 10, 15, 20, 18

Calcular: Decil 2, Decil 9, Percentil 50, Percentil 80

SOLUCION:

Ordenamos los datos:

03344891010151820

x1x2x3x4x5x6x7x8x9x10x11x12

DECIL 2:

j = 2 n = 12

D2 = (2/10)(12+1) = 2,6 Entonces: D2 estar entre x2 y x3

D2 = D2 - x2 = 0,6

x3 - x2 1

D2 - x2 = 0,6 ( x3 - x2)

D2 = x2 + 0,6 (x3 - x2)

D2 = 3 + 0 = 3

DECIL 9:

J = 9 n = 12

(9/10)(13) = 11,7 Entonces el decil 9 estar entre x11 y x12

D9 = x11 + (x12 - x11) 0,7

D9 = 19,4

PERCENTIL 50: j = 50 n = 13

(50/100)(13) = 6,5 Entonces P50 estar entre x6 y x7

P50 = x6 + ( x7 - x6 ) 0,5 = 8,5

PERCENTIL 80:

j =80 n = 13

P80 = (80/100) (13) = 10,4 Entonces P80 estar entre x10 y x11

P80 = x10 + ( x11 - x10 ) 0,4 = 16,2

4.16. LA MODA

DEFINICION: La Moda llamada tambin: MODO, MODO PROMEDIO, VALOR TIPICO o VALOR MODAL ( Mo), es una medida de tendencia central, que viene a constituir el valor ms frecuente de una serie de datos; sea el que ms veces se repite.

a) LA MODA PARA DATOS NO AGRUPADOS:

Para determinar la Moda de un conjunto de datos sin agrupar, previamente se ordenan los mismos en forma ascendente o descendente, respetando la correlatividad de los mismos.

EJEMPLO:

1) 2, 2, 5, 7, 9, 9, 9, 9, 11, 12 En este primer ejemplo el valor que ms

frecuentemente se repite es el 9, Entonces la Mo = 9

2) 3, 5, 8, 10, 12, 15, 16 En este ejemplo, podemos decir que no existe

MODA

3) 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 En este tercer ejemplo, dos son los valores

que se repiten ms veces : 4 y 7, Entonces existen 2 modas.

Cuando un conjunto de datos presentan dos modas, se dice que es BIMODAL; si son ms de dos modas se llama MULTIMODAL.

b) LA MODA PARA DATOS AGRUPADOS:

Cuando los datos estn expresados en una tabla de distribucin de frecuencias, es posible diferenciar dos situaciones:

b.1. CUANDO LA CLASE ES UNICA:

Cuando la clase es nica y discreta, entonces la MODA es la frecuencia que ms veces se repite.

EJEMPLO:Xini

32

43

52

62

71

SUMA10

En el presente ejemplo, la frecuencia que ms veces se repite es el 4; sea este valor se repite tres veces.

La moda = Mo = 4

b.2. LA MODA PARA INTERVALOS DE CLASE:

Cuando se tiene intervalos de clase, la MODA se determina por interpolacin; sea:

Mo = X j-1 + c . d1 .

d1 + d2

Donde: X j-1 = Lmite inferior de la clase modal, sea el intervalo que tiene

Mayor frecuencia.

d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia

pre-modal.

d2 = Diferencia entre la frecuancia de la clase modal y la frecuencia

de la clase post-modal.

c = Tamao del intervalo de la clase modal.

GRAFICAMENTE TENEMOS:

Ni

Clase modal

d2

d1

X j-1 Xj

Xi

Me

PROCEDIMIENTO PARA DETERMINAR LA MODA PARA INTERVALOS DE CLASE: Cuando los datos estn distribuidos en una tabla de frecuencias, para calcular la Moda se procede de la siguiente manera:

PASO 1: Se identifica el mayor valor entre las frecuencias absolutas.

PASO 2: Se determina la clase modal, que ser aquel intervalo que tiene la mayor frecuencia absoluta.

PASO 3: Luego, se determinan los datos que sern utilizados para aplicar la frmula:

EJEMPLO:

X j-1 - Xjni

2 - 31

3 - 43

4 - 58

5 - 67

6 - 76

SUMA25

Mo = X j-1 + c . d1 .

d1 + d2

Donde:

X j-1 = 4

c = 1

d1 = 8 - 3 = 5

d2 = 8 - 7 = 1

Mo = 4 + 5 = 4 + 0,83 = 4,83 6

Mo = 4,83 Mo = 4,8

ALGUNAS CARACTERISTICAS MS RELEVANTES DE LA MODA:

1. La Moda le sigue en importancia a la media y a la mediana, su uso se hace imperativo cuando los datos son de tipo CUALITATIVO. Su fcil interpretacin y su clculo sencillo hacen de la moda una medida de tendencia central ms usual y prctico. De esta manera, un fabricante de muebles puede estar interesado en saber que tipo de muebles se venden ms; esta medida estar representada por la Moda.

2. No es una medida nica como la media y la mediana. Un conjunto de datos puede tener ms de una moda.

3. El clculo de la Moda es independiente de la magnitud de las observaciones. Como tal, puede permanecer igual variando los valores o incrementando el 4. nmero de ellas.

RELACIONES ENTRE LA MEDIA, MEDIANA Y LA MODA:

En una distribucin UNIMODAL, si la distribucin es simtrica, entonces la Media, la mediana y la Moda son iguales. En cambio cuando la distribucin es casi simtrica, la Mediana se localiza aproximadamente a un tercio de la distancia entre la Media y la Moda. La frmula que describe esta relacin es la siguiente:

Moda = Media - 3 ( Media - Mediana)

EJERCICIO EN CLASES: Calcular la Moda para los salarios semanales de 100 obreros, que trabajan en distintas empresas constructoras de viviendas:

INGRESOSN DE OBREROS

280 - 2954

295 - 3105

310 - 32510

325 - 3409

340 - 35513

355 - 37015

370 - 38518

385 - 40012

400 - 4158

415 - 4306

SUMA100

Me = 364

Mo = 375

M(x) = 360,85

Mo ( aproximado) = 370,30

Asimismo, calcular la Moda utilizando la relacin Moda = Media - 3 ( Media - Mediana )

TEMA N 5MEDIDAS DE DISPERSION Y VARIABILIDAD

COMPETENCIA DE TEMA:

5.1. DEFINICIN.- Las medidas de dispersin o variabilidad, a las que convencionalmente llamaremos indicadores estadsticos de dispersin, miden el grado de dispersin o concentracin de los datos estadsticos en torno a un valor de medida de tendencia central previamente seleccionado.Esta medida es particularmente importante por que permite corroborar o desestimar una medida de tendencia central como indicador adecuado de la representatividad de un conjunto de datos, en consecuencia, cuando los indicadores de dispersin reflejan una alta variabilidad o dispersin la media aritmtica no suele ser una medida adecuada para medir el grado de representatividad de los mismos, al contrario una baja dispersin hace que la media aritmtica se constituya en una medida eficaz para medir el grado de concentracin de los datos estadsticos.

EJEMPLO:

1. Una baja dispersin de los salarios mensuales de un grupo de trabajadores indica que los salarios son aproximadamente iguales.

2. En cambio, una alta dispersin indica que los salarios son muy diferentes.

Por otro lado, estas medidas de dispersin son utilizadas para complementar una medida de tendencia central, como por ejemplo la Media, y tambin para comparar una informacin con otra.

Como regla general, se puede sealar:

- CUANDO LA DISPERSIN ES BAJA, ENTONCES EL VALOR PROMEDIO ES ALTAMENTE SIGNIFICATIVO.

- CUANDO LA DISPERSIN ES ALTA, LA MEDIA ES POCO REPRESENTATIVA.

EJEMPLO: Se tienen las calificaciones del 1 al 10 en dos cursos diferentes:

4, 2, 9 = 5 Hay mayor dispersin.

3, 6, 6 = 5 Son menos dispersos.

Que conclusiones importantes podemos extraer de esta informacin ?

a) Que en ambos cursos se tuvo igual aprovechamiento en promedio.b) Que probablemente se utiliz igual metodologa.c) Que los profesores tienen igual experiencia, sea las condiciones en ambos cursos son las mismas.Por eso es importante contar con otras medidas complementarias que nos permitan salir de esta disyuntiva, en particular en situaciones como el presente las medidas de dispersin suelen jugar un papel importantsimo para dirimir la disyuntiva.5.2. CLASIFICACIN DE LAS MEDIDAS DE DISPERSIN O VARIABILIDAD:

Las medidas ms comnmente usadas son:

1. El Recorrido = R2. La desviacin Media = DM3. La varianza = V(x)4. La Desviacin Estndar o Tpica = (5. El Coeficiente de Variacin = CV5.2.1 EL RECORRIDO:

El Recorrido o rango es la medida ms simple de dispersin y est dada por la diferencia entre el mayor y menor valor de las observaciones.

sea:

Donde: R = Recorrido

X max = Valor mximo observado

X min. = Valor mnimo observado

Ejemplo:

Si: X mximo = 430

X mnimo = 280

Entonces el recorrido ser igual a: R = 430 - 280 = 150

Sin embargo, como esta medida no contempla todos los valores contemplados entre el valor mximo y el mnimo, se dice que no es un indicador de dispersin muy relevante.

EJEMPLO DE APLICACIN:

Se tienen los siguientes datos de salario medio en 2 fabricas:

FABRICA A

FABRICA B

a = 50

b = 50

Ra = 20 - 65 = 45

Rb = 35 - 65 = 30

Entonces, podemos sealar a partir del anlisis del recorrido que la media de B es ms representativa que la media de A, sea hay mayor dispersin en la fbrica A.

5.2.2. LA DESVIACIN MEDIA

DEFINICION.- La Desviacin Media ( DM ) es la media aritmtica de los desvos de los valores individuales observados, con respecto al promedio de los mismos.

DM

Me Sin embargo, los ms usual es con

respecto a la Media Aritmtica.

Pero se sabe, por la primera propiedad de la sumatoria de los desvos respecto a la media aritmtica es igual a cero, por esta razn es que se utilizan los desvos en su valor absoluto.

DM = M ( / d / ) = ( | Xi - |

n

LA DESVIACIN MEDIA PARA DATOS SIN AGRUPAR:

La frmula para calcular la desviacin media para datos sin agrupar est dada por:

DM = ( | Xi - |

n

LA DESVIACIN MEDIA PARA DATOS AGRUPADOS:

DM = ( | Xi - | ni

n

EJEMPLO DE APLICACIN:

a) Se tiene el conjunto de calificaciones de 10 alumnos en una prueba de Estadstica:

3, 4, 5, 4, 6, 5, 4, 6, 7, 3

Calcular la desviacin Media para datos sin agrupar.

XiXi - |Xi - |

3- 1,71,7

4- 0,70,7

50,30,3

4- 0,70,7

61,31,3

50,30,3

4- 0,70,7

61,31,3

72,32,3

3- 1,71,7

SUMA011

= 47 = 4,7 10

Entonces, La DM = 11 = 1,1

10

a) Sea la informacin expresada en la siguiente tabla de distribucin de frecuencias:

Xini

32

43

52

62

71

SUMA10

Calcular la Desviacin Media DM:

SOLUCIN:

Utilizamos la frmula de la DM para datos agrupados y calculamos previamente |Xi - | y luego multiplicar la relacin por la frecuencia absoluta ni.

XiniXi . ni|Xi - ||Xi - |. ni

3261,73,4

43120,72,1

52100,30,6

62121,32,6

7172,32,3

SUMA1047-.-11

= 47 = 4,7 DM = 11 = 1,1 10 10

LIMITACIONES DE LA DESVIACION MEDIA:

Si bien la desviacin media como medida de dispersin toma en cuenta todos los valores observados, la misma es poco frgil debido a que ignora el signo de los desvos, lo que hace que se tenga que recurrir a otra medida alternativa.

EJERCICIO EN CLASES:

Hallar la desviacin media para la siguiente distribucin de frecuencias:

INGRESOSN DE OBREROS

280 - 2954

295 - 3105

310 - 32510

325 - 3409

340 - 35513

355 - 37015

370 - 38518

385 - 40012

400 - 4158

415 - 4306

SUMA100

5.2.3. LA VARIANZA Y LA DESVIACIN STANDAR

DEFINICIN.- La Varianza y la Desviacin Estndar son las medidas de dispersin ms utilizadas en la estadstica y entre todas, se trata de medidas de variabilidad cuyos valores indican si los datos estn bastante concentrados o dispersos con respecto a su media. Los simbolizaremos por:

2

Varianza : V(x) = (

Desviacin Standar : DS = (Se denomina Varianza a la media aritmtica de los cuadrados de las desviaciones respecto a la Media Aritmtica de dichas distribuciones.

Se denomina Desviacin Standar Desviacin Tpica a la raz cuadrada de la Varianza.

Cuanto mayor sea la magnitud de la varianza los datos estn ms dispersos o diseminados con respecto de la media y cuanto menor sea la varianza los datos estarn ms concentrados al rededor de la media.

a) LA VARIANZA Y LA DESVIACIN STANDAR PARA DATOS SIN AGRUPAR:

2 2 2 2

V(x) = S = ( = ( ( Xi - ) = M ( Xi - ) n

_____

DS = S = ( = ( V(x)

b) LA VARIANZA Y LA DESVIACION STANDAR PARA DATOS AGRUPADOS:

Las formulas que determinan la Varianza y la desviacin Standar para datos agrupados son:

2 2

S = V(x) = ( ( Xi - ). ni

n

_____

S = ( = ( V(x)

EJEMPLO: Del conjunto de calificaciones de 10 alumnos: 3,4,5,4,6,5,4,6,7,3. Calcular la varianza para datos agrupados y para datos sin agrupar.

PARA DATOS SIN AGRUPAR:

Xi 2

( Xi - )

32,89

40,49

50,09

40,49

61,69

50,09

40,49

61,69

75,29

32,89

SUMA16,1

= 47 = 4,7 10

2

V(x) = (( Xi - ) = 16,1 = 1,61 10 10

PARA DATOS AGRUPADOS:

XiniXi . ni 2

(( Xi - ) 2

((Xi - ) ni

3262,895,78

43120,491,47

52100,090,18

62121,693,38

7175,295,29

SUMA10 47-.-16,1

= ( Xi . ni = 47 = 4,7 n 10

2 2

V(x) = S = (( Xi - ).ni = 16,1 = 1,61 n 10

_____

DS = S = ( 1,61 =

PROPIEDADES DE LA VARIANZA:

A continuacin se mencionan las propiedades ms importantes de la varianza que obviamente implican las propiedades de la Desviacin Standar.

Propiedad N 1.- Para un conjunto de datos observados:

x1, x2, x3, ................, xn

V(x) > 0

DEMOSTRACIN:

2

Por definicin sabemos que la M (d) = 0, pero si elevamos al cuadrado M(d)Entonces: 2

(Xi - ) > 0 Cualquiera sea el valor de di

2

M ( d ) > 0

Propiedad N 2.-- Si todos los valores de Xi son iguales a una constante k, entonces:

V ( k ) = 0

DEMOSTRACION: Por definicin sabemos que:

2

V ( k ) = M k - M( k )

Pero como M ( k ) = k

Entonces:V (k ) = M ( k - k ) = M(0) = 0

PROPIEDAD N 3.- Si k es una constante cualquiera, entonces:

V ( X + k ) = V (x)

DEMOSTRACION:

2

V ( X+k) = M[ (x+k) - M ( x+k) ( 2

V(X+K) = M (X+K) - M(X) - M(K)

2

X(X+K) = M ( X+K-M(X) - K )

2

V(X+K) = M ( X - M(X) = V(X)

PROPIEDAD N 4.- Sea K una constante cualquiera, entonces:

2

V(K.X) = K . V(X)

DEMOSTRACION:

2 2

V(X.K) = M [KX - M(KX) ( = M[XK - KM(X)(

2

Sacamos fsctor comun K

2 2 2 2

M [ K ( X - M(X) ( = M [ K ( X - M(X)(

2 2

V(K.X) = K M [ X - M(X)(

VK.X) = K V(X)

PROPIEDAD N 5.-

2 2

V(X) = M(X) - [ M(X) (DEMOSTRACION: Por definicin tenemos:

2 2

V(X) = M( X ) - [ M(X) ( DEMOSTRACIN: Por definicin de Varianza sabemos que:

2 2 2

V(x) = ((Xi - ) = [Xi - 2Xi . + ()( n n

2 2

V(x) = ( Xi - 2 .( Xi + n n n

2 2

V(x) = M( X ) - [ M(x) (Esta ltima propiedad es muy til para fines prcticos, la gran ventaja radica en que no es necesario el clculo de los desvos. Entonces alternativamente se puede usar las frmulas siguientes:

PARA DATOS SIN AGRUPAR:

2 2

V(x) = ( Xi - [(Xi( n n

PARA DATOS AGRUPADOS:

2 2

V(x) = ( Xi . ni - [ ( Xi . ni ( n n

EJERCICIO: Calcular la Varianza utilizando el mtodo abreviado, para la siguiente distribucin de frecuencias:

XiNiXi . ni 2

Xi

2

Xi . ni

326918

43121648

52102550

62123672

7174949

SUMA1047135237

= (Xi . ni = 47 = 4,7 n 10

(Xi . ni = 237 = 23,7 n 10

2 2

V(X) = M ( X ) - [ M(X) ( 2

V(X) = 23,7 - ( 4,7 ) = 23,7 - 22,09

V(X) = 1,61

5.3. EL COEFICIENTE DE VARIACION

Las medidas de variabilidad absolutas, llmese: RANGO, DESVIACIN MEDIA, VARIANZA Y LA DESVIACION STANDAR, no siempre son posibles de utilizar en todos los momentos y circunstancias, sobre todo si los fenmenos estudiados tienen distintas unidades de medida, dicho de otro modo, los datos estn expresados en unidades de medida diferentes y su comparacin se dificulta (Slo es posible comparar dos fenmenos si existen caractersticas comunes entre ambos).

Por ejemplo, como comparar nmeros de libros con horas de viaje, o como comparar horas de estudio con nmero de automviles en una ciudad ? .

En consecuencia, si dos conjuntos de valores se comparan, los valores absolutos son convenientes solamente cuando los indicadores de los dos conjuntos son aproximadamente del mismo tamao y las unidades de medida son idnticas.

Debido a esta limitacin, es que se requiere de medidas de dispersin que se expresen en trminos relativos para efectuar las comparaciones como en los casos citados. Trabajar con medidas expresadas en unidades relativas y no absolutas, permite efectuar comparaciones entre dos conjuntos de valores o datos expresados en medidas distintas.

5.3.1. EL COEFICIENTE DE VARIACIN - DEFINICIN:

El Coeficiente de Variacin (CV) es una medida de dispersin relativa y est dada por la siguiente expresin:

CV = _s_ = %

Donde:

CV = Coeficiente de Variacin

s = Desviacin Standar

= Media Aritmtica

EJEMPLO DE APLICACIN: El ingreso mensual de cierto grupo de trabajadores adultos es de M(X) = 1.875 Bs con una desviacin Standar de s=285 Bs. En tanto que el ingreso medio mensual para un grupo del mismo tamao de voceadores es de M(X) = 315 y la Desviacin Stndar es de s = 80 Bs.

ADULTOS

NIOS VOCEADORES

= 1.875.--

= 315.--

S = 285

S = 80

Podemos afirmar categricamente que el salario de los adultos tiene mayor dispersin? La respuesta es: ! no !

Por que estaramos comparando dos grupos heterogneos diferentes, sea adultos y nios y las ocupaciones son distintos. En consecuencia, no sirven mucho en estos casos las medidas de dispersin absolutas, como la Varianza, la desviacin Standar o el Rango.

Para estos casos es que utilizamos el CV.

CVa = 285 = 15,2 % CVb = 80 = 25,3 %

1.875 315

Entonces, podemos afirmar definitivamente que los salarios de los nios presentan mayor variabilidad que los adultos.

EJERCICIOS PARA RESOLVER EN CLASES:

1.- Hallar la Varianza mediante el mtodo abreviado para la siguiente distribucin de frecuencias:

INGRESOSN DE OBREROS

280 - 2954

295 - 3105

310 - 32510

325 - 3409

340 - 35513

355 -- 37015

370 - 38518

385 - 40012

400 - 4158

415 - 4306

SUMA100

Interpretar el resultado obtenido.

2.- Una regin se divide en dos zonas: A y B. En la zona A existen diez cooperativas con una produccin promedio de arroz de 100 TM y una desviacin Standar de 10 TM. En la zona B existen 15 cooperativas con una produccin promedio de 120 TM de arroz y una desviacin Standar o tpica de 9 TM. Determinar el Coeficiente de Variacin de la regin.

Interprete el resultado obtenido.

TEMA N 6DISTRIBUCIONES BIDIMENSIONALES

COMPETENCIA DE TEMA:

6.1. INTRODUCCION.- Hasta ahora nos hemos limitado al estudio de datos UNIDIMENSIONALES o UNIVARIANTES, dicho de otra manera, nos hemos concretado a estudiar una sola caracterstica asociada a cada observacin, ya sea variable o atributo, dependiendo de la unidad estadstica objeto de estudio.

Ejemplo:LA ESTATURA DE LOS ESTUDIANTES DE UN CURSO

Sin embargo, en la vida real los fenmenos no suelen presentarse solos, a menudo es preciso estudiar ms de una caracterstica u observacin ligada a un fenmeno. Ejm. La estatura y el peso de los estudiantes de una unidad educativa. En este caso, se trata de distribuciones bidimensionales o bivariadas.

En el caso que nos ocupa, una muestra de tamao n se representa como un conjunto de pares ordenados de la siguiente forma:

(X1, Y1) (X2,Y2) (X3, Y3),.........................., (Xn,Yn)

El par ordenado ( Xi,Yi) representa la estatura y el peso de cada estudiante.

6.2. CARACTERISTICA DE LOS DATOS BIDIMENSIONALES.-

Dadas las observaciones bivariadas:

(X1,Y1) (X2,Y2) (X3,Y3),........................, (Xn,Yn)

Considerando en forma separada cada una de las variables o atributos (X1 ,X2 ,X3,.......Xn) o (Y1, Y2, Y3,..........Yn), como valores independientes de la variable univariante X o Y, se pueden calcular todas las medidas descriptivas hasta ahora estudiadas, como ser:

= Media Aritmtica

V(x) = Varianza de X

Me = Mediana

Gx = Desviacin Standar

Mo = Moda

CV = Coeficiente de variacin

En forma anloga puede suceder con la variable Y, donde tambin se pueden calcular por separado los mismos estadsticos o indicadores.

Sin embargo, al analizar las observaciones bivariadas conjuntamente surgen otras medidas que relacionan ambas variables. Estos son:

LA COVARIANZA O CORRELACION

LA REGRESION

La Covarianza y la correlacin miden el grado de asociacin entre las variables. Ejemplo, los alumnos ms altos suelen ser los ms pesados y los ms bajos son generalmente de menos peso.

Por otro lado, si nos interesa el grado y tipo de relacin funcional que se presenta entre las dos variables estudiadas (X,Y), estamos frente a un problema de REGRESION, es decir si la variacin conjunta la podemops establecer mediante una relacin funcional y estimar el peso de un alumno sobre la base de su estatura, entonces es un problema de REGRESION.

6.3. CORRELACION LINEAL - COVARIANZA:Si representamos las observaciones bivariadas en el plano cartesiano se obtendr un conjunto de puntos que se conoce como DIAGRAMA DE DISPERSION O NUBE DE PUNTOS.

Este diagrama nos sugiere dos aspectos:

a) La tendencia que siguen la nube de puntos.

b) El grado de asociacin o correlacin lineal entre las variables X e Y

Este segmento tambin se llama relacin cualitativa. En cambio la medida cuantitativa del grado de correlacin lineal entre las variables es proporcionada por el coeficiente de correlacin lineal de PEARSON, denotado por la siguiente frmula:

COEFICIENTE DE CORRELACIN DE PEARSON:

r = n ( Xi Yi - ( Xi . ( Yi . xy 2 2 2 2

n [ ( Xi - ( ( Xi ) ( [ n ( Yi - ( ( Yi ) (Llamado tambin coeficiente de Pearson o Covarianza.

El Coeficiente r puede tomar diferentes valores:

r = 1 Existe correlacin positiva perfecta

r r = 0 Correlacin Nula

r = 1 Correlacin negativa perfecta

Normalmente r flucta entre 0 y 1

0 < r > 1

Entonces, cuando r = 1 o r = - 1, se dice que X e Y estn perfecta y linealmente relacionadas o correlacionadas. En este caso, todos los puntos estn alineados o contenidos en la misma recta.

Y Y

r = 1 r = -1

X X

El primer grfico est referido a una CORRELACION LINEAL PERFECTA O DIRECTA ( + ) y el segundo se refiere a una relacin PERFECTA NEGATIVA O INVERSA ( - ). En cambio si r = 0 , entonces se dice que las dos variables no estn correlacionas linealmente:

Y

+ +

+

r = 0

+ + +

++

+ +

X

NO EXISTE CORRELACION LINEAL

Los casos analizados anteriormente son casos extremos, lo normal es que r flucte entre 0 y 1:

+ +

+ + +

+ + +

+ + +

+ + r = 0,95 + + r = 0,95

+ + +

+

CORRELACION LINEAL ALTA CORRELACION LINEAL ALTA

POSITIVA

NEGATIVA

NOTA.- El Coeficiente de Correlacin de PEARSON ( r ), refleja nicamente la relacin lineal entre las dos variables ( X e Y ). Sin embargo, puede ser que las dos variables estn relacionados en forma no lineal, por ejemplo: exponencial.

En este ltimo caso, la r de Pearson no ser una medida apropiada para establecer el grado de correlacin entre las variables.

EJEMPLO.- Tomando los siguientes datos sobre estaturas y pesos de 10 estudiantes seleccionados al azar, calcular el coeficiente de correlacin lineal de Pearson.

( 1,54 - 60 ) ( 1,82 - 94 ) ( 1,57 - 65 ) ( 1,60 - 66 ) (1,75 - 85 )

( 1,65 - 72,50 ) ( 1,69 - 77 ) ( 1,62 - 70 ) ( 1,77 - 89,5 ) ( 1,70 - 80 )

SOLUCION:

PASO N 1.- Representamos los datos obtenidos en un eje de coordenadas cartesianas:

Y = Peso 100

+ 90 + + + NUBE DE PUNTOS 80 + +

70 +

+ 60 +

1,5 1,6 1,7 1,8 1,9 2,0

X = Estatura

CONCLUSIONES DE LA GRAFICA:

a) La tendencia que se observa en el diagrama de dispersin es de tipo lineal.

b) Entonces, lo que se desea saber es cul es el grado de correlacin existente entre la estatura y los pesos de los estudiantes; sea, saber la relacin entre X e Y. Para ello calculamos el Coeficiente de Correlacin de Pearson ( r ), utilizando la frmula ya conocida.

r = n ( Xi Yi - ( Xi ( Yi .

2 2 2 2

[ n ( Xi - (( Xi) ( [ n (Yi - ((Yi) (PASO 2.- Determinamos el valor de r

Para ello debemos calcular previamente los valores que requiere la frmula de r, dado en la expresin anterior:

ESTATURA

XiPESO

YiXi Yi 2

Xi 2

Yi

1,546092,402,37163.600

1,8294171,083,31248.836

1,5765102,052,46494.225

1,6066105,602,56004.356

1,7585148,753,06257.225

1,6572,5119,622,72255.256,25

1,6977130,132,85615.929

1,6270113,402,62944.900

1,7789,5158,413,13298.10,25

1,7080136,02,89006.400

( 16,71759,01.277,4527,997358.737,50

n = 10

r = 10 ( 1.277,45) - (16,71)(759) . = 91,61 = 0,9959

91,978

2 2 [10 ( 27,9973) - (16,71) ( [10(58.737,50) - (759) (CONCLUSION: Existe alta correlacin lineal directa entre estatura y peso de los alumnos estudiados.

EJERCICIO PARA RESOLVER EN CLASES: Una agencia de control de trfico vehicular ha compilado la siguiente informacin estadstica:

AOSVEHICULOS MATRICULADOS

( EN MILLONES)ACCIDENTES DE CARRETERA

( EN MILES )

1947352166

1948373153

1949411177

1950441201

1951462216

1952490208

1953529227

1954577238

1955641268

1956692268

1957743274

Calcular r:

6.4. ANALISIS DE REGRESION.- El objeto del anlisis de regresin es establecer una relacin funcional matemtica entre variables, de manera que seamos capaces de predecir el valor de una variable en base al comportamiento de otra u otras variables, es decir una relacin funcional del siguiente tipo:

Y = f ( X )

Donde:

Y = Variable dependiente o ENDOGENA

X = Variable Independiente o EXOGENA

En el mundo real los fenmenos se presentan relacionados o interrelacionados de diferentes maneras unos con otros, entonces es posible estructurar diferentes tipos de relaciones entre variables; entre estos podemos identificar las siguientes:

CLASES DE DEPENDENCIA.- Los tipos de dependencia entre variables se clasifican de la siguiente manera:

SIMPLE : Y = f (X)

Relacin de dependencia MULTIPLE: Y = f ( X1 , X2, ......,Xn )

CLASIFICACION

Lineal : LINEA RECTA

Tipo de relacin

No lineal : PARABOLA, LOGARITMICA,

HIPERBOLICA.

GRAFICAMENTE TENEMOS:

Y

Y

2

Y = a + bX Y = a + b + c X

X

X

LINEA RECTA PARABOLA

Y Y = . 1 . Y

a + b X

Y = a + b Log X

X

X

HIPERBOLA LOGARITMICA

6.5. REGRESION LINEAL SIMPLE O LINEA RECTA.-

La relacin de dependencia ms simple y la ms utilizada por el mtodo cientfico es el modelo de regresin lineal simple o LINEA RECTA y est dada por la siguiente expresin algebraica: Y = a + b X

Donde:

Y = Variable dependiente (ENDOGENA)

a = Ordenada en el origen; sea el punto donde la lnea recta corta

al eje de la ordenada.

b = Pendiente o grado de inclinacin de la RECTA

X = Variable Independiente (EXGENA)

EJEMPLO: La relacin funcional entre el nivel del salario y la antigedad o aos de servicio, esta dada por:

SALARIO = f (AOS DE SERVICIO O ANTIGEDAD )

Y = f (X)

6.5.1. TIPOS DE RELACIONAMIENTO FUNCIONAL LINEAL.-

De acuerdo al grado de relacionamiento y/o asociacin de dos variables, es posible identificar tres tipos de relacionamiento lineal:

Dependencia Total

Independencia total

Dependencia estadstica parcial

a) RELACION LINEAL DE DEPENDENCIA TOTAL.- Este tipo de relacin se da cuando ambas variables estn representadas por una lnea recta, aquello se da cuando los datos caen exactamente sobre una LINEA RECTA, de modo que ambas variables estn relacionadas por una lnea Recta.

EJEMPLO: La relacin entre el nivel del salario y la antigedad o aos de servicio, estn dados por la siguiente tabla:

SALARIO/HORAANTIGUEDAD

121

163

184

226

289

Ahora bien, para determinar como estn relacionadas ambas variables primeramente se deben identificar la variable dependiente y la variable independiente. En el caso que nos ocupa estos son:

Salario = Variable Dependiente = Y

Aos de servicio = Variable Independiente = X

Entonces los salarios dependen de los aos de servicio: Y = f ( X )

Cuando relacionamos ambas variables en forma directa, estamos asumiendo el supuesto de que el nivel de salario o ingreso de un trabajador nicamente depende de los aos de servicio, en la prctica no suele ser as. De hecho, si hacemos un anlisis de Causa-efecto vamos a ver que el salario no slo depende de los aos de servicio sino de muchas otras variables como ser: Formacin profesional, cargo, Ocupacin, lugar donde trabaja, etc. Entonces la relacin entre ambas variables no es tan simple, sino compleja:

Y = f (X1, X2, X3,.................,Xn)

Donde:

Y = Salario

X1 = Aos de servicio o antigedad

X2 = Profesin

X3 = Cargo

X4 = Ocupacin

X5 = Otros

Sin embargo, para no complicar el anlisis de la relacin lineal entre ambas variables podemos asumir el supuesto de que los salarios nicamente dependen de los aos de servicio, mientras las otras variables permanecen constantes; estamos aplicando ac uno de los supuestos bsicos de economa cual es el concepto de CEATERIS PARIBUS.Una vez definidas ambas variables, el paso siguiente de la metodologa es graficar la relacin funcional en un eje de coordenadas cartesianas para determinar la forma y el tipo de relacin existente entre ambas:

SALARIO

30

+

25

+

20

+

15

+ ( ( = 8 = 2

10

4

4

5

1 2 3 4 5 6 7 8 9 10 ANTIGUEDAD

En el ejemplo que nos ocupa, podemos advertir que los puntos o pares ordenados trazados en la grfica coinciden exactamente sobre una lnea RECTA, que cortan al eje de las ordenadas en el punto 10 y la recta tiene una pendiente de 2; con estos datos estamos en condiciones de establecer la relacin funcional del siguiente tipo:

Y = 10 + 2 X

La ecuacin anterior corresponde a una lnea recta y se dice que entre ambas variables existe DEPENDENCIA TOTAL.

b) RELACION DE INDEPENDENCIA TOTAL:

Supongamos ahora, que los datos del ejemplo anterior son los siguientes:

SALARIO/HORAANTIGEDAD

161

103

134

106

169

Para determinar el tipo de relacionamiento entre ambas variables trazamos los puntos o pares ordenados en un eje de coordenadas cartesianas.

SALARIO

16 +