ESTADISTICA a Distancia Para Administracion y Sistemas

122
PROGRAMA DE ESTADÍSTICA (para Administración y Análisis de sistemas) Objetivos generales de la asignatura : Poner de relieve la utilidad y el valor de los contenidos que aporta la estadística para que el alumno pueda aprender las técnicas para convertir datos numéricos en información relevante para su aplicación en la toma de decisiones y resolución de problemas. Que el alumno compruebe que es capaz de alcanzar los objetivos planteados, poniendo de manifiesto las competencias adquiridas, relacionadas con el conocimiento de la estadística. UNIDAD N° 1 : Fundamentos de la metodología de la investigación. Estadística: concepto. Estadística descriptiva e inferencial: definiciones básicas. Ciencia y método científico: conceptos. Clasificación de las ciencias El proceso de investigación: etapas y características. El método estadístico como técnica de análisis cuantitativo. Redondeo de datos. Tasa de variación relativa. UNIDAD N°2 : Estadística descriptiva e inferencial. Población: concepto. Muestra: concepto. Técnica para la recolección de datos. Organización de los datos. Tipos de variables. Exposición gráfica de los datos. Medidas de tendencia central: media aritmética, media geométrica, media armónica Mediana y moda para datos simples y agrupados. Medidas de dispersión: rango, varianza, desviación media y desviación estándar para datos simples y agrupados. Coeficiente de variabilidad. Propiedades de la varianza. Medidas de dispersión: cuartiles, deciles y percentiles para datos simples y agrupados. Gráficos estadísticos. UNIDAD N°3 : Introducción a la teoría probabilística. 1

description

Estadisctica para administracion de datos

Transcript of ESTADISTICA a Distancia Para Administracion y Sistemas

Page 1: ESTADISTICA a Distancia Para Administracion y Sistemas

PROGRAMA DE ESTADÍSTICA (para Administración y Análisis de sistemas)

Objetivos generales de la asignatura:

Poner de relieve la utilidad y el valor de los contenidos que aporta la estadística para que el alumno pueda aprender las técnicas para convertir datos numéricos en información relevante para su aplicación en la toma de decisiones y resolución de problemas. Que el alumno compruebe que es capaz de alcanzar los objetivos planteados, poniendo de manifiesto las competencias adquiridas, relacionadas con el conocimiento de la estadística.

UNIDAD N° 1: Fundamentos de la metodología de la investigación.

Estadística: concepto. Estadística descriptiva e inferencial: definiciones básicas. Ciencia y método científico: conceptos. Clasificación de las ciencias El proceso de investigación: etapas y características. El método estadístico como técnica de análisis cuantitativo. Redondeo de datos. Tasa de variación relativa.

UNIDAD N°2: Estadística descriptiva e inferencial. Población: concepto. Muestra: concepto. Técnica para la recolección de datos. Organización de los datos. Tipos de variables. Exposición gráfica de los datos. Medidas de tendencia central: media aritmética, media geométrica, media armónica Mediana y moda para datos simples y agrupados. Medidas de dispersión: rango, varianza, desviación media y desviación estándar para datos simples y agrupados. Coeficiente de variabilidad. Propiedades de la varianza. Medidas de dispersión: cuartiles, deciles y percentiles para datos simples y agrupados. Gráficos estadísticos.

UNIDAD N°3: Introducción a la teoría probabilística.

Probabilidad. Definición clásica de probabilidad. Propiedades básicas. Sucesos. Tipos de sucesos: seguro, imposible, compatible e incompatible. Probabilidad de un suceso. Regla de Laplace. Probabilidad total, compuesta y condicional. Sucesos independientes. Distribución de frecuencia normal ó de Gauss. Uso de tablas. Casos prácticos. Diagrama de árbol. Función de probabilidad. Distribución binomial.

UNIDAD N°4: Estadística aplicada.

Teoría de la correlación. Correlación y regresión: concepto. Correlación lineal. Recta de regresión de los mínimos cuadrados. Coeficiente de correlación, concepto. Interpretación. Interpolación y extrapolación. Técnicas de pronóstico. Tamaño de una muestra, fórmulas. Censo, concepto. Números índice.

1

Page 2: ESTADISTICA a Distancia Para Administracion y Sistemas

UNIDAD 1: Fundamentos de la metodología de la investigación.

Objetivos de la unidad:_ Presentar una visión amplia sobre el campo de estudio de la estadística y sus aplicaciones.

Tema N°1

Estadística Todos los días nos encontramos con una gran cantidad de información estadística que abarca prácticamente todo: desde deportes, política, economía y hasta avisos publicitarios. Por ejemplo, para justificar apuestas sobre un partido de fútbol, los simpatizantes comparan los rendimientos de sus equipos utilizando los porcentajes de partidos ganados, perdidos ó empatados; para diseñar pautas publicitarias, los publicistas consultan la planilla diaria de raitings (radio o televisión);en un mercado, los consumidores observan cómo se distribuyen los precios entre los distintos puestos para realizar la mejor compra que combine precio y calidad; para decidir qué alumno será abanderado de la escuela, los directores comparan las notas de todos los alumnos del último año y eligen el mejor promedio. Los profesionales de la salud la usan para entender los resultados de las investigaciones médicas; los economistas, para realizar cálculos eficientes que les permitan llegar a fondo en las cuestiones que analizan, los docentes para evaluar el rendimiento de sus alumnos, los sociólogos para diseñar y procesar sus encuestas, los responsables de la calidad en un proceso productivo, al detectar las piezas defectuosas y controlar los factores que influyen en la producción de las mismas, la industria farmacéutica para desarrollar nuevos medicamentos y establecer las dosis terapéuticas, los ciudadanos en general para sacar sus propias conclusiones sobre los resultados de las encuestas políticas, los índices de precios y desocupación y los resultados estadísticos que habitualmente se presentan en los medios masivos de comunicación (diarios, revistas, radio, televisión). Por ello, los primeros protagonistas de la estadística son los encuestadores, investigadores de mercado, médicos, técnicos gubernamentales y científicos de universidades o institutos; ellos son la fuente original de la información estadística.Luego entran en juego un segundo grupo que son los periodistas, encargados de difundir en forma masiva toda la información y finalmente hay un tercer grupo: el de los consumidores de la información, o sea, todos nosotros, que estamos frente al desafío de escuchar, leer, ver y decidir respecto a ella.Definiremos entonces a la estadística (del latín status, que significa estado ó situación),como la ciencia que trata de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar datos, así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Por lo tanto podemos clasificar la estadística en: *descriptiva ó deductiva : que tiene por objeto la recolección, recopilación y reducción de datos, su organización en tablas ó gráficos y el cálculo de algunos valores que representen al conjunto de datos. *inferencial ó inductiva: tiene por objeto establecer previsiones ó conclusiones sobre una población basándose en los resultados obtenidos de una muestra.

2

Page 3: ESTADISTICA a Distancia Para Administracion y Sistemas

Entonces la estadística como ciencia, estudia el comportamiento de los fenómenos de masas, busca las características generales de un colectivo y prescinde de las particularidades de un elemento. Por lo tanto el objetivo de la Estadística es hallar las regularidades que se encuentran en los fenómenos de masa.Todo estudio estadístico está referido a un conjunto ó colección de personas ó cosas, que se denomina población (N). Las personas ó cosas que forman parte de la población se denominan elementos.En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil ó una casa, ó algo más abstracto como la temperatura, un intervalo de tiempo, etc. A su vez cada elemento de la población tiene una serie de características, por ej. Si el elemento es una persona, podemos distinguir en ella los siguientes caracteres: sexo, edad, profesión, nivel de estudios, peso, altura, color de pelo, etc.Normalmente en un estudio estadístico no se puede trabajar con todos los elementos de la población, sino que se realiza el estudio sobre un subconjunto llamado muestra. (Los conceptos de población y muestra serán ampliados más adelante). La estadística recopila datos que son importantes para el Estado, como por ejemplo, el número de nacimientos y defunciones, las cosechas, el comercio exterior, etc. Las estadísticas oficiales son los datos publicados por las agencias del gobierno en forma de información ó de prospectos; La estadística es la ciencia que estudia un conjunto de datos cualitativos y su interpretación en términos matemáticos, estableciendo métodos para la obtención de las medidas que lo describen, así como para el análisis de las conclusiones, con especial referencia a la teoría de la probabilidad, considerada también como ciencia de base matemática para la toma de decisiones en presencia de la incertidumbre. La estadística indica una medida ó fórmula especial tal como un promedio, un número índice o un coeficiente de correlación (conceptos que se explicarán en los temas siguientes) calculado sobre la base de los datos. Se considera también a la estadística como un suministro de un conjunto de herramientas sumamente útiles en la investigación. Las primeras aplicaciones de la estadística se limitan únicamente a determinar el punto donde la tendencia general era evidente ( si es que existiera) de una gran cantidad de datos observados; al mismo tiempo, en muchas ciencias se hizo énfasis de que en lugar de hacer estudios individuales, deberían hacerse estudios sobre el comportamiento de grupos de individuos, por lo tanto, la estadística creó métodos que satisficieron admirablemente tal necesidad, pues los grupos concuerdan consistentemente con el concepto de población antes mencionado.La estadística es también una rama de la ciencia matemática que se centra en el trabajo con datos e informaciones que son ya de por sí numéricos ó que ella misma se encarga de transformar en números. La estadística, si bien es una ciencia de extracción exacta, tiene una injerencia directa en cuestiones sociales por lo cual su utilidad práctica es mucho más comprensible en ella que en otras ciencias exactas como la matemática. Lo interesante de la estadística como ciencia es que en muchos casos, la información cuantitativa que nos brinda nos permite conocer mucho mejor a una sociedad, por ejemplo, cuántas personas viven en un país, cual es la tasa de desempleo, cual es la tasa de indigencia ó pobreza, cual es el nivel promedio de educación, etc. Todos estos datos numéricos pueden ser utilizados por los responsables del Estado, a través de sus diferentes organismos y secretarías para luego realizar proyectos de diferentes tipos que tengan que ver con mejorar esa situación ó mantenerla en el caso que sea buena. En algunos casos, aunque no directamente, la estadística nos permite inferir (no conocer) la calidad de vida de una población, ya que si encontramos altas tasas de desempleo y marginalidad, podremos suponer que la calidad de vida es muy baja. La estadística tiene una gran utilidad no sólo en aspectos sociales sino que también sirve para todo tipo de investigación científica, si se tiene en cuenta que los datos estadísticos son el resultado de varios casos de entre los cuales se toma un promedio.

3

Page 4: ESTADISTICA a Distancia Para Administracion y Sistemas

Entre las áreas principales de aplicación de la estadística están:*colección y compendio de datos.*diseño de experimentos y reconocimiento.*medición de la valoración de datos experimentales.*control de la calidad de la producción.*estimación de parámetros de población y suministro de varias medidas de la exactitud y precisión de esas estimaciones.*estimación de cualidades humanas.*investigación de mercados, incluyendo escrutinios de opiniones emitidas.*ensayo de hipótesis respecto a las poblaciones.*estudio de la relación entre dos ó más variables.

La ciencia estadística y la computación tienen una gran superposición, hacen demandas sustanciales cada una y pueden ganar mucho en una asociación mutuamente cerrada. La ciencia de la computación como tal, y la facilidad de la computación parecen construir las vías útiles para permitir una estimulación en el campo de cualquier ciencia. Lo que el futuro debe traer ó traerá, debe no obstante ser claro, pero las ventajas se beneficiarán de sus propias iniciativas.

La estadística y el método científico

El método científico es el camino a seguir mediante una serie de operaciones, reglas y procedimientos fijados de antemano de manera voluntaria y reflexiva, para alcanzar un determinado fin que puede ser conceptual ó material. El método científico reúne las siguientes características:a) es fáctico, en el sentido de que los hechos son su fuente de información y respuestab) trasciende los hechos.c) se atiene a reglas metodológicas.d) se vale de la verificación empírica.e) es auto correctivo y progresivo. f) es objetivo.

4

Page 5: ESTADISTICA a Distancia Para Administracion y Sistemas

Proceso de investigación: etapas y características:1) planteo del problema: es la situación a la cual se le quiere encontrar respuesta ó solución; para ello debo identificar, delimitar y especificar el problema, sometiéndolo a un proceso de análisis, preguntando en las circunstancias en que aparece, los elementos que lo componen, la relación entre los elementos y establecer un modelo conceptual que lo pueda explicar; esto debe ser preciso y específico.2) marco teórico: es la fundamentación teórica dentro de la cual se enmarca la investigación, relacionada con escuelas, enfoques ó teorías existentes sobre el tema objeto de estudio.3) Formulación de hipótesis y variables: consiste en establecer la respuesta tentativa del problema y las relaciones causales entre el fenómeno y sus partes, con la consecuente operatividad de las variables, estableciendo también el tipo de investigación que se utilizará, por ej. Investigaciones experimentales.4) población y muestra: la población es la totalidad de elementos ó individuos que tienen características similares, sobre las cuales se harán inferencias a través de una muestra; muestra es la parte de la población sobre la cual se efectuará la medición y la observación de las variables objeto de estudio. 5) recolección y procesamiento de datos: es el trabajo de campo para reunir los datos validos y confiables; fuentes: primarias y secundarias; técnicas: encuesta, entrevista, observación directa, análisis de documentos, internet, etc.; procesar la información: distribución de frecuencias y representaciones gráficas, medidas de tendencia central, medidas de dispersión, etc.6) análisis y discusión de los resultados.El método científico es entonces un procedimiento iterativo de aprendizaje y la estadística no es un conjunto de diferentes técnicas aisladas una de otras, sino que en conjunto con el método científico, nos entrega un procedimiento analítico para tomar decisiones.

Redondeo: redondear un n° es reducir la cantidad de dígitos, manteniendo un valor parecido. Primero debemos decidir si queremos redondear a “décimos”(un lugar después de la coma), a “centésimos”( dos lugares después de la coma) ó a “tantas cifras decimales”.El método normal es el más usado para redondear números. ¿Cómo hacer? *Decidimos cuál es la última cifra que queremos mantener.*Le sumamos 1(uno) si la cifra siguiente es 5 ó más.*La dejamos igual si la cifra siguiente es menos de 5.Por ej. En el n° 3,1416 quiero dejar dos decimales, entonces el n° será 3,14 porque el n° que sigue del segundo decimal 4 es 1 y es menor que 5.

5

Page 6: ESTADISTICA a Distancia Para Administracion y Sistemas

Si en el n° 1,2635 quiero dejar un decimal, el n° será 1,3 porque el n° que sigue al primer decimal 2 es 6 y es mayor que 5.Si en el n° 7,4625 quiero dejar tres decimales, el n° será 7,463 porque el n° que sigue al tercer decimal 2 es 5.

Tasa de variación relativa: se utiliza para medir el cambio relativo del valor de una magnitud entre dos momentos (M) de tiempo (a y b) no necesariamente consecutivos, expresados en porcentajes.

TV=M b−¿M a

M a

¿ x 100

Si M a>M b⇒ la tasa de variación es negativaSi M a ¿M b ⇒ la tasa de variación es positiva

Si M a=¿M b⇒¿ la tasa de variación es neutra.Por ej. Para calcular la variación relativa en la industria de un país (en millones de pesos) entre los años 2007 ($ 138.845) y 2008 ($ 142.859), haremos:

TV= 142859−138845

138845x100=¿ 2,89%

Actividades

Ejercicio n°1 Redondear los n° a los decimales indicados: a) 3,845 a centésimas e) 6,72147 a tres decimales b) 26, 862 a décimas f) 8,2064 a tres decimales c) 2,5678 a tres decimales g) 11,3056 a centésimos d) 0,87531 a décimas h) 9,5 a una cifra entera

R: 3,85; 26,9; 2,568; 0,9; 6,721; 8,206; 11,31; 10

Ejercicio n°2

Calcular la tasa de variación de la actividad económica de un país entre 2007 y 2008a) energía: 24.880(2007) y 26449(2008) en millones de pesos.b) construcción: 111.726(2007) y 113.638(2008) en millones de pesos.

Autoevaluación

a) ¿Cuántos tipos de estadística conoce?b) ¿La estadística tiene injerencia en cuestiones sociales?c) ¿Cuáles son las etapas del proceso de investigación?d) ¿Qué mide la tasa de variación relativa?

6

Page 7: ESTADISTICA a Distancia Para Administracion y Sistemas

UNIDAD 2: Estadística descriptiva e inferencial

_ Describir las características principales de los datos reunidos y extraer las conclusiones útiles sobre la totalidad de las observaciones, basándose en la información recolectada.

TEMA N°2

POBLACIÓN Y MUESTRA

Las estadísticas de por sí no tienen sentido si no se consideran ó relacionan dentro del contexto con el que trabajan. Por lo tanto es necesario entender los conceptos de población y muestra para lograr comprender mejor su significado en la investigación educativa ó social con que se lleva a cabo.POBLACIÓN: es el conjunto total de individuos, objetos ó medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Cuando se lleva a cabo una investigación hay que tener en cuenta algunas características esenciales al seleccionarse la población bajo estudio; entre éstas tenemos: a) homogeneidad: vemos que todos los miembros de la población tengan las mismas características según las variables que se vayan a considerar en el estudio ó investigación.b) tiempo: se refiere al período de tiempo donde se ubica la población de interés, esto es, determinar si el estudio es del momento presente ó si se va a estudiar una población de 4 años atrás, ó si se van a entrevistar a personas de distintas generaciones.c) espacio: se refiere al lugar donde se ubica la población de interés; a veces, por falta de tiempo y recursos, el estudio debe limitarse a un área ó comunidad específica.d) cantidad: se refiere al tamaño de la población; esto es muy importante ya que ello afecta ó determina el tamaño de la muestra que se vaya a seleccionar.

MUESTRA:

Una muestra estadística (llamada también muestra aleatoria ó simplemente muestra) es un subconjunto de casos ó individuos de una población estadística. Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población para lo cual deben ser representativos de la misma. Para cumplir esta característica, la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población, porque el manejo de un menor n° de datos provoca también menos errores en su manipulación. El n° de sujetos que componen la muestra debe ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tengan un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo, ya que ésta representa una parte esencial del método científico para poder llevar a cabo una investigación. (Para calcular el tamaño de una muestra se deben conocer algunos conceptos estadísticos, por eso este tema se explicará al final del módulo).

Las ventajas de la elección de una muestra son:_ si la población es muy grande, es imposible analizarla en su totalidad.

7

Page 8: ESTADISTICA a Distancia Para Administracion y Sistemas

_las características varían si el estudio se prolonga demasiado tiempo._reducción de costos: al estudiar una pequeña parte de la población, los gastos de recoger la información y su tratamiento serán menores que si los obtenemos del total de la población._rapidez: al reducir el tiempo de recolección de datos y tratamiento de los mismos se consigue mayor rapidez.

**Hay dos conceptos importantes que definiremos a continuación:

Parámetro: es una cantidad numérica calculada sobre una población y resume en unos pocos números los valores que ésta toma en el estudio de alguna variable estadística.

Estadístico: es una cantidad numérica calculada sobre una muestra que resume su información sobre algún aspecto.Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a toda la población, calculamos un estimador sobre una muestra y esperamos que sea confiable.

Técnica para la recolección de datos: la recolección de datos se refiere al uso de una gran diversidad de técnicas y herramientas que puede usar el analista para desarrollar los sistemas de información, las cuales pueden ser:

* La entrevista : se usa para recabar información en forma verbal, a través de preguntas que propone el analista. Dentro de una organización, la entrevista es muy productiva ya que obtiene información acerca de las necesidades y la forma de satisfacerlas, descubre rápidamente malos entendidos, falsas expectativas e incluso resistencia potencial para las aplicaciones de desarrollo. Para usar éste método donde se puede entrevistar al personal en forma individual ó en grupos, se debe determinar la posición que ocupa en la organización el futuro entrevistado, sus responsabilidades básicas, actividades, etc. Se deben preparar las preguntas que van a plantearse y los documentos necesarios, se debe fijar un límite de tiempo y preparar la agenda para la entrevista, se debe elegir un lugar donde se pueda conducir la entrevista con mayor comodidad y se debe hacer la cita con anticipación. El analista debe explicar con toda amplitud, el propósito y alcance del estudio, hacer conocer su imparcialidad, hacer preguntas específicas, evitar preguntas que exijan opiniones interesadas, subjetividad y actitudes similares, evitar el cuchicheo y las frases carentes de sentido, debe abstenerse de emitir juicios de valores y escuchar atentamente lo que se dice para evitar perder el control de la entrevista y evitar también divagaciones y comentarios al margen de la cuestión.

* La encuesta: Es un método para obtener información de una muestra de individuos. Por ej. Antes de una elección, una muestra de electores es interrogada para determinar cómo los candidatos y otros asuntos son percibidos por el público; un fabricante hace una encuesta al mercado potencial antes de introducir un nuevo producto. Las encuestas se hacen en persona, por teléfono ó por correo. Todos los resultados de una encuesta deben presentarse en resúmenes completamente anónimos, tal como tablas y gráficos estadísticos (tema a desarrollar más adelante).El encuestador conocido por el público es el que llama por teléfono, el que aparece en la puerta del hogar ó el que detiene a personas en un centro comercial.

8

Page 9: ESTADISTICA a Distancia Para Administracion y Sistemas

*Los cuestionarios: proporcionan una alternativa muy útil para la entrevista y al igual que ellas deben diseñarse cuidadosamente para una máxima efectividad. Para los analistas, los cuestionarios pueden ser la única forma posible de relacionarse con un gran número de personas para conocer varios aspectos del sistema. Cuando se llevan a cabo varios estudios en varios departamentos, se pueden distribuir los cuestionarios a todas las personas apropiadas para recabar la información. En la mayor parte de los casos, el analista no verá a los que responden, no obstante, esto es una ventaja porque el interpelado cuenta con mayor anonimato y pueden darse respuestas más honestas y menos respuestas pre hechas y estereotipadas. Hay dos tipos de cuestionarios: abiertos: cuando se quieren conocer opiniones, sentimientos y experiencias generales. Éste formato proporciona una amplia oportunidad para que los encuestados escriban las razones de sus opiniones. Cerrados: limita las respuestas posibles del interrogado, forzándolos a tomar una posición en sus opiniones.

9

Page 10: ESTADISTICA a Distancia Para Administracion y Sistemas

Observación: es otra técnica útil que permite al analista observar a las personas cuando realizan su trabajo individualmente ó en grupo como miembros de una organización. Permite al analista determinar qué se está haciendo, cómo se está haciendo, quien lo hace, cuando, cuánto tiempo toma, donde se hace y por qué. ¡¡ver es creer!!. Con la observación el analista obtiene información que no podría obtener de otra forma. El analista puede observar de tres maneras básicas: 1) puede observar a una persona sin que ella se dé cuenta, 2) puede observar una operación sin intervenir para nada, pero estando la persona observada enteramente consciente de la observación y 3) puede observar y a la vez estar en contacto con las personas observadas preguntando sobre una tarea específica, pidiendo una explicación, etc. Para realizar una observación, se debe determinar a quién se va a observar, estimar el tiempo necesario para la observación, obtener la autorización de la gerencia para llevar a cabo la observación y explicar a las personas que van a ser observadas, lo que se va a hacer y las razones para ello. El analista, mientras observa, debe medir el tiempo en forma periódica, anotar lo que observa lo más específicamente posible evitando generalidades y descripciones vagas. Si está en contacto con las personas observadas debe abstenerse de hacer comentarios personales ó que impliquen un juicio de valores. Debe observar reglas de cortesía y seguridad.

** El sesgo: es un favoritismo de alguna etapa del proceso de recolección de datos que beneficia algunos resultados, perjudica otros y desvía las conclusiones en direcciones equivocadas. El sesgo puede ser intencional ó no dependiendo de la forma en que se formule una pregunta ó se elija una muestra, pero de cualquier modo cuando la recolección de datos está sesgada, utilizar una muestra grande no corrige el error, simplemente lo repite.

Muestreo: es el procedimiento a través del cual se elige una muestra. Hay tres tipos de muestreo:a) aleatorio simple: esto significa que cada miembro de la población tiene la misma oportunidad de ser seleccionado y la selección de una unidad no influye sobre la elección de otra. Es el procedimiento por excelencia de obtención de muestras. b) aleatorio estratificado: la población se divide en grupos homogéneos (estratos) según las variables que se pretendan investigar. Cada estrato debe corresponder

10

Page 11: ESTADISTICA a Distancia Para Administracion y Sistemas

proporcionalmente a la población. Por ej. para conocer en una provincia la situación de la industria, podrían utilizarse estratos por tamaño y actividad: Estrato 1: locales con 500 ó más obrerosEstrato 2: locales con 499 – 200 obrerosEstrato 3: locales con 199 – 50 obrerosEstrato 4: locales con50 – 0 obrerosSi además se divide la actividad industrial en dos: 1) industria alimenticia, 2) industria no alimenticia, tendríamos 8 estratos, dos por cada uno de los 4 anteriores.c) sistemático: es el muestreo que establece un patrón ó criterio al seleccionar la muestra. El muestreo comienza con una unidad elegida al azar y a partir de allí continúa con x unidades. Si n es el tamaño de la muestra y N es el tamaño de la población entonces x es aproximadamente h= N/n llamado “coeficiente de elevación” Por su simplicidad, suele usarse para control de calidad durante ó al finalizar, la fabricación de diversos productos. Por ej. en una producción continua de tubos de pasta dentífrica, se elige un tubo por hora y se lo analiza para verificar que cumple con las especificaciones. En este ej. el período de selección es de una hora, por lo tanto se debe tener la certeza de que cada hora no se producen caídas de tensión en las máquinas que hagan que los tubos se llenen de más ó de menos; de ser así, el muestreo elegido no es el adecuado.

El muestreo es indispensable para el investigador, ya que es imposible entrevistar a todos los miembros de una población debido a problemas de tiempo, recursos y esfuerzo. El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su estudio, pero por regla general se debe usar una tan grande como sea posible de acuerdo a los recursos que haya disponible.Por ej. Un ganadero tiene 3000 vacas y quiere extraer una muestra de 120 vacas. a) mediante muestreo aleatorio simple.b) mediante muestreo aleatorio sistemático.Solución:a) * se enumeran las vacas del 1 al 3000 *se sortean 120 números de entre los 3000, entonces la muestra estará formada por las vacas a las que corresponda el n° sorteado.

b) calculamos h=Nn

=3000120

=25

*se sortea un n° del 1 al 25, por ej. Supongamos que sale 9 *las vacas seleccionadas para la muestra serán las que correspondan a los números 9, 34(9+25), 59(34+25), 84(59+25),…………, 2984.

11

Page 12: ESTADISTICA a Distancia Para Administracion y Sistemas

Veamos otro ej. Supongamos ahora que el ganadero tiene 2000 vacas de distintas razas, 853 de A, 512 de B, 321 de C, 204 de D y 110 de E. Quiere extraer una muestra de 120 vacas en total. ¿Cuántas vacas debe elegir de cada para que el muestreo sea estratificado con reparto proporcional? *llamamos n1 al n° de vacas que debemos elegir de A, n2 al de B, n3 al de C, n4 al de D, n5 al de E.

Ha de cumplirse que: 120

2000=

n1

853=

n2

512=

n3

321=

n4

204=

n5

110

Tomamos la 1° igualdad y despejamos n1

120

2000=

n1

853 ⇒120 .853

2000=51,18 redondeamos a n1≅51

El símbolo ≅ significa aproximadamente

n2= 30,72 ≅31 n3= 19,26 ≅ 19 n4=12,24≅ 12 n5= 6,6≅ 7

Sumamos 51+31+19+12+7= 120

*Dentro de cada estrato, la elección será aleatoria.

En resumen:

Actividades

Ejercicio n° 1 En un conjunto de 1000 conductores hay 50 taxistas, 75 camioneros, 25 choferes de colectivos, 250 conductores comunes con más de 20 años de experiencia, 425 conductores con una experiencia de entre 5 a 20 años y 175 con una experiencia de 0

12

Page 13: ESTADISTICA a Distancia Para Administracion y Sistemas

a 5 años. Para elegir una muestra de 400 individuos, mediante muestreo aleatorio estratificado proporcional, ¿cuántos hay que elegir de c/u de los 6 estratos?

Ejercicio n° 2 De un grupo de 500 personas se elige una muestra de 20 mediante a) muestreo aleatorio sistemático y b) muestreo aleatorio simple.

Ejercicio n°3 En cierta provincia hay 4 ciudades C1, C2, C3 y C4 con un total de 1.500.000 personas. De ellas, el 20% residen en C1, 450.000 en C2, 550.000 en C3. Se quiere realizar un estudio sobre las costumbres alimenticias en esa provincia, basado en una muestra de 3.000 personas.a) ¿Qué tipo de muestreo deberíamos realizar si queremos que en la muestra resultante haya representación de todas las ciudades?b) ¿Cuántas personas hay en la C1 y C4?c) ¿Qué n° de personas habría que seleccionar de cada ciudad, atendiendo a razones de proporcionalidad?

Autoevaluación

a) ¿Cuál es la diferencia entre población y muestra?b) ¿Cuántos tipos de muestreo conoce? Menciónelos.c) ¿Por qué es necesario a veces elegir una muestra?d) ¿Cuántas técnicas de recolección de datos conoce? Cite algunos ejemplos. e) ¿A qué llamamos sesgo?f) ¿Cuál es la diferencia entre un parámetro y un estadístico?

TEMA N° 3

Tipos de variables.

Las variables estadísticas, normalmente se designan con la letra x. Hay dos tipos de variables:

-Variables cuantitativas: son aquellas que se describen por medio de números, por ej. Altura, edad, peso, etc.* Cuantitativas discretas: son aquellas a las que se les puede asociar un n° entero, o sea que no admiten fraccionamiento de la unidad, por ej. N de hijos, n° de goles, etc.* Cuantitativas continuas: son aquellas que admiten valores intermedios entre dos valores cualesquiera, por ej. Talla, peso, tiempo, etc.

-Variables cualitativas ó atributos: los atributos son aquellos caracteres que para su definición necesitan palabras, es decir, no se les puede asignar un número, por ej. Sexo, profesión, estado civil, etc.* Ordenables: aquellas que sugieren una ordenación, por ej. Graduación militar, nivel de estudios, etc.* No ordenables: aquellas que por su naturaleza no establecen orden, por ej. Color de pelo, sexo, profesión, etc.

13

Page 14: ESTADISTICA a Distancia Para Administracion y Sistemas

Organización de los datos

* Tamaño de la muestra: (N): llamamos así al n° de observaciones realizadas, es decir, al n° total de datos. ∑ ni= n1 +n2 +………nk = N Σ es el símbolo suma

Frecuencia absoluta (F): llamamos frecuencia absoluta de un valor xi de la variable estadística x al n° de veces que aparece repetido dicho valor en el conjunto de las observaciones realizadas.Frecuencia absoluta acumulada (Fac): llamamos frecuencia absoluta acumulada del valor xi a la suma de las frecuencias absolutas de los valores inferiores ó iguales a él.Evidentemente los valores xi han de estar ordenados de forma creciente y la frecuencia absoluta acumulada del último valor será igual a N. Frecuencia relativa (f): llamamos frecuencia relativa de un valor xi de la variable estadística x, al cociente entre la frecuencia absoluta y el n° de observaciones realizadas. Indica la parte del total que corresponde a cada dato, por lo tanto va a ser siempre un n° decimal.

f =FN

Frecuencia relativa acumulada: (fac): es el cociente entre la frecuencia absoluta acumulada y el n° de observaciones realizadas.

fac = FacN

En las observaciones realizadas en una muestra ó población puede ocurrir:

14

Page 15: ESTADISTICA a Distancia Para Administracion y Sistemas

1) que la variable estadística tome pocos valores diferentes (ya sea grande ó pequeño el tamaño de la muestra). En este caso no es necesario agrupar los datos, pero si ordenarlos de mayor a menor. La frecuencia relativa se calcula si el ejercicio lo requiere.La tabla de distribución de los datos será:

Xi F f Fac fac

x1 F1 f1 Fac1 fac1

x2 F2 f2 Fac2 fac2

. . . . . . . . . . Xn Fk fk Fac =N fack k=1

∑ F=N ∑ f =1

La 1° columna contiene todos los valores observados; la 2° contiene la frecuencia con que han aparecido dichos valores (frecuencia absoluta); suele añadirse una 3°columna que contiene las frecuencias relativas.

2) Cuando se trata de una variable continua ó discreta con un n° de datos muy grande, es aconsejable agrupar los datos en intervalos de clase.* Agrupamos los valores de la variable estadística en intervalos de clase contiguos y elegidos convenientemente para no perder mucha información. No existe un criterio claro de cuál debe ser el n° de intervalos que debemos escoger, pero a veces se puede considerar que el n° de intervalos de clase debe ser la raíz cuadrada positiva del n° de datos y se aproxima el resultado a un n° entero. Para calcular la amplitud del intervalo se divide la diferencia entre el mayor y el menor valor de los datos por el n° de intervalos.Los extremos de los intervalos de clase se denominan “extremos de clase” ó límites inferior y superior y sus puntos medios “marcas de clase” (x) se obtienen sumando el límite inferior con el límite superior y dividiendo esta suma por dos.La tabla de frecuencias de una variable estadística agrupada en intervalos será: Intervalos marcas xi F fi Faci faci

[a0 - a1) x1 F1 f1 Fac1 fac1

[a1 - a2) x2 F2 f2 Fac2 fac2

. . . . . . . . . . [ak - ak-1) xk Fk Fack =N fk =1

∑ F =N ∑ f =1

15

Page 16: ESTADISTICA a Distancia Para Administracion y Sistemas

GRÁFICOS ESTADÍSTICOS

Las representaciones gráficas permiten captar de inmediato las características más relevantes de una distribución de datos.

A continuación se describirán cada uno de los gráficos estadísticos más conocidos.

*Diagrama de barras

Este se utiliza cuando queremos representar frecuencias de variables cualitativas ó cuantitativas que tomen pocos valores. - En el eje de las abscisas (eje X) representamos los datos. -En el eje de las ordenadas (eje Y) se representan las frecuencia absolutas.- La frecuencia que corresponde a cada dato se representa por una barra. Las alturas de las barras son proporcionales a las frecuencias absolutas correspondientes.

Por ej. Hemos preguntado a 26 alumnos de un curso cuál es su deporte favorito. Representamos los datos mediante un gráfico de barras. Deportes Frecuencia Basquetbol 7 Rugby 5

Fútbol 8 Tenis 6

16

Page 17: ESTADISTICA a Distancia Para Administracion y Sistemas

BAS-QUETBOL

RUGBY FÚTBOL TENIS0123456789

*Histograma

El histograma es un sistema de representación gráfica en el que los valores de la variable estadística se agrupan en intervalos.El histograma se realiza cuando la variable estadística que se estudia es continua - En el eje de las abscisas se representan los intervalos. - En el eje de ordenadas se representan las frecuencias absolutas. - Sobre cada intervalo se representa un rectángulo de base igual a la longitud del intervalo y altura igual ó proporcional a su frecuencia.

Una variante del histograma y del diagrama de barras es el Polígono de frecuencias, que se obtiene uniendo con una poligonal los puntos medios de los lados superiores del rectángulo.

Intrevalos F Fac en el ej. se muestra la tabla de distribución de ------------------------------------------------ los puntajes obtenidos en un test de capacidad [191,5 – 195,5) 8 8 realizado por un grupo de trabajadores de una --------------------------------------------- empresa. En el gráfico de abajo: [195,5 – 199,5) 10 18 La linea de puntos indica las marcas de clase. --------------------------------------------- El gráfico es un histograma y el polígono de [199,5 – 203,5) 10 28 frecuencias. --------------------------------------------- [203,5 – 207,5) 21 49 * observe en el eje x el corte realizado para indicar ----------------------------------------------- que se omitieron los valores anteriores a 191,5. [207,5 – 211,5) 23 75 ---------------------------------------------[211,5 – 215,5) 15 90--------------------------------------------------------

[ 215,5 – 219,5) 11 101--------------------------------------------------------[ 219,5 – 223,5) 4 105 --------------------------------------------------------

*se recomienda tener a mano una calculadora.

17

Page 18: ESTADISTICA a Distancia Para Administracion y Sistemas

Polígono de frecuencia en un diagrama de barras.

*Ojiva

Es la representación gráfica de un cuadro de frecuencias acumuladas, donde se unen con una poligonal los puntos formados por los valores de la variable ó marcas de clase en una distribución de intervalos (eje x) y la frecuencia acumulada en el eje y. La ojiva representa la forma en que se acumulan los datos y permiten ver cuántos se hallan por arriba ó por debajo de ciertos valores.

18

Page 19: ESTADISTICA a Distancia Para Administracion y Sistemas

*Diagrama de sectores ó gráficos circulares.Se utiliza cuando queremos representar cualquier tipo de variables y son útiles cuando se desea mostrar porcentajes y proporciones. - Los datos se representan en un círculo. Cada sector indica la parte proporcional a la frecuencia y, por lo tanto, un valor de la variable. El ángulo de cada sector circular es proporcional a la frecuencia absoluta de cada dato. Los grados de cada sector circular se obtienen multiplicando la frecuencia absoluta de él por 360° y dividiendo entre el n° total de datos. Así, los grados del sector correspondiente al dato x serán:

Sector circular = F .360°

N

Por ej. En la encuesta realizada a 26 alumnos sobre cuál es su deporte favorito teníamos los siguientes datos: fútbol=8 básquet=7 rugby=5 tenis=6

Calculamos el sector circular (s.c) que corresponde a cada frecuencia y su porcentaje.

Fútbol → s.c =8 .360 °

26 = 110,76° ≅ 111° 360°----100%

111°---- x% x = 111° .100 %

360 ° = 30,83% ≅

31%

Básquet → s.c = 7 .360 °

26 = 96,9° ≅ 97° 360°----100%

97°----- X% ---→ X% = 97 ° .100 %

360 ° = 26,9% ≅ 27%

Rugby → s.c = 5 .360 °

26 = 69,2° ≅ 69° 360°----100%

69°-----X% ---→ X% = 69° .100 %

360 °= 19,16% ≅19%

Tenis → s.c = 6 .360 °

26 = 83,07 ≅83° 360°----100%

83°-----X% ---→ X% = 83 ° .100 %

360 ° = 23,05% ≅ 23%

19

Page 20: ESTADISTICA a Distancia Para Administracion y Sistemas

fútbol31%

basquet27%

rugby 19%

tenis23%

**Otro tipo de gráfico es el pictograma donde la figura ó ícono representa el dato que se está estudiando y su altura es proporcional a la frecuencia.

Gráficos de líneas: muestran los datos de una ó más series en forma de puntos, y todos los puntos de la misma serie se unen mediante una línea. Cada valor aparece representado por un punto P(x; y). Éste tipo de gráfico es útil para mostrar las tendencias de las series de datos (alza ó baja) en un determinado período de tiempo.

20

Page 21: ESTADISTICA a Distancia Para Administracion y Sistemas

*También existe el diagrama de cajas (boxplots) que será explicado más adelante.

En resumen:

Actividades

*De ahora en más, tenga a mano una calculadora para facilitar la realización de algunas cuentas.

Ejercicio n° 1

Se ha realizado una encuesta para saber con qué regularidad se lee el periódico en una oficina. Si los resultados fueron los siguientes, se pide:

Respuestas % R: b) 10,8%Todos los días 37,3 c) 1500 1 vez por semana 29 d) 560 1 vez al mes 10,5 e) 104° Alguna vez al año 12 f) 180 Nunca ….No contesta 0,4

a) ¿Cuál es la variable y cómo se clasifica?

21

Page 22: ESTADISTICA a Distancia Para Administracion y Sistemas

b) ¿Qué porcentaje de personas respondieron “nunca”?c) Si las personas que no contestaron fueron 6 ¿cuántas personas fueron encuestadas?d) ¿Qué cantidad de personas lee el diario todos los días?e) Si 435 personas leen el diario 1 vez p/semana ¿qué sector circular le corresponde en el gráfico?f) Si el s.c. de las personas que leen “alguna vez al año” es 43,2° ¿cuántas personas son? g) Realice el diagrama de sectores correspondiente.

Ejercicio n°2 Indicar el tipo de variable al que corresponde cada enunciado.

a) Deporte preferido

b) Nº de alumnos por clase

c) Nº de horas de estudio

d) Temperaturas registradas por hora

e) Nº de goles marcados

f) Gusto por los helados

g) Sueldo de un trabajador

h) Comida preferida

i) Color de ojos de una persona

Ejercicio n°3

Un diario publicó ésta información: Causas de accidentes fatales

drogas y alcohol

38%

distracción28%

maniobras in-adecuadas

15%

velocidad in-adecuada

19%

22

Page 23: ESTADISTICA a Distancia Para Administracion y Sistemas

Total de muertes: 3212 personas.--------------------------------------------

a) ¿Cuántas personas murieron en accidentes cuya causa fue la droga y el alcohol?b) El 75% de las distracciones son por euforia ó lentitud de reflejos a causa de las drogas y el alcohol.¿Qué porcentaje de accidentes está relacionado con la droga y el alcohol? c) ¿cuántas personas mueren por maniobras inadecuadas? R: a) 1221 p b) 59% d) ¿cuántas personas mueren por velocidad inadecuada? c) 482 p d) 610 p

Autoevaluación

a) ¿A qué se llama frecuencia absoluta en una distribución?b) ¿Cuándo es conveniente agrupar los valores de una distribución en intervalos?c) ¿Cuántos tipos de gráficos estadísticos conoce?d) Cite algunos ejemplos de variables cualitativas y cuantitativas que le sean propias.

TEMA 4

Medidas estadísticas: Cuando se cuenta con muchísimos datos (miles), es difícil para la mente humana captar la información que ellos aportan. Por eso es importante contar con pocos valores (medidas resumen) que de alguna manera deben describir las características más sobresalientes del conjunto que se está analizando. Una medida resumen es un número que permite tener una idea rápida de cómo son los datos; por eso es importante exponerlas de forma clara para que sean fáciles de interpretar. En las variables cuantitativas continuas, la tabulación de los datos se hace mediante intervalos. Tomaremos un valor del intervalo para poder operar que se llama “marca de clase” y es el punto medio del intervalo.

Tipos de medidas

* Las medidas de tendencia central ó de centralización : también denominadas promedios permiten hallar un solo valor numérico alrededor del cual los datos parecen agruparse de cierta manera, como si fuera el “centro de gravedad” de los datos. Estas medidas son:

_ Media aritmética: es un valor representativo del conjunto de datos que se está estudiando y que caracteriza a toda una distribución. En su cálculo intervienen todos los valores que se están estudiando (ventaja).La media aritmética es única y su principal inconveniente es que se ve afectada por los valores extremadamente grandes ó pequeños de la distribución (valores atípicos ó outliers); en estos casos la media aritmética deja de ser la más representativa.

23

Page 24: ESTADISTICA a Distancia Para Administracion y Sistemas

Definición: Si tenemos N datos representados por x1 , x2, …….xn , la media aritmética de estos N datos, está dada por:

x =x1+x2+…+ xn

N ; x =

∑ x

N (para datos no agrupados)

Por ej. Los siguientes datos son las edades de 10 madres que asisten a un centro de salud en un día: 30, 43, 58, 61, 70, 42, 58, 39, 60, 55. Para calcular la media aritmética, sumamos todos los valores y a esa suma la dividimos en el total de valores que hay, 10 en este caso. Vemos que para calcular la media no hace falta ordenar los datos.

x = 30+43+58+61+70+42+58+39+60+55

10 =

51610

=51,6

_ Media aritmética en datos agrupados en tablas de frecuencias:

x =∑ F . x

NF es la frecuencia absoluta simple y “ x” es el valor de la variable.

*Cuando los datos están organizados en “intervalos de clase”, se calcula la marca de clase de cada intervalo donde x es la “marca de clase”.

En el ej. Están los valores de la variable y sus respectivas frecuencias absolutas, entonces debemos agregar otra columna con el producto X . F porque así lo pide la formula.

X F X . F

2 1 2 x =4211

=3,81

3 4 12 4 2 8 5 4 20 11 42

En el ej. Tenemos los intervalos y sus respectivas frecuencias absolutas; debemos agregar una columna con los valores de X y otra con el producto X . F. (mire la fórmula).

intervalos F X X . F [ 10 - 15) 3 12,5 37,5

[15 - 20) 5 17,5 87,5 x = 457,5

21=¿ 21,786

[20 - 25) 7 22,5 157,5

24

Page 25: ESTADISTICA a Distancia Para Administracion y Sistemas

[25 - 30) 4 27,5 110 [30 - 35) 2 32,5 65 21 457,5

-Media geométrica: (G) Si tenemos “n” números, x1, x2,….xn, la media geométrica es la raíz n-ésima (enésima) del producto de todos los números.

G= n√ x1 . x2 . x3……xn

El empleo más frecuente de la G es el de promediar variables tales como porcentajes, tasa, números índices, etc. Es decir, en los casos en los que se supone que la variable representa variaciones acumulativas. Ventajas e inconvenientes: En su cálculo intervienen todos los valores de la distribución, es única y los valores extremos tienen menor influencia que en la media aritmética pero cuando la variable toma al menos un valor igual a cero, la G se anula y si la variable toma valores negativos, se presentan inconvenientes en los que no queda determinada debido al problema de las raíces de índice par de n° negativos.Por ej. Para hallar la G de los datos: 1, 2, 3, 4, 5 ella será la raíz quinta del producto de todos los datos.

N=5= índice de la raíz G=5√1 .2 .3. 4.5 =5√120 = 2,60517

-Media geométrica para datos agrupados en tablas de frecuencias y en intervalos:

logG=Σ ¿¿¿

Por ej. X F (log x).F 4 5 3,010

6 8 6,225 logG=34,90640

=0,873⇒G= antilog 0,873 =7,458

8 9 8,128 9 10 9,542 10 8 8,000 *nota: advierta que se saca solo el log de la variable 40 34,906 no del producto.

Media armónica: (H) es la inversa de la media aritmética de las inversas de los valores de la variable, respondiendo a la siguiente expresión:

H =

N

∑ F i

xi

=N

F1

x1

+F2

x2

+…Fn

xn

Se utiliza para promediar

velocidades, tiempo, rendimientos, etc. Su principal inconveniente es cuando algún

25

Page 26: ESTADISTICA a Distancia Para Administracion y Sistemas

valor de la variable es 0 (cero) ó muy próximo a cero no se puede calcular. La Media armónica no se ve afectada por valores muy grandes, pero sí por valores muy pequeños. Por ej. En la distribución siguiente tenemos información acerca del n° de hijos de un grupo de familias. X F F/X 1 3 3/1

2 4 4/2 H= 10

5 ,92≅ 1 ,69

3 2 2/3 4 1 1/4 10 5,92

*Entre la media aritmética, la media geométrica y la media armónica se da siempre la siguiente relación:

Actividades

Ejercicio n°1 Los siguientes datos son las edades de 10 madres que asisten a un centro de salud en un día: 30, 43, 58, 61, 70, 42, 58, 39, 60, 55. Calcular la media aritmética de las edades. R: x=¿51,6

Ejercicio n°2Calcular la media aritmética, la media armónica y la media geométrica de la siguiente distribución: X F 100 10 x= 114,545 120 5 H= 112,82 125 4 G= 113,632 140 3

Ejercicio n°3 Un test aplicado a los empleados de una fábrica, arrojó los siguientes datos: Intervalo F a) ¿Cuál es y cómo se clasifica la variable? 38 -- 44 7 b) calcular: media aritmética, media geométrica y 44 -- 50 8 media armónica. 50 -- 56 15 c) realizar el histograma correspondiente. 56 -- 62 25 62 -- 68 18 R: x=59,13 68 -- 74 9 74 -- 80 6

26

H≤G≤ x

Page 27: ESTADISTICA a Distancia Para Administracion y Sistemas

Ejercicio n°4 Un profesor calificó a 10 alumnos y por error borró la calificación de uno de ellos. Si los otros 9 estudiantes obtuvieron los siguientes puntos: 43, 66, 74, 90, 40, 52, 70, 78 y 92 y la media aritmética de las diez calificaciones es 67, ¿qué calificación borró?

R: 65

Ejercicio n°5 En una empresa trabajan 30 empleados administrativos y 5 directivos. El sueldo medio de la empresa es de $ 1082. ¿Cuál será el sueldo medio de cada directivo si sabemos que el sueldo medio de cada administrativo es de $ 766,3 R. $ 2976.2

Autoevaluación

a) ¿A qué llamamos promedios?

b) ¿Cuáles son las ventajas y las desventajas de la media aritmética?

c) ¿Cuáles son las desventajas de la media geométrica?

d) ¿Cuáles son las desventajas de la media armónica?

e) ¿Cómo es la relación entre los tres tipos de medias?

TEMA N° 5Otras medidas de centralización son la mediana y la moda.

_ Mediana: Es el valor central de la variable, es decir, el valor que divide a la distribución ordenada en forma creciente ó decreciente, en dos grupos iguales. Es muy importante “ordenar los valores” para calcular la mediana.

- mediana en datos no agrupados: - se ordenan los datos en forma ascendente ó descendente.- si el n° de datos es par, hay dos términos centrales; el valor de la mediana estará dado por:

Me = X N

2

+X N2+1

2 donde

N2

y N2

+1 indican la posición de los

términos.

Por ej. si los datos son: 3, 7, 8, 11, 12, 13, 14, 20 (ya ordenados crecientemente)N= 8 ⇒ N/2 =8/2 = 4 es la posición del 1° término ( 4° lugar) y el 5° será el otro.

4°= 11 y 5°=12 Me =11+12

2=

232

=11,5

-si el n° de datos es impar, el valor de la mediana es el valor del centro.

27

Page 28: ESTADISTICA a Distancia Para Administracion y Sistemas

Me = N +1

2donde

N +12

es la posición de la mediana.

Por ej. si los datos son ahora: 3, 7, 8, 11, 12, 13, 14 (N=7) la mediana será el n° que

ocupe la posición 7+1

2=8

4=4(4° lugar) ó sea que Me= 11

-Mediana en datos agrupados en intervalos de cl ase :

Me= Li + N2

−Fac−1

F. C

N/2 es la posición de la mediana. (N es el n° total de observaciones)Li es el límite real inferior de la clase que contiene a la mediana. Fac-1: frecuencia absoluta acumulada de la clase anterior a la que contiene a la mediana. C: amplitud de la clase que contiene a la mediana.(para obtenerlo se restan los límites superior menos el inferior de cualquier intervalo, por ej del 1° intervalo 15-10=5).

•Procedimiento para calcular la mediana en datos agrupados1) Sumo las frecuencias absolutas para obtener el valor de N.2) Calculamos las frecuencias absolutas acumuladas.

3) Calculamos la mitad del tamaño de la muestra N2

ó N +1

2¿ cuando N es impar)

3°) Buscamos la frecuencia absoluta acumulada inmediatamente mayor ó igual a N/2.Este valor nos indica la fila de la que sacaremos todos los datos para reemplazar en la fórmula. Intervalos F X Fac * hacemos N/2 = 21/2 = 10,5 [ 10 - 15) 3 12,5 3 * buscamos en la columna de las Fac

[15 - 20) 5 17,5 8 un n° inmediatamente mayor a 10,5[ 20 - 25) 7 22,5 15 en nuestro caso es 15; este nos dice [25 - 30) 4 27,5 19 que de la 3° fila sacaremos los datos [30 - 35) 2 32,5 21 para reemplazar en la formula. 21

*nota: observe que el último valor de las frecuencias acumuladas es igual a N (siempre debe ser así). El límite inferior es 20; N/2=10,5; la frecuencia acumulada anterior a 15 es 8; la frecuencia de la 3° fila es 7 y la amplitud del intervalo es 5.

Me = 20+ 10,5−87

.5 = 20+2,57

.5= 20+ 1,78 = 21,78

-Mediana en datos agrupados en serie de frecuencias :

28

Page 29: ESTADISTICA a Distancia Para Administracion y Sistemas

La mediana corresponde a la observación (X) cuya frecuencia acumulada sea inmediatamente mayor al valor que resulte de dividir N en 2 (N/2). Por ej. En la tabla de distribución dada a continuación:

X F Fac *Hacemos N/2 =40/2 = 20 4 5 5 *Buscamos en la columna de las frecuencias acumula- 6 8 13 das un valor inmediatamente mayor a 20; en nuestro 8 9 22 ej. es 22; vemos que el valor de x que corresponde a 9 10 32 22 es 8; por lo tanto la mediana es igual a 8. 10 8 40 40 . Me= 8Aclaración:Si por ej. Tenemos los siguientes datos: 4 8 15 17 31 vemos que la media es igual a la mediana que es igual a 15. Si ahora los datos presentan algún valor atípico, es decir, un dato muy alejado del patrón general, por ej: 4 8 15 17 316 la mediana no se verá afectada, ella seguirá siendo igual a 15, pero la media será igual a 72, o sea que ya no representa a la mayoría de los datos, por eso decimos que la media es sensible ante la presencia de valores atípicos.

_ Moda: es el valor de la variable que tiene mayor frecuencia. Si todos los valores de la variable son diferentes, no hay moda.* En una distribución pueden existir dos o más modas. En el ej. anterior a la aclaración, la moda es el valor de x que tiene mayor frecuencia; éste valor será 9, ya que su frecuencia es 10 y es la mayor. Mo = 9

_ Moda para datos agrupados: En una distribución de frecuencias es aproximadamente la marca de la clase ó punto medio de la clase que tiene la mayor frecuencia absoluta simple. También, cuando los datos están agrupados en intervalos, se utiliza la siguiente fórmula:

Mo= Li +Fa+1

(Fa+1 )+(Fa−1). c donde Fa+1 es el valor posterior a la mayor frecuencia

Fa-1 es el valor anterior a la mayor frecuencia L i es el límite inferior del intervalo C es la amplitud del intervalo

*Al igual que en el cálculo de la mediana para datos agrupados en intervalos, se reemplaza la fórmula para calcular la moda. (cabe aclarar que generalmente se toma coma valor de la moda al valor de la variable de mayor frecuencia y no hace falta aplicar ésta fórmula).

29

Page 30: ESTADISTICA a Distancia Para Administracion y Sistemas

Tipos de distribuciones

-Distribución normal

Los histogramas y otros gráficos permiten visualizar cómo se distribuyen los valores de una variable numérica. Muchas veces éstos gráficos tienen la forma de una campana, con una zona central en la cual los valores de la variable son más frecuentes. A medida que nos alejamos de esa zona central las frecuencias disminuyen simétricamente. Esta forma de campana es también llamada campana de Gauss. En ésta distribución, la media, la mediana y la moda coinciden. Cuando no coinciden, la distribución es asimétrica.

30

Page 31: ESTADISTICA a Distancia Para Administracion y Sistemas

-Distribución asimétrica a derecha: es más alargada a la derecha. -Distribución asimétrica a izquierda: es más alargada a la izquierda.

Actividades

Ejercicio n°1 Dados los valores: 11, 8, 13, 20, 14, 3, 7, 12. Hallar la xy la Me. R: Me=11,5 x=11

Ejercicio n°2Hallar la media, la mediana y el modo en la siguiente distribución y graficar.

Variable F R: x=17,375 M e=17,17 Mo= 17 [ 5 - 9 ) 3 [10 - 14) 9 [15 - 19) 15 [20 - 24) 8 [25 - 29) 5

Autoevaluacióna) ¿Para qué sirven las medidas de centralización?b) Si la media es mayor que la mediana, ¿cómo es la distribución?c) Ante la presencia de valores atípicos, quien es más representativa, ¿la media ó la mediana?d) ¿Es necesario ordenar los datos para calcular la mediana?e) ¿Qué porcentaje de valores de la variable hay a cada lado de la mediana?f) Para calcular la moda ¿hace falta conocer la media aritmética?

TEMA 6

31

Page 32: ESTADISTICA a Distancia Para Administracion y Sistemas

*Medidas de dispersión: también llamadas medidas de variabilidad, miden el grado de separación de los datos respecto a un valor central (media aritmética). Esta medida será grande si las observaciones están distantes de la media y pequeña si están cerca.Las medidas de dispersión sirven para suplementar un promedio, para describir un conjunto de datos o para comparar un conjunto de datos con otro. Cuando la variación ó dispersión es alta, el promedio se vuelve de poca ó ninguna significación. Cuando la variación es baja, el promedio es altamente significativo ó representativo. Por ej. una baja variación en los salarios por hora de los empleados de una fábrica, indicará que a los empleados se les paga salarios aproximadamente iguales y si fuera una variación alta significará que se les paga salarios muy diferentes.Si se fabrican tornillos, la variación alta ó excesiva en el diámetro de los tornillos, implica un alto porcentaje de tornillos defectuosos y si es baja, un mínimo de tornillos defectuosos.

_ Rango: (R) se define como la diferencia entre el mayor valor y el menor valor de la distribución. No es una medida muy significativa, ya que es sensible a la presencia de valores atípicos.

R = xn−¿¿ x1

Siendo xn el mayor valor y x1 el menor.

_ Varianza: (Vx) es una medida de dispersión que cuantifica la variabilidad de los datos con respecto a la media aritmética.

V(x)¿∑ (X−X )2

N

Para datos sin agrupar

32

Page 33: ESTADISTICA a Distancia Para Administracion y Sistemas

Observe que la curva es más elevada cuando los datos están más concentrados alrededor de la media (línea verde) y es más chata cuando están más dispersos.

Propiedades de la varianza 1) la varianza será siempre un valor positivo ó cero, en el caso que las puntuaciones sean iguales. Mientras más se aproxime a cero, más concentrados están los valores de la serie alrededor de la media aritmética. 2) si a todos los valores de la variable se les suma un número, la varianza no varía.3) si a todos los valores de la variable se los multiplica por un número, la varianza queda multiplicada por el cuadrado de dicho número. 4) si tenemos varias distribuciones todas con la misma media y conocemos sus respectivas varianzas, se puede calcular la varianza total:

* Si todas las muestras tienen el mismo tamaño:

V= v1+v2+v3+ .. . vn

N *Si todas las muestras tienen distinto tamaño:

V=N 1 . v1+N2 . v2+. ..+N n.V n

N1+N2+…Nn

_ Varianza para datos agrupados

V(x) = ∑ (X−X )2 .FN

ó V(x)=∑ F . x2

N -x2

33

Page 34: ESTADISTICA a Distancia Para Administracion y Sistemas

Por ej. Para calcular la varianza, completamos la tabla de la siguiente distribución.

Intervalos F X X . F ( x−x )2 .F

[ 10 - 15) 3 12,5 37,5 258,68 [15 - 20) 5 17,5 87,5 91,84 [ 20 - 25) 7 22,5 157,5 3,56 [25 - 30) 4 27,5 110 130,59 [30 - 35) 2 32,5 65 229,57 21 457,5 714,24

*observe que la tabla se completa con las cuentas que requiere la fórmula.

1° calculamos la media ⇒ x = ∑ x . F

N =

457,521

=21,786

2° calculamos la varianza⇒

V(x) = ∑ (X−X )2 .FN

= 714,24

21=34,011

Actividades

Ejercicio n°1

Las puntuaciones obtenidas por un equipo en una prueba fueron: a) ¿Cuál es y cómo se clasifica la variable? Puntos 1 2 3 4 b) calcular: media, mediana, modo y varianza. Frecuencia 5 11 16 4 c) realizar el diagrama de barras correspondiente. R: x=2,52 Me=3 Mo=3 V=0,74

Ejercicio n°2

Se tienen las edades de 5 estudiantes universitarios de 1° año: 18, 23, 25, 27 y 34. Calcular la media y la varianza. R: x=¿ 25,4 v= 27,4

Autoevaluacióna) ¿Para qué sirven las medidas de dispersión?b) ¿Qué mide la varianza?b) ¿Qué significa que la varianza se aproxime mucho a cero?c) ¿L a varianza puede tomar valores negativos?d) Para calcular la varianza ¿hace falta calcular la media?

TEMA N° 7

34

Page 35: ESTADISTICA a Distancia Para Administracion y Sistemas

Desviación estándar (ó típica): (D.E) es la raíz cuadrada positiva de la varianza. Es la más importante de las medidas de dispersión y nos indica la mayor ó menor proximidad de los datos respecto a la media.

Desviación media:(Dx) Es la suma de los valores absolutos de las desviaciones respecto a la media. Se utiliza para saber cuánto se desvían ciertos valores del valor promedio.

Dx= ∑|x−x|

N Dx=

∑|x−x|.FN

Para datos sin agrupar para datos agrupados

-Coeficiente de Variación: (C.V) es el cociente entre la desviación estándar y la media aritmética. Suele representarse en porcentajes. Permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas. Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre sí, concluyendo que la mayor dispersión corresponderá al mayor coeficiente de variación.

C.V= D. Ex

El c.v. representa el n° de veces que la D.E. contiene a la media aritmética y por lo tanto, cuanto mayor es el c.v, mayor es la dispersión y menor la representatividad de la media aritmética.

Grado de variabilidad de los datos coeficiente de variabilidad Variabilidad baja menos de 10%

35

D.E = √varianza

Page 36: ESTADISTICA a Distancia Para Administracion y Sistemas

Variabilidad moderada de 10% a 30%

Variabilidad alta más de 30%

En el ejemplo dado a continuación, calcularemos todas las medidas de centralización y dispersión anteriormente explicadas.

intervalos F X X . F Fac ( X - x )2 . F |x−x|. F [ 10 - 15) 3 12,5 37,7 3 258,68 27,858 [15 - 20) 5 17,5 87,5 8 91,84 21,43[ 20 - 25) 7 22,5 157,5 15 3,56 4,998 [25 - 30) 4 27,5 110 19 130,59 22,856 [30 - 35) 2 32,5 65 21 229,57 21,428 21 457,5 714,24 98,57

x = 457,5

21=¿ 21,786

Me= 21,78

Mo= 22,5

V= 714,24

21=34,011

D.E= √34,011 = 5,83

Dx = 98,57

21= 4,69

C.V = 5,83

21,786 = 0,26 ⇒ 26% variabilidad moderada (ver el cuadro).

Actividades

*Recuerde completar la tabla, para calcular los promedios pedidos y tenga siempre una calculadora a mano.

Ejercicio n°1

Calcule media, modo, mediana, varianza, desviación estándar y C.V (interpretarlo) y realizar el gráfico correspondiente en la siguiente distribución: Intervalo F

36

Page 37: ESTADISTICA a Distancia Para Administracion y Sistemas

¿45 - 51) 4 [51 - 57) 6 R: x= 60,18 [57 - 63) 11 Me= 60,5 [63 - 69) 9 V= 46,8760 [69 - 75) 3 D.E= 6,8466 Mo=6

Ejercicio n°2

Un test aplicado a los empleados de una fábrica, arrojó los siguientes datos: Intervalo F a) ¿Cuál es y cómo se clasifica la variable? [38 -- 44) 7 a) calcular: media, mediana, modo, D.E y C.V [44 -- 50) 8 b) Realizar el histograma correspondiente. [50 -- 56) 15 [56 -- 62) 25 [62 -- 68) 18 R: x=59,13 Me=59,36 Mo= 59 V=89,16 [68 -- 74) 9 D.E= 9,44 C.V= 15,96% [74 -- 80) 6

Ejercicio n°3

El entrenador de un equipo de básquet femenino duda en seleccionar a Elena ó María para un torneo.Los puntos obtenidos por cada una de ellas en los entrenamientos fueron: Elena 18 23 22 24 19 25 16 R: a) x= 21 para ambas b) Elena, D.E = 3,11 María 18 26 18 28 22 17 18

a) ¿Cuál de las dos tiene mejor promedio?b) Calcular la desviación estándar y decir cuál de las dos tiene más regularidad?

Ejercicio n°4

Estas tres distribuciones tienen la misma media aritmética. 1 2 3

2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12

a) ¿Cuál es la media aritmética? b) Sus D.E. son 3,8; 1,3 y 2,9 . Asociar a cada distribución uno de éstos valores. R: a) x =7 b) 1) 2,9 2) 1,3 3)3,8

Ejercicio n°5

37

Page 38: ESTADISTICA a Distancia Para Administracion y Sistemas

La empresa A tiene una x= $60000 y D.E= $7500 y la empresa B tiene una x=$9000 y una D.E=$1500. ¿Cuál de las dos tiene más variabilidad en sus gastos? R. B tiene C.V mayor Autoevaluación

a) ¿Para qué sirven las medidas de dispersión?b) ¿Cuál es la más importante de las medidas de dispersión?c) ¿Cómo calificaría usted una variabilidad del 37%?

TEMA N°8

Medidas de posición: son las medidas que dividen un conjunto de datos en grupos con el mismo número de individuos. Para calcularlas es necesario que los datos estén ordenados de menor a mayor.

-Cuartiles:(Q) son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Se los denota como Q1, Q2 y Q3. El segundo cuartil es igual a la mediana: Q2 = Me

El Q1 es el valor en el cual ó por debajo del cual queda el 25% de todos los valores de la sucesión ordenada.El Q3 es el valor en el cual ó por debajo del cual queda el 75% de los valores de la sucesión ordenada.

*La fórmula para calcular la posición de los cuartiles en datos no agrupados es:

Q1= 0,25.(N+1) Q2=0,50.(N+1) Q3=0,75.(N+1) cuando N es impar

Por ej. Los cuartiles de los datos: 6, 7, 8, 10, 11, 12, 15 N= 7

Q1= 0,25(7+1)= 0,25.8 =2 o sea que el Q1 ocupa la 2° posición⇒ Q1= 7

38

Page 39: ESTADISTICA a Distancia Para Administracion y Sistemas

Q2= 0,50 . 8 = 4 o sea la 4°posición ⇒ Q2= 10

Q3= 0,75 . 8 = 6 o sea la 6°posición ⇒ Q3= 12

Q1= 0,25.N Q2= 0,50.N Q3= 0,75.N cuando N es par hay que promediar.

Por ej. Los cuartiles de los datos: 6, 7, 8, 10, 11, 12, 15, 17 N=8

Q1=0,25.8=2⇒es la posición del 2° término que se promediará con el 3° término.

Q1= 7+8

2=¿ 7,5

Q2= 0,50.8= 4⇒ se promediarán el 4° y 5° término⇒ Q2=10+11

2=10,5

Q3= 0,75.8= 6⇒ se promediarán el 6° y 7° término⇒ Q3= 12+15

2=13,5

-Fórmula para cuartiles en datos agrupados en intervalos:

Qk = Li + P−Fac−1

F.c k= 1, 2, 3

Para Q1⇒ P= 0,25.N para Q2⇒ P= 0,50.N para Q3⇒ p=0,75.N

Li es el límite inferior de la clase del cuartilN es el número de datosFac-1 es la frecuencia acumulada de la clase que antecede a la clase del cuartilF es la frecuencia de la clase del cuartilC es la amplitud del intervalo

Por ej.Dada la altura (en cm) de un grupo de alumnos (mujeres y varones) de una misma clase, calcular los cuartiles y explicar su significado.

*la forma de proceder es la misma que cuando calculamos la mediana.

Alturas F x Fac

150-160 2 155 2 160-170 1 165 3170-180 7 175 10180-190 4 185 14

39

Page 40: ESTADISTICA a Distancia Para Administracion y Sistemas

14

Q1=0,25.N= 0,25.14=3,5 ⇒ buscamos en las Fac un valor que sea inmediatamente superior a 3,5 que en nuestro caso es 10; entonces n°10 nos indicará la fila de la que sacaremos todos los valores para reemplazar en la fórmula.

Q1= Li + P−Fac−1

F.c

Q1= 170+3,5−3

7.10=170,71≅ 171 lo que significa que el 25% de los alumnos mide

171 cm ó menos y el 75% restante mide 171 cm ó más. En la fórmula, P, depende del cuartil que se esté calculando. En éste ejemplo, en el Q1 el valor de P es 3,5.

Q2= 0,50.14=7 (éste es el valor de P) ⇒ Q2= 170+7−37

.10=175,71≅ 176 esto

significa que el 50% de los alumnos mide 176 cm ó menos y el otro 50% mide 176 cm ó más. Q3= 0,75.14=10,5(es el valor de P) ⇒ Q3= 180+10,5−10

4. 10 = 181,25≅ 181 esto

significa que el 75% de los alumnos mide 181 cm ó menos y el 25% restante mide 181 cm ó más.

-Deciles: Son los nueve números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Se denotan como D1, D2, D3,…..D9.

La fórmula para calcular deciles en datos agrupados en intervalos es:

Dk = Li + P−F ac−1

F.c K= 1, 2, 3,……..9 donde P =

K . N10

Para datos no agrupados

DA = A .N10

cuando N es par, siendo A el número del decil.

40

Page 41: ESTADISTICA a Distancia Para Administracion y Sistemas

DA = A (N+1)

10 cuando N es impar, siendo A el número del decil.

*El cálculo de los deciles en datos no agrupados es igual al cálculo de los cuartiles.

Si consideramos nuevamente el ejemplo de la estatura en cm de los alumnos, calculamos de igual forma algunos deciles, por ejemplo el D1 y D3.

Alturas F x Fac

150-160 2 155 2 160-170 1 165 3170-180 7 175 10180-190 4 185 14 14

Para el D1 el valor de P será: P= 1.1410

=1410

=1,4

Entonces el D1 será ⇒ D1=150+1,4−0

2.10=157 significa que el 10% de los alumnos

mide 157 cm ó menos y el 90% restante mide 157 cm ó más.

Para el D3 el valor de P será: P=3 .14

10=4,2

Entonces el D3 será ⇒ D3= 170+4,2−3

7.10=¿171,71≅172 significa que el 30% de los

alumnos mide 172 cm ó menos y el 70% restante mide 172 cm ó más.

-Centiles ó Percentiles: Son los 99 valores que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Se denotan como P1, P2, P3,…….P99.

Los percentiles se utilizan para determinar la posición relativa, en porcentaje, de la posición que ocupa un valor dado, de una variable, en relación a todos los valores de la misma en un grupo ó en una población.

Fórmula para datos agrupados :

PK= Li+ P−Fac−1

F.c K= 1, 2, 3, …….99 donde P=

K . N100

Para datos no agrupados ó agrupados en distribuciones de frecuencias.

41

Page 42: ESTADISTICA a Distancia Para Administracion y Sistemas

PA= A .N100

cuando N es par, siendo A el número del percentil

PA= A (N+1)

100 cuando N es impar, siendo A el número del percentil

*El cálculo de los Centiles en datos no agrupados es igual al cálculo de los cuartiles.

En el gráfico se muestra la relación entre cuartiles, deciles y percentiles.

Continuando con el ejemplo que vimos anteriormente, si ahora queremos calcular, por ejemplo, el P37, procederemos de la misma forma que en los cálculos anteriores.

Alturas F x Fac

150-160 2 155 2 160-170 1 165 3170-180 7 175 10180-190 4 185 14

14

Para el P37 el valor de P será: P=37 .14

100=5,18

Entonces el P37 será ⇒ P37= 170+5,18−3

7.10=173,11≅ 173 significa que el 37% de

los alumnos mide 173 cm ó menos y el 63% restante mide 173 cm ó más.

Rango intercuartil:(ó intercuartílico) (Ric) es una estimación estadística de la dispersión de una distribución de datos. Es la diferencia entre el Q3 y el Q1

Ric= Q3 – Q1

Mediante ésta medida se eliminan los valores extremadamente alejados. Es recomendable utilizarlo cuando la medida de tendencia central es la mediana, ya que éste estadístico es insensible a posibles irregularidades en los extremos. Con el podemos elaborar los diagramas de cajas, que es un instrumento muy visual para

42

Page 43: ESTADISTICA a Distancia Para Administracion y Sistemas

evaluar la dispersión de una distribución. Esta medida contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los datos y a la derecha el 25% superior.

Índice de asimetría intercuartílicoSi la distribución es simétrica, se cumple que ⇒ Q3 - Q2 = Q2 - Q1

Si la distribución tiene asimetría positiva se cumple que ⇒Q3 – Q2 ¿ Q2 – Q1

Si la distribución tiene asimetría negativa se cumple que⇒Q3 – Q2¿Q2 – Q1

Ejemplo: interpretar los percentiles.Percentiles de la altura (m) de mujeres y varones de 16 años.Percentil 3 10 25 50 75 90Mujer 1,49 1,53 1,56 1,60 1,64 1,68Varón 1,56 1,60 1,65 1,70 1,74 1,79 El 3% de las jóvenes de 16 años miden menos ó igual que 1,49 m. El P3 de la altura de las jóvenes de 16 años es de 1,49 m.El 25% de las jóvenes de 16 años miden menos ó igual que 1,56 m. El P25 de la altura de las jóvenes de 16 años es de 1,56 m.El 50% de las jóvenes de 16 años miden menos ó igual que 1,60 m. El P50 de la altura de las jóvenes de 16 años es de 1,60 m.¿Cuál es el P10 de los varones de 16 años? El P10 de la altura de los varones es 1,60m ¿Qué significa ese valor? Significa que el 10% de los jóvenes de 16 años miden menos ó igual que 1,60 m.¿Cuál es el P10 de las mujeres de 16 años? El P10 de la altura de las mujeres es 1,53m ¿Qué significa ese valor? Significa que el 10% de las jóvenes de 16 años miden menos ó igual que 1,53 m.

Diagrama de caja ó bigotes (boxplot).Los diagramas de caja ó bigotes son una representación visual que describe varias características importantes al mismo tiempo, tales como la dispersión y la simetría.Para su realización se representan los valores mínimo y máximo de los datos y los 3 cuartiles sobre un rectángulo alineado horizontal ó verticalmente.Este gráfico consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los Q1 y Q3. (Recordemos que el Q2=Me). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes y tienen un límite de prolongación de modo que cualquier dato que no se encuentre dentro de éste rango es marcado individualmente con un punto ó un asterisco. Dentro de la caja está comprendido el 50% de los datos.

Por ej: si consideramos las edades de 20 personas, primero las ordenamos de menor a mayor en una tabla de distribución.

X 20 23 24 25 29 31 33 34 36 37 39 40 41 45 F 1 1 3 1 1 2 1 1 2 1 2 2 1 1

Luego calculamos los cuartiles: Q1=24,5 Q2= Me=33,5 Q3=39

43

Page 44: ESTADISTICA a Distancia Para Administracion y Sistemas

La información que obtenemos a partir de éste gráfico es que:

a) la parte izquierda de la caja es mayor que la derecha, ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.

b) El bigote de la izquierda es más corto que el de la derecha, por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores.

c) El rango intercuartílico = Q3 – Q1= 14,5 indica que el 50% de la población está comprendida en 14,5 años.

La mayor utilidad de los diagramas de caja ó bigotes es para comparar dos ó más conjunto de datos.

Si comparamos con otro gráfico de otro ej. de distribución de edades, tenemos:

Actividades

Ejercicio n°1

Calcular los cuartiles en las siguientes distribuciones e interpretarlos:

44

Page 45: ESTADISTICA a Distancia Para Administracion y Sistemas

a) 3, 4, 5, 7, 8, 10, 11 R: Q1= 4 Q2= 7 Q3= 10

b) 3, 4, 5, 7, 9, 10, 11, 14 R: Q1= 4,5 Q2= 8 Q3=10,5

Ejercicio n°2

Calcular los cuartiles, el 4° y 9° decil y el 35° y 60° percentil del peso de un grupo de personas dados en la distribución siguiente e interpretarlos. Intervalos F [ 50- 60) 8 R: Q1=68,25 Q2=79,0625 Q3=90,75 [ 60- 70) 10 [ 70- 80) 16 D4=75 D9=101 P35=72,97 [ 80- 90) 14 [ 90 - 100) 10 P60= 83,57 [100-110) 5 [110-120) 2

Ejercicio n°3

Interpretar los datos de marcas saltadores de longitud: Me=7,825m, Q1=7,6m Q3=7,975m

Ejercicio n°4

La mediana y los cuartiles de la distribución de “aptitud para las matemáticas” (escala 1-100) en un grupo de alumnos es: Q1=31 Me=46 y Q3=67. Completar las siguientes afirmaciones:

a) el 75% tiene aptitud superior ó igual a ……………

b) el 25% tiene aptitud superior ó igual a ……………

c) el………..% tiene una aptitud igual ó menor a 46 puntos.

d) el ……….% tiene una aptitud mayor ó igual a 46 e inferior ó igual a 67 puntos.

e) el ………..% tiene una aptitud superior ó igual a 31 e inferior ó igual a 67 puntos.

Ejercicio n°5

La tabla muestra el n° de llamadas realizadas por un grupo de estudiantes. Hallar el Q3 y el P40 e interpretar su significado. Llamadas 0 1 2 3 4 5 Q 3= 3 Frecuencia 8 12 13 9 3 4 P 40=1 Autoevaluación

a) El Q2 y la Me, ¿indican lo mismo?b) El 75% de los valores de una distribución están a la izquierda ¿de qué valor?

45

Page 46: ESTADISTICA a Distancia Para Administracion y Sistemas

c) El 75% de los valores de una distribución están a la derecha ¿de qué valor?d) El rango intercuartílico da información de información ¿De qué porcentaje de la población?

UNIDAD N° 3: Introducción a la teoría de la probabilidad.

Objetivos de la unidad: Adquirir los conocimientos básicos de la teoría de probabilidades.

TEMA N°9

PROBABILIDADES

Un experimento aleatorio es aquel en que no podemos predecir el resultado, o sea que depende de la suerte ó azar. Por ej. si lanzamos un dado, no sabemos qué va a salir. Un experimento determinista es aquel en el que conocemos el resultado antes de realizarlo. Por ej. Calentar el agua a 100° c a nivel del mar, el agua hierve.Se llama Suceso elemental a cada uno de los posibles resultados de un experimento aleatorio. Por ej. Lanzamos un dado, cada uno de los sucesos elementales será: {1}, {2}, {3}, {4}, {5}, {6}.

Existen distintos tipos de sucesos:*Suceso seguro: es aquel que ocurre siempre. Por ej. Sacar un n° menor que 7 al tirar un dado.*Suceso imposible: es aquel que no ocurre nunca. Por ej. Sacar un n° mayor que 6 al tirar un dado.*Sucesos compatibles: son sucesos que pueden tener algún suceso elemental común. Por ej. Al lanzar un dado obtener “un n° par” y “un múltiplo de 3”. {6}*Sucesos incompatibles: son aquellos que no pueden ocurrir simultáneamente (intersección vacía).Por ej. Sacar una carta de una baraja y obtener “un 7 de oro” y “una carta de copa”.

Espacio muestral: (E). Es el conjunto de todos los sucesos elementales de un

experimento aleatorio.

Por ej. Si lanzamos un dado, el espacio muestral será: E= {1, 2, 3, 4, 5, 6}

Probabilidad de un suceso

Entre los distintos resultados de un experimento aleatorio, unos se producen con más frecuencia que otros.-Frecuencia absoluta de un suceso es el n° de veces que se ha obtenido dicho suceso (Fa) ó F-Frecuencia relativa de un suceso es un cociente entre la frecuencia absoluta y el n° de veces que se ha realizado el experimento (Fr )

46

Page 47: ESTADISTICA a Distancia Para Administracion y Sistemas

F=FaN

El n° al que tienden las frecuencias cuando el n° de experimentos es suficientemente grande se llama PROBABILIDAD asociada a un determinado suceso.

Regla de Laplace: la probabilidad de un suceso es igual al cociente entre el n° de casos favorables sobre el n° de casos posibles.

Ej. Hallamos la probabilidad de encontrar “oros” al extraer cartas de una baraja de 40 cartas:n° de casos favorables = 10 (el total de oros)n° de casos posibles = 40 (el total de cartas)

P = 1040

= 14

= 0,25 Esto significa que de cada 4 posibilidades

tenemos 1 a nuestro favor.

Propiedades de las probabilidades

1) la probabilidad de un suceso es el n° que está comprendido entre 0 y 1.

P(A) = 0N

= 0 (probabilidad del suceso imposible)

P(A) = nN

= 1 cuando n = N (probabilidad del suceso seguro)

2) la probabilidad de dos sucesos compatibles es igual a la suma de las probabilidades de cada uno de los sucesos menos la probabilidad del suceso intersección. P (AUB) = P (A) + P (B) – P (A ∩B)

3) la probabilidad de un suceso más la de su contrario es igual a la unidad. P (A) + P (Ā) = 1 P (Ā) = 1 – P (A) P (A) = 1 – P ( A)

47

P (A) = n°de casos favorablesn °de casos posibles

=

0 ≤ p ≤1

Page 48: ESTADISTICA a Distancia Para Administracion y Sistemas

Probabilidad total: es la probabilidad del suceso unión de varios sucesos incompatibles que es igual a la suma de las probabilidades de cada uno de ellos. P (A1 U A2 U A3 ∪ .......∪ An) = P (A1) + P (A2) +……….. + P (An)

*El rectángulo representa al conjunto universal que incluye a todos los demás conjuntos.

Ej. Calcular la probabilidad de que al extraer una carta de una baraja, obtengaA: 5 de copa ó B: espadas

La probabilidad de cada suceso es: P(A) = 1

40 = 0,025 y P (B) =

1040

= 0,25

P (AUB) = P (A) + P (B)

P (AUB) = 1

40+

1040

= 1140

= 0,275

Ej. Calcular la probabilidad de que al extraer una carta de una baraja, obtenga:

48

Page 49: ESTADISTICA a Distancia Para Administracion y Sistemas

A: una carta de espada ó B: una carta que sea un 5

P(A)= 1040

P (B)= 4

40 pero aquí hay una carta que es un 5 de espada P(A

∩B ¿= 140

⇒ P(A)+P(B)-P(A∩B ¿=1040

+ 440

− 140

=¿ 0,325*el 5 de espada es la carta que cumple con las dos condiciones: ser de espada y además ser un 5; por eso debemos restarla para no sumarla dos veces.Como vemos, se trata de sucesos compatibles, porque su intersección no es vacía.

Sucesos independientes: dos sucesos son independientes si la ocurrencia de uno no influye sobre la ocurrencia del otro.

Probabilidad compuesta: es la probabilidad de que varios sucesos compatibles e independientes se verifiquen a la vez y es igual al producto de las probabilidades de cada uno de ellos.

P (A1∩ A2 ∩ A3 ∩ ……. ∩ An) = P (A1) . P (A2) ……….. .P (An).

Ej. Calcular la probabilidad de que al extraer una carta de la baraja, obtenga: A: reyB: espadas

La probabilidad de cada suceso individual es: P(A) = 4

40=0 ,1y P(B) =

1040

= 0,25

49

Page 50: ESTADISTICA a Distancia Para Administracion y Sistemas

Entonces P(A ∩ B) =4

40.1040

= 1

40 = 0,025

Probabilidad condicional: se dice que un suceso B está condicionado con un suceso A y se escribe B/A cuando el suceso B se puede verificar después de haberse cumplido el suceso A.

P (B/A) =P (A ∩B)P(A )

; P (A/B) =P (A ∩B)P(B)

• Tener en cuenta que P(A/B)≠ P(B/A)

Resumen de fórmulas

* Regla de Laplace: P(A) = n°de casos favorablesn °de casos posibles

= nN

* Probabilidad de la unión de sucesos incompatibles- cuando (A∩B) = 0 ≫≫≫≫ P(A∪B) = P(A) + P(B)

*Probabilidad de la unión de sucesos compatibles.

-cuando (A ∩B ¿ ≠0 (no vacía) ≫≫≫≫ P(A∪B) = P(A) + P (B) – P(A∩B)

* Probabilidad condicionada

P(A/B) = P (A ∩B)P(B)

P(B/A) = P (A ∩B)P(A )

*Probabilidad de la intersección de dos sucesos independientes

P(A∩B ¿=¿ P(A) . P(B)

*Probabilidad de la intersección de dos sucesos dependientes

P(A∩ B) =

P(A)

P ( BA )

Actividades

Ejercicio n°1

Se sortea un viaje entre los 120 mejores clientes de una agencia de automóviles. De ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas. Calcular:

50

Page 51: ESTADISTICA a Distancia Para Administracion y Sistemas

a) ¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero? R: 0,16b) Si el afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer? R: 0,5625Ejercicio n°2

En un pueblo se realizó una encuesta de opinión a 150 adultos residentes. A cada persona se le preguntó sobre cierto candidato Los resultados se muestran en la tabla.

A favor delcandidato

En contra delcandidato

hombre 60 20mujer 40 30

Si se selecciona al azar un residente adulto, cuál es la probabilidad de que:a) Sea hombre R: a) 0,53b) esté a favor del candidato b) 0,6c) sea hombre y esté a favor del candidato c) 0,4d) sea hombre ó esté a favor del candidato d) 0,8e) Si se sabe que la persona seleccionada es mujer, ¿cuál es la probabilidad de que esté a favor del candidato? e) 0,57

Ejercicio n°3 El total de la población infantil de tres ciudades se distribuye de la siguiente manera: En la ciudad A hay 50 niños, en la ciudad B hay 30 niños y en la C hay 20 niños. Se sabe también que en la ciudad A hay 4 niños enfermos, en la B hay 5 y en la C hay 6. Si se elige un niño al azar:

a) ¿cuál es la probabilidad de que esté enfermo? R: 0,15b) ¿cuál es la probabilidad de que sea de la ciudad B? R: 0,3c) ¿cuál es la probabilidad que sea de la ciudad C y no esté enfermo? R: 0,14 d) Si el niño elegido no está enfermo ¿cuál es la probabilidad que sea de la ciudad A? R:0,54Ejercicio n°4 Para obtener la licencia de conducir es necesario aprobar el examen teórico y el práctico. La probabilidad de aprobar la teoría es de 0,68 y la de aprobar la práctica es de 0,72. Se sabe que la probabilidad de aprobar alguna de las dos partes es de 0,82. Si se elige un alumno al azar:¿Cuál es la probabilidad de que obtenga la licencia? R: 0,58

Ejercicio n°5 Una cadena de tiendas tiene sucursales en las ciudades de Rosario y Córdoba. Cada tienda vende tres marcas de cámaras de video A, B y C. En la tabla están indicados los resultados de la venta promedio mensual de cámaras en el año anterior. Suponga que las ventas futuras siguen el patrón de la tabla.

A B CRosario 25 40 30Córdoba 20 25 30

51

Page 52: ESTADISTICA a Distancia Para Administracion y Sistemas

a) Determine la probabilidad de que la venta de una cámara el siguiente mes sea de la marca B R:0,38b) Si la venta es en la tienda de Rosario, ¿cuál es la probabilidad que sea de la marca C? R: 0,31c) ¿cuál es la probabilidad que sea en Córdoba y sea de la marca A? R: 0,11

Ejercicio n°6

Sean A y B dos sucesos tales que P(A)= 0,375, P(B)=0, 908 y P(A∪B ¿=¿ 0,989. Hallar:a) P(A/B) R: 0,3237 b) P(B/A) R: 0,784

Ejercicio n°7 La probabilidad de resolver correctamente alguno de los dos exámenes de matemática es 0,45. La de resolver el 1° examen es 0,40 y la del 2° es 0,30. ¿La resolución de los dos exámenes es independiente? R: no

Ejercicio n°8La probabilidad de que un hombre viva 20 años es 1/4 y la de que su mujer viva 20 años es 1/3. Se pide calcular la probabilidad que:a) ambos vivan 20 años. R: 0,083 b) el hombre viva 20 años y su mujer no. R: 0,166 c) ambos mueran antes de los 20 años. R: 0,5

Autoevaluación

a) ¿Cuál es la diferencia entre un experimento aleatorio y un determinístico?b) ¿Cuál es la probabilidad del suceso imposible?c) ¿Qué significa que dos sucesos sean incompatibles?d) ¿Cómo se interpreta la regla de Laplace? Dé un ejemplo sencilloe) ¿A qué valor debe ser igual la suma de todas las probabilidades de un suceso?f) ¿Cuál es el rango de la probabilidad de un suceso?g) ¿Cuando dos sucesos son independientes?

TEMA N° 10

Objetivo: Este tema está destinado a reforzar todos conocimientos adquiridos desde el tema n°3 al tema n°9.

Ejercicio n°1

Partiendo de la siguiente distribución de frecuencias acumuladas de las edades de un grupo de personas, calcular la F, X , Me, MO , Q3 , D8 e interpretarlos.

Edades FAC

¿ 4 R: X= 15,35 Q3=17,2

52

Page 53: ESTADISTICA a Distancia Para Administracion y Sistemas

¿) 11 Me= 15,38 D8= 17,6 ¿ 24 Mo= 15,17 [ 16−18 )34

[18 –20¿ 40

Ejercicio n°2

La altura de un grupo de niños, está representada en la siguiente tabla. Sabiendo que la altura media de los mismos es 147,75 m, calcular:

Altura F a) la frecuencia A del 3° intervalo 130-134 1 b) la simetría de las distribuciones comparando Me y Mo 135-139 2 c) el percentil correspondiente a un niño que mide 143 cm140-144 A145-149 12150-154 13 155-159 4 R: a) A= 8 c) P= 19,5 c) simetría negativa

Ejercicio n°3

Los resultados al lanzar un dado 200 veces están dados en la siguiente tabla. Calcular a y b sabiendo que la puntuación media es 3,6.

X F 1 a R: a = 29 b=36 2 32 3 35 4 33 5 b 6 35

Ejercicio n°4 Las alturas de un equipo de jugadores de básquet están dadas en la tabla. Calcular x, Q1, Q2. Altura F ¿a qué Percentil corresponde el valor 1,94? 1,70-1,75 1 1,75-1,80 3 1,80-1,85 4 R: x=1,86 Q1=1,82 Q2=1,87 P87⇒86,987 1,85-1,90 8 1,90-1,95 5 1,95-2,00 2

Ejercicio n°5

Calcular lo que se indica

N° de libros F f R: N=100

53

Page 54: ESTADISTICA a Distancia Para Administracion y Sistemas

0 25 0,25 b=5 1 20 0,2 a= 35 2 a d e=1 3 15 0,15 d= 0,35 4 b 0,05 Total N e

Ejercicio n°6

De una producción de 5000 focos, el 2% de ellos son defectuosos. Si se selecciona un foco al azar:a) ¿Cuál es la probabilidad de que el fofo sea defectuoso? R: a) 0,02b) ¿Cuál es la probabilidad de que el foco no sea defectuoso? R: b) 0,98

Ejercicio n°7

5) Un examen aplicado a 40 estudiantes da como resultado lo siguiente: el 10% obtuvo como calificación una A , el 25% una B, el 35% una C, el 25% una D y el 5% una E. Si se selecciona un estudiante al azar, cuál es la probabilidad de que:a) recibiera una A R: a) 0,1b) recibiera una A ó B b) 0,35c) no recibiera ni una D ni una E c) 0,7d) no recibiera una E d) 0,95

Ejercicio n°8

En una ciudad de la Argentina, el 25% de los votantes son justicialistas, el 30% son radicales y el resto se identifica con otros partidos políticos. Durante una campaña electoral, el 60% de los justicialistas, el 80% de los radicales y 90 % del resto apoyan el aumento del presupuesto para la educación.a) Si se elige una persona al azar que apoya al aumento ¿cuál es la probabilidad que sea justicialista? b) ¿Cuál es la probabilidad que sea radical y apoye el aumento? R: a) 0,18 b) 0,238

TEMA N° 11

Distribución Normal

Una distribución normal con media y desviación estándar se designa por N (x, D.E) y su gráfica es la Campana de Gauss.

54

Page 55: ESTADISTICA a Distancia Para Administracion y Sistemas

El área del recinto determinado por la curva y el eje de las abscisas (eje x) es igual a la unidad. El área bajo la curva es igual a la probabilidad de la variable. El área bajo la curva es simétrica respecto a la media, es decir, que alejándonos de la media a derecha e izquierda, el número de observaciones decrece de forma similar.

-Distribución normal estándar ó tipificada ó reducida es aquella que tiene por media x=0 y D.E=1. Se designa como N (0, 1).En el gráfico, la probabilidad de la variable x, dependerá del área sombreada en la figura y para calcularla utilizaremos una tabla que contiene las áreas (probabilidades ó porcentajes) que ya está calculada.

-Tipificación de la variable: para poder utilizar la tabla, tenemos que transformar la variable x que sigue una distribución normal N ( x , D.E) en otra variable Z que sigue una distribución N (0,1). Para calcularla, usaremos la fórmula:

La tabla nos da las probabilidades de P (Z≤ X) siendo Z la variable tipificada.Las figuras muestran algunos casos posibles para encontrar las probabilidades, donde el área sombreada corresponde a la probabilidad que estamos buscando.

P(

0≤ x≤ z

)

P(-t1≤ x≤-t2) P(-a≤ x≤ b)

Algunas propiedades de la distribución normal son:

55

Z= x−xD . E

Page 56: ESTADISTICA a Distancia Para Administracion y Sistemas

a) es simétrica respecto de la media aritmética.b) la media, la mediana y la moda coinciden.c) los puntos de inflexión de la curva son x = X∓ D.Ed) la distribución de probabilidades en un entorno de la media son: - cerca del 68,26% de los valores de la población caen dentro de “más ó menos” una desviación estándar a partir de la media ⇒ [x -D.E; x +D.E].- cerca del 95,45% de los valores caerán dentro de “más ó menos” dos desviaciones estándar a partir de la media⇒ [x – 2 D.E; x + 2 D.E]- cerca del 99,73% de los valores caerán dentro de “más ó menos” tres desviaciones estándar a partir de la media⇒ [x - 3 D.E; x + 3 D.E]. * µ= x y σ = D.E

Por ej. Las puntuaciones de una prueba estandarizada se distribuye normalmente con x= 480 y D.E= 90

a) ¿cuál es la probabilidad de puntuaciones mayores a 700?

P ( X¿700) hacemos Z=x−xD. E

=700−480

90=¿ 2,44

56

Page 57: ESTADISTICA a Distancia Para Administracion y Sistemas

2,44

Buscamos en la tabla, que probabilidad corresponde al valor de z=2,44 y nos da P= 0,4927 Hacemos 0,5- 0,4927= 0,0073 que es la probabilidad buscada.

Otros ejemplos:

* P (2,3¿ x<3,7¿ donde x es una variable aleatoria normal con x=1,5 y D.E=2

Z1=x−xD :E

=2,3−1,52

=0,4 buscamos en la tabla las probabilidades

correspondientes a z=0,4 y z= 1,1 La probabilidad será⇒ 0,3643 + 0,1554=0,2089

Z2= x−xD. E

=3,7−1,52

=1,1

0,4 1,1

* P (-0,48¿ z<1,74¿

z = -0,48 ⇒ 0,1844 La probabilidad será ⇒ 0,1844 + 0,4591= 0,6435 z = 1,74 ⇒ 0,4591

-0,48 1,74

*P (-3,22¿ z<¿-1,43)

Z= -1,43 ⇒0,4236Z= -3,22⇒ 0,4994 La probabilidad será⇒0,4994 – 0,4236 = 0,0758

57

Page 58: ESTADISTICA a Distancia Para Administracion y Sistemas

-3,22 -1,43

*P (z¿- 2,60)Z= -2,60⇒0,4953 La probabilidad será⇒ 0,5+ 0,4953 = 0,9953

-2,60

*P(≤ -1,53)

Z= -1,53⇒0,4370 La probabilidad será⇒ 0,5-0,4370=0,063

-1,53

*Como se usa la tabla: veremos un ejemplo concreto. ¿cuál es la probabilidad de encontrar un valor de z menor ó igual a 1,96? En la 1° columna aparece el entero y el 1° decimal de z. Vemos que los valores van desde 0,0 hasta 3,9. En la 1° fila (arriba) aparece el 2° decimal de z. Los valores van desde 0,00 hasta 0,09. Entonces para el valor de z= 1,96 buscaremos 1,9 en la 1° columna y 0,06 en la 1° fila (1,9+0,06=1,96). Buscamos en el cuerpo de la tabla el valor donde se interceptan la columna y la fila, que es igual a 0,4750. Como la tabla me da el valor de la probabilidad desde cero hasta z, que en nuestro caso es 0,4750, habrá que sumarle el 50% de la izquierda que falta.

P( z≤1,96¿=0,50+0,4750=0,9750

1,96

Áreas bajo la curva normal tipificada de 0 a Z

58

Page 59: ESTADISTICA a Distancia Para Administracion y Sistemas

Actividades

Ejercicio n°1

59

Page 60: ESTADISTICA a Distancia Para Administracion y Sistemas

Determine el área bajo la curva normal:a) a la izquierda de z=0,56b) entre z=-2,93 y z=-2,06

Ejercicio n°2

Sea z una variable aleatoria con distribución normal típica, buscar:a) P( Z≤0,92 ¿b) P( Z≤−1,53¿c) P( 0,41≤Z ≤1,62¿d) P(Z≤1,43¿

Ejercicio n°3

Una encuesta tiene preguntas para determinar la capacidad de un empleado con una distribución normal N (10 ; 0,1). El encuestador considera que un empleado no está capacitado si sus respuestas no están entre 9,9 puntos y 10,1 puntos. ¿Qué probabilidad hay de que un empleado encuestado no esté capacitado? R: 0,3174

Ejercicio n°4

El nivel de producción de una máquina sigue una distribución normal N (192 , 12). Calcular la probabilidad de que la máquina tenga un nivel de producción:a) superior a 200 unidades R: 0,2546b) entre 180 y 200 unidades R: 0,8314

Ejercicio n°5

El tiempo medio en realizar una misma tarea por parte de los empleados de una empresa se distribuye según una distribución normal, con x= 5 días y D.E=1,25 días. Calcular el porcentaje de empleados que realizan la tarea en un tiempo inferior a 7 días. R: 94,52%

Ejercicio n°6

La media de ventas diarias en un negocio es de $950 y la D.E=$200. Suponiendo que la distribución de ventas es normal ¿cuál es la probabilidad de vender más de $1250 en un día? R: 0,0668

Ejercicio n°7 La cantidad de café depositada en cada bolsa por una máquina envasadora sigue una distribución normal con x= 1040 gr y D.E= 50 gr.a) calcule el % de paquetes que tienen más de 1 kg. R: 78,81%b) Sabiendo que el 97,5% de los paquetes contienen menos de x gr. Calcular el valor de x. R: x= 1138grc) Calcular el % de paquetes cuyo contenido pesa entre 950gr y 1050gr. R: 54,34%

Ejercicio n°8 Una empresa realiza entre sus postulantes una encuesta para saber su grado de profesionalidad. La encuesta tiene una distribución normal con una media de 200 puntos y una D.E. de 5 puntos.a) ¿qué porcentaje de postulantes tendrán un puntaje menor a 195 puntos. R: 15,87%

60

Page 61: ESTADISTICA a Distancia Para Administracion y Sistemas

b) ¿a partir de qué puntaje(x) se encuentra el 2,5% de los postulantes mejor preparados? R: 209,8

Ejercicio n°9 Una distribución normal tiene una x=80 y una D.E=14. Determine el valor de x por encima del cual se presentará el 80% de las observaciones. R: x= 68,1

Ejercicio n°10

La vida promedio de los habitantes de una ciudad de 10.000 habitantes es de 68 años con una varianza de 25. Se hace un estudio demográfico que desea saber:a) ¿cuántas personas superarán probablemente los 75 años? R: 808 personasb) ¿cuántas personas vivirán probablemente menos de 60 años? R: 548 personas

Ejercicio n°11

El salario medio de los empleados de una empresa se distribuye normalmente con una x=$5000 y una D.E=$1000. Calcular el % de empleados con un sueldo inferior a $7000. R: 97,72%

Ejercicio n°12

La jornada laboral promedio de un trabajador de una fábrica es de 40 hs semanales. Una de las políticas de la empresa es que si un empleado cumple con 45 hs ó más se le otorga un bono. ¿Qué % de los empleados recibirá el bono si eligen a 100 trabajadores al azar, con una D.E= 5,5 hs? R: 18,41 %

Autoevaluación

a) ¿Qué porcentaje de probabilidad tienen los valores debajo de la curva de Gauss?

b) ¿Cómo se distribuyen los valores de las variables alrededor de la media?

c) Si tenemos dos desviaciones estándares alrededor de la media ¿qué porcentaje de valores tendremos?

d) ¿Qué fórmula se utiliza para tipificar una variable de una distribución normal?

e) ¿Qué porcentaje representan tres desviaciones estándares alrededor de la media?

TEMA N° 12

DIAGRAMA DE ÁRBOL

61

Page 62: ESTADISTICA a Distancia Para Administracion y Sistemas

Es una herramienta empleada para ordenar de forma gráfica y estructurada las distintas acciones que se deben llevar a cabo para alcanzar una meta ó resolver un problema. Este diagrama va de lo general a lo específico, es decir, parte de un problema general (tronco) y continúa con niveles subsecuentes ó causas (ramas) que se convierten a su vez en problemas a los cuales se les deben asociar causas y así sucesivamente hasta llegar al nivel máximo de detalle posible ó causas primarias.Ventajas: plantea claramente el problema para que todas las ventajas sean analizadas. Permite analizar totalmente las posibles consecuencias de tomar una decisión. Proveen un esquema para cuantificar el costo de un resultado y la probabilidad de que suceda.En síntesis, el diagrama de árbol, nos demuestra gráficamente cualquier posible camino que podemos seleccionar para los diversos niveles de acciones detalladas. Esto es una manera de animar a los distintos miembros de una organización que trabajen en equipos, para que puedan ampliar su pensamiento al crear soluciones.

La suma de las probabilidades de cada grupo de ramas de un nodo debe ser igual a 1 ó a un 100%.

Por ej. Un matrimonio tiene tres hijos. Calcular la probabilidad de que:a) el mayor sea varón (H) y la menor sea mujer (M)b) los tres sean del mismo sexo.c) el del medio sea mujer.Primero armamos el diagrama de árbol, colocando las probabilidades de cada rama.

62

Page 63: ESTADISTICA a Distancia Para Administracion y Sistemas

a) Considerando que una persona tiene al nacer dos probabilidades de sexo: hombre ó mujer, las probabilidades de cada rama serán ½, lo que significa que de las dos posibilidades tenemos una. Buscamos ahora todos los casos en los que el primer hijo es hombre y la última es mujer.Estos son: HMM, HHM. Vemos que de los ocho casos posibles, lo que buscamos se

cumple sólo en dos, entonces: P (H; M)= 28=0,25 ó 25%

*Otra forma de resolver esto es: multiplicando todas las probabilidades de cada rama y luego sumando todos esos productos.

O sea: la rama HMM = 12.12

. 12=1

8 y la rama HHM=

12.12

. 12=1

8

Luego sumamos HMM+HHM= 18+ 1

8=2

8=0,25

b) Que los tres sean del mismo sexo son: MMM y HHH. Entonces

P (tres de igual sexo)= 28=0,25 ó 25%

c) El del medio sea mujer: MMM, MMH, HMM, HMH. Entonces:

P (el del medio sea mujer)= 48=0,5 ó 50%

Otro ejemplo con probabilidades condicionales: En una empresa el 80% de los empleados son hombres y el 20% restante son mujeres. Al realizar un test para determinar su capacidad productiva, se tiene que el 70% de los hombres supera los 60 puntos, mientras que el 90% de las mujeres supera este puntaje. Si elegimos un empleado al azar se quiere saber:

63

Page 64: ESTADISTICA a Distancia Para Administracion y Sistemas

a) Si el empleado elegido supera los 60 puntos ¿Cuál es la probabilidad que sea mujer?b) Si el empleado elegido no supera los 60 puntos ¿Cuál es la probabilidad que sea hombre? 0,70 S Primero realizamos el diagrama de árbol. S (supera) y S (no supera). H 0,80 0,30 S I 0,90 S 0,20 M 0,10 S

*observe que en el numerador está la

a) P(S/M)=0,20 .0,90

0,20 .0,90+0,80 .0,70=0,18

0,74=0,24 probabilidad de que sea mujer la

que supera los 60 puntos( o sea, la probabilidad que buscamos) y en el denominador está la probabilidad de todos los que superan los 60 puntos, tanto hombres como mujeres.

b) P (H/S )= 0 ,80 .0 ,30

0 ,80 .0 ,30+0 ,20 .0 ,10=0 ,24

0 ,26=0 ,92

Actividades

*Recuerde que siempre debe realizar el diagrama de árbol para resolver el ejercicio.

Ejercicio n°1

En la gerencia de marketing se seleccionarán a tres empleados al azar para formar un comité de investigación. En dicha gerencia trabajan 6 mujeres y 10 hombres. Calcular la probabilidad de que: * realice el diagrama de árbol.a) los tres elegidos sean hombres. R: 0,214b) sean dos mujeres y un hombre. R: 0,27c) sean dos hombres y una mujer. R: 0,48d) por lo menos sea un hombre. R: 0,96e) las tres elegidas sean mujeres. R: 0,036

Ejercicio n°2

En un supermercado el 70% de las compras las realizan las mujeres, de las cuales el 80% supera los 12Є, mientras que de las compras realizadas por los hombres, sólo el 30% supera esa cantidad.a) Elegido un tique de compras al azar, ¿cuál es la probabilidad de que supere los 12Є? R: 0,65

64

Page 65: ESTADISTICA a Distancia Para Administracion y Sistemas

b) Si se sabe que el tique supera los 12Є, ¿cuál es la probabilidad de que la compra la haya realizado una mujer? R: 0,86 c) ¿cuál es la probabilidad de que un tique elegido al azar no supere los 12Є? R: 0,35

Ejercicio n°3 Se estima que sólo un 20% de los que compran acciones en Bolsa tienen conocimientos bursátiles. De ellos, el 80% tienen beneficios. De los que compran acciones sin conocimientos bursátiles, sólo un 10% obtienen beneficios. Se desea saber:a) El porcentaje de los que compran acciones en Bolsa que tienen beneficios. R: 24%b) Si se elige al azar una persona que ha obtenido beneficios, ¿cuál es la probabilidad de que tenga conocimientos bursátiles? R: 0,67

Ejercicio n°4

En una asesoría fiscal se contrató a tres personas para hacer declaraciones de rentas. La 1° realiza el 30% de las declaraciones, la 2° el 45% y la 3° el 25% restante. Se comprobó que de las declaraciones de la 1° persona, el 1% son erróneas, la 2° tiene un 3% de errores y la 3° el 2% de errores.a) ¿cuál es la probabilidad de que al elegir una declaración de renta sea errónea? R: 0,0215b) Al elegir una declaración que esté correcta, ¿cuál es la probabilidad de que la haya realizado la 2° persona? R: 0,4460

Ejercicio n°5

Un barco cubre a diario un servicio entre dos puertos. Se sabe que la probabilidad de accidentes en un día sin niebla es 0,005 y en un día de niebla es 0,07. Si en un mes (30 días) en el que hubo 18 días sin niebla y 12 con niebla se produjo un accidente, ¿cuál es la probabilidad de que el accidente haya ocurrido un día sin niebla? R: 0,097

Ejercicio n°6

Dos máquinas se usan para fabricar marcapasos. La máquina A produce el 75% de todos los marcapasos y la máquina B el 25%. El 1% de los que produce la máquina A son defectuosos y el 2% de los de la máquina B son defectuosos. Si se selecciona al azar un marcapasos y es defectuoso, ¿cuál es la probabilidad de que haya sido producido por la máquina A? R: 0,6

Autoevaluación

a) ¿A qué llamamos diagrama de árbol?b) La suma de las ramas de un diagrama de árbol ¿puede ser mayor a uno?c) ¿Cuáles son las ventajas de utilizar un diagrama de árbol?

65

Page 66: ESTADISTICA a Distancia Para Administracion y Sistemas

TEMA N°13

Función de probabilidad

Sea X una variable aleatoria que asigna a cada resultado del espacio muestral un número real. Si la variable aleatoria X toma los valores x1, x2. , ….xn con probabilidad P1, P2….Pn

respectivamente, se llama función de probabilidad de X a la función que a cada valor de X le asigna su correspondiente probabilidad.

Por ej. X= n° de caras que se obtiene al lanzar una moneda una vez.

E={c , s } X 0 1 *la suma de las probabilidades debe ser igual a 1.

Px 12

12

P (0)=1/2 y P(1) = 1/2

Esperanza matemática: E(x) también llamada valor esperado de una variable aleatoria discreta es igual a la sumatoria del producto entre cada valor de la variable y su correspondiente probabilidad.

Xi X1 X2 ….. Xn

E(X) = X1. P1 + X2. P2 +……..+ Xn . Pn Pi P1 P2 Pn

Por ej. Una organización benéfica está realizando una rifa con un solo premio de $8.500. Cada boleto de la rifa cuesta $1 y han sido vendidos 10.000 boletos. ¿Cuál es la ganancia esperada para el comprador de un boleto?

X= ganancia esperada por el comprador

Si gana ⟶ 8500-1= 8499 ( el total del premio menos lo que pagó por la rifa)Si pierde⟶ -1 (lo que pagó por la rifa) X P(x)La probabilidad de que gane es 1/10.000 = 0,0001 8499 0,0001La probabilidad de que pierda es 1-0,0001= 0,9999 -1 0,9999

66

E(x) = ∑ X i . Pi

Page 67: ESTADISTICA a Distancia Para Administracion y Sistemas

E(x) = 8499. 0,0001 – 1. 0,9999 = - 0,15 lo que significa que promediará una pérdida de $ 0,15 por juego si continúa jugando.

**Distribución binomial: antes de definir lo que es una distribución binomial explicaremos dos conceptos importantes:

*Números factoriales: dado un n° natural n≥1, se denomina “factorial de n”(n!¿ al producto de los n primeros números naturales. n! = n. (n-1). (n-2)……..3.2.1

Por ej. 4!=4.3 .2 .1=24

*Números combinatorios: son los números que pueden expresarse del siguiente modo:

(nk)= n!k ! . (n−k ) !

Por ejemplo, si tenemos el n° combinatorio (53) vemos que n=5 y k=3, entonces:

(53)= 5 !3 ! (5−3 )!

= 5 !3 ! .2 !

=5 .4 .3!3 ! .2 !

=5 .42 .1

=202

=¿

*En el ejemplo, se desarrolló el 5! del numerador hasta 3!, para poder simplificarlo con el 3! del denominador.

Distribución binomial

Consideramos un experimento que consiste en una secuencia de ensayos independientes, es decir, que la probabilidad de obtener un resultado en cada ensayo no depende del resultado del ensayo anterior ni posterior. En cada ensayo se pueden obtener sólo dos resultados posibles: éxito y fracaso. Llamamos “p” a la probabilidad de que ocurra un éxito y “q =1- p” a la probabilidad de obtener un fracaso. Si queremos calcular la probabilidad de que ocurran k éxitos en n ensayos, calculamos: Formula general para la distribución binomial Por ej. Si en un determinado horario de la tarde se admite que de 5 números telefónicos, uno está comunicado, ¿Cuál es la probabilidad de que cuando se marquen 10 números de teléfono al azar, sólo comuniquen dos?

67

Pk = (nk) . pk .qn−k

Tener en cuenta que: 0!=1 y1 !=1

Page 68: ESTADISTICA a Distancia Para Administracion y Sistemas

P= 1/5 q = 4/5 n=10 k=2

Entonces P(x=2)= (102 ) .( 1

5 )2

.( 45 )

8

=0,3020

*recuerde que (102 )esunn° combinatorio que deberesolversecomo tal.

Actividades

Ejercicio n°1 Sea X el número de caras que aparecen en el lanzamiento de dos monedas. Determinar la función de probabilidad de X.

Ejercicio n°2

Una compañía de seguros ofrece una póliza contra incendios por $80.000 a propietarios de cierto tipo de casas. La póliza proporciona protección durante un año si ocurre la destrucción total de la casa por un incendio. La compañía ha determinado que la probabilidad de que ocurra tal evento es de 0,0002. Si la prima anual de la póliza es de $52, encontrar la utilidad esperada por póliza para la compañía. R: $36

Ejercicio n°3La variable aleatoria x tiene la siguiente distribución:

X P(x) 2 …... 4 0,5 7 0,4

a) Encuentre P(x=2) R: 0,1 b) Calcule la E(x) de la distribución. R: 5

Ejercicio n°4

Una empresa de comida rápida estima que si abre un restaurante en un centro comercial, la probabilidad de que él tenga éxito es de 0,65. Un restaurante con éxito genera una utilidad anual de $75.000, mientras que uno que no es exitoso pierde $20.000. ¿Cuál es la utilidad esperada para la empresa si abre un restaurante en un centro comercial? R: $41.750

Ejercicio n°5

Dada la distribución binomial P(x)= (5x ) ( 1

3 )x

(23 )

5−x

con x= 0, 1, 2, 3, 4, 5

Hallar:a) P(X=3) a) 0,16

68

Page 69: ESTADISTICA a Distancia Para Administracion y Sistemas

b) P(x≥3¿ b) 0,20

c) P(x=0) c) 0,13

Ejercicio n°6

Para un grupo particular de individuos, la probabilidad de que sus impuestos sean auditados cada año es de 0,20. Si se seleccionan 5 individuos al azar, ¿Cuál es la probabilidad de que exactamente dos tengan auditoría de impuestos? R: 0,2048

Actividades

a) ¿A qué llamamos función de probabilidad?b) ¿A qué llamamos esperanza matemática?c) ¿Cuáles son los dos resultados posibles de una distribución binomial?

UNIDAD N°4: Correlación y regresión lineal

Objetivos de la unidad: Conocer, interpretar y aplicar los conceptos de correlación y regresión. Hallar, graficar e interpretar las rectas de regresión.

TEMA N°14 CORRELACIÓN Y REGRESIÓN

La correlación trata de establecer la relación ó dependencia que existe entre dos variables x e y que intervienen en una distribución bidimensional, es decir, determina si los cambios que suceden en una de las variables influyen en los cambios de la otra, si esto sucede, diremos que las variables están correlacionadas ó que hay correlación entre ellas. Si representamos cada par de valores, como las coordenadas de un punto (x, y), el conjunto de todos ellos se llamará nube de puntos ó diagrama de dispersión.

Tipos de correlación

*Correlación directa ó positiva: se da cuando al aumentar ó disminuir una de las variables, la otra también aumenta ó disminuye. La recta correspondiente a la nube de

puntos de la distribución es una recta creciente.

69

Page 70: ESTADISTICA a Distancia Para Administracion y Sistemas

En el ej. se marcan el peso y la estatura de un grupo de personas y a medida que aumenta la estatura, aumenta también el peso de las personas.

*Correlación inversa ó negativa: se da cuando al aumentar ó disminuir una de las variables, la otra disminuye ó aumenta. La recta correspondiente a la nube de puntos de la distribución es una recta decreciente. En el ej. Vemos que al aumentar el n° de intentos al realizar una prueba, va disminuyendo el n° de errores.

*Correlación nula: se da cuando no hay dependencia de ningún tipo entre las variables y gráficamente la nube de puntos tiene forma redondeada.En el ej. Si en el eje Y marcamos la distancia que hay desde la escuela hasta la casa de un alumno y en eje X su rendimiento escolar, vemos que los puntos obtenidos nos dan la idea de que no hay correlación entre las dos variables, ya que el rendimiento no depende de la distancia a la que viva el alumno.

70

Page 71: ESTADISTICA a Distancia Para Administracion y Sistemas

*al final de toda la explicación teórica, se resolverá un ejercicio práctico que abarca todo lo que se explicará a continuación.

Covarianza: (Sxy) indica el sentido de la correlación entre las variables. Su fórmula es

Si Sxy¿0 la correlación es directa; la recta de regresión es creciente.Si Sxy=0 no hay correlaciónSi Sxy¿0 la correlación es inversa; la recta de regresión es decreciente

Coeficiente de correlación lineal: se utiliza para medir el grado de asociación lineal entre dos variables cuantitativas; es una medida que sirve para describir que tan fuerte es la relación entre las dos variables. Se define como el cociente entre la covarianza y el producto de las desviaciones estándares de ambas variables. Se expresa mediante la letra “r”.

*el signo de r es el mismo que el de la covarianza; si r es nulo, la covarianza será nula también.

*r es un n° real comprendido entre 1 y -1 (-1≤r ≤1¿

*Si r toma valores cercanos a -1, la correlación es fuerte e inversa y será tanto más fuerte cuanto más se aproxime a -1.

*Si r toma valores cercanos a 1, la correlación es fuerte y directa y será tanto más fuerte cuánto más se aproxime a 1.

*Si r toma valores cercanos a 0, la correlación es débil.

*Si r=1 ó r=-1 los puntos de la nube están sobre la recta creciente ó decreciente y la correlación es perfecta.

*Si la correlación es nula, r=0 y las rectas de regresión son a los ejes cartesianos y perpendiculares entre sí; sus ecuaciones son: x= x ; y= y

El rango sugerido para determinar la intensidad con que dos variables están relacionadas es: Coeficiente de correlación “r”

0 0¿ r ≤∓ 0,4 ∓0,4<r ≤∓ 0,7 ∓0,7<r≤∓1 ∓1

71

r = Sxy

D. Ex . D .E y

Sxy =∑ x . y

N−x . y ó Sxy=

Page 72: ESTADISTICA a Distancia Para Administracion y Sistemas

No haycorrelación

bajacorrelación

moderadacorrelación

fuertecorrelación

correlaciónperfecta

REGRESIÓN LINEAL: Es un método matemático que modeliza la relación que existe entre una variable dependiente “y” y otra variable independiente “x”, calculando la ecuación lineal (recta de regresión) que es la recta que mejor se ajusta a la nube de puntos. Para calcularla, utilizaremos el método de los mínimos cuadrados que es el método que permite obtener tales rectas, estableciendo que sea mínima la suma de los cuadrados de las separaciones que existen entre cada punto y la recta. Partiremos de la función lineal Y = mx+b. Para armar ésta función hay que calcular “m” que es la pendiente de la recta (m indica la inclinación de la recta en el plano) y “b” que es la ordenada al origen (b es el punto donde la recta corta al eje Y). Esta recta de regresión lineal pasa por el punto ( x,y) llamado centro de gravedad. Las fórmulas para calcular m y b son las que están a continuación:

-Esta es otra forma de calcular la recta de regresión de y sobre x. se utiliza para estimar los valores de la variable Y a partir de los de la variable x; la pendiente de la recta es el cociente entre la covarianza y la varianza de x.

Para calcular la recta de regresión de x sobre y, utilizaremos la fórmula siguiente:

Estas rectas se conocen también como “líneas de tendencia” cuyo propósito es también revelar la relación lineal que existe entre las variables x e y, permitiendo también extrapolar ó predecir cómo cambiará una variable en base a los cambios de la otra.

El gráfico muestra una línea de tendencia alcista ó creciente.

72

m= ∑ x . y−N . x . y

∑ x2−N . x2 ó m=

y− y = SxyVx

(x−x )

x−x=SxyVy

( y− y)

b= y−m. x

Page 73: ESTADISTICA a Distancia Para Administracion y Sistemas

El gráfico muestra una línea de tendencia bajista ó decreciente.

*Vamos a resolver un ejercicio de correlación y regresión para que vea usted como nos organizamos con las cuentas. (Recuerde tener a mano una calculadora!!!).

Por ej. A partir de los valores (1; 4) ; (2; 5) ; (3; 5) ; (4; 6) ; (5; 7).a) realice el diagrama de dispersión e infiera si existe correlación.b) calcule la recta de regresión de y sobre x y grafíquela.c) calcule el coeficiente de correlación lineal (c.c.l) e interprételo. a) en un sistema de ejes cartesianos, marcamos cada uno de los puntos.

Y 7 • 6 • 5 • • 4 • 321 X o 1 2 3 4 5 6

73

Page 74: ESTADISTICA a Distancia Para Administracion y Sistemas

Por lo que vemos en el gráfico, existe correlación positiva.

b) Para calcular la recta de regresión y el c.c.l es importante que organice todos los datos en una tabla, como se verá a continuación. (Siempre realice la misma tabla). Realice siempre una tabla como ésta:

x y x . y x2 y2

Tenga paciencia que usará todos los valores de la tabla.

x y x . y x2 y2

1 4 4 1 16

2 5 10 4 25

3 5 15 9 25

4 6 24 16 36

5 7 35 25 49

15 27 88 55 151 En nuestro ejemplo N=5 porque hay 5 valores de “x“ y 5 valores de “y”.

Para calcular la recta de regresión, debemos calcular la pendiente “m” y la ordenada al origen “b”. Escriba siempre las fórmulas para ver lo que necesita para hallar dicha recta cuya ecuación es Y = mx+b

m= ∑ x . y−N . x . y

∑ x2−N . x2 b= y−m. x

*Para calcular m hay dos fórmulas; utilice usted la que quiera. En este ejemplo se utilizó la que está más arriba. Vemos que para calcular m y b necesitamos previamente calcular las medias aritméticas de ambas variables. Comencemos:

x=∑ x

N=

155

=¿ y=∑ y

N=

275

=¿

m= ∑ x . y−N . x . y

∑ x2−N . x2 = 88−5 .3 .5,4

55−5 .9=88−81

10= 7

10=¿

74

0,7

3 5,4

3,3

Page 75: ESTADISTICA a Distancia Para Administracion y Sistemas

b = y−m. x = 5,4 – 0,7. 3 =

Y = mx+b ⇒ que es la recta de regresión pedida. Para graficarla, podemos hacer una tabla de valores arbitrarios, para obtener dos puntos y así poder marcar la recta; por ej. Si a x le damos el valor 0, lo reemplazamos en la ecuación de la recta, hacemos las cuentas y obtenemos el valor para y.

x y y= 0,7 . 0 + 3,3 = 3,3 tenemos el punto (0; 3,3) y= 0,7. 1 + 3,3 = 4 tenemos el punto (1; 4) 0 3,3 1 4 recuerde que los valores asignados a x son arbitrarios, pero puede usar siempre los mismos porque son los más fáciles de calcular. Ahora marcamos ambos puntos en un sistema de ejes cartesianos, los unimos y obtendremos el gráfico de nuestra recta y=0,7x+3,3.

4 •(1;4)

(0;3,3) 3,3

3

2

1 0 1

c) Para calcular el c.c.l, escribimos la fórmula r = Sxy

D. Ex . D .E y y vemos que para

el numerador tenemos que calcular la covarianza (Sxy) y para el denominador, las desviaciones estándares de cada variable. Comencemos entonces por escribir la formula de la covarianza; hay dos formulas, usted elija la que quiera. Para cualquiera de las dos, utilizamos las cuentas anteriormente realizadas.

Sxy =∑ x . y

N−x . y

Sxy = 885

−3 .5,4= 885

−16,2=¿

*recuerde que la desviación estándar es la raíz cuadrada de la varianza; por eso debemos calcular primero la varianza y después la desviación estándar. Como siempre, escribimos la primero la formula. La frecuencia(F) de cada valor es 1.

75

Y = 0,7 x + 3,3

1,4

Page 76: ESTADISTICA a Distancia Para Administracion y Sistemas

V(x)=∑ F . x2

N -x2 ⇒

555

−9=2 ⇒ D.Ex = √2 ≅

V(y)=∑ F . y2

N -y2 ⇒ 151

5−29,16 ≅ 1,04 ⇒D.Ey= √1,04 ≅

Ahora si reemplazamos en la fórmula del c.c.l

r = Sxy

D. Ex . D .E y ⇒ r= 1,4

1,41.1,01= 1,4

1,42=¿ con esto podemos

interpretar que la

correlación es fuerte y directa (ó positiva).

*para concluir esto, nos fijamos en la tabla de la correlación; nuestro coeficiente nos dio 0,98 que es un valor que está comprendido entre +0,7 y +1, por eso la correlación es fuerte y positiva. Además esto se vio cuando cuándo en el apartado a) marcamos solamente los puntos y en el apartado b) cuando graficamos la recta.*Como verá, son varias las cuentas a realizar, por eso se recomienda ¡orden y prolijidad!!! Remarque los resultados importantes para visualizarlos mejor.

Actividades

Ejercicio n°1

Con los valores de x e y de la tabla, hallar y graficar la recta de regresión. Calcular e interpretar el c.c.l x y R: y=18,64x+1,23 0,2 8 0,5 10 R: r= 0,99 1 18 2 35 3 60

Ejercicio n°2 De una empresa se conocen los datos referidos a las ventas (en miles de $) y a los gastos de publicidad (en miles de $) de los últimos 6 años. X: publicidad Y: ventas a) ¿existe relación lineal entre las ventas y sus de publicidad? *calcule el c.c.l b) obtener la recta de regresión lineal y graficarla. c) ¿qué volumen de ventas se puede esperar en un año en que se gaste en publicidad $60.000? x y 16 10

76

1,41

1,01

0,98

Page 77: ESTADISTICA a Distancia Para Administracion y Sistemas

32 15 48 20 56 22 64 30 R: a) r= 0,97 80 32 b) y=0,36x+3,75 c) 21603.75 u

Ejercicio n°3 4) Una compañía de seguros considera que el n° de vehículos (y) que circulan por una autopista a más de 120 km/h está en función del n° de accidentes(x) que ocurren en ella. Durante 5 días se obtuvo la siguiente información: Accidentes(x) vehículos (y) 5 15 7 18 2 10 1 8 9 20

a) calcular el c.c.l. ¿Es buena la predicción? R: 0,99 sib) calcular la recta de regresión de y/x. R: y=1,52x+6,90c) si ayer hubo 6 accidentes, ¿cuántos vehículos se supone que circulaban por la autopista a más de 120k/h. R: 16

Ejercicio n°4

Un centro comercial sabe que en función de la distancia, en km, a la que se sitúe de un núcleo poblacional, acuden los clientes, en cientos, que figuran en la tabla:

N° de clientes(x) 8, 7, 6, 4, 2, 1Distancia (y) 15, 19, 25, 23,34 40

a) calcular el c.c.l R: r= -0,93b) calcular la recta de regresión de x/y R: x=-0,28 y+11,94 c) si el centro comercial se sitúa a 2 km ¿cuántos clientes puede esperar? R: 1138d) si desea recibir a 500 clientes ¿a qué distancia de la población debe situarse? R: ≅ 17,43 km Ejercicio n°5

Una persona juega semanalmente un quini 6 y un loto, anotando el n° de aciertos que tiene. Durante las cuatro semanas del mes los aciertos fueron: R: r=0

Quini 6 8 6 8 a) calcular el c.c.l e interpretarlo Loto 1 2 1 2

77

Page 78: ESTADISTICA a Distancia Para Administracion y Sistemas

Autoevaluacióna) ¿Cuándo hay correlación lineal entre dos variables?b) ¿Cuándo una correlación es positiva ó negativa?c) ¿Qué mide el coeficiente de correlación lineal?d) ¿El coeficiente de correlación línea puede ser mayor que 1?e) ¿Cuándo una correlación es perfecta? f) ¿Qué información nos brinda una línea de tendencia?

TEMA N°15

Técnicas de pronósticoHacer un pronóstico es obtener conocimiento sobre eventos inciertos que son importantes para la toma de decisiones presente. Las técnicas de pronóstico disminuyen la incertidumbre sobre el futuro, permitiendo estudiar planes y acciones congruentes con los objetivos de la organización y permiten también tomar acciones correctivas apropiadas y a tiempo, cuando ocurren situaciones fuera de lo pronosticado. Conociendo una serie de valores históricos, como por ejemplo la cantidad de empleo generado por una determinada industria, el PBI de la última década ó el nivel de ventas mes a mes, podemos calcular un pronóstico para períodos siguientes; Para ello utilizaremos la fórmula de la tasa anual media de crecimiento:

Donde TMAC = tasa media anual de crecimiento

v f = valor final

v i = valor inicial

t = cantidad de variables a estudiar ⇒ t = N-1Por ej. La tabla siguiente tiene valores imaginarios sólo para el ejercicio, donde se

Año Empleoen miles

1980 120.01981 130.91982 128.01983 150.91984 199.71985 213.01986 249.71987 306.31988 368.51989 436.11990 447.31991 488.11992 511.0

78

TMAC = [( v f

v i)

1t−1] .100

Page 79: ESTADISTICA a Distancia Para Administracion y Sistemas

1993 543.21994 601.21995 653.01996 752.71997 902.51998 1012.01999 1145.52000 1285.02001 �?

muestra el valor del empleo en la industria azucarera de Argentina y queremos calcular la TMAC de ésta variable durante el período 1980-2000. Si graficamos estas observaciones en función del tiempo, tenemos:

 

Evolución del empleo de la industria azucarera (1980-2000)

La gráfica muestra un patrón con tendencia secular creciente durante el período de análisis. Observamos que:

v i= 120.0

v f = 1285.0

Como existen 21 observaciones, se tiene que t = 21 – 1 = 20 Aplicamos la fórmula para calcular la TMAC.

TMAC = [( v f

v i)

1t−1] x100

79

Page 80: ESTADISTICA a Distancia Para Administracion y Sistemas

TMAC = [( 1285.0120.0 )

120−1] x100=¿ 12,6% aproximadamente.

Lo que implica que el crecimiento anual promedio de la industria azucarera en el período referido es de 12,6% y consecuentemente el empleo esperado ó que se pronostica para el 2001 será de:

Empleo azucarero 2001= 1285.0 + 0,125864 x 1258.0 = 1447.0 *el valor 0,125864 el que se obtiene antes de multiplicar por 100. Es decir, que estimamos ó pronosticamos que habrá cerca de 1447.0 puestos de trabajo para el 2001. No obstante, conviene enfatizar que a éste resultado debemos considerarlo como una estimación burda y usualmente conservadora del valor real.

Actividades

Ejercicio n°1

a) Determinar la TMAC de una serie con tendencia decreciente, para lo cual se examina el comportamiento del ingreso per cápita de los ciudadanos de un determinado país, con datos imaginarios sólo para el ejercicio.b) Grafique la serie y comente lo que observa en ella.c) indique cuál es el ingreso pronosticado para el año 2001.

Año ingreso p/cápita anual año ingreso p/cápita anual 1980 64,2 1991 62,2 1981 67,2 1992 62,7 1982 65,2 1993 61,9 1983 62,0 1994 64,1 1984 61,9 1995 58,6 1985 63,1 1996 57,3 1986 58,9 1997 59,9 1987 59,4 1998 59,9 1988 59,9 1999 58,9 1989 59,7 2000 58,0 1990 60,1 2001 ¿?

Autoevaluación

a) ¿Para qué sirven los pronósticos?b) ¿Cuál es la fórmula para calcular la tasa media anual de crecimiento?

80

Page 81: ESTADISTICA a Distancia Para Administracion y Sistemas

c) ¿Para qué multiplicamos por 100 la TMAC?

TEMA N° 16

Tamaño de una muestra

Debería usted leer nuevamente el tema 2, en el cuál, se definió lo que es una muestra y la importancia que tiene en los cálculos estadísticos. Ahora veremos cómo se calcula el tamaño de una muestra, ya que esto es muy importante para poder inferir conclusiones aceptables que representen a toda la población.Una de las fórmulas para calcular el tamaño de una muestra es:

n=tamaño de la muestra

N= n° total de posibles encuestados DE= desviación estándar de la población, que generalmente cuando no se tiene su valor, suele utilizarse el valor constante 0,5.e= es el error muestral deseado. Este error es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la población y el que obtendríamos si preguntáramos al total de ella. Normalmente es un valor que queda a criterio del encuestador y varía entre el 1% (0,01) y el 9% (0,09).Z= es una constante que depende del nivel de confianza que tengamos en nuestros datos. Esos valores de confianza se obtienen de la tabla de distribución normal estándar N (0; 1).Los valores de Z más utilizados y sus niveles de confianza son:

Valor de z 1,15 1,28 1,44 1,65 1,96 2,24 2,33 2,58 3

Nivel de confianza

75% 80% 85% 90% 95% 97,5% 98% 99% 99,73%

Z es un valor que queda a criterio del encuestador.

Por ej. Para un trabajo de investigación entre varias provincias argentinas (24.000.000 de personas) se quiere calcular una muestra, sabiendo que el nivel de confianza es del 95,5% y un margen posible de error del 4%. ¿cuál debe ser el tamaño de la muestra?

N=24.000.000 n=N .DE2 . Z2

(N−1 ) .e2+DE2 . Z2

Z= 95,5%e= 0,0D.E= 0,5

n=24.000 .000 .0,25 .4

23.999 .999 .0,0016+4 .0,25=625 personas

*nota: el producto 23.999.999 x 0,0016 = 38399,9984 se ha redondeado a 38.400

81

n= N .DE2 . Z2

(N−1 ) .e2+DE2 . Z2

Page 82: ESTADISTICA a Distancia Para Administracion y Sistemas

*Cuando no conocemos el tamaño de la población, para calcular el tamaño de la muestra utilizaremos la siguiente fórmula:

NÚMEROS ÍNDICESEl n° índice es una medida estadística diseñada para poner de relieve cambios en una variable ó en un grupo de variables relacionados con respecto al tiempo, situación geográfica, ingreso ó cualquier otra característica. El n° índice es el cociente, entre el valor de una variable en un momento del tiempo y el valor de la misma variable en otro momento llamado período base, multiplicado por 100.

N° índice =valor

valor basex100

El período base seleccionado debe ser un período normal, preferentemente un período bastante reciente; normal significa que el período no debe estar en un pico ó en una deposición de una fluctuación.

Índice de precios al consumidor:(ipc) es uno de los indicadores más importantes generados por los institutos de estadísticas oficiales del mundo. Es una medida del poder de compra de la unidad monetaria, pesos en nuestro caso. Afecta las decisiones gubernamentales y está vinculado directamente con gran parte de la economía. Es un indicador de la evolución en el tiempo, de los precios de la canasta familiar.La canasta familiar es un grupo prefijado de bienes y servicios representativo del gasto de los hogares en una zona de referencia.

CENSO: (del latín Censere, que significa, valuar ó tasar) Se llama así al método de recolección de datos mediante el cual la información se obtiene del estudio de todos los elementos que componen a la población ó universo bajo estudio.Una de las referencias más difundidas del término es el censo poblacional que es el recuento de población que se realiza cada 10 años en un determinado país ó nación con el propósito de conocer cuestiones inherentes a los habitantes, como ser, la

82

n = D. E2 . z2

e2

Page 83: ESTADISTICA a Distancia Para Administracion y Sistemas

cantidad, las actividades económicas, nivel de estudios, infraestructura, poder adquisitivo, entre otras.Un censo debe cumplir las condiciones de universalidad (censar a todos los elementos de la población) y simultaneidad (realizarse en un momento determinado).

Actividades

Ejercicio n°1

Determinar el tamaño de la muestra, para una población de 500 estudiantes, si se quiere saber si fuman ó han fumado en algún momento de su vida. La D.E es 0,4 y se requiere que el estudio tenga un nivel de confianza del 95% y un margen de error de 0,0125. R: 444

Ejercicio n°2

Para una población de 1000 personas, se quiere saber el tamaño de una muestra con un nivel de confianza del 95% y un margen de error de 5%. R: 278

Ejercicio n°3

Para saber el nivel de estudios en una ciudad de 1176 habitantes, se quiere calcular el tamaño de una muestra que tenga una D.E de 0,3, un nivel de confianza del 90% y un margen de error del 0,015. R: 566

Ejercicio n°4

En una fábrica de alimentos para animales se producen diariamente 58500 bolsas de alimento de 5 kg. Para garantizar que el peso de las bolsas sea correcto se toma aleatoriamente alguna de ellas y se pesan. Si se quiere garantizar un nivel de confianza del 95% y un porcentaje de error de 5% con una D.E de 0,46 ¿cuántas bolsas se deben pesar? R: 323

Ejercicio n°5

83

Page 84: ESTADISTICA a Distancia Para Administracion y Sistemas

Un estudio quiere estimar la cantidad de niños que no tiene un nivel de nutrición adecuado en una determinada zona. Se sabe que hay 480 niños. Calcule el tamaño de la muestra para garantizar un nivel de confianza del95% y un porcentaje de error de 4%. R: 267Ejercicio n°6

Para un municipio se repartirán 100 paquetes electorales. Cada paquete contiene 750 boletas y se desea asegurar que ningún paquete esté incompleto. Para ello utiliza métodos estadísticos, tomando en cuenta el porcentaje de confianza del 95% y un margen de error del 10%. ¿Cuál deberá ser el tamaño de la muestra? R: 49

Autoevaluación

a) ¿cómo se calcula el tamaño de una muestra?b) ¿Podemos calcular el tamaño de una muestra sin conocer el total de la población?c) ¿Cuál es la diferencia del objeto de estudio, entre una muestra y un censo?d) ¿Para qué se realiza un censo?

*Este apartado está destinado a hacer un repaso desde el tema n°11 al tema n° 15.

Ejercicio n°1

Un fabricante de computadoras “AG” dice que la media de la vida útil de éste modelo es de 7000 hs con una D.E de 380 hs. El fabricante ha puesto un anuncio de duración de 7500 hs.a) ¿qué probabilidad existe de que lo anunciado sea falso? R: 0,9049b) ¿cuál es la probabilidad de que la duración supere las 8000 hs? R: 0,0043

Ejercicio n°2

En el año 2000 el salario medio de un recién egresado de una escuela era de $31280. Suponga que los salarios iniciales siguen una distribución normal con D.E= $3300.a) ¿qué % de los egresados tiene un salario inicial medio entre $30.000 y $ 35.000? R: 51,66% b) ¿cuál es la probabilidad que el salario inicial medio sea superior a $40000. R: 0,0041

Ejercicio n°3 Una empresa eléctrica fabrica lámparas que tienen una duración antes de fundirse que se distribuye normalmente con una media de 820 hs y una D.E= 42 hs. Hallar la probabilidad de que la lámpara se funda entre las 780 hs y las 830 hs. R: 0,4237

Ejercicio n°4

84

Page 85: ESTADISTICA a Distancia Para Administracion y Sistemas

La jornada laboral promedio de un trabajador de una fábrica es de 40 hs semanales. Una de las políticas de la empresa es que si un empleado cumple con 45 hs ó más se le otorga un bono. ¿Qué % de los empleados recibirá el bono si eligen a 100 trabajadores al azar, con una D.E= 5,5 hs? R: 18,41%

Ejercicio n°5

En un examen las calificaciones se distribuyen según una normal media de 66,5 puntos y una D.E=12,6 puntos.a) ¿qué % de las puntuaciones superará los 74 puntos? R: 28%

Ejercicio n°6

Se desea realizar un estudio sobre la incidencia de complicaciones postoperatorias en algunos pacientes de un hospital. El estudio no tiene antecedentes pero se desea garantizar un nivel de confianza del 95% y un porcentaje de error máximo de 10%. ¿Cuál debe ser el tamaño de la muestra? R: 96

Ejercicio n°7

*realice el diagrama de árbol. De las 12 cuentas de un archivo, hay 4 que tienen un error en el estado de cuenta. a) Si un auditor elige al azar dos cuentas ¿Cuál es la probabilidad de que ninguna tenga error? R.0,42b) Si se elige al azar 3 cuentas ¿Cuál es la probabilidad de que ninguna tenga error? R:0,25c) Si se elige una cuenta al azar ¿Cuál es probabilidad de que tenga error? R: 0,33

Ejercicio n°8

*realice el diagrama de árbolPara probar la eficacia de dos medicamentos sobre cierta enfermedad, se aplica a 60 enfermos de un hospital el medicamento A y se comprueba que s han curado 40 pacientes. El medicamento B se aplica a 45 enfermos, de los cuales se han curado 33. De los enfermos a los que se ha aplicado uno u otro medicamento se elige uno al azar. Se pide:a) probabilidad de que se hayan curado. R: 0,6828b) Sabiendo que el enfermo se ha curado ¿Cuál es la probabilidad de que se le haya aplicado el medicamento A? R: 0,5509c) Sabiendo que se le ha aplicado el medicamento A ¿Cuál es probabilidad de que el enfermo se haya curado? R:0,666

Ejercicio n°9

El administrador de un hospital dice que el n° de empleados de tiempo completo se puede estimar al contar el n° de camas de dicho hospital. En un relevamiento realizado en 12 hospitales se obtuvo:N° de camas(x) 23, 29, 29, 35, 42, 46, 50, 54, 64, 66, 76, 78N° de empleados (y) 69, 95, 102, 118, 126, 125, 138, 178, 156, 184, 176, 225

85

Page 86: ESTADISTICA a Distancia Para Administracion y Sistemas

a) Calcular el c.c.l b) determine la recta de regresión de mejor ajuste.c) si un hospital tiene 70 camas ¿de cuántos empleados tendría que disponer? R:≅ 187d) si un hospital tiene 90 empleados ¿Cuántas camas estima que tenga? R: ≅ 26

Bibliografía

*Módulos elaborados especialmente para la materia.*Micevisius, Mirta-“Estadística aplicada”- 1997-compendio práctico-3C Editores- Editesa- Buenos Aires-Argentina*Sotello M.G-“Estadística aplicada”-nociones básicas-1996-3C Editores-Editesa.*Levin Jack y Levin Willians-“fundamentos de estadística en la investigación social” Alfa Omega-Grupo Editor Argentino-edición 2004*Kelmansky- estadística para todos-colección ciencias naturales y matemáticas.2009.

Índice temático

Unidad n°1: Fundamentos de la metodología de la investigación

Tema n°1: Estadística, definición y clasificación. Redondeo……………………………..2

Unidad n°2: Estadística descriptiva

Tema n°2: Población y muestra-recolección de datos-muestreo………………….. …..7

Tema n°3: Variables estadísticas-organización de datos-gráficos estadísticos……….13

Tema n°4: Media aritmética, media geométrica y media armónica……………………23

Tema n°5: Mediana y moda……………………………………………………………… 27

Tema n°6: Rango y varianza…………………………………………………………….. 31

Tema n°7: Desviación estándar, desviación media y coeficiente de variación………33

Tema n°8: Cuartiles, deciles, percentiles y rango intercuartil………………………….37

Unidad n° 3: Introducción a la teoría probabilística

86

Page 87: ESTADISTICA a Distancia Para Administracion y Sistemas

Tema n°9: Probabilidades. Regla de Laplace…………………………………………. ..44

Tema n°10: Práctica para reforzar temas anteriores……………………………………51

Tema n°11: Distribución normal estándar………………………………………………..53

Tema n°12: Diagrama de árbol………………………………………………………… .60

Unidad n°4: Correlación y regresión lineal

Tema n°13: Función de probabilidad. Distribución binomial……………………………64

Tema n°14: Correlación y regresión………………………………………………………67

Tema n°15: Técnicas de pronósticos……………………………………………………..75

Tema n°16: Tamaño de una muestra. Práctica de refuerzo……………………………78

87