ESTADÍSTICA -...
Transcript of ESTADÍSTICA -...
Estadísticas con R Project
0
Aplicaciones
Autores
NORABUENA FIGUEROA ROGER PEDRO
MALDONADO LEYVA HUGO WALTER
NORABUENA FIGUEROA EMERSON DAMIÁN
MEJÍA VALCARCEL GRIMALDO JORGE
ESTADÍSTICA
CON R-PROJETC
ESTADÍSTICA
CON R-PROJECT
Autores:
NORABUENA FIGUEROA ROGER PEDRO
MALDONADO LEYVA HUGO WALTER
NORABUENA FIGUEROA EMERSON DAMIÁN
MEJÍA VALCARCEL GRIMALDO JORGE
Editorial: UNASAM
Edición: Primera
Estadísticas con R Project
0
INTRODUCCION
R es un lenguaje de programación y un entorno para análisis estadístico y
la realización de gráficos. Debido a su naturaleza es fácilmente adaptable a
una gran variedad de tareas. Fue inicialmente escrito por Robert Gentleman
y Ross Ihaka del Departamento de estadística de la Universidad de
Auckland en Nueva Zelanda. R actualmente es el resulta- do de un esfuerzo
de colaboración de personas del todo el mundo. Desde mediados de 1997
se formó lo que se conoce como nuclea de desarrollo de R, que actualmente
es el que tiene la posibilidad de modificaciones directa del código fuente.
Por otra parte, R es un proyecto GNU similar a S, desarrollado ´este por los
Laboratorios Bell. Las diferencias entre R y S son importantes, pero la
mayoría del condigo escrito para S corre bajo R sin modificaciones.
R abarca una amplia gama de técnicas estadísticas que van desde los
modelos lineales a las más modernas técnicas de clasificación pasan- do
por los test clásicos y el análisis de series temporales. Proporciona una
amplia gama de gráficos que además son facialmente adaptables y
extensibles. La calidad de los gráficos producidos y la posibilidad de incluir
en ellos símbolos y fórmulas matemáticas, posibilitan su inclusión en
publicaciones que suelen requerir gráficos de alta calidad.
El código de R está disponible como software libre bajo las condiciones de
la licencia GNU-GPL. Además está disponible precompilado para una
multitud de plataformas. La página principal del proyecto es http://www.r-
project.org.
Una diferencia importante entre R, y también S, con el resto del software
estadístico es el uso del objeto como entidad básica. Cualquier expresión
evaluada por R tiene como resultado un objeto. Cada objeto pertenece a
una clase, de forma que las funciones pueden tener comportamientos
diferentes en función de la clase a la que pertenece su objeto argumento.
Por ejemplo, el resultado de la función print evaluada sobre un vector da
como resultado la impresión de todos los elementos del vector mientras que
la misma función evaluada sobre una función muestra información sobre
ella. De la misma manera, la función plot no se comporta igual cuando su
argumento es un vector que cuando es un fichero de datos o una función.
INDICE
INTRODUCCION ........................................................................... 0
CAPÍTULO I .................................... ¡Error! Marcador no definido.
1.1 Introducción ...................... ¡Error! Marcador no definido.
1.2 Ingreso de datos ............................................................. 35
1.3 Importación de datos ..................................................... 40
1.4 Ejercicios ....................................................................... 46
CAPÍTULO II ................................................................................ 81
CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS .............. 81
2.1 Introducción ................................................................... 81
2.2 Definición de términos ................................................ 110
2.4 Ejercicios ..................................................................... 120
CAPÍTULO III ............................................................................ 126
MEDIDAS DE TENDENCIA CENTRAL ................................. 126
3.1 Introducción ................................................................. 126
3.2 Media o Promedio aritmético ( x ) ................................ 126
3.3 Mediana ....................................................................... 127
3.4 Moda (Mo): .................................................................. 128
3.5. Otras medidas de tendencia central ............................. 129
3.6. Ejercicios ..................................................................... 130
3.7. Ejercicios propuestos ....................................................... 149
3.7 MEDIDAS DE POSICIÓN ................................................... 163
8.1 Introducción ..................................................................... 163
4.2 Cuartiles(𝑸𝒌) .............................................................. 163
4.3 Deciles(𝑫𝑲) ................................................................ 167
4.4 Percentiles(𝑃𝐾) ........................................................... 168
4.5. Ejercicios .......................... ¡Error! Marcador no definido.
1) ASIMETRÍA ....................................................................... 172
CAPÍTULO V ............................................................................. 177
MEDIDAS DE VARIABILIDAD .............................................. 177
1.1 Introducción ..................................................................... 177
1.2 Varianza ....................................................................... 178
1.3 Desviación estándar ..................................................... 179
1.4 Coeficiente de variación .............................................. 179
1.5. Ejercicios .......................... ¡Error! Marcador no definido.
Estadísticas con R Project
6
CAPÍTULO I: INTRODUCCIÓN AL R-PROJECT
1.1 Introducción
R es un lenguaje de alto nivel y un entorno para el análisis de datos y
gráficos.
Se trata de un proyecto de software libre, resultado de la implementación
GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son,
probablemente, los dos lenguajes más utilizados en investigación por la
comunidad estadística, siendo además muy populares en el campo de la
investigación biomédica, la bioinformática y las matemáticas financieras.
A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes
con finalidades específicas de cálculo o gráfico.
R se distribuye bajo la licencia GNU GPL y está disponible para los
sistemas operativos Windows, Macintosh, Unix y GNU/Linux.
Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del
Departamento de Estadística de la Universidad de Auckland en 1993. Su
desarrollo actual es responsabilidad del R Development Core Team.
R proporciona un amplio abanico de herramientas estadísticas (modelos
lineales y no lineales, tests estadísticos, análisis de series temporales,
algoritmos de clasificación y agrupamiento, modelos lineales
generalizados, derivadas matemáticas, etc.) y gráficas.
Al igual que S, se trata de un lenguaje de programación, lo que permite que
los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran
parte de las funciones de R están escritas en el mismo R, aunque para
algoritmos computacionalmente exigentes es posible desarrollar
bibliotecas en C, C++ o Fortran que se cargan dinámicamente. Los usuarios
más avanzados pueden también manipular los objetos de R directamente
desde código desarrollado en C. R también puede extenderse a través de
paquetes desarrollados por su comunidad de usuarios.
R hereda de S su orientación a objetos. La tarea de extender R se ve
facilitada por su permisiva política de lexical scoping.
Además, R puede integrarse con distintas bases de datos y existen
bibliotecas que facilitan su utilización desde lenguajes de programación
interpretados como Perl y Python.
Otra de las características de R es su capacidad gráfica, que permite generar
gráficos con alta calidad. R posee su propio formato para la documentación
basado en LaTeX.
R también puede usarse como herramienta de cálculo numérico, campo en
el que puede ser tan eficaz como otras herramientas específicas tales como
GNU Octave y su equivalente comercial, MATLAB.5 Se ha desarrollado
una interfaz, RWeka6 para interactuar con Weka que permite leer y escribir
ficheros en el formato arff y enriquecer R con los algoritmos de minería de
datos de dicha plataforma.
R forma parte de un proyecto colaborativo y abierto. Sus usuarios pueden
publicar paquetes que extienden su configuración básica. Existe un
repositorio oficial de paquetes cuyo número superó en otoño de 2009 la
cifra de los 2000.
Dado el enorme número de nuevos paquetes, éstos se han organizado en
vistas (o temas), que permiten agruparlos según su naturaleza y función.
Por ejemplo, hay grupos de paquetes relacionados con estadística
bayesiana, econometría, series temporales, etc.
En párrafos anteriores no se ha mencionado la palabra estadística, sin
embargo muchas personas utilizan R como un sistema estadístico. Nosotros
preferimos describirlo como un entorno en el que se han implementado
muchas técnicas estadísticas, tanto clásicas como modernas. Algunas están
incluidas en el entorno base de R y otras se acompañan en forma de
bibliotecas (packages). El hecho de distinguir entre ambos conceptos es
fundamentalmente una cuestión histórica. Junto con R se incluyen ocho
bibliotecas (llamadas bibliotecas estándar) pero otras muchas están
disponibles a través de Internet en CRAN (http://www.r-project.org).
Como se ha indicado, muchas técnicas estadísticas, desde las clásicas hasta
la última metodología, están disponibles en R, pero los usuarios necesitaran
estar dispuestos a trabajar un poco para poder encontrarlas.
Existe una diferencia fundamental en la filosofía que subyace en R (o S) y
la de otros sistemas estadísticos. En R, un análisis estadístico se realiza en
una serie de pasos, con unos resultados intermedios que se van
almacenando en objetos, para ser observados o analizados posteriormente,
produciendo unas salidas mínimas. Sin embargo en SAS o SPSS se
obtendría de modo inmediato una salida copiosa para cualquier análisis,
por ejemplo, una regresión o un análisis discriminante.
1.2 Instalación
Puede descargarse libremente del sitio llamado CRAN (Comprehensive R
Archive Network) en la siguiente dirección: http://cran.r-project.org o bien,
simplemente buscando CRAN en Google.
Utilizando el buscador de Google se encontró en la primera línea el acceso
al R-Project.
Dándole un click al primer enlace podremos ingresar al programa R-Project
Esta ventana representa el acceso al programa R-Project, desde la cual ya
podremos descargar el archivo de instalación de la última versión del R,
con opciones de elegir para los sistemas operativos Linux, Mac OS X o
Windows.
Por ejemplo, procederemos a descargar R para el sistema operativo
Windows, haciendo Click en el vínculo respectivo.
En la ventana emergente, seleccionar
para descargar el instalador del programa R.
Como se observa en la ventana emergente contamos con las opciones de
, que se utilizó para iniciar la descarga del instalador del programa R en su
versión 3.1.2 para el sistema operativo Windows de 32 y 64 bits.
Así mismo, muestra la opción de instalación y otras instrucciones, en la que
consideran las ayudas y algunos detalles de la forma de instalación.
Por otro lado, en el vínculo de nuevas características de la versión del
programa R, muestran los nuevos comandos que mejoraron en su estructura
y lógica de funcinamiento.
Por ejemplo, la función hist() en la presente versión en más robusta a
muestras pequeñas de datos
Así mismo, la función plot.histogram() que ahora respeta los ejes x e y, y
los títulos como parámetros de los gráficos.
Para el inicio de la descarga del programa R, contamos con dos opciones:
Ejecutar o Guardar. En el primer caso, se descarga internamente en la
memoria de la computadora para luego dar inicio a la instalación de manera
automática, mientras que en el segundo caso, se guarda en una carpeta de
la computadora, para que posteriormente se ejecute la instalación del
programa.
En la ejecución de la instalación se sigue los siguientes pasos:
Selecciona el idioma para la instalación y luego aceptar.
Darle click en siguiente a la ventana emergente denominado
bienvenido al asistente de instalación de R for Windows 3.1.2.
Darle click en siguiente a la ventana emergente denominado
“información”.
Darle click en siguiente a la ventana emergente denominado
“Seleccione la carpeta de destino”, donde por defecto se crea dos
carpetas en el disco C de la computadora dentro de la carpeta
“Archivos de Programa”. Esto con la finalidad de que todos los
programas, archivos zip de los paquetes, los ejemplos y las ayudas de
almacenen en la ruta indicada por defecto o la ruta seleccionada
manualmente.
Darle click en siguiente a la ventana emergente denominada
“seleccione los componentes”.
Darle click en siguiente a la ventana emergente denominada “opciones
de configuración”.
Darle click en siguiente a la ventana emergente denominada
“Seleccione la carpeta del Menú Inicio”.
Seleccionamos todas las tareas adicionales y posteriormente le damos
click en el botón siguiente.
Finalmente se instala el programa de manera automática.
Finalmente, podemos ingresar al programa R haciendo doble click en el
ícono de acceso directo creado en el escritorio de la computadora.
De esa manera podemos ingresar por primera vez a la consola del programa
R en su versión 3.1.2.
Como se observa en la imagen anterior, la consola del programa R no es
amigable para la programación de manera secuencial. Sin embargo, esta no
es la manera más eficiente de trabajar en R. Cuando estemos realizando un
trabajo de mediana complejidad, será muy útil manejar todas las entradas
que solicitemos a R en un entorno donde podamos corregirlas, retocarlas,
repetirlas, guardarlas para continuar el trabajo en otro momento. Para esto
se puede utilizar el editor de R, pero mejor aún podemos utilizar RStudio,
es por ello que se recomienda (es casi una necesidad principal) trabajar con
un manejador de la consola de R, denominado RStudio.
RStudio es un conjunto de herramientas integradas diseñadas para ayudarle
a ser más productivo con R. Incluye una consola, editor de resaltado de
sintaxis que soporta la ejecución de código directa, así como herramientas
para el trazado, historiales, depuración y gestión de espacio de trabajo. Es
posible incluir comentarios que R no leerá si utilizamos líneas que
comiencen con el carácter #. Por el contrario, si escribimos cualquier orden
no antecedida de # y queremos solicitar la respuesta a R, podemos hacerlo
mediante con el botón “Run” en RStudio. Asimismo, si seleccionamos con
el ratón más de una línea, éstas pueden ser ejecutadas simultáneamente
también con Control+R. La utilidad de un script o guión de trabajo radica
en que podemos modificar nuestras líneas de código con comodidad y
guardarlas para el futuro.
RStudio es un entorno de programación en R disponible en la mayor parte
de los sistemas operativos.
En la consola pueden escribirse comandos de R y ejecutarlos con Enter.
Para un uso eficiente de ella conviene también familiarizarse con opciones
facilitadoras del trabajo tales como:
Autocompletado de código (usando el tabulador).
Historia de comandos (usando flecha arriba y flecha abajo o bien
control-flecha arriba).
RStudio se puede descargar directamente de www.rstudio.com o se puede
buscar en el Google colocando la palabra “RStudio” y darle clic en el
primer enlace que aparece para ingresar a su portal principal.
Una vez ingresado al portal principal de RStudio, podemos descargar el
programa dándole clic al botón y luego
ubicar en la parte baja el botón para
poder descargarlo.
Elegir la plataforma del sistema operativo con la cual la computadora
trabaja, para luego darle clic a dicha opción, y automáticamente se
procederá a guardar en su carpeta de descargas.
Una vez descargado, se procede a su instalación aceptando todo en cada
paso hasta concluir la instalación. Instalado en programa RStudio,
aparecerá el ícono de acceso directo en su escritorio. Finalmente
ingresamos al programa RStudio.
RStudio está organizado en cuatro zonas de trabajo distintas, como se
aprecia en la siguiente figura:
En la zona superior izquierda pueden abrirse y editarse ficheros con
código R (aunque también otros de otro tipo).
En la zona inferior izquierda hay una consola de R en la que pueden
ejecutarse comandos de R.
La zona superior derecha tiene dos pestañas:
o Workspace, donde aparece la lista de los objetos creados en
memoria.
o History, que contiene el histórico de las líneas de código
ejecutadas en R
La zona inferior derecha dispone de cuatro pestañas:
o Files, que da acceso al árbol de directorios y ficheros del disco
duro.
o Plots, donde aparecen los gráficos creados en la consola.
o Packages, que facilita la administración de los paquetes de R
instalados en la máquina.
Help, en el que se abren las páginas de ayuda.
1.3 Crear y guardar script en R
Para iniciar un nuevo script en R-Project, darle un click al ícono de
ubicado en el lado superior izquierdo y elegir la opción
.
Luego podremos guardarlo como “Mi primer script” (ó el nombre que uno
desee) haciendo click en el ícono guardar .
Seguidamente, en la ventana emergente dar la ruta o carpeta en la cual se
guardará el archivo
.
Se escribe el nombre del archivo en la parte inferior de la ventana.
El tipo de archivo se guarda de manera automática con la extensión “.R”.
Una vez guardado se visualizará el nombre con la cual se guardó el script.
Finalmente estamos en condiciones de poder iniciar nuestro primer script.
1.4 Programando en R
Es posible incluir comentarios que R no leerá si utilizamos líneas que
comiencen con el carácter “#”. Por el contrario, si escribimos cualquier
orden no antecedida de “#” y queremos solicitar la respuesta a R, podemos
hacerlo mediante con el botón “Run” en RStudio. Asimismo, si
seleccionamos con el ratón más de una línea, éstas pueden ser ejecutadas
simultáneamente también con Control+R. La utilidad de un script o guion
de trabajo radica en que podemos modificar nuestras líneas de código con
comodidad y guardarlas para el futuro.
El símbolo de comentario “#”, hace por defecto que la fila de comentario
sea de color verde.
El ícono “Run”, ejecuta el código desarrollado línea por línea o marcando
el grupo de líneas a ejecutar de una sola vez.
Para pedir ayuda a R se hace mediante el símbolo signo de pregunta (?)
antes del comando respectivo o utilizando el comando “help()”, por
ejemplo para pedir ayuda para el comando del promedio aritmético “mean”
se hace como sigue:
?mean
o
help(mean)
Por otra parte, con el comando “help.start()” se puede acceder a la ventana
de ayuda en html, en la que cuenta con manuales y materiales adicionales
de ayuda.
1.3.1 Operadores de aritméticos
Los operadores aritméticos actúan en dos elementos y
permiten realizar cálculos matemáticos tales como la adición,
sustracción, multiplicación, división, potencia, división entera y el
resto o módulo de una división.
Los operadores aritméticos actúan sobre variables de tipo
numérico o complejo, pero también lógico; en este caso los valores
lógicos son forzados a valores numéricos.
Operador Nombre
+ Suma
- Resta
* Multiplicación
/ División
^ Potencia
%/% División entera
%% Resto o módulo
Realizar las siguientes operaciones aritméticas:
a. 5+3
b. 5-3
c. 5*3
d. 5/3
e. 5^3
f. 5%/%3
g. 5%%3
Solución:
5 33 1⏟
𝐷𝑖𝑣𝑖𝑠𝑖ó𝑛
2⏟𝑟𝑒𝑠𝑡𝑜
𝑒𝑛𝑡𝑒𝑟𝑎
Realizar las siguientes operaciones aritméticas:
a. 15+13
b. 15-13
c. 15*13
d. 15/13
he. 15^13
f. 15%/%13
g. 15%%13
Solución:
Realizar las siguientes operaciones aritméticas:
a. √83
b. 25 + 1
c. √25 + 32
Solución:
1.3.2 Operadores de comparación
Los operadores de comparación nos permiten comparar dos
o más números o cadenas de texto devolviendo uno o varios valores
lógicos.
Operador Nombre
== Igual a
!= Diferente de
< Menor que
> Mayor que
<= Menor o igual que
>= Mayor o igual que
Realizar las siguientes operaciones de comparación:
a. 5==6
b. 4==4
c. 3!=3
d. 7!=8
e. 9<5
f. 7<8
g. 1>5
h. 4>2
i. 5<=6
j. 6<=6
k. 5>=2
l. 8>=8
Solución:
Realizar las siguientes operaciones de comparación:
a. √83
== 23
b. 7+9==4*4+1
c. 5/2!=3
Solución:
1.3.3 Operadores lógicos
Los operadores lógicos pueden actuar sobre uno (!) o dos
objetos de tipo lógico, y pueden devolver uno (o varios) valores
lógicos. Los operadores “Y” y “O” existen en dos formas: uno
sencillo donde cada operador actúa sobre cada elemento del objeto
y devuelve un número de valores lógicos igual al número de
comparaciones realizadas; otro doble donde cada operador actúa
solamente sobre el primer elemento del objeto.
mean (mean(x, trim = 0, na.rm = FALSE, ...))
An R object. Currently there are methods for numeric/logical
ectors and date, date-time and time interval objects. Complex
vectors are allowed for trim = 0, only.
trim the fraction (0 to 0.5) of observations to be trimmed
from each end of x before the mean is computed. Values of trim
outside that range are taken as the nearest endpoint.
na.rm
a logical value indicating whether NA values should be stripped
before the computation proceeds.
...
further arguments passed to or from other methods.
1.5 Ingreso de datos
Para leer un fichero simple, con los datos separados por espacios en blanco,
tabuladores o saltos de línea, se utiliza la instrucción read.table en la forma:
> fichero.df <- read.table("c:/dir/mi.fichero",
+ header = TRUE, sep = "",
+ comment.char = "")
Si el carácter decimal no es un punto sino, por ej., una coma, usar: dec =
",".
Se pueden saltar líneas (skip) o leer un número fijo de líneas (nrows).
Hay funciones especializadas para otros archivos (ej., read.csv) pero son
casos específicos de read.table.
GUARDAR Y LEER DATOS
Resulta muy importante poder guardar datos, funciones, etc., para ser
usados en otras sesiones de R. Esos datos así guardados pueden
compartirse con otros usuarios e incluso utilizarse en distintos sistemas
operativos.
> x <- runif(20)
> y <- list(a = 1, b = TRUE, c = "patata")
> save(x, y, file = "xy.RData")
Los leeremos con
> load("xy.RData")
Podemos guardar todos los objetos con
> save.image() # guardado como ".RData"
> save.image(file = "nombre.RData")
El fichero .RData se carga al iniciarse R.
R y muchos otros paquetes incorporan archivos con datos:
Se cargan con load("nombre.RData").
La instrucción data permite cargar archivos de las librerías disponibles.
> data() # muestra todos los archivos
> data(iris)
> data(iris, package = "base") # equivalente
> ?iris
Existen diversas maneras de ingresar datos en el entorno R de las
cuales son:
1.5.1 La forma tradicional del ingreso de datos en R es mediante la
asignación mediante el símbolo “<-”.
Para poder visualizar los datos se debe renombrar a una
variable.
Ejemplo 1.1
Ingresaremos unas variables llamada “variable1” con los
valores 10, 11, 12, 13, 14 y 15.
Ingresaremos una variable llamada “edad” con los
valores 5, 6, 7, 10, 8, 13 y 12
1.5.2 Ingreso de datos con la función scan
Ingresaremos la variable “talla” con los valores 150, 151, 160,
164, 172, 155 y 143.
En la función scan solo se ingresan los datos separados con
espacio en cada fila deseado en una sola columna.
Ingresaremos la variable “ventas” con 10 valores (320, 435, 345,
657, 545, 543, 434, 656,434 y 564) pero en 2 filas.
En la función scan cuando ya no se desea ingresar datos
simplemente se ingresar un enter y r leerá los archivos
ingresados en las filas y arrojará el mensaje “Read 10 item”
(10 ítems leídos).
1.5.3 Ingreso de datos con la función concatenar
Ingresaremos la variable “talla” con los valores 150, 151, 160,
164, 172, 155 y 143.
Ingresaremos la variable “ventas” con 10 valores (320, 435, 345,
657, 545, 543, 434, 656,434 y 564) pero en 2 filas.
Al dejar el paréntesis abierto r interpreta que aún se van a ingresar
datos y por ellos aparece el símbolo “+” en señal de la espera de más
datos.
1.6 Importación de datos
Existen varias fuentes de datos de los cuales podemos importarlos a r,
entre los más comunes tenemos:
a) Ingreso de datos a partir de una hoja de texto.
Ingresaremos una hoja de texto con el archivo “glucosa.txt”
Que contiene 3 variables y 14 observaciones.
Para ello primero, guardaremos este archivo en la ubicación
predeterminada por r (la carpeta “Mis documentos”).
Ubicada en la ruta” C:\Users\[NOMBRE DE LA PC]\Documents”
El nombre del ordenador dependerá de la configuración inicial acerca del
nombre que se le asignó. En otros casos la carpeta se llama solo
“Documentos”
Solo de asigna una variable inicial llamada “glu” que leerá el archivo
glucosa.txt, el código “header=T” indica que los encabezado se asignan a
la primera fila.
Ingresaremos una hoja de texto con el mismo archivo pero que está
ubicado en “D:/glucosa.txt”
b) Ingreso de datos Microsoft Excel
Una las maneras de ingresar datos desde Microsoft Excel es
exportando los datos al formato separado por comas (csv)
Primero tenemos que exportar los datos desde Excel al CSV, en
la opción “Guardar Como” (Ver imagen)
Luego guardamos el archivo CSV(delimitado por comas) en la
carpeta “Mis Documentos”
c) Ingresando datos desde un archivo de Microsoft Excel xls.
Para importar directamente desde Excel o exportar a Excel en su
respectivo formato .xls se deben cargar paquetes adicionales, lo
cual no me parece nada atractivo, porque los
archivos .txt o .csv funcionan muy bien en todos los softwares
estadísticos y también en Excel mismo, sin embargo, para
aquellos que les gusta mantener sus datos en archivos.xls pueden
estar tranquilos porque incluso en ese formato se importa a R.
d) Importación de datos desde el spss.
Para importar archivos .sav del spss, se utiliza la librería foreign
y con el archivo “glucosa.sav” de 8 filas y 3 columnas.
e) Importación de datos desde Stata.
Se debe usar la función read.dta del paquete foreign.
La variable de ejemplo es “stata” con un archivo de 6 filas.
Importación en base de dato
Importar bases de datos
Con R
- Desde una dirección de internet:
darwin<-read.table(‘‘http://www.mat.ucm.es/~palomam/aedej1.dat’’)
- Desde un fichero de texto
darwin2<-read.table(‘‘C:/aed/datos/ejemplo1.dat’’)
- Desde un fichero de datos (por ejemplo dBase *.dbf) que puede ser una
base de datos abierta en Minitab y guardada como fichero dBase.
cargar el paquete foreign
library(foreign)
Peru<-> read.dbf(‘‘F:/aed/datos/Peru.dbf’’)
- Desde el Campus Virtual de la UCM (Asignatura AED de la Lic. C.C.
Matemáticas)
Ir a Bases de datos → datos.zip → descomprimir → seleccionar el fichero
→ guardar como fichero de texto → abrir desde fichero de texto
1.4 Ejercicios
1. Como se realiza el ingreso de datos en R.
2. Menciones las formas de ingreso de datos en R.
3. En una clase de matemática 5 alumno sacaron las notas (13, 11,
10.9, 5, 8), ¿Cuál es la forma más sencilla de ingresar los datos?
¿por qué?
4. Ingrese una variable llamada “ventas” a través de a función “<-”
y con la función “scan” ¿Cuál es la diferencia entre ambas?.
5. Ingrese la variable “glucosa” desde un archivo de texto.
6. Los datos de la siguiente tabla representan los goles de David Villa
en la liga y en la copa desde la temporada 2000-01: Temporada
'00 '01 '02 '03 '04 '05 '06 '07 '08
7. Introducir los datos siguientes siguiendo cada uno de los tres
métodos y creando tres conjuntos de datos llamados
datosmetodo1, datosmetodo2 y datosmetodo3.
8. J) En 1609 Galileo demostró matemáticamente que la trayectoria
de un cuerpo que cae con un componente de velocidad horizontal
es una parábola. Su descubrimiento tuvo su origen en
observaciones empíricas que realizó casi un año antes. Para estas
observaciones, ideó un experimento en el que una bola empapada
de tinta rodaba en un plano inclinado para luego caer desde una
altura de 500 punti (1 punti= 169/189mn). Galileo estudió la
distancia horizontal que alcanza la bola en función de la altura
desde la que sale. Un diagrama ilustrativo, extraido de Ramsey,
Schafer (2002), ``The statistical Sleuth'' p 268, se enseña a
continuación.
Ingrese el conjunto de datos. De las formas ya estudiadas y analice sus
deferencias.
9. En una encuesta de 20 personas, a las cuales se les pregunto sobre
sus ingresos mensuales, mencionaron que entre 300 y 1500, de los
cuales, si la información solicitada se extravió. Complete los en
ingrese en R los posibles salarios de las 20 personas.
10. Un agricultor desea pesar sus papas en función del tipo de abono
que utilizo, para el extrae una muestra de 5 papas por cada abono
utilizado, de los cuales se obtuvo lo siguiente:
Abono 1 150 145 123 132 143
Abono 2 165 143 162 159 155
Ingrese los datos en una hoja de texto y en Microsoft Excel e
impórtelos a R.
11. La provincia de Carlos Fermín Fitzcarrald en Ancash, cuenta
con 3 distritos. La primera (San Luis) tiene dos habitantes cuyas
rentas personales son 30 y 25 M (miles de soles). La segunda
autonomía (Yauya) tiene tres habitantes con rentas de 45, 62 y
15. La tercera (San Nicolás) tiene cinco habitantes con rentas
de:
38, 86, 43, 65 y 24.
Ingrese dicha información al R.
12. Un aficionado a los coches acaba de adquirir una colección
compuesta por:
N° Marca de automóvil Precio S/.
1 Toyota 200 000
2 Nissan 50 000
4 Suzuki 15 000
1 Kia 18 000
Ingrese la información al R para el cálculo del precio promedio.
13. Una empresa de pavimentación de calzadas ha reconstruido 240
metros de calle. La primera mitad se rehízo en 10 días mientras
que para la segunda mitad se necesitaron 8 días. El alcalde del
pueblo le pregunta al gerente de urbanismo ¿cuál es la
productividad “promedio” (metros de calzada por día) de la
empresa? Ayude al gerente a responder a esta cuestión e ingrese
los datos al R.
14. Las calificaciones de 50 alumnos en Matemáticas han sido las
siguientes:
5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8,
4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
Ingrese la información al R para el cálculo y generación de la
tabla de distribución de frecuencias.
15. Dado las series estadísticas:
3, 5, 2, 7, 6, 4, 9. 3, 5, 2, 7, 6, 4, 9, 1.
Ingresar los datos al Microsoft Excel y posteriormente
importarlos a R.
Comente los 2 métodos posibles y cuál es el más sencillo.
16. En una clase de un Instituto Se ha medido la altura de los 25
alumnos. Sus medidas, en cm, fueron:
Ingresar los datos desde el SPSS e importar los datos hacia el R.
Elabora una tabla que represente estos resultados con sus
167 159 168 165 150 170 172 158 163 156
151 173 175 164 153 158 157 164 169 163
160 159 158 174 164
frecuencias absolutas, relativas y porcentajes. Toma intervalos de
amplitud 5 cm comenzando por 150.
17. Se ha hecho una encuesta sobre el número de hijos en 50
familias, con los siguientes resultados:
Importe los datos desde el software Stata o el SPSS para
posteriormente realzar una tabla donde se recojan estos datos con
sus frecuencias absolutas acumuladas y relativas acumuladas.
18. Las edades de los jugadores de un equipo de baloncesto son: 27,
18, 28, 26, 25, 19, 31, 19, 24 y 26 años.
Ingrese los datos desde una hoja de texto para su exportación al
R y finalmente determinar. ¿Cuál es la edad media?
19. En una clase de una Institución hemos medido la altura de los
25 alumnos. Sus medidas, en cm, se reflejan en la siguiente tabla
agrupados en intervalos:
Alturas Nº alumnos (fi)
[150,155) 3
[155,160) 7
[160,165) 6
[165,170) 4
[170,175) 5
Ingrese los datos desde una hora de texto al R.
20. Se han pesado 40 piezas. Los resultados de las pesadas,
expresados en gramos, son:
0 2 1 2 5 2 1 1 1 4 0 0 2
0 4 4 1 1 2 2 3 1 2 3 0
3 1 3 2 2 3 3 1 5 4 3 3
1 2 2 2 3 2 2 1 0 2 2 1
1
Ingrese los datos desde una base de datos del SPSS al R e
confecciona una tabla estadística para presentar los resultados
agrupando en intervalos los valores observados y donde
aparezcan también las frecuencias absolutas acumuladas y las
frecuencias relativas acumuladas. Toma intervalos de amplitud
de 1 cm. comenzando por 61.
64,1 66,4 64 66,7 65,3 64,4 63,9 63 65,4 64,3
68,8 66,6 65,1 64,2 68,5 65,7 65,8 63,1 64,6 63,5
65 66,4 67,3 65,7 64 61,5 64,1 65 63 63,2
66,9 66,3 67 66,1 66,8 65,3 64,4 64,5 63,1 65,5
ARRAYS Y MATRICES
Definiciones
Un array es una colección de datos del mismo tipo con varias
dimensiones.
El vector a pasa a ser un array 3x4x2.
Una matrix es un array con dos dimensiones. Tienen una funcionalidad
muy parecida, pero matrix es más cómoda.
> a1 <- array(9, dim = c(5,4))
> a2 <- matrix(1:20, nrow = 5)# como en FORTRAN
Veamos los resultados.
> a3 <- matrix(1:20, nrow = 5, byrow = TRUE)
> a4 <- 1:20; dim(a4) <- c(5, 4)
Ahora vemos los resultados de a3 y a4.
Con las coordenadas se obtienen los elementos particulares, como
en los vectores:
> a[1,1,1]; a[1,1,2]; a[3,4,2]
También podemos considerar subconjuntos de un array
> a[2, , ] # es un array de dimensión c(4,2)
> a4[1, ]; a4[, 2]; a4[c(1, 3), c(2, 4)]
También se pueden dar las coordenadas matricialmente. Observar el
ejemplo:
> im <- matrix(c(1, 3, 2, 4), nrow = 2)
> im
> a4[im]
Ejemplo:
> x <- c(190,8,22,191,4,1.7,223,80,2,210,50,3)
> datos <- matrix(x,nrow=4,byrow=T); dim(datos)
> ciudades <- c("Huaraz","Casma","Caraz","Chimbote")
> dimnames(datos) <- list(ciudades,NULL)
> variables <- c("A","B","C")
> dimnames(datos) <- list(ciudades,variables)
> datos
> dimnames(datos)
> datos["Barna", ]
> datos[ ,"C"]
> a4 <- 1:20; dim(a4) <- c(5, 4)
> attributes(a4)
> colnames(a4) <- paste("v", 1:4, sep = "")
> rownames(a4) <- paste("id", 1:5, sep = ".")
> a4[, c("v1", "v3")]
> attributes(a4)
Para ordenar un array por una columna:
> matriz <- matrix(rnorm(20),ncol=4)
> o.matriz <- matriz[order(matriz[, 1]), ]
Operaciones con matrices
A %*% B : producto de matrices
t(A) : transpuesta de la matriz A
solve(A,b) : solución del sistema de ecuaciones Ax=b.
solve(A) : inversa de la matriz A
svd(A) : descomposición en valores singulares
qr(A) : descomposición QR
eigen(A) : valores y vectores propios
diag(b) : matriz diagonal (b es un vector)
diag(A) : matriz diagonal (A es una matriz)
A %o% B == outer(A,B) : producto exterior de dos vectores o
Matrices
Las funciones var, cov y cor calculan la varianza de x y la covarianza o
correlación de x y y si ´estos son vectores. Cuando x y y son matrices,
entonces calculan las covarianzas (o correlaciones)
entre las columnas de x y las columnas de y.
> data(longley)
> (Cl <- cor(longley))
Este conjunto de datos se encuentra almacenado previamene en los
archivos de R.
> ## Gráfico de la matriz de correlaciones:
> symnum(Cl) # highly correlated
> ## Rho de Spearman
> cor(apply(longley, 2, rank))
> cor(longley, method = "spearman") # Mejor
La función cov2cor convierte “eficientemente” una matriz de covarianzas
en la correspondiente matriz de correlaciones.
La función outer(X, Y, FUN="*", ...) proporciona por defecto el producto
exterior de los dos arrays. Sin embargo, podemos introducir otras
funciones e incluso nuestras propias funciones.
> x <- 1:9; names(x) <- x
> # Multiplication & Power Tables
> x %o% x
> y <- 2:8; names(y) <- paste(y,":",sep="")
> outer(y, x, "^")
COMBINACION DE ARRAYS
Para combinar vectores, matrices o arrays utilizamos las instrucciones
rbind y cbind.
> x1 <- 1:10; x2 <- 11:20
> a6 <- diag(6) # matriz identidad
> a7 <- cbind(x1, x2); a8 <- rbind(x1, x2)
> a24 <- cbind(a2, a4)
> cbind(a4, a6) # no funciona
> rbind(a4, a6) # no funciona
> a9 <- matrix(rnorm(30), nrow = 5)
> cbind(a4, a9)
> rbind(a4, a9) # no funciona
DATA.FRAMES
Definición
Para datos de diferentes tipos:
> x3 <- letters[1:10]
> a9 <- cbind(x1, x2, x3)
¿De qué tipo es a9? ¿Es eso lo que queríamos?
Mejor con un data.frame:
> a10 <- data.frame(x1, x2, x3)
> prcomp(a10[, c(1,2)])# comp. principales
> prcomp(a10[, c("x1", "x2")])
> prcomp(a10[, -3])
También podemos añadir alguna columna a una matriz como datos:
> playa <- c("si","si","no","no")
> datos.df <- data.frame(datos,playa)
> datos.df$playa
Usar $ facilita el acceso y la creación de nuevas columnas:
> set.seed(1) # fija la semilla del random number generator
> d1 <- data.frame(g1 = runif(10), g2 = rnorm(10))
> d1$edad <- c(rep(20, 5), rep(40, 5))
> set.seed(1)
> d2 <- cbind(g1 = runif(10), g2 = rnorm(10))
> d2[, 3] <- c(rep(20, 5), rep(40, 5)) # error
> d2 <- cbind(d2, edad = c(rep(20, 5), rep(40, 5)))
Además, en los data.frame los “character vectors” se convierten en
factores.
Podemos convertir matrices a data.frame con as.data.frame().
Los data.frame también tienen rownames, colnames.
> attributes(a10) # cuando no están definidos También podemos usar
dimnames(a10).
LA FAMILIA APPLY
> ax <- matrix(rnorm(20), ncol = 5)
> medias.por.fila <- apply(ax, 1, mean)
> por.si.na <- apply(ax, 1, mean, na.rm = TRUE)
> mi.f1 <- function(x) { return(2*x - 25)}
> mi.f1.por.fila <- apply(ax, 1, mi.f1)
> mas.simple <- apply(ax, 1, function(x){return(2*x -25)})
> medias.por.columna <- apply(ax, 2, mean)
> sample.rows <- apply(ax, 1, sample)
> dos.cosas <- function(y){return(c(mean(y), var(y)))}
> apply(ax, 1, dos.cosas)
> t(apply(ax, 1, dos.cosas))
Utilizar apply es generalmente mucho más eficiente que un bucle.
Además de más claro, más fácil, etc.
> parameters <- cbind(mean = -5:5, sd = 2:12)
> z.data <- matrix(rnorm(1000 * 11), nrow = 11)
> data <- (z.data * parameters[,2]) + parameters[,1]
> apply(data, 1, mean); apply(data, 1, sd)
Las funciones sapply(X,funcion) y lapply(X,funcion) son como
apply(x,i,funcion) pero no hay que especificar el ındice i=2;
sapply intenta simplificar el resultado a un vector o a una matriz
(la “s” es de “simplify”), pero lapply siempre devuelve una lista.
Ambas pueden aplicarse a vectores, listas, arrays.
> data(airquality)
> sapply(airquality, function(x)sum(is.na(x)))
La función tapply(x,y,función) calcula la función especificada sobre el
objeto x según las categorías de y.
> x <- c(19,14,15,17,20,23,19,19,21,18)
> trat <- c(rep("A",5),rep("B",5))
> x.media <- tapply(x,trat,mean)
> x.media
Apply, sapply, lapply y tapply son funciones muy útiles que contribuyen a
hacer el código más legible, fácil de entender, y facilitan posteriores
modificaciones y aplicaciones.
Consejo: Cada vez que vayamos a usar un “loop” intentemos substituirlo
por algún miembro de familia apply.
Algunas funciones hacen un apply:
> x1 <- 1:10
> m1 <- matrix(1:20, ncol = 5)
> d1 <- as.data.frame(m1)
> mean(x1); mean(d1); sd(x1); sd(d1); median(m1); median(d1)
TABLAS
La tabulación cruzada de dos variables cualitativas se consigue con la
función table.
> table(sexo,nivel)
Para introducir una tabla de contingencia también se utiliza la instrucción
table. Las variables se definen con sus modalidades con la instrucción
expand.grid(var1,var2).
> resultado <- cbind(expand.grid(
+ calif=c("mejor","peor","igual"),
+ tratam=c("A","B")))
> frec <- c(21,34,5,7,12,14)
> tabla <- table(calif,tratam)*frec
> tabla
> d3 <- data.frame(g1=runif(10),g2=rnorm(10),
+ id1 = c(rep("a", 3), rep("b", 2),
+ rep("c", 2), rep("d", 3)))
> my.fun <- function(x) {
+ las.medias <- mean(x[, -3])
+ las.vars <- var(x[, -3])
+ max.total <- max(x[, -3])
+ tabla.clases <- table(x[, 3])
+ return(list(row.means = las.medias,
+ row.vars = las.vars, maximum = max.total,
+ factor.classes = tabla.clases))
+ }
> my.fun(d3)
LISTAS
> una.lista <- my.fun(d3); una.lista
> attributes(una.lista); names(una.lista)
> length(una.lista)
> una.lista[[4]]
> una.lista[4] # ¿por qu´e sale el nombre? class
> una.lista$factor.classes
> una.lista[[3]] <- list(NULL); una.lista
> una.lista[[3]] <- NULL
> una.lista # hemos eliminado el "slot" maximum
> unlist(una.lista)
> otra.lista <- list(cucu = 25, una.lista)
> unlist(otra.lista)
> unlist(otra.lista, drop = FALSE)
> una.lista <- c(una.lista, otro.elemento = "una frase")
Los objetos que tenemos
Para saber los objetos que hemos definido hacemos
> ls()
> objects()
> objects(pattern="a*")
R tiene una lista donde buscar los objetos accesibles: “the search
list”. Cargar un paquete extiende la “search list”.
Para obtener la lista de los directorios, llamados “databases”:
> search()
> library(MASS)
> search()
Para que un objeto o directorio sea fácilmente accesible lo podemos poner
en la “search list” de R. En el caso de un data.frame, esto permite acceder
directamente a las columnas por su nombre.
> str(datos.df) # es un data.frame
> A # error
> attach(datos.df)
> A # ahora s´ı
> plot(A,B) # en lugar de plot(datos.df$A,datos.df$B)
La actualización no es dinámica
> datos.df$D <- 1:4 # una nueva columna
> datos.df # aqu´ı est´a
> D # pero aqu´ı no
Para desconectar
> detach(objeto)
PARA BORRAR OBJETOS CONCRETOS
> rm(objetos)
Para borrar todos los objetos del entorno de trabajo:
> rm(list = ls())
Para cargar un archivo nombre.RData con objetos diversos (datos,
funciones,...) se puede hacer un attach o un load.
La primera instrucción accede a los objetos cuando se requieren, la
segunda los carga todos.
> load("nombre.RData")
¡ALERTA!
> datos.df
> A <- 1
> A # usa la ´ultima
> search() # el search path
> detach(datos.df)
> attach(datos.df)
> D
> A # cuidado
Conclusión: En “entornos confusos”, como un análisis que se prolonga
dos semanas, es mejor evitar attach y acceder siempre a las variables
usando su localización explicita y completa.
CAPÍTULO II
CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS
2.1 Introducción
La Estadística es la ciencia que utilizando las matemáticas y de
modo particular el cálculo estudia las leyes de comportamiento de
aquellos fenómenos que no estando sometidos a leyes rígidas
dependen del azar y basándose en ella, se predicen resultados.
En la mayora de estudios en la estadística se empieza por la
recopilación de datos necesarios, algunas veces tediosa y con
mucha necesidad de tiempo.
Esta recolección de datos en si revela muy poco por si sola. Es
extremadamente difícil determinar el verdadero significado de un
grupo de números que simplemente se han registrado en un papel
(o en cualquier otro medio)
La labor que sigue es la de organizar y describir ese conjunto de
datos de manera que con una mirada rápida podamos determinar
la forma y agrupación de esta (lo que nos quiere decir en si la
información).
2.1.1 Distribución de frecuencias de una variable cuantitativa.
Si tenemos una variable cuantitativa X, observada de una muestra
de tamaño “n”, de las cuales en la población se origina “k”
cualidades distintas 1 2 3, , ,..., kC C C C , la tabulación de estas de
los n datos es llamada distribución de frecuencias (cuadro n°
2.1.1)
Cuadro n° 2.1.1: Distribución de frecuencias de una variable cualitativa
Categorías de la
Variable
Frecuencias
Absolutas simples
Frecuencias
Relativas
Frecuencias
porcentuales
1C 1f
1h 1p
2C 2f
2h 2p
kC kf
kh kp
Total n 1 100.00%
La Frecuencias Absoluta simple if , es el número de datos que
resulta del conteo de la categoría respectiva iC , donde
1, 2,3,...,i k
La suma de todas las frecuencias absolutas simples es igual a la n,
el total de datos observados, quiere decir que:
1 2 3
1
...k
i k
i
f f f f f n
La Frecuencias Relativa ih , de la categoría
iC está dada por
la frecuencia absoluta simple entre el total de datos, quiere decir
que:
ii
fh
n
La suma de todas las frecuencias relativas es igual a la unidad,
quiere decir que:
1 2 3
1
... 1k
i k
i
h h h h h
La Frecuencias Porcentual ip , de la categoría
iC está dada
por la frecuencia relativa multiplicada por 100, quiere decir que:
100%i ip h
La suma de todas las frecuencias porcentuales es igual a 100%,
quiere decir que:
1 2 3
1
... 100%k
i k
i
p p p p p
En una encuesta de opinión pública sobre la marca de teléfonos
celulares: Samsung (1), Lg(2) y Nokia (3), una muestra de 20
consumidores marco lo siguiente:
1, 2, 1, 2, 3, 1, 2, 3, 1, 1
2, 1, 3, 3, 2, 1, 1, 1, 1, 1
SOLUCION:
Sea X la variable estadística X=”marca de teléfono celular
favorito” cuyos valores están en la escala de medición nominal,
la agrupación de sus valores se ve en la siguiente tabla:
Marca de Celular Frecuencias
Absolutas simples
Frecuencias
Relativas
Frecuencias
porcentuales
Samsung 11 0.55 55%
Lg 5 0.25 25%
Nokia 4 0.2 20%
Total 20 1 100.00%
En R e ingreso de datos es el siguiente:
Para el ingreso de datos, creamos una variable llamada ‘telefono’
el cual contiene los números de cada marca de teléfono, luego
asignamos una variable factor para establecer una cantidad
cualitativa a cada número.
Para la generación de la tabla de frecuencias de una variable
cualitativa en r el comando es así.
Observamos que r agrupa las cantidades de cada una de las
categorías (realizando un conteo interno e cada una de las
categorías).
Si queremos calcular las frecuencias relativas, es de la siguiente
manera.
Si queremos observar la frecuencia de datos como una tabla
vertical, procederemos a crear un marco de datos (tabla vertical)
para lo cual realizamos en siguiente procedimiento.
La tabla ‘tabla_tel’ contiene a las frecuencias absolutas simples,
mientras que la tabla ‘tabla_tel2’ contiene a las frecuencias
relativas.
Finalmente si queremos resumir en nuestra tabla de frecuencias,
las categorías, las frecuencias absolutas y relativas, entonces
tendríamos lo siguiente.
Asignamos en nombre a nuestra tabla de frecuencias
‘tabla_freq’, utilizando la función ‘merge’ que unirá a las tablas
‘martel1’ y ‘martel2’ en una sola a través de la variable
‘teléfonos’.
Gráfica de la distribución de variable cualitativa.
Realizar la gráfica estadística de una variable cualitativa es
revisar las diversas formas de crear estas, entre las más comunes
tenemos la de “barras separadas” y la de “sectores circulares” o
gráfico de torta.
En una gráfica de barras, los datos de cada una de las cualidades
iC se representa por una barra rectangular vertical o horizontal,
cuya altura (o largo) es proporcional a su frecuencia (ya sea
absoluta simple, relativa o porcentual). La barra de dibuja
dejando un espacio entre ellas.
Si la escala es nominal, las cualidades pueden ser colocadas en
cualquier orden. Pero si el nivel de la escala es ordinal las
cualidades deben ir ordenadas (por lo general de manera
ascendente).
En una gráfica circular o de tortas, los datos se representan por
un sector circular cuyo ángulo en el centro es igual a 360hi .
Si la gráfica por sectores es tridimensional, esta se denomina
gráfica del pastel.
Realizar la gráfica del ejemplo anterior.
En r, la creación de la gráfica de barras es la siguiente.
En el ejemplo anterior teníamos la marca de teléfonos utilizada
un grupo de personas, luego del ingreso de datos, nuestro grafico
de barras será el objeto ‘grafbar’ el cual generaremos con la
función ‘barplot’, y dentro del argumento la tabla ‘tabla_tel’ (que
en realidad es un vector de datos). La grafica se muestra como
sigue.
Para el cambio de colores, la sentencia es asi.
La gráfica de barras de muestra así:
Distribución de frecuencias de una variable cuantitativa
Discreta
Una distribución de frecuencias de variable discreta tiene la
estructura básica del cuadro 2.1.1, donde en la primera columna
se introducen los valores distintos de la variable discreta.
Si n valores de una variable cuantitativa discreta X observados
de una muestra de una población tiene k ( )k n valores
distintos 1 2 3, , ,..., kx x x x , que se repiten respectivamente
1 2 3, , ,..., kf f f f veces, entonces la organización de estos n
datos origina la distribución de frecuencias del cuadro siguiente.
Cuadro 1.3: Distribución de frecuencias de variable discreta
Valores de la
Variable X
Frecuencias
Absolutas simples
if
Frecuencias
Relativas ih
Frecuencias
porcentuales
ip
1x 1f
1h 1p
2x 2f
2h 2p
kx kf
kh kp
Total n 1 100.00%
En una encuesta urbana, se preguntó por el número de hijos por
familia, en las cuales se observaron 20 familias que respondieron:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0
3, 2, 1, 3, 2, 3, 3, 1, 2, 4
Describa la variable de la encuesta urbana y obtenga la
distribución de frecuencias de los datos. Luego grafique la
distribución.
SOLUCIÓN
En R, el ingreso de los datos es el siguiente.
Consideramos la variable ‘hijos’ como una discreta.
Si deseamos hacer un conteo de los valores de la variable ‘hijos’,
utilizamos la función table(‘variable’)
Básicamente estos valores son las frecuencias absolutas simples.
Gráfico para una variable cuantitativa discreta.
De manera general en R podemos crear una grafico distribución
de frecuencia para una variable discreta.
Para la creación de una tabla de distribución, el formato asignado
para que R interprete como ‘tabla’, se antepone el código ‘tabla’
con el nombre de la variable que contiene el conjunto de datos a
analizar.
En el caso de los gráficos, aquí tenemos uno de barras el cual
procede de la variable “número de hijos por familia”
GRAFICOS EN R
Introducción
R incluye muchas y variadas funciones para hacer gráficos.
El sistema permite desde gráficos muy simples a figuras de calidad para
incluir en artículos y libros.
Solo examinaremos la superficie.
También podemos ver un buen conjunto de ejemplos con demo
(graphics).
El comando plot es uno de los más utilizados para realizar gráficos.
El comando plot
Si escribimos plot(x, y) donde x e y son vectores con n coordenadas,
entonces R representa el grafico de dispersión con los puntos de
coordenadas (xi, yi).
Este comando incluye por defecto una elección automática de ejes,
escalas, etiquetas de los ejes, densidad de las líneas, etc., que pueden ser
modificados añadiendo parámetros gráficos al comando y que pueden
visualizarse con help(par).
> x <- runif(50, 0, 4); y <- runif(50, 0, 4)
> plot(x, y, main = "Título principal",
+ sub = "subt´ıtulo", xlab = "eje x", ylab = "eje y",
+ xlim = c(-5,5),ylim = c (-5,5))
El gráfico generado es el siguiente.
Variaciones de plot:
> z <- cbind(x,y)
…
> plot(z)
> plot(y ~ x)
> plot(log(y + 1) ~ x) # transformación de y
> plot(x, y, type = "p")
> plot(x, y, type = "l")
> plot(x, y, type = "b")
> plot(c(1,5), c(1,5))
> legend(1, 4, c("uno", "dos", "tres"), lty = 1:3,
+ col = c("red", "blue", "green"),
+ pch = 15:17, cex = 2)
Con text podemos representar caracteres de texto directamente:
> sexo <- c(rep("v", 20), rep("m", 30))
> plot(x, y, type = "n")
> text(x, y, labels = sexo)
Puntos.
> points(x, y, pch = 3, col = "red")
Tipos de puntos.
> plot(c(1, 10), c(1, 3), type = "n", axes = FALSE,
+ xlab = "", ylab="")
> points(1:10, rep(1, 10), pch = 1:10, cex = 2, col = "blue")
> points(1:10, rep(2, 10), pch = 11:20, cex = 2, col = "red")
> points(1:10, rep(3, 10), pch = 21:30, cex = 2,
+ col = "blue", bg = "yellow")
Tipos de líneas.
> plot(c(0, 10), c(0, 10), type = "n", xlab ="",
+ ylab ="")
> for(i in 1:10)
+ abline(0, i/5, lty = i, lwd = 2)
> for(i in 1:10)
+ abline(0, i/5, lty = i, lwd = 2)
lty permite especificaciones más complejas (longitud de los segmentos
que son alternativamente dibujados y no dibujados). para controla muchos
parámetros gráficos. Por ejemplo, cex puede referirse a los “labels”
(cex.lab), otro, cex.axis, a la anotación de los ejes, etc.
Hay muchos más colores. (Anexo 1).
Identificación interactiva de datos
identify(x, y, etiquetas) identifica los puntos con el ratón y escribe la
correspondiente etiqueta.
> x <- 1:10
> y <- sample(1:10)
> nombres <- paste("punto", x, ".", y, sep ="")
> plot(x, y)
> identify(x, y, labels = nombres)
locator() devuelve las coordenadas de los puntos.
> plot(x, y)
> locator()
> text(locator(1), "el marcado", adj = 0)
El gráfico generado es el siguiente.
Múltiples gráficos por ventana
Empezamos con par(mfrow=c(filas,columnas)) antes del comando plot.
> par(mfrow = c(2, 2))
> plot(rnorm(10))
> plot(runif(5), rnorm(5))
> plot(runif(10))
> plot(rnorm(10), rnorm(10))
Podemos mostrar muchos gráficos en el mismo dispositivo gráfico.
La función más flexible y sofisticada es split.scree.
DATOS MULTIVARIANTES
Diagrama de dispersión múltiple.
> X <- matrix(rnorm(1000), ncol = 5)
> colnames(X) <- c("a", "id", "edad", "loc",
+ "weight")
> pairs(X)
Gráficos condicionados (revelan interacciones).
> Y <- as.data.frame(X)
> Y$sexo <- as.factor(c(rep("Macho", 80),
+ rep("Hembra", 120)))
> coplot(weight ~ edad | sexo, data = Y)
> coplot(weight ~ edad | loc, data = Y)
> coplot(weight ~ edad | loc * sexo, data = Y)
La librería lattice permite lo mismo, y mucho más, que coplot.
Boxplots
Los diagramas de caja son muy útiles para ver rápidamente las principales
características de una variable cuantitativa, o comparar entre variables.
> attach(Y)
> boxplot(weight)
> plot(sexo, weight)
> detach()
> boxplot(weight ~ sexo, data = Y,
+ col = c("red", "blue"))
La función boxplot tiene muchas opciones; se puede modificar el aspecto,
mostrarlos horizontalmente, en una matriz de boxplots,
etc. Véase la ayuda ?boxplot.
Un poco de ruido
Los datos cuantitativos discretos pueden ser difíciles de ver bien.
Podemos añadir un poco de ruido con el comando jitter.
> dc1 <- sample(1:5, 500, replace = TRUE)
> dc2 <- dc1 + sample(-2:2, 500, replace = TRUE,
+ prob = c(1, 2, 3, 2, 1)/9)
> plot(dc1, dc2)
> plot(jitter(dc1), jitter(dc2))
Dibujar rectas
Podemos añadir muchos elementos a un gráfico, además de leyendas y
líneas rectas.
> x <- rnorm(50)
> y <- rnorm(50)
> plot(x, y)
> lines(lowess(x, y), lty = 2)
> plot(x, y)
> abline(lm(y ~ x), lty = 3)
Podemos añadir otros elementos con “panel functions” en otras funciones
(como pairs, lattice, etc).
Más gráficos
Podemos modificar márgenes exteriores de figuras y entre figuras
Ejemplos
introduction to R, secc. 12.5.3 y 12.5.4.
También gráficos 3D: persp, image, contour; histogramas: hist; graficas
de barras: barplot; gráficos de comparación de cuantiles, usados para
comparar la distribución de dos variables, o la distribución de unos datos
frente a un estándar (ej., distribución normal): qqplot, qqnorm y, en
paquete car, qq.plot.
Notación matemática (plotmath) y expresiones de texto arbitrariamente
complejas.
Gráficos tridimensionales dinámicos con XGobi y GGobi. Ver:
http://cran.r-project.org/src/contrib/Descriptions/xgobi.html,
http://www.ggobi.org,
http://www.mcs.vuw.ac.nz/~ray/R-stuff/windows/gguide.pdf.
Guardar los gráficos
En Windows, podemos usar los menús y guardar con distintos formatos.
También podemos especificar donde queremos guardar el grafico.
> pdf(file = "f1.pdf", width = 8, height = 10)
> plot(rnorm(10))
> dev.off()
O bien, podemos copiar una figura a un fichero.
> plot(runif(50))
> dev.copy2eps()
2.1.1
ANÁLISIS ESTADÍSTICO DE DISTRIBUCIONES
UNIDIMENSIONALES
Para el análisis estadístico de una variable, es necesario
organizarlos y presentarlos en forma tal que, facilite su
compresión y su posterior utilización. Los datos son organizados
o agrupados en un cuadro numérico y presentados en gráficos
estadísticos.
Todo cuadro numérico básicamente debe contener:
- Un título adecuado para evitar confusiones y expresar su
contenido.
- El cuerpo o agrupación de datos.
- La fuete de los datos, si no son datos propios.
2.2 Definición de términos
- Población
Una población es el conjunto de todos los elementos a los que se
somete a un estudio estadístico.
Individuo
Un individuo o unidad estadística es cada uno de los elementos
que componen la población.
- Muestra
Una muestra es un conjunto representativo de la población de
referencia, el número de individuos de una muestra es menor que
el de la población.
- Muestreo
El muestreo es la reunión de datos que se desea estudiar,
obtenidos de una proporción reducida y representativa de la
población.
- Valor
Un valor es cada uno de los distintos resultados que se pueden
obtener en un estudio estadístico. Si lanzamos una moneda al
aire 5 veces obtenemos dos valores: cara y cruz.
- Dato
Un dato es cada uno de los valores que se ha obtenido al realizar
un estudio estadístico. Si lanzamos una moneda al aire 5 veces
obtenemos 5 datos: cara, cara, cruz, cara, cruz.
- Las variables cualitativas se refieren a características o
cualidades que no pueden ser medidas con números.
Podemos distinguir dos tipos:
- Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no
numéricas que no admiten un criterio de orden. Por ejemplo:
El estado civil, con las siguientes modalidades: soltero, casado,
separado, divorciado y viudo.
Variable cualitativa ordinal o variable cuasi-cuantitativa
Una variable cualitativa ordinal presenta modalidades no
numéricas, en las que existe un orden. Por ejemplo:
La nota en un examen: suspenso, aprobado, notable, sobresaliente.
Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...
Medallas de una prueba deportiva: oro, plata, bronce.
- Una variable cuantitativa es la que se expresa mediante
un número, por tanto se pueden realizar operaciones
aritméticas con ella. Podemos distinguir dos tipos:
- Variable discreta
Una variable discreta es aquella que toma valores aislados, es
decir no admite valores intermedios entre dos valores específicos.
Por ejemplo:
El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
- Variable continua
Una variable continua es aquella que puede tomar valores
comprendidos entre dos números. Por ejemplo:
La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.
En la práctica medimos la altura con dos decimales, pero también
se podría dar con tres decimales.
EJERCICIOS
1 Al comenzar el curso se pasó una encuesta a los alumnos del
primer curso de un colegio, preguntándoles, entre otras cuestiones, por el
número de hermanos que tenían. Se obtuvieron los siguientes resultados:
3, 3, 2, 2, 8, 5, 2, 4, 3, 1, 4, 5, 3, 3, 3, 3, 3, 2, 5
1, 3, 3, 2, 2, 4, 3, 3, 2, 2, 4, 4, 3, 6, 3, 3, 2, 2, 4
3, 4, 3, 2, 2, 4, 4, 3, 3, 4, 2, 5, 4, 1, 2, 8, 2 ,3, 3, 4
a) Represente este conjunto de datos con un diagrama de barras.
b) Calcule media, moda y mediana.
c) Estudie la dispersi´on de los datos.
d) Analice la simetr´ıa de la distribucio´n.
2 Los pesos de un colectivo de nin˜os son:
60, 56, 54, 48, 99, 65, 58, 55, 74, 52, 53, 58, 67, 62, 65
76, 85, 92, 66, 62, 73, 66, 59, 57, 54, 53, 58, 57, 55, 60
65, 65, 74, 55, 73, 97, 82, 80, 64, 70, 101, 72, 96, 73, 55
59, 67, 49, 90, 58, 63, 96, 100, 70, 53, 67, 60, 54
Obtenga:
a) La distribución de frecuencias agrupando por intervalos.
b) La mediana de la distribución.
c) La media de la distribución, indicando su nivel de
representatividad.
d) Utilizando la agrupación en intervalos, el porcentaje de alumnos
que tienen un peso menor de 65 kg y el número de alumnos con un peso
mayor de 60 kg dentro del grupo de los que pesan menos de 80 kg.
3 En el Consejo de Apuestas del Estado se han ido anotando, durante
una temporada, el número de premiados de quinielas según la cantidad de
aciertos. Los resultados se recogen en la siguiente tabla:
Calcule:
a) La mediana, la moda y los cuartiles de la distribución.
b) La simetría de la distribución.
4 En un puerto se controla diariamente la entrada de pesque- ros según su
tonelaje, resultando para un cierto día los siguientes datos:
Peso(Tm.) 0-25 25-50 50-70 70-100 100-500
No de barcos 5 17 30 25 3
Se pide:
a) El peso medio de los barcos que entran en el puerto diariamente,
indicando la representatividad de dicha medida.
b) El intervalo donde se encuentra el 60 % central de la
Distribución.
c) El grado de apuntamiento.
d) El tonelaje más frecuente en este puerto.
2.3 Construcción de cuadros
La distribución de frecuencias o tabla de frecuencias es
una ordenación en forma de tabla de los datos estadísticos,
asignando a cada dato su frecuencia correspondiente.
Tipos de frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un
determinado valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de
datos, que se representa por N.
Para indicar resumidamente estas sumas se utiliza la letra
griega Σ (sigma mayúscula) que se lee suma o sumatoria.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia
absoluta de un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni.
La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias
absolutas de todos los valores inferiores o
iguales al valor considerado.
Se representa por Fi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre
la frecuencia acumulada de un determinado valor y el número
total de datos. Se puede expresar en tantos por ciento.
Durante el mes de julio, en una ciudad se han registrado las
siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30,
30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada
de menor a mayor, en la segunda hacemos el recuento y en la
tercera anotamos la frecuencia absoluta.
xi Recuento fi Fi ni Ni
27 I 1 1 3,2 3,2
28 II 2 3 6,5 9,7
29
6 9 19,4 29,0
30 7 16 22,6 51,6
31 8 24 25,8 77,4
32 III 3 27 9,7 87,1
33 III 3 30 9,7 96,8
34 I 1 31 3,2 100
31 100
2.3.1 Distribución de frecuencia agrupadas
La distribución de frecuencias agrupadas o tabla con datos
agrupados se emplea si las variables toman un número grande
de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma
amplitud denominados clases. A cada clase se le asigna
su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y
el límite superior de la clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior
e inferior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es
el valor que representa a todo el intervalo para el cálculo de
algunos parámetros.
2.3.2 Construcción de na tabla de datos agrupados
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36,
39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38,
41, 48, 15, 32, 13.
1º Se localizan los valores menor y mayor de la distribución. En
este caso son 3 y 48.
2º Se restan y se busca un número entero un poco mayor que la
diferencia y que sea divisible por el número de intervalos
queramos establecer.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 =
10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior
de una clase pertenece al intervalo, pero el límite superior no
pertenece intervalo, se cuenta en el siguiente intervalo.
intervalo
ci fi Fi ni Ni
[0, 5) 2.5 1 1 0.025 0.025
[5, 10) 7.5 1 2 0.025 0.05
[10, 15) 12.5 3 5 0.075 0.125
[15, 20) 17.5 3 8 0.075 0.2
[20, 25) 22.5 3 11 0.075 0.2775
[25, 30) 27.5 6 17 0.15 0.425
[30, 35) 32.5 7 24 0.175 0.6
[35, 40) 37.5 10 34 0.25 0.85
[40, 45) 42.5 4 38 0.1 0.95
[45, 50) 47.5 2 40 0.05 1
40 1
2.4 Ejercicios
Ejercicio nº 1.- Al preguntar a 20 individuos por el número de
personas que viven en su casa, hemos obtenido las siguientes
respuestas: 35 4 2 3 3 5 4 4 2 45 3 4 4 1 4 4 3 5 32 3 2 3 3 4 2 3 4
21 3 3 4 3 2 1 2 2 62 3 5 3 6 2 0 1 6 43 2 3 7 3 1 2 3 3 11 4 4 5 3
2 4 5 1 12 6 3 5 6 3 5 3 2 30 25 5 10 20
a) Elabora una tabla de frecuencias.
b) b) Representa gráficamente la distribución.
Ejercicio nº 2.- En una empresa de telefonía están interesados en
saber cuál es el número de aparatos telefónicos (incluidos
teléfonos móviles) que se tiene en las viviendas. Se hace una
encuesta y, hasta ahora, han recibido las siguientes respuestas:
a) Elabora una tabla de frecuencias.
b) b) Representa gráficamente la distribución.
Ejercicio nº 3.- Hemos preguntado a 20 personas por el número
medio de días que practican deporte a la semana y hemos obtenido
las siguientes respuestas:
a) Haz una tabla de frecuencias.
b) Representa gráficamente la distribución.
Ejercicio nº 4.- Hemos lanzado un dado 20 veces y hemos ido
anotando los resultados que obteníamos:
a) Ordena estos datos en una tabla de frecuencias.
b) Representa gráficamente la distribución.
Ejercicio nº 5.- En una clase se ha realizado un examen tipo test
de 40 preguntas. El número de respuestas correctas conseguidas
por cada uno de los alumnos de esa clase ha sido:
305 40 10 20 20 15 10 20 40 40 30 10 30 25 30 25 5 10 20
a) Resume estos datos mediante una tabla de frecuencias. b)
Representa gráficamente esta distribución.
Ejercicio nº 6.- De un grupo de 30 personas hemos ido apuntando
la edad de cada uno, obteniendo lo siguiente:
a) Haz una tabla de frecuencias, agrupando los datos en los
intervalos: 0 - 4, 5 - 9, 10 - 14, 15 - 19, 20 - 24, 25 - 29, 30 - 34,
35 - 39, 40 - 44 b) Representa gráficamente la distribución.
40 25 27 19 20 41 32 37 9 4 43 35 23 25 18 18 15 28 28 36 812
15 17 28 7 5 30 25 3
34 29 33 31 32 37 32 37 34 35 40 25 32 32 34 29 28 30 34 35 33
30 36 35 33 33 25 27 32 30
10 3 2 10 16 9 3 5 8 10 12 10 7 1 5 16 10 5 8 10 4 3 2 20 15 10 12
16 10 15
10 9 8 8,5 9 12 13 9,5 10 8 8,3 8,1 9,2 9,4 10 10,1 9,2 8,1 8,2 8,1
8 8,3 9,3 14 14,5 10 9 8,5 12 8,1
Ejercicio nº 7.- En un reconocimiento médico que se ha realizado
en un grupo de 30 niños, uno de los datos que se han tomado ha
sido el peso, en kilogramos, de cada uno, obteniendo los
siguientes resultados:
Haz una tabla de frecuencias, agrupando los datos en intervalos de
longitud 3, empezando en 24,5. b) Representa gráficamente la
distribución.
Ejercicio nº 8.- En una clase del instituto se ha preguntado a los
alumnos por el número de horas que dedican a la semana a
estudiar. Las respuestas han sido las siguientes:
Ordena los datos en una tabla de frecuencias, agrupándolos en los
intervalos: 0 - 2, 3 - 5, 6 - 8, 9 - 11, 12 - 14, 15 - 17, 18 - 20 b)
Representa gráficamente la distribución.
Ejercicio nº 9.- En unas pruebas de velocidad se ha cronometrado
el tiempo que tardaba cada participante en recorrer cierta distancia
fija. Los tiempos obtenidos, en segundos, han sido los siguientes:
a) Elabora una tabla de frecuencias, agrupando los datos en
intervalos de longitud 1, empezando en 7,9.
b) Representa gráficamente la distribución.
Ejercicio nº 10.- Hemos medido la estatura, en centímetros, de 30
personas, obteniendo los siguientes resultados:
a) Elabora una tabla de frecuencias, agrupando los datos en
intervalos de longitud 5, empezando en 146,5.
b) Representa gráficamente la distribución.
Ingreso de datos desde una web.
> datos<-
read.table("http://math.uprm.edu/~edgar/clase97.dat",header=T)
> attach(datos)
> mytable<-table(familia)
> mytable
familia
1 2 3 4 5 6
1 3 9 6 8 1
> (mytable)/margin.table(mytable)
familia
1 2 3 4 5
6
0.03571429 0.10714286 0.32142857 0.21428571 0.28571429
0.03571429
> cumsum(mytable)
1 2 3 4 5 6
1 4 13 19 27 28
> cumsum(mytable)/margin.table(mytable)
1 2 3 4 5 6
0.03571429 0.14285714 0.46428571 0.67857143 0.96428571
1.00000000
Explicación de los comandos.
> datos<-
read.table("http://math.uprm.edu/~edgar/clase97.dat",header=T)
Lee el archivo en formato de tabla y genera un conjunto de datos
de él. El subcomando header=T nos provee el nombre de cada
columna.
> attach(datos)
La base de datos es adherida a la direccion donde R busca cuando
va a evaluar una
variable.
> mytable<-table(familia)
Crea una tabla de la variable familia. Nos provee la frecuencia
absoluta. Por ejemplo el tamaño familiar que más predomina es 3.
> (mytable)/margin.table(mytable)
Representa la frecuencia relativa porcentual. Por ejemplo, sólo
3.57 por ciento de las familias de los estudiantes entrevistados son
de tamaño 6.
> cumsum(mytable)
Representa la frecuencia absoluta acumulada.. Por ejemplo 27 de
los 28 entrevistados tienen una familia de tamaño menor o igual
que 5.
> cumsum(mytable)/margin.table(mytable)
Representa la frecuencia relativa porcentual acumulada. Por
ejemplo, el 94.93% de las familias son de tamaño menor o igual
que 5.
CAPÍTULO III
MEDIDAS DE TENDENCIA CENTRAL
3.1 Introducción
Los datos, al igual que los estudiantes se congregan alrededor de
sus puntos de encuentro favoritos. Parece que los estudiantes acuden
en masa a sitios como partidos de futbol, fraternidades, bares populares
y otros sitios de reunión. De igual forma, los números parecen disfrutar
de la compañía de otros números y están propensos a reunirse
alrededor de un punto central denominado, Medida de la tendencia
central o más comúnmente, media. Una medida de tendencia central
ubica e identifica el punto alrededor del cual se centran los datos.
Por ejemplo si un profesor dice que el promedio de la clase en el
último examen de estadística fue de 95, esto indica algo, por el
contrario si dice que el promedio fue 35 esto indica algo totalmente
diferente.
Existen además las medidas de dispersión estas indican el punto hasta
el cual las observaciones individuales se esparcen alrededor de un
punto central, miden la dispersión o variabilidad de los datos y
reflejan la tendencia de las observaciones individuales a desviarse de
dicho punto central.
3.2 Media o Promedio aritmético ( x )
Es el cociente entre la suma de todos los datos y el número de ellos
(teniendo en cuenta que si un valor se repite hay que considerar estas
repeticiones).
Datos sin agrupar Datos agrupados
Propiedades
Es la medida de tendencia central más confiable y más usada
dentro de estas.
Es la medida básica para desarrollar el criterio de lo mínimos
cuadrados.
Las desviaciones que se tomen con relación a ella son iguales
a cero.
Es afectada por los valores extremos, es decir, si se tiene la
serie x = 1, 2, 300, este último valor afecta el resultado real
de esta medida.
La media aritmética es un valor típico, es el centro de
gravedad de una serie de valores.
Los valores de la serie se pueden sustituir por el valor de la
media aritmética, sin que esta se altere.
3.3 Mediana
Es el valor que separa por la mitad las observaciones ordenadas de
menor a mayor, de tal forma que el 50% de estas son menores que la
mediana y el otro 50% son mayores. Si el número de datos es impar
la mediana será el valor central, si es par tomaremos como mediana la
media aritmética de los dos valores centrales.
Datos sin agrupar
n
Xf
x
m
i
ii 1
'
n
x
x
n
i
i 1
Datos agrupados
ii Fn
F 2
1
i
i
iief
Fn
wLM1
2
Dónde:
iL : Límite inferior del intervalo i.
iw : Ancho de clase del intervalo i.
3.4 Moda (Mo):
Es el valor de la variable que más veces se repite. En algunos casos
existen varias modas.
Datos sin agrupar
La moda es el valor de la variable correspondiente a la mayor
frecuencia absoluta.
Datos agrupados
)()( 11
1
iiii
ii
iioffff
ffwLM
Dónde: if = Frecuencia absoluta más alta.
imparesnsix
paresnsi
xx
M
n
nn
e
,
,2
2
1
122
3.5. Otras medidas de tendencia central
Existen otras dediciones de media que pueden tener su utilidad en
algún caso. La primera de estas es la media geométrica 𝑿𝑮 . En el
caso de una muestra con valores diferentes de la variable se define
como la raíz enésima (“n” es el tamaño de muestra) del producto de
los valores de la variable.
Media geométrica
𝑋𝐺̅̅̅̅ = √𝒙𝟏 𝒙𝟐 … 𝒙𝒏
𝒏
Media armónica
𝑿𝑨̅̅ ̅̅ =
𝒏
∑ 𝟏
𝒙𝟏
𝒏𝒊=𝟏
Media Cuadrática
𝑿𝑸̅̅ ̅̅ = √
∑ 𝒏𝒊=𝟏 𝒙𝒊
𝟐
𝑛
Media Ponderada
𝑿𝑨̅̅ ̅̅ =
∑ 𝒏𝒊=𝟏 𝒙𝒊 𝒘𝒊
∑ 𝒘𝒊 𝒏𝒊=𝟏
Donde 𝑥𝑖 = valor de la i-ésima observación y 𝑤𝑖 = ponderación o peso de
la i-ésima observación
3.6. Ejercicios
En la unidad del área de producción de la empresa Corporación
N, requiere conocer el comportamiento de una máquina
automática, que deposita un líquido en vasos, lo cual se seleccionó
una muestra de 49 de ellas. Al medir el contenido, en onzas, se
obtuvo los siguientes resultados.
7.85 7.86 7.87 7.87 7.88 7.89 7.92 7.94 7.95 7.96 7.97 7.97
7.98
7.99 7.99 8.01 8.03 8.03 8.04 8.05 8.05 8.05 8.05 8.05 8.06
8.06
8.06 8.07 8.07 8.07 8.08 8.09 8.09 8.09 8.10 8.10 8.10 8.11
8.11
8.12 8.16 8.16 8.17 8.19 8.21 8.21 8.22 8.24 8.26
Calcular Media, Mediana, Moda
Solución:
En File debemos marcar la opción New Scrip y guardar con algún
nombre, por ejemplo, vasos R.
- Enseguida aparecerá la siguiente ventana.
- Hacer click en la imagen guardar y editar “ vasos”.
- Luego le mostrará la ventana donde se programa el script para el
respectivo calculo.
- Ingresamos los datos creando un vector con nombre “vasos” (por
ejemplo) usando la función c(), todo esto será ingresado en el
console
>vasos<-
c(7.85,7.86,7.87,7.87,7.88,7.89,7.92,7.94,7.95,7.96,7.97,7.97,7.98,
7.99,7.99,8.01,8.03,8.03,8.04,8.05,8.05,8.05,8.05,8.05,8.06,8.06,8.06
,8.07,8.07,8.07,8.08,8.09,8.09,8.09,8.10,8.10,8.10,8.11,8.11,8.12,8.1
6,8.16,8.17,8.19,8.21,8.21,8.22,8.24,8.26)
- Hacer click en el símbolo señalado para ejecutar o control +
enter
# Podemos verificar que la cantidad de datos que hemos ingresado es
la correcta, para ello, basta con usar la función “length”con el
nombre del archivo entre paréntesis: (oprima enter)
> length (vasos)
[1] 49
#Con la función “max” se puede observar el valor máximo de todos
los datos ingresados.
> max(vasos)
[1] 8.26
#Con la función “min” se puede observar el valor mínimo de todos
los datos ingresados(oprima enter).
> min(vasos)
[1] 7.85
Para poder describir mejor un conjunto de datos necesitamos una
medida de dispersión además de una del valor central, la más simple
es el rango, el cual muestra los valores mínimo y máximo del
conjunto de datos, en R
> range (vasos)
# Con la función “mean” se calcula la media aritmética (oprima
enter).
> mean (vasos)
[1] 8.05
# Esto significa que el 50% de los vasos tiene un volumen
depositado a lo más de 8,06 onzas (o a lo menos de 8,06 onzas).
# Con la función “median” se calcula la mediana(oprima enter).
> median(vasos)
[1] 8.06
# Con la función “sort” se calcula la moda de forma análisis de
frecuencias (oprima enter).
> sort(vasos)
[1] 8.05
# Con la función “sort” se calcula la media geométrica (oprima
enter).
> exp(mean(log(abs(vasos))))
[1] 8.049346
# Con la función “order” podrá ordenar datos de forma creciente
entre intervalos .
> vasos[order(vasos)]
# Con la función “hist” graficará el histograma
> hist(vasos)
Más sobre histogramas: también puede presentar los resultados en forma
más agradable, ingrese :
> hist(vasos, col = "blue", border = 3, main = "Histograma de
producción", xlab = "Peso de líquido(onzas)" , ylab = "frecuencia")
# Con la función “summary” observará el resumen de datos (oprima
enter).
>summary(vasos)
# Con la función “plot” observará el gráfico de puntos
> plot(vasos, , col = "red", border = 3, main = "Diagrama de
dispersión", xlab = "Peso del líquido(onzas)" , ylab = "frecuencia")
# Con la función “boxplot” observará el gráfico de puntos
>boxplot(vasos, col = "red", border = 3, main = "Diagrama de cajas",
xlab = "Peso del líquido(onzas)" , ylab = "frecuencia")
# Con la función “lines” observará el gráfico de puntos
y<-hist(vasos, breaks=c(7, 7.5, 8, 8.5,9), col = "blue", border = 2, ,
main = "Histograma de datos acumulados", xlab = "Líquido en
vasos(onzas)" , ylab = "frecuencia")
lines(c(min(y$breaks),y$mids,max(y$breaks)),c(0,y$counts,0),type=
"l", col = "green")
Ejemplo 3.6.2: La cantidad de zinc (en mg/l) en 16 muestras de
alimentos infantiles vienes dada por:
3.0 5.8 5.6 4.8 5.1 3.6 5.5 4.7 5.7 5.0 5.9 5.7 4.4 5.4 4.2 5.3
Calcule la Media, mediana, moda, 𝑿𝑮
Solución:
- Crear el console con el nombre “cantidad” para realizar los
respectivos cálculos (oprima enter).
> cantidad<-
c(3.0,5.8,5.6,4.8,5.1,3.6,5.5,4.7,5.7,5.0,5.9,5.7,4.4,5.4,4.2,5.3)
# Con la función “mean” se calcula la media aritmética.
> mean (cantidad)
[1] 4.98125
# Con la función “median” se calcula la mediana.
> median(cantidad)
[1] 5.2
# Con la función “sort” se calcula la moda de forma análisis de
frecuencias
> sort(cantidad)
[1] 5.7
# Con la función “sort” se calcula la media geométrica
> exp(mean(log(abs(cantidad))))
[1] 4.905728
# Con la función “order” podrá ordenar datos de forma creciente
entre intervalos
> cantidad [order(cantidad)]
# Con la función “hist” graficará el histograma
> hist(cantidad)
Más sobre histogramas: también puede presentar los resultados en forma
más agradable, ingrese :
> hist(cantidad, col = "orange", border = 10, main = "Histograma de
cantidad de zinc ", xlab = "cantidad(en mg/l)" , ylab = "frecuencia")
# Con la función “plot” observará el gráfico de puntos
> plot(cantidad, , col = "blue", border = 6, main = "Diagrama de
dispersión", xlab = "Cantidad(en mg/l)" , ylab = "frecuencia")
# Con la función “boxplot” observará el gráfico de puntos
> boxplot(cantidad, col = "red", border = 5, main = "Diagrama de
cajas", xlab = "Cantidad(en mg/l)" , ylab = "frecuencia")
# Con la función “lines” observará el gráfico de puntos
y<-hist(vasos, breaks=c(7, 7.5, 8, 8.5,9), col = "blue", border = 2, ,
main = "Histograma de datos acumulados", xlab = "Líquido en
vasos(onzas)" , ylab = "frecuencia")
lines(c(min(y$breaks),y$mids,max(y$breaks)),c(0,y$counts,0),type=
"l", col = "green")
# Con la función “boxplot” graficará el diagrama de cajas para
mostrar la distribución
> boxplot(cantidad)
# Con la función “summary” observará el resumen de datos
>summary (cantidad)
# Con la función “plot” observará el gráfico de puntos
>plot(cantidad)
Se ha observado la variable X= “Saldo ($)” de 400 cuentas
corrientes en una entidad bancaria correspondientes a clientes con
edades comprendidas entre 18 y 25 años. La distribución de
frecuencias de esta variable es la siguiente:
Saldo ($) N° de cuentas
50 - 70 72
70 - 90 16
90 - 110 96
110 - 130 104
130 - 150 56
150 - 170 16
170 - 190 40
Total 400
1. Calcule las medidas de posición central e indique la más adecuada.
2. Indique cuál es el saldo mínimo de una cuenta para estar entre el
25% de las de mayor saldo.
3. Indique cuál es el saldo máximo de una cuenta para estar entre el
15% de las de menor saldo.
4. Indique cuál es el saldo mínimo de una cuenta para estar entre el
40% de las de mayor saldo.
3.7. Ejercicios propuestos
1. La empresa NET, realizó ventas en de computadores durante 15
días. 25, 32, 20, 21, 29, 26, 30, 25, 19, 22, 17, 28, 30, 21, 40.
Lo cual desea realizar el cálculo del comportamiento de sus
frecuencias con las que se puede vender por día o semanalmente.
2. El jefe de recursos humanos de la empresa NORSA, está
interesado en determinar el número medio de cigarrillo que
consumen los trabajadores en un día. Para ello pregunto a 16
empleados por la cantidad de cigarrillos que fumaron ese día, los
resultados fueron:
3 1 4 7 6 7 0 4 6 2 3 1 0 2 2 0
Calcular el número promedio de cigarrillos que consume un
trabajador.
3. Un biólogo desea probar que el diámetro del tronco de un árbol
influye en la producción de oxígeno para ello hace la medición del
diámetro de 7 árboles en centímetros: 110, 79, 128, 161, 158, 175,
50.
- Calcular la mediana de los diámetros de tronco.
4. En un simulacro se midió el tiempo de reacción de seis patrullas
de policías luego de recibir una llamada de emergencia. Los
resultados en minutos fueron: 6,0 5,99 5,41 5,44 5,21 5,48
- Calcular la mediana de los tiempos de reacción. • Solución:
Ordenamos los datos de menor a mayor.
5. El entrenador del Club HEROS de futbol pregunto a los jugadores
sobre el tiempo en horas que dedican al entrenamiento por semana.
Los resultados fueron: 5, 5, 6, 8, 7, 7, 9, 5, 6, 8, 4, 11, 6, 10, 8 - Los
dirigentes desean saber el promedio medio de los jugares según
horas de entrenamiento.
6. Se muestran las edades de 20 pacientes del pabellón de adultos
del Hospital General 55, 78, 50, 41, 55, 35, 41, 42, 51, 54, 41, 54,
72, 76, 75, 47, 62, 59, 75, 46
- Caracterizar la variable utilizando la media, mediana y moda.
7. El tratamiento de los niños con desórdenes de la conducta puede
ser complejo. El tratamiento se puede proveer en una variedad de
escenarios dependiendo de la severidad de los comportamientos.
Además del reto que ofrece el tratamiento, se encuentran la falta de
cooperación del niño/niña y el miedo y la falta de confianza de los
adultos. Para poder diseñar un plan integral de tratamiento, el
siquiatra de niños y adolescentes puede utilizar la información del
niño, la familia, los profesores y de otros especialistas médicos para
entender las causas del desorden. Para ello, un siquiatra local ha
considerado una muestra aleatoria de 20 niños, anotando el tiempo
necesario que requiere en cada niño para lograr un plan integral del
tratamiento, obteniéndose lo siguiente (en horas):
6 7 7 8 8 8 8 9 9
9
9 9 9 9 10 10 10 10 10
11
- Calcule las medidas de tendencia central y de dispersión de
estos datos, indicando a qué tipo de medida pertenece.
8. Egreso de Alumnos al Sistema Privado de Educación Superior
No Universitaria en Uruguay según Centro de Estudio por Año.
Período 1997 - 2001.
- Teniendo en cuenta el año 2000 del cuadro anterior, sabiendo
que egresaron 296 alumnos, se presenta a continuación la
cantidad de horas de estudio semanales de los mismos para ese
año.
- Calcule la Media, la Mediana y la Moda.
Centro de
Estudio 1997 1998 1999 2000 2001
UCUDAL 28 10 1 13 12
ORT 24 247 254 237 261
CIEP 0 0 0 46 42
TOTAL 52 257 255 296 315
Horas de
estudio
Número de
egresos
2 -4
4 -6
6 -8
8-12
TOTAL
45
95
120 36
296
9. Los países que se mencionan a continuación pertenecen a las diez
principales economías del Mundo:
Orden Países Población
(millones.)
3 Alemania 82
8 Brasil 166
9 Canadá 31
7 China 960
10 España 39
1 Estados Unidos 270
4 Francia 59
6 Italia 58
2 Japón 126
5 Reino Unido 59
a). Ordene los países de menor a mayor cantidad de población.
b). Calcule el porcentaje de población para cada uno de los países.
c). Determine cuál es la población promedio para Los mismos.
d). Determine cuál es el país hasta donde se ubica el 25 % menos
de población y el país a partir del cual está el 25 % de mayor
cantidad de población.
e).Cuál es el país más poblado?
10. Los Sabiendo que el consumo de combustible, fue estudiado
para cada una de las empresas líderes en la confección de calzado
de los países del MERCOSUR, realice el análisis respectivo para las
medidas que se presentan a continuación, estableciendo cuál de las
3 empresas es la más homogénea y cuál de las tres es la que gasta
más combustible.
Media Mediana Moda
Empresa A 1025,8 lts. 898,3 lts. 827,8
Empresa B 758,29 lts. 645,8 lts. 545 lts.
Empresa C 9.427,01 lts. 7.305 lts. 7.800 lts.
11. Estimación de algunas medidas descriptivas del ingreso del
hogar para el total del país en pesos uruguayos. Período 2006.
TRIMESTRE CALENDARIO
2006
Promedio
del Hogar Mediana
Enero/06 - Marzo/06 15.871 11.634
Abril/06 - Junio/06 17.049 12.417
Julio/06 - Setiembre/06 16.874 12.500
Octubre/06 - Diciembre/06 18.559 a.503
A partir de los indicadores presentados en el Cuadro anterior del
Ingreso de los Hogares para el total del país para el periodo 2006.
Realice un análisis descriptivo para cada uno de los trimestres
comentando lo ocurrido.
12. Se realizó una encuesta a 30 familias de una cierta población
sobre la duración de las ampolletas; la información que se obtuvo
fue la siguiente:7 familias dijeron que les duraban entre 20 y 26
días8 dijeron entre 27 y 33 días5 dijeron entre 34 y 40 días2 dijeron
entre 48 y 54 días3 dijeron entre 55 y 61 días, y una familia dijo que
le duro más de 62 días.
a). ¿Cuánto duran en promedio las ampolletas? Interprete ese
resultado
b). ¿cuál es la duración de las ampolletas que más mencionan las
familias?
13. En una importante empresa láctea hay 600 empleados que
cobran $300.000, 500 que cobran $400.000,100 que cobran
$600.000 y 5 socios que perciben $3.000.000 cada uno.
¿Cuál es el ingreso promedio de los empleados? ¿Puedes calcular
la mediana de los ingresos? ¿Cuál es el ingreso que más recibido por
los empleados? Discuta con sus compañeros, cual medida de
tendencia central estima mejor el sueldo de los empleados de la
empresa.
14. De las devoluciones mensuales que se realizan a cierto almacén
el 10% tienen un importe de $360 a lo sumo. El 40% son de un
importe inferior o igual a 660e. En la mitad de ellas no se superan
las 1385 mientras que el 30% están entre 1385 y $2410.
a) Si se sabe que en dicho almacén el importe máximo de las
devoluciones es de $3000, calcula e interpreta el importe medio de
las devoluciones.
b) ¿Podrías calcular el importe medio si no se supiera cual es el
importe máximo de las devoluciones?
15. Un grupo de Economistas, realizó un diagnóstico sobre los
trabajadores de la empresa de lácteos que más exporta a la región,
durante el año 2006. Los valores registrados por las variables para
cada mes, del año 2006 fueron para la Cantidad de Horas trabajadas
por día (X1); Cantidad de Trabajadores (X2); Litros de lácteos
producidos por trabajador (X3), Nivel de rendimiento de los
trabajadores (X4) y Modo de traslado utilizada para llegar a la
empresa (x5 donde 1= Auto; 2= Moto; 3= Ómnibus, 4=
Caminando).
Período X1 X2 X3 X4 X5 1. Identifique la Población Objeto de
Estudio.
Enero 4 30 2 Alto 1 2. Identifique la Unidad de Análisis.
Febrero 5 12 8 Medio 1 3. Cuál es la escala de medición, de
cada una de las variables que
aparecen en la Base de Datos.
Marzo 1 34 12 Bajo 3
Abril 2 12 2 Bajo 1
Mayo 1 8 20 Medio 2 4. ¿Cuál es la cantidad de horas
promedio Por día de los trabajadores
lácteos? Junio 4 20 8 Medio 4
Julio 2 42 2 Alto 2 5. ¿Cuál es el porcentaje de variación
de los Litros de lácteos? Agosto 3 24 4 Bajo 3
Setiemb
re 4 14 20 Bajo 1
6. El personal de la empresa se
traslada
Octubre 3 8 24 Medio 1 Mayoritariamente……………..……
…
Noviem
bre 4 55 4 Alto 2
7. ¿Qué gráficos podría realizar para
describir la Variable X4? Diciemb
re 3 7 24 Bajo 4
A partir de los datos proporcionados por la Matriz de datos que se
expresa a continuación sobre algunos ingresos del año 2007 a la
Carrera de Relaciones Internacionales. Realice los puntos que se le
solicitan:
a). Identifique si está trabajando sobre una Población o sobre una
Muestra. Justifique su Respuesta.
b). Identifique las variables que se registran y determine cuál es
la escala de Medición para Cada una de ellas.
16. El entrenador de un equipo de natación debe elegir a uno de
sus integrantes para la próxima competencia de estilo libre. Según
los tiempos en segundos que obtuvieron los postulantes de las
cinco últimas carreras de 100 m de estilo libre, ¿qué nadador le
conviene elegir?
Diego 61,7 61,7 62,3 62,9 63,1
Tomás 61,5 62,9 62,9 63,7 63,7
Sergio 60,7 62,4 62,7 62,7 63,2
17. Sean las siguientes muestras de las estaturas de 5 personas de
diferentes etnias:
Etnia A) 170, 160, 155, 175, 145, 185
Etnia B) 160, 170, 165, 170, 160, 165
a) ¿Cuál es el promedio de estatura de cada etnia?. ¿Cuál de ellas
tiene mayor relevancia?
18. La demanda de cierto artículo en 48 días fue : 1, 4, 1, 0, 2, 1, 1,
3, 2, 1, 1, 0, 3, 2, 4, 3, 4, 1, 2, 1, 1, 2, 2, 2, 1, 3, 3, 3, 1, 4, 4, 0, 2, 1,
4, 0, 3, 1, 3, 3, 4, 2, 2, 1, 0, 1, 2, 4, mientras que en otros 48 días
hubo una demanda de 1 artículo en 13 de ellos, de 2 artículos en
12, de 3 en 10, de 4 en 9 y el resto de los días no hubo demanda.
¿Podrías decir en qué conjunto de días hubo mayor demanda
diaria?
19. Un estudiante ha realizado 1 examen que constaba de 3 partes:
una teórica, otra de problemas y otra de prácticas de informática.
El profesor le da el doble de importancia a los problemas que a la
teoría y el triple a las prácticas. Si ha obtenido una calificacion de
5,8 sobre 10 en teoría, 6,4 sobre 10 en problemas y 7,9 sobre 10 en
prácticas, ¿cuál crees que sería su calificacion final en el examen?
20. En un supermercado incrementaron el precio de uno de sus
productos un 10% en el mes de julio y en septiembre lo han vuelto
a incrementar en un 30%, ¿cuál ha sido el incremento total?, ¿y el
incremento medio?
21. Se ha hecho un estudio de los precios de venta del agua y de la
leche en cierto hipermercado. Respecto al agua, se verifico que 3
marcas cuestan 0,27e, 2 cuestan 0,21e, 1 cuesta 0,24e, y otra más
cuesta 0,3e. En cuanto a la leche, se constató que 4 de las marcas
costaban 0,79e, 3 costaban 0,61e, 2 costaban 0,69e, otras 2
costaban 0,82e y una costaba 0,73e. Calcula e interpreta el valor de
la mediana del precio del agua y del precio de la leche.
22. Un comercial dedica al 15% de sus clientes menos de 10
minutos, al 38% entre 10 y 30 minutos y al resto entre 30 y 60
minutos. Calcula e interpreta la mediana del tiempo de atención
por cliente.
23. En una encuesta se les pregunto a 16 personas si su hogar era
de alquiler o en propiedad. Las contestaciones fueron: alquiler,
alquiler, propiedad, alquiler, no sabe/no contesta, alquiler,
propiedad, alquiler, propiedad, propiedad, alquiler, alquiler, no
sabe/no contesta, alquiler, propiedad, y alquiler. ¿Qué valor
representa el centro de esa distribución?
24. El número de días necesarios por 10 equipos de trabajadores
para terminar 10 instalaciones de iguales características han sido:
21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media,
mediana, moda.
25. El precio de un interruptor magentotérmico en 10 comercios de
electricidad de una ciudad son: 25, 25, 26, 24, 30, 25, 29, 28, 26, y
27 Euros. - Hallar la media, moda, mediana.
26. El número de días necesarios por 10 equipos de trabajadores
para terminar 10 instalaciones de iguales características han sido:
21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media,
mediana, moda.
27. Se pidió a un grupo de 18 sujetos (Grupo 1) que en 2 minutos
armaran la mayor cantidad de palabras posibles a partir de un
conjunto desordenado de letras. Se usó la cantidad de palabras
correctas armadas como indicador de la habilidad de cada sujeto.
Los resultados fueron:
6 2 4 4 7 3 6 7 7 5 6 5 6 5 6 1 7 3
Otro grupo de 18 sujetos (Grupo 2) realizó la misma tarea. Los
resultados fueron:
3 9 7 4 5 6 3 4 5 6 7 4 4 4 3 8 3 5
a) Para cada grupo:
- Construya la tabla de frecuencias. ¿Cuántos sujetos superan 6
palabras? ¿Cuántos no superan 4 palabras?
- Halle la moda, la mediana y la media.
28. Los niños, a diferencia de los adultos, tienden a recordar las
películas, cuentos e historias como una sucesión de acciones más
que el argumento en forma global y de conjunto. En el relato de
una película, por ejemplo, utilizan con frecuencia las palabras "y
entonces...". Una psicóloga con suprema paciencia pidió a 50 niños
que le contaran una determinada película que ellos habían visto.
Consideró la variable: cantidad de "y entonces..." utilizados en el
relato y registró los siguientes datos:
15 22 19 15 17 18 20 17 12
16 16 17 21 23 18 20 21 20 20
15 18 17 19 20 23 22 10 17 19
19 21 20 18 18 24 11 19 31 16
17 18 19 20 18 18 40 18 19 16
Como parte del mismo estudio la experimentadora obtuvo de 50
adultos el mismo tipo de datos. Ellos fueron:
12 5 8 13 10 12 8 7 9 10
9 9 11 15 12 17 14 10 8 15
16 10 14 7 16 9 1 4 11 12 7
9 10 3 11 14 8 12 5 10 9
7 11 14 10 15 9
Para ambas variables:
- Construya la tabla de frecuencias.
- Calcule la media, la mediana y la moda.
- Grafique ambas distribuciones de manera que puedan ser
comparadas.
29. Un docente de Estadística tiene a su cargo las comisiones de
Trabajos Prácticos 1 y 2. El promedio de notas del primer parcial
en la comisión 1 fue de 6 puntos mientras que en la 2 el promedio
fue de 7 puntos. El docente está interesado en conocer cuál es el
promedio de notas de sus dos comisiones en conjunto. ¿Cuál es
este promedio si la comisión 1 tiene 20 alumnos y la comisión 2
tiene 30? Elija una de estas opciones:
a) 6,20 b) 6,25 c) 6,50 d) 6,60
30 El sentido del humor de un grupo de jóvenes de la ciudad de
Córdoba fue medido mediante la Escala sobre el Sentido del
Humor. Se organizaron los datos del estilo del humor
Mejoramiento Personal en una tabla que contiene las frecuencias
correspondientes a los intervalos de clase indicados.
a) Considerando que no se tienen disponibles los datos
originales, y que sólo se cuenta con la información de la tabla,
calcule la media y la desviación estándar del sentido del
humor Mejoramiento Personal de los jóvenes de la ciudad de
Córdoba que participaron de la experiencia. ¿Qué puede decir
sobre la exactitud de los resúmenes obtenidos? b) ¿Cuál es el
intervalo modal? ¿En qué intervalo se encuentra la mediana?
.
Intervalos de clase Frecuencia
13,5 - 19,5 4
19,5 - 25,5 59
25,5 - 31,5 136
31,5 - 37,5 132
37,5 - 43,5 56
43,5 - 49,5 7
3.7 MEDIDAS DE POSICIÓN
8.1 Introducción
Son particiones de la distribución de frecuencias en un determinado
número departes iguales.
Entre los cantiles más conocidos se tiene: mediana (dos partes
iguales), cuartiles (cuatro partes iguales), quintiles (cinco partes
iguales), deciles (diez partes iguales), ventiles (veinte partes iguales)
y percentiles (cien partes iguales).
Desarrollaremos los de mayor uso viendo su forma de cálculo e
interpretación. Se calculan de modo similar a la mediana.
4.2 Cuartiles(𝑸𝒌)
Son particiones de la distribución de frecuencias en cuatro partes
iguales de modo que cada una de ellas acumula un cuarto de las
observaciones (25% de los datos).
Para dividir la distribución de frecuencias en cuatro partes iguales
necesitamos 3 puntos, por ello los cuartiles son tres y se denotan de la
siguiente manera :
Cuartil 1= (𝑸𝟏) acumula la cuarta parte de las observaciones (25%)
Cuartil 2= (𝑸𝟐) acumula las dos cuartas partes de las observaciones
(50%)
Cuartil 3= (𝑸𝟑) acumula las tres cuartas partes de las observaciones
(75%)
El cuartil dos es igual a la media(acumula el 50% de los valores
observados).
• Cuartil(𝑸𝟏)
Ubicar su posición calculando 𝒏+𝟏
𝟒, si es entero 𝑸𝟏 = 𝑿
(𝒏−𝟏
𝟒). Si no
es entero, el resultado es de la forma E.F, donde E es la parte entera y
F la fracción decimal, entonces hacer una interpolación lineal entre
las observaciones ordenadas E y (E + 1) entre las cuales está la
fracción F.
Dicha interpolación lineal es similar para cualquier cuantil que vamos
a estudiar, se efectúa así:
Cuantil = 𝑿𝑬 + F[𝑿𝑬+𝟏 - 𝑿𝑬]
Aquí el cuartil 1 es: 𝑸𝟏 = 𝑿𝑬 + F [𝑿𝑬+𝟏 - 𝑿𝑬]
• Cuartil(𝑸𝟑)
Ubicar su posición calculando 𝟑(𝒏+𝟏)
𝟒, si es entero 𝑸𝟑 = 𝑿
[𝟑(𝒏−𝟏)
𝟒]. Si
no es entero, el resultado es de la forma E.F, donde E es la parte
entera y F la fracción decimal, entonces hacer una interpolación
lineal entre las observaciones ordenadas E y (E + 1) entre las cuales
está la fracción F.
Entonces el cuartil 3 es:
𝑸𝟑 = 𝑿𝑬 + F [𝑿𝑬+𝟏 - 𝑿𝑬]
Ejemplo :
Con el cuadro se muestran los pesos en Kg de los 20 alumnos de
Estadística Básica, cuyos pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
Calcular el Cuartil 1, Cuartil 2 y Cuartil 3
Solución:
Observamos que el percentil 50 es la mediana, que el percentil 25 es
el cuartel 1, que el percentil 75 es el cuartil 3
- Digitar el siguiente código en el Console de r-projet (oprima
enter), y le mostrará la siguiente ventana.
- Con la función “quantile”, podrá calcular el cuartil 1
> quantile(peso,0.1)
10%
45.9
#Calculando el cuartil 3
> quantile(peso,c(0.1,0.75))
10% 75%
45.9 51.0
4.3 Deciles(𝑫𝑲)
Son particiones de la distribución de frecuencia en diez partes iguales
de modo que cada una de ellas acumula un décimo de las
observaciones (10% de los datos).
Decil 1= 𝐷1 acumula la décima parte de las observaciones (10%)
Decil 2= 𝐷2 acumula la dos décimas partes de las observaciones
(20%)
Decil 3= 𝐷3 acumula la tres décimas partes de las observaciones
(30%)
Decil 4= 𝐷4 acumula la cuatro décimas partes de las observaciones
(40%)
Decil 5= 𝐷5 acumula la cinco décimas partes de las observaciones
(50%)
Decil 6= 𝐷6 acumula la seis décimas partes de las observaciones
(60%)
Decil 7= 𝐷7 acumula la siete décimas partes de las observaciones
(70%)
Decil 8= 𝐷8 acumula la ocho décimas partes de las observaciones
(80%)
Decil 9= 𝐷9 acumula la nueve décimas partes de las observaciones
(90%)
El decil cinco es igual a la mediana (acumula el 50% de los valores
observados). Es decir, 𝐷5 = 𝑀𝑒
El cálculo de los deciles y otros cuantiles se pueden efectuar
mediante el cálculo del percentil correspondiente, que pasamos a
desarrollar.
4.4 Percentiles(𝑃𝐾)
Son particiones de la distribución de frecuencias en cien partes
iguales de modo que cada una de ellas acumula un centésimo de las
observaciones (1% de los datos).
Para dividir la distribución de frecuencia en cien partes iguales
necesitamos 99 puntos, por ello los percentiles son noventa y nueve y
se denotan de la siguiente manera:
Percentil 1= 𝑃1 acumula una centésima parte de las observaciones
(1%)
Percentil 2= 𝑃2 acumula dos centésima parte de las observaciones
(2%)
Percentil 3= 𝑃3 acumula tres centésima parte de las observaciones
(3%)
………….
Percentil k= 𝑃𝑘 acumula k centésima parte de las observaciones
(k%)
………….
Percentil 99 = 𝑃99 acumula 99 centésima parte de las observaciones
(99%)
Nota:
Todas los cuantiles anteriormente son también percentiles (según él
% de observaciones que acumule cada uno de ellos).
Así tenemos que: la mediana (acumula el 50% de los valores
observados) es igual al percentil 50. Es decir, 𝑀𝑒 = 𝑃50
También: 𝑄1 = 𝑃25, 𝑄2 = 𝑃50 = 𝑀𝑒 𝑄3 = 𝑃75,
También: 𝐷10 = 𝑃10, 𝐷5 = 𝑃50 = 𝑀𝑒 𝐷9 = 𝑃90.
Cálculo para datos sin agrupar
a) Ordenar las observaciones en forma ascendente: 𝑥1 , 𝑥2 ,…. , 𝑥𝑛
b) Obtención del k-ésimo percentil (𝑃𝑘), k = 1, 2, 3,…., 99
Ubicar su posición calculando 𝒌(𝒏+𝟏)
𝟏𝟎𝟎, si es entero 𝑷𝑲 = 𝑿
[𝑲(𝒏−𝟏)
𝟏𝟎𝟎]
Si no es entero, el resultado es de la forma E.F, donde E es la parte
entera y F
la fracción decimal, entonces hacer la interpolación lineal antes
indicada entre las observaciones ordenadas E y (E + 1) entre las
cuales está la fracción F.
Entonces el percentil k es:
𝑃𝐾 = F[𝑋𝐸−1 − 𝑋𝐸 ] , k = 1, 2,3,…, 99
Del Ejemplo 4.1 calcular los percentiles 10 y 80 con los datos.
Solución:
Para encontrar los valores que separan en grupos de 1 en 1% o de 10
en 10: Es decir percentil 1 al percentil 100 o décil 1 al décil 10.
El decil 1 se obtiene quantile(x,.1)
#Calculando el decil 10
> quantile (peso,0.1)
10%
45.9
#Calculando el decil 80
> quantile (peso,0.8)
80%
51.2
1) ASIMETRÍA
Es una medida de forma de una distribución que permite identificar y
describir la manera como los datos tiende a reunirse de acuerdo con la
frecuencia con que se hallen dentro de la distribución. Permite identificar
las características de la distribución de datos sin necesidad de generar el
gráfico.
1.1) TIPOS DE ASIMETRÍA
La asimetría presenta las siguientes formas:
Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la
minoría de los datos está en la parte izquierda de la media. Este tipo de
distribución presenta un alargamiento o sesgo hacia la izquierda, es decir,
la distribución de los datos tiene a la izquierda una cola más larga que a la
derecha. También se dice que una distribución es simétrica a la izquierda
o tiene sesgo negativo cuando el valor de la media aritmética es menor
que la mediana y éste valor de la mediana a su vez es menor que la moda,
en símbolos
Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto
se aparta de la simetría.
Simétrica.- Se da cuando en una distribución se distribuyen
aproximadamente la misma cantidad de los datos a ambos lados de la
media aritmética. No tiene alargamiento o sesgo. Se representa por una
curva normal en forma de campana llamada campana de Gauss
(matemático Alemán 1777-1855) o también conocida como
de Laplace (1749-1827).También se dice que una distribución es
simétrica cuando su media aritmética, su mediana y su moda son iguales,
en símbolos Md=Mo
Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la
minoría de los datos está en la parte derecha de la media aritmética. Este
tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es
decir, la distribución de los datos tiene a la derecha una cola más larga
que a la izquierda.
También se dice que una distribución es simétrica a la derecha o tiene
sesgo positivo cuando el valor de la media aritmética es mayor que la
mediana y éste a valor de la mediana a su vez es mayor que la moda, en
símbolos
MEDIDAS DE ASIMETRÍA
Coeficiente de Karl Pearson
1.1 Curtosis
La curtosis mide el grado de agudeza o achatamiento de una distribución
con relación a la distribución normal, es decir, mide cuán puntiaguda es
una distribución.
2.1) TIPOS DE CURTOSIS
La curtosis determina el grado de concentración que presentan
los valores en la región central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.
Ejercicios
#base de datos
ejemplo1<-
read.table(‘‘http://www.mat.ucm.es/~palomam/aed/datos/datos1.d
at’’)
#función media aritmética
ej1.m<-mean(ejemplo1)
#cálculo de la media aritmética
sum(ejemplo1)/dim(ejemplo1)
#vector de datos
ejemplo1.s<-
scan(‘‘http://www.mat.ucm.es/~palomam/aed/
datos/datos1.dat’’)
#función media aritmética
ej1.m.s<-mean(ejemplo1.s)
#cálculo de la media aritmética
sum(ejemplo1.s)/length(ejemplo1.s)
#cálculo de la media geométrica
ej1.g<-exp(mean(log(abs(ejemplo1))))
ej1.g.2<-(prod(ejemplo1))^(1/15)
28.81678
#cálculo de la media armónica
ej1.h<-1/(mean(1/ejemplo1))
ej1.2.2<-15/sum(1/ejemplo1)
23.51709
#cuartiles
quantile(ejemplo1.s)
0% 25% 50% 75% 100%
-67 11 24 45 75
#mediana
median(ejemplo1.s)
24
#deciles
quantile(ejemplo1.s,probs=seq(0,1,by=1/10))
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
-67.0 -26.4 7.6 14.4 20.2 24.0 28.4 38.6 50.4 58.4 75.0
CAPÍTULO V
MEDIDAS DE VARIABILIDAD
1.1 Introducción
Las medidas de tendencia central no son suficientes para describir un
conjunto de valores de alguna variable estadística. Los promedios
determinan el centro, pero nada indican acerca de cómo están situados los
datos respecto al centro.
En primer lugar se necesita una medida del grado de dispersión o
variabilidad con respecto al centro con la finalidad de ampliar la
descripción de los datos o de comparar dos o más series de datos.
En segundo lugar se necesita una medida del grado de asimetría o
deformación en ambos lados del centro de una serie de datos, con el fin de
describir la forma de la distribución de los datos. Esta medida se
denomina índice de asimetría.
En tercer lugar se necesita una medida que nos permita comparar el
apuntamiento o curtosis de distribuciones simétricas con respecto a la
distribución simétrica normal. Esta medida se denomina índice de
apuntamiento o curtosis.
Las estadísticas de asimetría y apuntamiento se incluyen en este capítulo
dado su poca importancia.
Observaciones se distribuyen (o se separan).
E existen otras dos características de los conjuntos de datos que
proporcionan información útil: el sesgo y la curtosis.
Sesgo (skewness) : Las curvas que representan un conjunto de datos pueden
ser simétricas o sesgadas. Las curvas simétricas tienen una forma tal que
una línea vertical que pase por el punto más alto de la curva, divide al área
de ésta en dos partes iguales. Si los valores se concentran en un extremo se
dice sesgada.
Una curva tiene sesgo positivo cuando los valores van disminuyendo
lentamente hacia el extremo derecho de la escala y sesgo negativo en caso
contrario.
El sesgo es una medida de la asimetría de la curvo. E n general es un valor
que va de -3 a 3.
Una curva a simétrica toma el valor 0.
1.2 Varianza
La varianza, es una medida que cuantifica el grado de dispersión o de
variación de los valores de una variable cuantitativa con respecto a su
media aritmética. Si los valores tienden a concentrarse alrededor de su
media, la varianza será pequeña. Si los valores tienden a distribuirse lejos
de la media, la varianza será grande.
La varianza calculada a partir de una muestra será denotada por 2s y
referida a una población se denotará por 2 .
Definición. La varianza se define como la media aritmética de los
cuadrados de las diferencias de los datos con respecto a su media aritmética.
La varianza es una medida de dispersión con unidades de medición al
cuadrado,
por ejemplo, $2, Km2, etc.
1.3 Desviación estándar
Definición. La desviación estándar es la raíz cuadrada positiva de la
varianza.
La desviación estándar calculada a partir de una muestra se denotará por
s y referida a la población por .
Esto es, 2s s ,
2 .
1.4 Coeficiente de variación
Cuando se desea hacer referencia a la relación entre el tamaño de la media
y la variabilidad de la variable, se utiliza el coeficiente de variación.
Su fórmula expresa la desviación estándar como porcentaje de la media
aritmética, mostrando una mejor interpretación porcentual del grado de
variabilidad que la desviación típica o estándar. Por otro lado presenta
problemas ya que a diferencia de la desviación típica este coeficiente es
variable ante cambios de origen. Por ello es importante que todos los
valores sean positivos y su media dé, por tanto, un valor positivo. A mayor
valor del coeficiente de variación mayor heterogeneidad de los valores de
la variable; y a menor C.V., mayor homogeneidad en los valores de la
variable. Suele representarse por medio de las siglas C.V.
xCV
s
1. Hallar la desviación media, la varianza y la desviación típica de
la series de números siguientes:
2, 3, 6, 8, 11.
12, 6, 7, 3, 15, 10, 18, 5.
2, 3, 6, 8, 11.
En R la ejecución de los comendados nos daría los siguientes resultados.
2. Un pediatra obtuvo la siguiente tabla sobre los meses de edad
de 50 niños de su consulta en el momento de andar por primera
vez:
Meses Niños
9 1
10 2
11 4
12 8
13 9
14 13
15 16
En R, como en el caos anterior, el ingreso de datos seria el
siguiente.
Adicionalmente, en variables donde se evidencia una relación
del tipo causal, es conveniente determinar o realizar una
correlación a través de la covarianza.
Calcular la varianza.
3. El resultado de lanzar dos dados 120 veces viene dado por
la tabla:
Sumas 2 3 4 5 6 7 8 9 10 11 12
Veces 3 8 9 11 20 19 16 13 11 6 4
Calcular la desviación estándar delos datos.
4. Calcular la varianza de una distribución estadística que
viene dada por la siguiente tabla:
i [10,
15)
[15,
20)
[20,
25)
[25,
30)
[30,
35)
fi 3 5 7 4 2
Entregados :
17 25 28 27 16 21 20 22 18 23
a) Hallar el rango, la varianza y la desviación estándar e
interpretar.
b) Hallar el porcentaje de observaciones que están alrededor de
la media a una distancia de 2 desviaciones estándar. Comparar
con el teorema de Chebyshev y con la regla empírica
a) Para hallar el rango ordenamos el conjunto de mayor a menor
16 17 18 20 21 22 23 25 27 28
R = ( 10 ) ( 1 ) x - x = 28 - 16 = 12 La diferencia entre el mayor
y el menor valor observado es 12
Para el cálculo de la varianza conviene realizar un cuadro:
a) ( x - 2s; x + 2s ) = ( 21,7 - 8,22;21,7 + 8,22 ) = (13,48;28,92)
Todos los valores de la variable caen en este intervalo o sea el 100
Según Chebyshev: al menos el 75% de los valores caen en ese
intervalo, por lo tanto se verifica según la regla empírica:
aproximadamente el 95% de las observaciones caen en dicho
intervalo, (el 100% es un valor bastante cercano)
COEFICIENTE DE VARIACIÓN:
La desviación estándar es una medida absoluta de la dispersión
que expresa la variación en las mismas unidades que los datos
originales. Pero no puede ser la única base para la comparación de
dos distribuciones. Por ejemplo si tenemos una desviación
estándar de 10 y una media de 5, los valores varían en una cantidad
que es el doble de la media. Si por otro lado tenemos una
desviación estándar de 10 con una media de 5000, la variación
respecto a la media es insignificante.
Lo que necesitamos es una medida relativa que nos proporcione
una estimación de la magnitud de la desviación respecto de la
magnitud de la media.
El coeficiente de variación es una medida relativa de dispersión
que expresa a la desviación estándar como un porcentaje de la
media
En el cuadro anterior se observa las principales operaciones de r,
tanto en estadísticas descriptivas como meda y varianza hasta
correlación.
Ejemplo: la dirección Regional Salud de Ancash tiene 6
subregiones, de las cuales se les asigno un monto de dinero (en
miles de nuevos soles) para el presupuesto 2015, que se detallan a
continuación:
Sub-región Montos
Pacifico Sur 1.5 3 2.6 4 5 6.2 9.4
Pacifico Norte 2.6 3.4 1.6 7 6 4 3.4
Huaylas sur
Huaylas Norte
Conchucos Sur
Conchucos Norte
Ejercicios:
1. Los datos que se dan a continuación corresponden a los pesos
en Kg. de ochenta personas:
(a) Obténgase una distribución de datos en intervalos de
amplitud 5, siendo el primer intervalo [50; 55].
(b) Calcúlese el porcentaje de personas de peso menor que 65
Kg.
(c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg. pero
menor que 85?
SOLUCIÓN:
(a) Como se trata de efectuar una distribución de datos
agrupados, debemos obtener primero los intervalos
correspondientes, situando los datos en sus lugares respectivos:
Li-1 – Li ni Ni
[50;55) 2 2
[55; 60) 7 9
[60; 65) 17 26
[65;70) 30 56
[70; 75) 14 70
[75; 80) 7 77
[80; 85] 3 80
(b) Observando la columna de frecuencias acumuladas se deduce
que existen N3 = 26 individuos cuyo peso es menor que 65 Kg.,
que en términos de porcentaje corresponden a:
100 32,5%
(c) El número de individuos con peso comprendido entre 70 y 85
Kg. es:
n5 + n6 + n7 = 14 + 7 + 3 = 24
lo que es equivalente a: N7 – N4 = 80 – 56 = 24
6 0 ; 6 6 ; 7 7 ; 7 0 ; 6 6 ; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ;
7 1 ; 5 8 ; 6 6 ; 6 7 ; 7 4 ; 6 1 ;
6 3 ; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ; 8 1 ; 6 2 ;
6 4 ; 6 9 ; 6 8 ; 7 2 ; 8 3 ; 5 6 ;
6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ; 6 1 ; 6 7 ; 7 3 ; 5 7 ; 6 2 ; 6 7 ;
6 8 ; 6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ;
6 1 ; 6 2 ; 6 3 ; 7 6 ; 6 1 ; 6 7 ; 6 7 ; 6 4 ; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5 8 ;
6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ; 7 0 ;
6 6 ; 6 2 ; 6 3 ; 6 6 ;
Ejercicios propuestos.
1. En una clase hay 15 alumnos y 20 alumnas. El peso medio
de los alumnos es 58.2 kg y el de las alumnas y 52.4 kg. Las
desviaciones típicas de los dos grupos son, respectivamente,
3.1 kg y 5.1 kg. El peso de José es de 70 kg y el de Ana es 65
kg. ¿Cuál de ellos puede, dentro del grupo de alumnos de su
sexo, considerarse más grueso?
2) En un partido de baloncesto, se tiene la siguiente anotación
en los jugadores de un equipo: 0,2,4,5,8,10,10,15,38. Calcular
la varianza de las puntuaciones de los jugadores del equipo.
3) La altura en cm de los jugadores de un equipo de baloncesto
está en la siguiente tabla. Calcular la varianza.
intervalos xi fi
[160,170) 165 1
[170,180) 175 2
[180,190) 185 4
[190,200) 195 3
[200,210) 205 2
4) Un pediatra obtuvo la siguiente tabla sobre los meses de
edad de 50 niños de su consulta en el momento de andar por
primera vez:
Meses Niños
9 1
10 4
11 9
12 16
13 11
14 8
15 1
Calcular la varianza.
5) El resultado de lanzar dos dados 120 veces viene dado por
la tabla:
Sumas Veces
2 3
3 8
4 9
5 11
6 20
7 19
8 16
9 13
10 11
11 6
12 4
Calcular desviación típica.
6) Dada la distribución estadística:
fi
[0, 5) 3
[5, 10) 5
[10, 15) 7
[15, 20) 8
[20, 25) 2
[25, ∞) 6
Calcular la varianza.
7) Considérense los siguientes datos: 3, 8, 4, 10, 6, 2. Se pide:
a) Calcular su media y su varianza.
b) Si los todos los datos anteriores los multiplicamos por 3,
¿cuál será la nueva media y varianza?