EconometriaGRADO T1 Print
-
Upload
skyblackperu -
Category
Documents
-
view
229 -
download
4
description
Transcript of EconometriaGRADO T1 Print
Dpto de Economıa CuantitativaUniversidad Complutense de Madrid
ECONOMETRIA
Introduccion a la econometrıa y analisis
grafico y estadıstico de relaciones
Marcos Bujosa
Trasparencias de clase para la asignatura econometrıa de los grados en
Economıa y Administracion y Direccion de Empresas de la Universidad
Complutense de Madrid
copy 2010ndash2012 Marcos Bujosa marcosbujosacceeucmes
Actualizado el 8 de marzo de 2012 Version 0103
Copyright copy 2010ndash2012 Marcos Bujosa marcosbujosacceeucmes
Este material docente se distribuye bajo la Creative Commons Attribution-Share Alike 30 Spain Para
ver una copia de esta licencia visite httpcreativecommonsorglicensesby-sa30es
Tabla de Contenido
1 Naturaleza y objetivos de la econometrıa 2
2 Tipologıa de variables 3
3 Analisis grafico y estadıstico de relaciones 4
31 Analisis grafico y descriptivo de una variable 4
32 Descripcion numerica de una variable 8
33 Resumen del analisis grafico y descriptivo de una variable 18
34 Analisis grafico y descriptivo de dos variables 20
Apendices 34
Practica sobre el contraste de independencia de Pearson 34
Practica sobre el coeficiente de correlacion por rangos de Spearman 35
Bibliografıa 40
Soluciones a los Ejercicios 41
1 Naturaleza y objetivos de la econometrıa
Las dos primeras transparecias de esta seccion estan basadas en el material de Miguel Jerez http
econometriamjblogspotcompeconometricshtml
uArr Introduccion iquestPor que modelar 1
Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos (ldquola muestrardquo)
El modelo sera util si resulta mas simple que los datos que representa pero captura las caracterısticas
mas interesantes de los datos
Se pueden construir modelos para satisfacer diferentes necesidades tales como
Estimacion
Prevision
Simulacion
Control
uArr El objetivo de la econometrıa 2
Econometrıa aplica inferencia estadıstica en modelos economicos Objetivos
Estimacion por ejemplo
sensibilidad de un valor financiero a movimientos de un ındice de referencia para evaluar
su exposicion al riesgo y cobertura con derivados sobre el ındice
Previsiones por ejemplo
probabilidad de incumplimiento futuro de un prestamo en funcion de las caracterısticas
de la operacion y del solicitante
Simulacion por ejemplo
rendimiento de una cartera de valores en diferentes escenarios
control por ejemplo
bancos centrales nivel de tipos de intervencion para controlar la inflacion
2
2 Tipologıa de variables
uArr Poblacion y variable estadıstica 3
Poblacion El universo de objetos estudiados
Conjunto de hogares alumnos de un curso automoviles fabricados este ano
Variable estadıstica Cada rasgo o caracterıstica de los elementos de la poblacion
Gasto anual en alimentacion color de ojos consumo de combustible por km
cualitativas El rasgo descrito no es de naturaleza numerica
color de ojos sexo nombre de la empresa
cuantitativas El rasgo es numerico
peso temperatura ingresos anuales precio
uArr Variables estadısticas cualitativas 4
Con cierta frecuencia las variables cualitativas se expresan con numeros
nominales La asignacion de numeros a las categorıas es arbitraria
mujer=1 hombre=0 Europa=1 EEUU=2 Japon=3 Otros=4
ordinales Indican un orden
producto preferido=3 siguiente en preferencia=2 menos deseado=1
En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido
uArr Variables estadısticas cuantitativas 5
discretas Suelen ser el resultado de contar
nordm de descendientes de una pareja lavadoras producidas
continuas Suelen ser medidas y tener decimales
temperatura peso superficie de una vivienda
3
uArr Ejercicios 6
Ejercicio 1 Clasificar las siguientes variables
(a) Temperatura maxima diaria
(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto
(c) Calificacion obtenida en un examen
(d) Marca de refresco consumido
(e) Codigo postal que aparece en una carta
(f) Estado civil de una persona
(g) Salario
(Pena y Romo 1997 ejercicio 21 de la seccion 26)
Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar
razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas
(Pena y Romo 1997 ejercicio 25 de la seccion 26)
uArr Tipos de datos en funcion del ındice 7
Seccion cruzada
Datos temporales (series de tiempo)
Datos de panel
3 Analisis grafico y estadıstico de relaciones
31 Analisis grafico y descriptivo de una variable
bull Descripcion de variables cualitativas distribucion de frecuencias
N observaciones
Los datos se clasifican por clases o categorıas (k clases)
colores de coches aparcados en el campus
El orden en que aparecen las clases es arbitrario
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esima
4
uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8
Fichero de datos ldquobweightgdtrdquo
Poblacion Mujeres gestantes y sus bebes recien nacidos
Muestra N = 1832 mujeres
Variable estadıstica raza
Numero de categorıas k = 3
1 = raza blanca 2 =raza negra 3=otras razas
k ni niN diagrama de barras
1 1624 8865
2 109 595
3 99 540
Moda La clase de mayor frecuencia
uArr Ejercicios 9
Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de
la madrerdquo
(b) iquestCual es la moda en esta distribucion
bweightinp Gretl
En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como
un comentario y Gretl lo ignora (es un metodo de documentar los programas)
Z bweightinp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquoracersquo
freq race
tambien lo podemos hacer asi
freq 2
ya que rsquoracersquo tiene asignado el numero 2
o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo
bull Descripcion de variables cuantitativas discretas distribucion de frecuencias
N observaciones
Los datos se ordenan de menor a mayor
Esto permite definir la distribucion de frecuencias acumuladas
5
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
Representamos por
n1 n2 nk
el nordm de observaciones de cada clase (de cada valor)
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni
N frecuencia relativa acumulada hasta la clase i-esima
uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10
Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel
de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)
(b) iquestCual es la moda en esta distribucion
(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los
individuos de la muestra (ldquogenderrdquo)
(d) iquestCual es el tamano de la muestra
cholesterolinp Gretl
Z cholesterolinp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquocholestrsquo
freq cholest
tambien lo podemos hacer asi
freq 1
o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo
diagrama de frecuencias del genero de los individuos de la muestra
freq gender
uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11
Este caso es mas complejo ya que las clases no estan definidas de manera natural
Hay que dividir el recorrido de la muestra en intervalos no solapados
El punto central de cada intervalo se denomina marca de clase ci
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase (en cada intervalo)
Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior
6
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
uArr Ejercicios 12
Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias
absolutas y relativas
(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos
(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso
Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa
bweight2inp Gretl
Z bweight2inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
generamos un histograma de la variable rsquobweightrsquo
freq bweight
hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoDistribucion de frecuenciasrsquo
Seleccione el numero de intervalos y
desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones
de frecuencias absolutas relativas y acumuladas
uArr Histograma y caracterısticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc
7
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
1 Naturaleza y objetivos de la econometrıa
Las dos primeras transparecias de esta seccion estan basadas en el material de Miguel Jerez http
econometriamjblogspotcompeconometricshtml
uArr Introduccion iquestPor que modelar 1
Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos (ldquola muestrardquo)
El modelo sera util si resulta mas simple que los datos que representa pero captura las caracterısticas
mas interesantes de los datos
Se pueden construir modelos para satisfacer diferentes necesidades tales como
Estimacion
Prevision
Simulacion
Control
uArr El objetivo de la econometrıa 2
Econometrıa aplica inferencia estadıstica en modelos economicos Objetivos
Estimacion por ejemplo
sensibilidad de un valor financiero a movimientos de un ındice de referencia para evaluar
su exposicion al riesgo y cobertura con derivados sobre el ındice
Previsiones por ejemplo
probabilidad de incumplimiento futuro de un prestamo en funcion de las caracterısticas
de la operacion y del solicitante
Simulacion por ejemplo
rendimiento de una cartera de valores en diferentes escenarios
control por ejemplo
bancos centrales nivel de tipos de intervencion para controlar la inflacion
2
2 Tipologıa de variables
uArr Poblacion y variable estadıstica 3
Poblacion El universo de objetos estudiados
Conjunto de hogares alumnos de un curso automoviles fabricados este ano
Variable estadıstica Cada rasgo o caracterıstica de los elementos de la poblacion
Gasto anual en alimentacion color de ojos consumo de combustible por km
cualitativas El rasgo descrito no es de naturaleza numerica
color de ojos sexo nombre de la empresa
cuantitativas El rasgo es numerico
peso temperatura ingresos anuales precio
uArr Variables estadısticas cualitativas 4
Con cierta frecuencia las variables cualitativas se expresan con numeros
nominales La asignacion de numeros a las categorıas es arbitraria
mujer=1 hombre=0 Europa=1 EEUU=2 Japon=3 Otros=4
ordinales Indican un orden
producto preferido=3 siguiente en preferencia=2 menos deseado=1
En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido
uArr Variables estadısticas cuantitativas 5
discretas Suelen ser el resultado de contar
nordm de descendientes de una pareja lavadoras producidas
continuas Suelen ser medidas y tener decimales
temperatura peso superficie de una vivienda
3
uArr Ejercicios 6
Ejercicio 1 Clasificar las siguientes variables
(a) Temperatura maxima diaria
(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto
(c) Calificacion obtenida en un examen
(d) Marca de refresco consumido
(e) Codigo postal que aparece en una carta
(f) Estado civil de una persona
(g) Salario
(Pena y Romo 1997 ejercicio 21 de la seccion 26)
Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar
razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas
(Pena y Romo 1997 ejercicio 25 de la seccion 26)
uArr Tipos de datos en funcion del ındice 7
Seccion cruzada
Datos temporales (series de tiempo)
Datos de panel
3 Analisis grafico y estadıstico de relaciones
31 Analisis grafico y descriptivo de una variable
bull Descripcion de variables cualitativas distribucion de frecuencias
N observaciones
Los datos se clasifican por clases o categorıas (k clases)
colores de coches aparcados en el campus
El orden en que aparecen las clases es arbitrario
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esima
4
uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8
Fichero de datos ldquobweightgdtrdquo
Poblacion Mujeres gestantes y sus bebes recien nacidos
Muestra N = 1832 mujeres
Variable estadıstica raza
Numero de categorıas k = 3
1 = raza blanca 2 =raza negra 3=otras razas
k ni niN diagrama de barras
1 1624 8865
2 109 595
3 99 540
Moda La clase de mayor frecuencia
uArr Ejercicios 9
Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de
la madrerdquo
(b) iquestCual es la moda en esta distribucion
bweightinp Gretl
En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como
un comentario y Gretl lo ignora (es un metodo de documentar los programas)
Z bweightinp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquoracersquo
freq race
tambien lo podemos hacer asi
freq 2
ya que rsquoracersquo tiene asignado el numero 2
o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo
bull Descripcion de variables cuantitativas discretas distribucion de frecuencias
N observaciones
Los datos se ordenan de menor a mayor
Esto permite definir la distribucion de frecuencias acumuladas
5
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
Representamos por
n1 n2 nk
el nordm de observaciones de cada clase (de cada valor)
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni
N frecuencia relativa acumulada hasta la clase i-esima
uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10
Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel
de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)
(b) iquestCual es la moda en esta distribucion
(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los
individuos de la muestra (ldquogenderrdquo)
(d) iquestCual es el tamano de la muestra
cholesterolinp Gretl
Z cholesterolinp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquocholestrsquo
freq cholest
tambien lo podemos hacer asi
freq 1
o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo
diagrama de frecuencias del genero de los individuos de la muestra
freq gender
uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11
Este caso es mas complejo ya que las clases no estan definidas de manera natural
Hay que dividir el recorrido de la muestra en intervalos no solapados
El punto central de cada intervalo se denomina marca de clase ci
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase (en cada intervalo)
Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior
6
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
uArr Ejercicios 12
Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias
absolutas y relativas
(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos
(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso
Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa
bweight2inp Gretl
Z bweight2inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
generamos un histograma de la variable rsquobweightrsquo
freq bweight
hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoDistribucion de frecuenciasrsquo
Seleccione el numero de intervalos y
desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones
de frecuencias absolutas relativas y acumuladas
uArr Histograma y caracterısticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc
7
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
2 Tipologıa de variables
uArr Poblacion y variable estadıstica 3
Poblacion El universo de objetos estudiados
Conjunto de hogares alumnos de un curso automoviles fabricados este ano
Variable estadıstica Cada rasgo o caracterıstica de los elementos de la poblacion
Gasto anual en alimentacion color de ojos consumo de combustible por km
cualitativas El rasgo descrito no es de naturaleza numerica
color de ojos sexo nombre de la empresa
cuantitativas El rasgo es numerico
peso temperatura ingresos anuales precio
uArr Variables estadısticas cualitativas 4
Con cierta frecuencia las variables cualitativas se expresan con numeros
nominales La asignacion de numeros a las categorıas es arbitraria
mujer=1 hombre=0 Europa=1 EEUU=2 Japon=3 Otros=4
ordinales Indican un orden
producto preferido=3 siguiente en preferencia=2 menos deseado=1
En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido
uArr Variables estadısticas cuantitativas 5
discretas Suelen ser el resultado de contar
nordm de descendientes de una pareja lavadoras producidas
continuas Suelen ser medidas y tener decimales
temperatura peso superficie de una vivienda
3
uArr Ejercicios 6
Ejercicio 1 Clasificar las siguientes variables
(a) Temperatura maxima diaria
(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto
(c) Calificacion obtenida en un examen
(d) Marca de refresco consumido
(e) Codigo postal que aparece en una carta
(f) Estado civil de una persona
(g) Salario
(Pena y Romo 1997 ejercicio 21 de la seccion 26)
Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar
razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas
(Pena y Romo 1997 ejercicio 25 de la seccion 26)
uArr Tipos de datos en funcion del ındice 7
Seccion cruzada
Datos temporales (series de tiempo)
Datos de panel
3 Analisis grafico y estadıstico de relaciones
31 Analisis grafico y descriptivo de una variable
bull Descripcion de variables cualitativas distribucion de frecuencias
N observaciones
Los datos se clasifican por clases o categorıas (k clases)
colores de coches aparcados en el campus
El orden en que aparecen las clases es arbitrario
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esima
4
uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8
Fichero de datos ldquobweightgdtrdquo
Poblacion Mujeres gestantes y sus bebes recien nacidos
Muestra N = 1832 mujeres
Variable estadıstica raza
Numero de categorıas k = 3
1 = raza blanca 2 =raza negra 3=otras razas
k ni niN diagrama de barras
1 1624 8865
2 109 595
3 99 540
Moda La clase de mayor frecuencia
uArr Ejercicios 9
Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de
la madrerdquo
(b) iquestCual es la moda en esta distribucion
bweightinp Gretl
En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como
un comentario y Gretl lo ignora (es un metodo de documentar los programas)
Z bweightinp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquoracersquo
freq race
tambien lo podemos hacer asi
freq 2
ya que rsquoracersquo tiene asignado el numero 2
o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo
bull Descripcion de variables cuantitativas discretas distribucion de frecuencias
N observaciones
Los datos se ordenan de menor a mayor
Esto permite definir la distribucion de frecuencias acumuladas
5
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
Representamos por
n1 n2 nk
el nordm de observaciones de cada clase (de cada valor)
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni
N frecuencia relativa acumulada hasta la clase i-esima
uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10
Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel
de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)
(b) iquestCual es la moda en esta distribucion
(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los
individuos de la muestra (ldquogenderrdquo)
(d) iquestCual es el tamano de la muestra
cholesterolinp Gretl
Z cholesterolinp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquocholestrsquo
freq cholest
tambien lo podemos hacer asi
freq 1
o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo
diagrama de frecuencias del genero de los individuos de la muestra
freq gender
uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11
Este caso es mas complejo ya que las clases no estan definidas de manera natural
Hay que dividir el recorrido de la muestra en intervalos no solapados
El punto central de cada intervalo se denomina marca de clase ci
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase (en cada intervalo)
Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior
6
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
uArr Ejercicios 12
Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias
absolutas y relativas
(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos
(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso
Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa
bweight2inp Gretl
Z bweight2inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
generamos un histograma de la variable rsquobweightrsquo
freq bweight
hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoDistribucion de frecuenciasrsquo
Seleccione el numero de intervalos y
desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones
de frecuencias absolutas relativas y acumuladas
uArr Histograma y caracterısticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc
7
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicios 6
Ejercicio 1 Clasificar las siguientes variables
(a) Temperatura maxima diaria
(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto
(c) Calificacion obtenida en un examen
(d) Marca de refresco consumido
(e) Codigo postal que aparece en una carta
(f) Estado civil de una persona
(g) Salario
(Pena y Romo 1997 ejercicio 21 de la seccion 26)
Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar
razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas
(Pena y Romo 1997 ejercicio 25 de la seccion 26)
uArr Tipos de datos en funcion del ındice 7
Seccion cruzada
Datos temporales (series de tiempo)
Datos de panel
3 Analisis grafico y estadıstico de relaciones
31 Analisis grafico y descriptivo de una variable
bull Descripcion de variables cualitativas distribucion de frecuencias
N observaciones
Los datos se clasifican por clases o categorıas (k clases)
colores de coches aparcados en el campus
El orden en que aparecen las clases es arbitrario
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esima
4
uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8
Fichero de datos ldquobweightgdtrdquo
Poblacion Mujeres gestantes y sus bebes recien nacidos
Muestra N = 1832 mujeres
Variable estadıstica raza
Numero de categorıas k = 3
1 = raza blanca 2 =raza negra 3=otras razas
k ni niN diagrama de barras
1 1624 8865
2 109 595
3 99 540
Moda La clase de mayor frecuencia
uArr Ejercicios 9
Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de
la madrerdquo
(b) iquestCual es la moda en esta distribucion
bweightinp Gretl
En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como
un comentario y Gretl lo ignora (es un metodo de documentar los programas)
Z bweightinp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquoracersquo
freq race
tambien lo podemos hacer asi
freq 2
ya que rsquoracersquo tiene asignado el numero 2
o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo
bull Descripcion de variables cuantitativas discretas distribucion de frecuencias
N observaciones
Los datos se ordenan de menor a mayor
Esto permite definir la distribucion de frecuencias acumuladas
5
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
Representamos por
n1 n2 nk
el nordm de observaciones de cada clase (de cada valor)
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni
N frecuencia relativa acumulada hasta la clase i-esima
uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10
Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel
de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)
(b) iquestCual es la moda en esta distribucion
(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los
individuos de la muestra (ldquogenderrdquo)
(d) iquestCual es el tamano de la muestra
cholesterolinp Gretl
Z cholesterolinp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquocholestrsquo
freq cholest
tambien lo podemos hacer asi
freq 1
o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo
diagrama de frecuencias del genero de los individuos de la muestra
freq gender
uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11
Este caso es mas complejo ya que las clases no estan definidas de manera natural
Hay que dividir el recorrido de la muestra en intervalos no solapados
El punto central de cada intervalo se denomina marca de clase ci
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase (en cada intervalo)
Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior
6
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
uArr Ejercicios 12
Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias
absolutas y relativas
(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos
(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso
Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa
bweight2inp Gretl
Z bweight2inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
generamos un histograma de la variable rsquobweightrsquo
freq bweight
hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoDistribucion de frecuenciasrsquo
Seleccione el numero de intervalos y
desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones
de frecuencias absolutas relativas y acumuladas
uArr Histograma y caracterısticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc
7
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8
Fichero de datos ldquobweightgdtrdquo
Poblacion Mujeres gestantes y sus bebes recien nacidos
Muestra N = 1832 mujeres
Variable estadıstica raza
Numero de categorıas k = 3
1 = raza blanca 2 =raza negra 3=otras razas
k ni niN diagrama de barras
1 1624 8865
2 109 595
3 99 540
Moda La clase de mayor frecuencia
uArr Ejercicios 9
Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de
la madrerdquo
(b) iquestCual es la moda en esta distribucion
bweightinp Gretl
En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como
un comentario y Gretl lo ignora (es un metodo de documentar los programas)
Z bweightinp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquoracersquo
freq race
tambien lo podemos hacer asi
freq 2
ya que rsquoracersquo tiene asignado el numero 2
o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo
bull Descripcion de variables cuantitativas discretas distribucion de frecuencias
N observaciones
Los datos se ordenan de menor a mayor
Esto permite definir la distribucion de frecuencias acumuladas
5
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias
Representamos por
n1 n2 nk
el nordm de observaciones de cada clase (de cada valor)
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni
N frecuencia relativa acumulada hasta la clase i-esima
uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10
Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel
de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)
(b) iquestCual es la moda en esta distribucion
(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los
individuos de la muestra (ldquogenderrdquo)
(d) iquestCual es el tamano de la muestra
cholesterolinp Gretl
Z cholesterolinp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquocholestrsquo
freq cholest
tambien lo podemos hacer asi
freq 1
o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo
diagrama de frecuencias del genero de los individuos de la muestra
freq gender
uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11
Este caso es mas complejo ya que las clases no estan definidas de manera natural
Hay que dividir el recorrido de la muestra en intervalos no solapados
El punto central de cada intervalo se denomina marca de clase ci
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase (en cada intervalo)
Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior
6
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
uArr Ejercicios 12
Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias
absolutas y relativas
(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos
(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso
Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa
bweight2inp Gretl
Z bweight2inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
generamos un histograma de la variable rsquobweightrsquo
freq bweight
hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoDistribucion de frecuenciasrsquo
Seleccione el numero de intervalos y
desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones
de frecuencias absolutas relativas y acumuladas
uArr Histograma y caracterısticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc
7
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Representamos por
n1 n2 nk
el nordm de observaciones de cada clase (de cada valor)
ni frecuencia absoluta de la clase i-esima
ni
N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni
N frecuencia relativa acumulada hasta la clase i-esima
uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10
Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo
(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel
de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)
(b) iquestCual es la moda en esta distribucion
(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los
individuos de la muestra (ldquogenderrdquo)
(d) iquestCual es el tamano de la muestra
cholesterolinp Gretl
Z cholesterolinp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
generamos un diagrama de fecuencias de la variable rsquocholestrsquo
freq cholest
tambien lo podemos hacer asi
freq 1
o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo
diagrama de frecuencias del genero de los individuos de la muestra
freq gender
uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11
Este caso es mas complejo ya que las clases no estan definidas de manera natural
Hay que dividir el recorrido de la muestra en intervalos no solapados
El punto central de cada intervalo se denomina marca de clase ci
Representamos por
n1 n2 nk
el nordm de observaciones en cada clase (en cada intervalo)
Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior
6
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender
uArr Ejercicios 12
Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias
absolutas y relativas
(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos
(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso
Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa
bweight2inp Gretl
Z bweight2inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
generamos un histograma de la variable rsquobweightrsquo
freq bweight
hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoDistribucion de frecuenciasrsquo
Seleccione el numero de intervalos y
desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones
de frecuencias absolutas relativas y acumuladas
uArr Histograma y caracterısticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc
7
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicios 12
Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo
(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias
absolutas y relativas
(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos
(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso
Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa
bweight2inp Gretl
Z bweight2inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
generamos un histograma de la variable rsquobweightrsquo
freq bweight
hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoDistribucion de frecuenciasrsquo
Seleccione el numero de intervalos y
desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones
de frecuencias absolutas relativas y acumuladas
uArr Histograma y caracterısticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc
7
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicios 14
Ejercicio 6
(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda
(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales
(b) iquestSimetrica o asimetrica iquestunimodal o bimodal
32 Descripcion numerica de una variable
bull Media y desviacion tıpica
Media o promedio El ldquocentro de la distribucionrdquo
x =x1 + x2 + middot middot middot+ xN
N=
sumxiN
Varianza Medida de la dispersion o concentracion
El promedio de las distancias respecto a x al cuadrado
s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
sum(xi minus x)2
N
Desviacion tıpica Medida de la dispersion o concentracion
Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)
sx =
radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2
N=
radicsum(xi minus x)2
N
Otra forma de calcular la varianza es
s2x =
sum(x2i )
Nminus (x)2
por lo que la desviacion tıpica tambien se puede calcular ası
sx =
radicsum(x2i )
Nminus (x)2
uArr Ejercicios 15
Ejercicio 7
(a) iquestQue variable tiene una media mayor iquestla roja o la azul
(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul
8
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicios 16
Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio
anterior
bweight3inp Gretl
(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro
(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo
(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo
(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para
cual no
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
bull Coeficiente de variacion y de asimetrıa
Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas
CVx =sx|x|
La media no puede ser cero
Coeficiente de asimetrıa
Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)
CAx =
sum(xi minus x)3
Ns3x
9
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
bull Coeficiente de apuntamiento o curtosis
(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum
(ximinusx)4Ns4
xminus 3
uArr Ejercicios 17
Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de
colesterol con sus respectivos histogramas o diagramas de frecuencia
Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los
niveles de colesterol entre lo hombres y las mujeres de la muestra
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-
terol (ldquocholestrdquo)
No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion
(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)
(c) Compare ambas distribuciones iquestHay diferencias
cholesterol2inp Gretl
Z cholesterol2inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo
restringimos la muestra (solo datos de mujeres)
smpl gender=1 --restrict
Tambien podemos restringir la muestra abriendo el menu
despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo
y escribiendo en la ventana que se abre
gender = 1
informacion sobre la distribucion de los niveles de colesterol (para las mujeres)
freq cholest
summary cholest
restauramos la muestra completa
smpl full
Para restaurar la muestra tambien podemo abrir el menu
despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo
10
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
restringimos la muestra (solo datos de mujeres)
smpl gender=0 --restrict
informacion sobre la distribucion de los niveles de colesterol (para los hombres)
freq cholest
summary cholest
bull Estadısticos descriptivos empleando la distribucion de frecuencias
Si no disponemos de los datos originales y solo de la distribucion de frecuencias
Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase
Media
x =
sumci middot niN
Varianza
s2x =
sum(ci minus x)2 middot ni
N
Coeficiente de asimetrıa
CAx =
sum(ci minus x)3 middot niNs3x
Coeficiente de curtosis
CApx =
sum(ci minus x)4 middot niNs4x
minus 3
Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia
El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo
ha sido 48 53 62 y 43
(a) Hallar la nota media de todos los estudiantes
(b) iquestComo podrıa obtenerse la desviacion tıpica
Ejercicio 12
(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica
(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica
(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)
11
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Mediana 18
Mediana El ldquocentro de los datosrdquo (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual
numero de elementos
Ejercicio 13
(a) iquestCual es el peso mediano en la muestra de recien nacidos
(b) iquestCoincide con el peso medio
ZCodigo bweight3inp Gretl
Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales
Z bweight3inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
estadisticos principales
summary bweight
tambien vale con indicar el numero de la variable (1 en este caso)
summary 1
otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando
rsquoEstadisticos descriptivosrsquo
uArr Cuartiles Rango rango intercuartılico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartılico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de
variacion)
12
leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana
y los cuartiles
uArr Ejercicio 21
Ejercicio 14
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)
(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos
(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con
madres de raza distinta (observe el resumen numerico)
bweight4inp Gretl
Z bweight4inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
diagrama de cajas
boxplot bweight --output=display
Gretl tambien entenderia lo siguiente
boxplot 1
(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)
Tambien es posible pinchar con el boton derecho sobre la variable
y seleccionar -gt rsquoGrafico de cajasrsquo
Pinchando con el boton derecho sobre el grafico puede seleccionar en el
menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos
Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)
boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display
Tecleando
boxplot bweight (race=1) bweight (race=2) bweight (race=3)
realizaria lo mismo
13
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Diagramas de cajas con distintos bigotes 22
uArr Robustez de la mediana frente a la media en presencia de atıpicos 23
La media se ve afectada por datos extremos pero no la mediana
Ejercicio 15
(a) Calcule los estadısticos descriptivos de la variable peso
(b) Calcule el rango intercuartılico
(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)
(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartılico
bweight5inp Gretl
La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos
En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico
Z bweight5inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio=mean(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo
varianza=var(bweight)
o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo
desv tip=sd(bweight)
pmediano=median(bweight)
q1=quantile(bweight025)
q3=quantile(bweight075)
rango=q3-q1
definimos un nuevo peso
dato anomalo=700000
guardamos el peso del bebe mas grande
gordito=max(bweight)
generamos una nueva variable con el dato anomalo
14
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
nuevos pesos=replace(bweightgorditodato anomalo)
o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo
o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano
calculo de estadisticos descriptivos rdquouno a unordquo
pmedio n=mean(nuevos pesos)
varianza n=var(nuevos pesos)
desv tip n=sd(nuevos pesos)
pmediano n=median(nuevos pesos)
q1 n=quantile(nuevos pesos025)
q3 n=quantile(nuevos pesos075)
rango n=q3-q1
escribimos los valores
print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n
tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo
uArr Ejercicios 24
Ejercicio 16
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted
quiera) de la distribucion de pesos de los ninos
bweight6inp Gretl
(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo
94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos
pocos puntos)
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos
diagramas de cajas
cholesterol3inp Gretl
Z bweight6inp Gretl
leemos el archivo de datos bweightgdt
open datosbweightgdt
percentiles
p90=quantile(bweight090)
p91=quantile(bweight091)
p94=quantile(bweight094)
p95=quantile(bweight095)
p96=quantile(bweight096)
p97=quantile(bweight097)
p98=quantile(bweight098)
p01=quantile(bweight001)
15
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Z cholesterol3inp Gretl
leemos el archivo de datos cholesterolgdt
open datoscholesterolgdt
percentiles
p90=quantile(cholest090)
p91=quantile(cholest091)
p94=quantile(cholest094)
p95=quantile(cholest095)
p96=quantile(cholest096)
p97=quantile(cholest097)
p98=quantile(cholest098)
diagramas de caja
boxplot 1 (gender=0) 1 (gender=1) --output=display
estadisticos principales
summary cholest --by=gender
uArr Ejercicios 25
Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la
distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy
muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la
asimetrıa hacia la derecha)
(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a
la media
(b) iquestY si la distribucion es asimetrica hacia la izquierda
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las
posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para
mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de
ambas distribuciones
16
leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicios 26
Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en
cierto tipo de electrodomestico
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas
(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados
iquestQue relacion guardan con los valores originales
averiasinp Gretl
averias2inp Gretl
uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27
17
leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)
leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
33 Resumen del analisis grafico y descriptivo de una variable
bull Diagramas de barras e Histogramas
uArr A modo de resumen Diagramas de barras e Histogramas 28
Cualitativas Clases definidas de manera
natural Orden arbitrario
Cuantitativas discretas Clases defi-
nidas de manera natural Orden
pre-establecido
Cuantitativas continuas Clases de-
finidas de arbitraria Orden pre-
establecido
0
01
02
03
04
05
06
07
08
09
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
002
004
006
008
01
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
002
004
006
008
01
012
014
1000 2000 3000 4000 5000F
recu
enci
are
lati
vaPeso del bebe al nacer (gramos)
uArr A modo de resumen Diagramas de caja 29
bull Centro de la distribucion
Moda
Unica medida para variables cualitativas
Sensible a la agregacion de clases
Puede haber multiples modas (multimodal)
Media
La mas importante
Sensible a datos extremos o anomalos
Mediana
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
18
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
bull Medidas de dispersion
Varianza
Sensible a los cambios de unidad (multiplicaciones)
Sensible a datos extremos o anomalos
Desviacion tıpica
Raız cuadrada de la varianza (mismas unidades que los datos)
Coeficiente de variacion
CVx = sx|x|
Carente de unidades (insensible a os cambios de unidad)
Permite compara entre distribuciones
No definido si x = 0
Rango
Diferencia entre los datos maximo y mınimo
iexclSolo dos observaciones definen la dispersion
Rango intercuartılico
Diferencia entre los cuartiles tercero y primero
Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos
bull Otras medidas
Coeficiente de asimetrıa
negativo
asimetrıa a la izquierda La media se situa a la izquierda de la mediana
positivo
asimetrıa a la derecha La media se situa a la derecha de la mediana
Exceso de curtosis Medida de apuntamiento
Valores positivos (distribucion mas apuntada que una distribucion gaussiana)
Valores negativos (distribucion menos apuntada que una distribucion gaussiana)
19
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
34 Analisis grafico y descriptivo de dos variables
uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta edad joven maduro viejo Nrenta
pobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31
renta edad joven maduro viejo P1(middot)pobre 020 010 015 045
media 010 025 005 040
rico 001 006 008 015
P2(middot) 031 041 028 1
1 iquestQuien soy
2 iquestQue edad tengo
3 iquestQue renta tengo
Distribucion condicionada [001 006 008
] 015 =
[007 040 053
]
20
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32
Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo
calificacionesinp Gretl
(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo
Elija ldquomsatrdquo para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de
frecuenciasrsquo con 45 intervalos
(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion
marginal de las calificaciones en matematicas
(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)
(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos
(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la
distribucion marginal de las calificaciones en lengua (No cierre)
Z calificacionesinp Gretl
leemos el archivo de datos data2-1
open data2-1
gnuplot vsat msat --suppress-fitted --output=display
freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)
gnuplot msat vsat --suppress-fitted --output=display
freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
uArr Ejercicio Distribuciones condicionadas 33
Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los
graficos (diagramas de dispersion y barras)
calificaciones2inp Gretl
(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el
resumen numerico (centre su atencion en la calificacion media)
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)
(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)
(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su
resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior
(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
21
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Z calificaciones2inp Gretl
open data2-1 leemos el archivo de datos data2-1
recuerde mirar el resumen numerico de diagrama de caja
boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display
summary vsat estadisticos
smpl msatgt600 --restrict restrinjamos la muestra
summary vsat estadisticos
smpl msatgt650 --restrict restrinjamos la muestra mas aun
summary vsat
bull Variables continuas
uArr Distribuciones absolutas conjunta y marginales 34
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 4 4 1 9
160 minus 164 2 7 10 3 22
165 minus 169 3 20 25 9 4 61
170 minus 174 4 18 26 30 19 1 98
175 minus 179 2 17 22 20 4 1 66
180 minus 184 5 15 17 8 2 47
185 minus 189 1 4 2 1 8
gt 190 1 1
6 18 51 76 77 64 16 4 3121
uArr Distribuciones conjuntas Distribuciones condicionadas 35
Alturas de padres e hijos
Hijos
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
lt 160 0013 0013 0003 0029
160 minus 164 0006 0022 0032 0010 0070
165 minus 169 0010 0064 0080 0028 0013 0195
170 minus 174 0013 0058 0083 0096 0061 0003 0314
175 minus 179 0006 0054 0070 0064 0013 0003 0212
180 minus 184 0016 0048 0054 0026 0006 0151
185 minus 189 0003 0013 0006 0003 0026
gt 190 0003 0003
0019 0058 0163 0244 0247 0205 0051 0013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
165 minus 169 0049 0328 0410 0148 0065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190
185 minus 189 0059 0255 0510 0117 0059
(Regresion a la media)
22
open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion nube de puntos o scatter
Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)
estaturasinp Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
Z estaturasinp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
diagrama de dispersion
scatters Estatura Hijo Estatura Padre --output=display
o mejor
gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display
otra forma es marcar las dos series y desplegar el menu
(pulsando boton derecho sobre ellas) y despues seleccionar
rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)
uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37
Ejercicio 22 Cargue los datos de ventas (ventastxt)
ventasinp Gretl
(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre
ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))
(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo
Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)
ventas2inp Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad
(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)
Z ventasinp Gretl
open datosventastxt
genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor
grafico de las ventas logradas por cada trabajador
gnuplot Ventas index --suppress-fitted --with-lines --output=display
boxplot Ventas --output=display
freq Ventas
23
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Diagrama de dispersion entre ventas y experiencia
gnuplot Ventas Antig --suppress-fitted --output=display
Z ventas2inp Gretl
open datosventas2txt
gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
bull Media y varianza condicionadas
Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)
(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-
valos no solapados por ejemplo de 10 meses cada uno)
ventas3inp Gretl
(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)
ajustando la muestra en funcion de la antiguedad
(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las
varianzas
(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra
completa para generar el graficomdash[smpl full])
Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)
ventas4inp Gretl
Z ventas3inp Gretl
open datosventastxt cargamos datos
smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)
m1=mean(Ventas) calculamos la media de ventas de este grupo
v1=var(Ventas) calculamos la varianza de ventas de este grupo
smpl full recuperamos de nuevo toda la muestra
smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)
smpl Antiglt30 --restrict
m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo
v2=var(Ventas) asi hasta definir la ultima media condicional
smpl full recuperacion de la muestra completa
smpl 30lt=Antig --restrict nueva restriccion
smpl Antiglt40 --restrict
m3=mean(Ventas) calculos
v3=var(Ventas)
24
open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
smpl full recuperacion de la muestra completa
smpl 40lt=Antig --restrict nueva restriccion
smpl Antiglt50 --restrict
m4=mean(Ventas) calculos
v4=var(Ventas)
smpl full
smpl 50lt=Antig --restrict
smpl Antiglt60 --restrict
m5=mean(Ventas)
v5=var(Ventas)
smpl full
smpl 60lt=Antig --restrict
smpl Antiglt70 --restrict
m6=mean(Ventas)
v6=var(Ventas)
el ultimo grupo corresponde a los vendedores con mas
experiencia (70 meses o mas)
smpl full
smpl 70lt=Antig --restrict
m7=mean(Ventas)
v7=var(Ventas)
se observa una clara relacion creciente en las ventas medias
y la experiencia
print m1 m2 m3 m4 m5 m6 m7
pero no en las varianzas
print v1 v2 v3 v4 v5 v6 v7
Diagrama de dispersion de la muestra completa
smpl full
gnuplot Ventas Antig --suppress-fitted --output=display
uArr Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Venta
s
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentasinp Gretl
25
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas
abajo
Z EstCondVentasinp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventastxt cargamos los datos de rdquoventasrdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle
ldquowhilerdquo
Z EstadCondinp Gretl
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)
de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo
function list EstadCond (series y series x scalar w)
ordenamos los datos en funcion de la variable rdquoxrdquo
Y=sortby(xy)
X=sort(x)
inicialmente los limites del primer intervalo son
genr linf=0 limite inferior de intervalo
genr lsup=min(x) limite superior de intervalo
n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)
series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo
series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo
comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)
sea inferior al valor maximo de rdquoxrdquo
loop while lsupltmax(x)
modificamos los limites en cada iteracion limite inferior sera igual al
anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes
genr linf=lsup
genr lsup=lsup+w
restringimos la muestra al intervalo de esta iteracion
smpl X lt lsup --restrict
n1=$nobs num observaciones con antiguedad menor que lsup
smpl X gt= linf --restrict
n2=round($nobs2) num observaciones en el intervalo actual
n=n+n2 posicion estadisticos condicionados
calculamos media y varianza condicionadas (las del intervalo)
media = mean(Y)
varianza = var(Y)
smpl full restauramos la muestra completa
guardamos los estadisticos en la posicion rdquonrdquo
genr MCond[n] = media
26
include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
genr S2Cond[n] = varianza
n=n1 desplazamos origen de la cuenta para nueva posicion
endloop
gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados
list EstCond = MCond S2Cond
return EstCond
end function
uArr Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000
Venta
s
Varianza
condicionada
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2inp Gretl
Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt
Z EstCondVentas2inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open datosventas2txt cargamos los datos de rdquoventas2rdquo
calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo
(intervalos de antiguedad de 10 meses)
list EstCond = EstadCond(VentasAntig10)
uArr ejercicios 40
Reproduzcamos los dos graficos anteriores
Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo
-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo
calificaciones3inp Gretl
(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos
de 100 puntos por ejemplo)
(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua
(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o
por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en
otras
27
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Z calificaciones3inp Gretl
include EstadCondinp cargamos la funcion rdquoEstadCondrdquo
open data2-1 cargamos los datos de las calificaciones
EstadCond(vsatmsat100) media lengua condicionada a nota en mates
EstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables
uArr Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables
1 Relacion lineal positiva
2 Relacion lineal negativa
3 Relacion lineal aparente pero debida a observaciones atıpicas
4 Relacion no lineal
5 Sin relacion aparente entre las variables
28
include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43
cov(x y) =
sum(xi minus x)(yi minus y)
N
y
x
Estatu
radelhijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
uArr Covarianza 44
cov(x y) =
sum(xi minus x)(yi minus y)
N
Mide el grado de asociacion lineal entre dos variable x e y
Si es ldquogranderdquo y positivo fuerte asociacion lineal directa
Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa
pero iquestque significa ldquogranderdquo
La covarianza depende de las unidades de medida de x e y
La covarianza depende de la dispersion de x e y
Es necesaria una normalizacion
uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45
Coef correlacion de Pearson ρxy =cov(x y)
sxsy minus1 le cor(x y) le 1
Ahora ldquogranderdquo significa proximo a uno en valor absoluto
29
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicios 46
Ejercicio 27 Cargue los datos estatura padre hijogdt
estaturas2inp Gretl
(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)
(b) Transforme las alturas en desviaciones respecto a la media
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)
(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la
correlacion (y pinte otro diagrama de dispersion)
(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion
y la nube de puntos
(f) Compare los valores de las covarianzas y las correlaciones
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos
con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)
Z estaturas2inp Gretl
leemos el archivo de datos estatura padre hijogdt
open datosestatura padre hijogdt
cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza
corr ph=corr(Estatura Hijo Estatura Padre)
gnuplot Estatura Hijo Estatura Padre --output=display
en desviaciones respecto a la media (metros)
series Hijo0=Estatura Hijo-mean(Estatura Hijo)
series Padre0=Estatura Padre-mean(Estatura Padre)
cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza
corr ph0=corr(Hijo0 Padre0)
gnuplot Hijo0 Padre0 --output=display
en desviaciones respecto a la media (centimetros)
series Hijo0cm=Hijo0100
series Padre0cm=Padre0100
cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs
corr ph0 cm=corr(Hijo0cm Padre0cm)
gnuplot Hijo0cm Padre0cm --output=display
en desviaciones respecto a la media (milimetros)
series Hijo0mm=Hijo01000
series Padre0mm=Padre01000
cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs
corr ph0 mm=corr(Hijo0mm Padre0mm)
gnuplot Estatura Hijo Padre0mm --output=display
print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm
Estatura hijo y su trasformacion lineal
cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs
30
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
corr hh0cm=corr(Estatura HijoHijo0cm)
gnuplot Estatura Hijo Hijo0cm --output=display
print cov hh0cm corr hh0cm
uArr Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atıpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120
pre
cio
superficie
Datos heterogenos
uArr Ejercicios 48
Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt
CorrHeterogeneidad1inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
Z CorrHeterogeneidad1inp Gretl
open datosCorrHeterogeneidad1gdt
rho=corr(xy)
gnuplot y x --output=display
smpl 1 5
rho2=corr(xy)
gnuplot y x --output=display
print rho rho2
uArr Ejercicios 49
Ejercicio 29 Cargue los datos PrecioPisosgdt
CorrHeterogeneidad2inp Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
31
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Z CorrHeterogeneidad2inp Gretl
open datosPrecioPisosgdt
rho=corr(preciosup)
gnuplot precio sup --output=display
smpl barrio ciudad=1 --restrict
rho1=corr(preciosup)
gnuplot precio sup --output=display
smpl full
smpl barrio ciudad=2 --restrict
rho2=corr(preciosup)
gnuplot precio sup --output=display
print rho rho1 rho2
uArr Correlacion y causalidad Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo
iquestEs sensata la siguiente conclusion
ldquoHoy llovera porque lo han dicho en las noticiasrdquo
Temperatura media en Madrid y nordm de bodas
Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
uArr Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
32
open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
uArr Ejercicios 52
Ejercicio 30 Cargue los datos PrecioPisos2gdt
pisos2inp Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
Z pisos2inp Gretl
open datosPrecioPisos2gdt
smpl superficie gt= 80 --restrict
smpl superficie lt 100 --restrict
rho 80 100=corr(preciosuperficie)
gnuplot precio superficie --output=display
smpl full
rho=corr(preciosuperficie)
gnuplot precio superficie --output=display
print rho rho 80 100
uArr Ejercicios 53
Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la
relacion es positiva o negativa
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 32
(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se
casaran con un hombre dos anos mayor que ellas
(b) iquestY si lo hiciesen con hombres que son cinco anos mayores
uArr Ejercicios 54
Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es
de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta
33
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Practica sobre el contraste de independencia de Pearson
Ejercicio 34
(a) Lease el Capıtulo 24 de Pena y Romo (1997)
(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el
tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que
el enorme transatlantico impacto con un iceberg y se hundio
k perece (0) sobrevive (1) TOTAL
1ordf 129 193 322
2ordf 161 119 280
3ordf 574 137 711
TOTAL 864 449 1313
Cuadro 1 Tabla de contingencia observada para el accidente del Titanic
Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la
proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros
de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron
( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864
1313middot 322
1313middot 1313 = 211887
Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a
( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499
1313middot 322
1313middot 1313 = 110113
o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo
(1997))
(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113
En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de
los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que
aparece a continuacion
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 280
3ordf 711
TOTAL 864 449 1313
Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic
(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson
se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia
El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_
the_test-statistic)
χ2 =sum (Obsi minus Espi)2
Espi
Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando
xtab (iexclque es mucho mas comodo)
34
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-
dientes
Z titanicinp Gretl
open datostitanicgdt
xtab pclass survived o tambien xtab 1 2
(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de
sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente
Practicas sobre el coeficiente de correlacion por rangos de Spearman
Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia
orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml
Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-
prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe
Figura 1 Diagramas de dispersion de los datos de Anscombe
Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas
comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre
ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a
trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro
35
open datostitanicgdtxtab pclass survived o tambien xtab 1 2
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Propiedades comunes a los cuatro grupos Valor
Media de cada una de las variables x 90
Varianza de cada una de las variables x 110
Media de cada una de las variables y 75
Varianza de cada una de las variables y 412
Coef de Correlacion de Pearson entre cada una de las variables x e y 0816
Recta de regresion y = 3 + 05x
Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de
datos
El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento
de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del
menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta
el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si
hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona
decreciente el coeficiente tomarıa el valor -1
En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda
la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo
mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de
correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso
El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos
muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion
monotona decreciente Por ello el coeficiente es menor que en el caso anterior
En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global
aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a
los dos anteriores
En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de
valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion
es creciente o decreciente
Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes
de correlacion por rangos para los siguientes pares de variables
(a) y1 con x
(b) y2 con x
(c) y3 con x
(d) y4 con x4
(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de
variables anteriores
Z SpearmanAnscombeinp Gretl
open anscombegdt
gnuplot y1 x --output=display
spearman --verbose y1 x
gnuplot y2 x --output=display
spearman --verbose y2 x
gnuplot y3 x --output=display
36
open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
spearman --verbose y3 x
gnuplot y4 x4 --output=display
spearman --verbose y4 x4
corr y1 y2 y3 x
corr y4 x4
Ejercicio 36
(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)
con los de datos anuales sobre las patentes de EEUU y los gastos en I + D
YEAR de 1960 a 1993 (34 observaciones)
PATENTS Numero de solicitudes de patentes presentadas en miles
R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los
gastos en dolares corrientes dividido por el deflactor del PIB
(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical
(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de
solicitudes de patentes
(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto
en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el
contrario iquestobserva una pendiente distinta a lo largo de la muestra
(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el
coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando
spearman
Z PatentesIDinp Gretl
open data3-3gdt
gnuplot PATENTS R D --suppress-fitted --output=display
spearman PATENTS R D
37
open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Algunos ejercicios sencillos
Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-
morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto
atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro
estudiantes del curso
Estadistifobia entre los estudiantes
puntuacion frecuencia
5 1
7 2
10 1
Total 4
y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media
de los datossumxi = 29
sum(ximinusx) = 0
sum(ximinusx)2 = 1275
sum(ximinusx)3 = 937
sum(ximinusx)4 = 8283
Para esta muestra de 4 datos calcule1
(a) la media la varianza muestral la desviacion estandar
(b) la mediana
(c) la moda
(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las
respuestas
Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones
en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana
Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas
de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro
indicados mas abajo) con su correlacion
1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza
(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)
38
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
diagrama correlacion
(a) x1 frente a x2 (i) 12
(b) x1 frente a x3 (ii) 95
(c) x2 frente a x3 (iii) -80
(d) x2 frente a x4 (iv) 50
Ejercicio 40 iquestVerdadero o falso (VF)
(a) La mediana es insensible a valores extremos
(b) La media es insensible a valores extremos
(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana
(d) La varianza es igual al cuadrado de la desviacion tıpica
(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una
variable discreta
(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta
excesiva asimetrıa
(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir
y resumir los datos con unos pocos estadısticos
(h) Una muestra es un subconjunto de una poblacion
(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion
(j) Una poblacion es un subconjunto de una muestra
(k) Una poblacion es la coleccion completa de elementos bajo estudio
Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-
llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima
erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada
erupcion con el tiempo de espera hasta la siguiente (en segundos)
39
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo
de espera hasta la siguiente (de una brevısima explicacion a su respuesta)
(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su
prevision del tiempo de espera hasta la proxima
(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones
Bibliografıa
Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid
ISBN 84-481-1617-8 4 34
40
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Soluciones a los Ejercicios
Ejercicio 11(a)
x =
sumci middot niN
=48times 87 + 53times 81 + 62times 69 + 43times 24
87 + 81 + 69 + 24= 528
donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo
Ejercicio 11(b)
sx =
radicsum(ci minus x)2 middot ni
N
=
radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24
261
=radic
0389 = 06237
Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)
Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros
y dos 10 (es decir 0 0 10 10)
Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales
No para (b)
Ejercicio 34(b)
k perece (0) sobrevive (1) TOTAL
1ordf 211887 110113 322
2ordf 184250 95750 280
3ordf 467863 243137 711
TOTAL 864 449 1313
Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion
Tener un buen billete aumento mucho la probabilidad de sobrevivir
Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad
de sobrevivir
Z titanic2inp Gretl
open datostitanicgdt
41
open datostitanicgdtxtab sex survived o tambien xtab 3 2
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
xtab sex survived o tambien xtab 3 2
Ejercicio 36(c) La relacion es creciente a lo largo de la muestra
Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no
hay una relacion lineal entre PATENTS y R D
Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)
Ejercicio 37(b) 7
Ejercicio 37(c) 7
Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)
Ejercicio 40(a) V
Ejercicio 40(b) F
Ejercicio 40(c) V
Ejercicio 40(d) V
Ejercicio 40(e) V
Ejercicio 40(f) V
Ejercicio 40(g) V
Ejercicio 40(h) V
Ejercicio 40(i) V
42
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-
Ejercicio 40(j) F
Ejercicio 40(k) V
Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere
que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente
Ejercicio 41(b) Alrededor de 80 segundos
Ejercicio 41(c) Dos
43
- Tabla de Contenido
- 1 Naturaleza y objetivos de la econometriacutea
- 1 [T-1] Introduccioacuten iquestPor queacute modelar
- 2 [T-2] El objetivo de la econometriacutea
- 2 Tipologiacutea de variables
- 3 [T-3] Poblacioacuten y variable estadiacutestica
- 4 [T-4] Variables estadiacutesticas cualitativas
- 5 [T-5] Variables estadiacutesticas cuantitativas
- 6 [T-6] Ejercicios
- 7 [T-7] Tipos de datos en funcioacuten del iacutendice
- 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
-
- 31 Anaacutelisis graacutefico y descriptivo de una variable
-
- 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
- 9 [T-9] Ejercicios
- 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
- 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
- 12 [T-12] Ejercicios
- 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
- 14 [T-14] Ejercicios
-
- 32 Descripcioacuten numeacuterica de una variable
-
- 15 [T-15] Ejercicios
- 16 [T-16] Ejercicios
- 17 [T-17] Ejercicios
- 18 [T-18] Mediana
- 19 [T-19] Cuartiles Rango rango intercuartiacutelico
- 20 [T-20] Diagrama de cajas
- 21 [T-21] Ejercicio
- 22 [T-22] Diagramas de cajas con distintos bigotes
- 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
- 24 [T-24] Ejercicios
- 25 [T-25] Ejercicios
- 26 [T-26] Ejercicios
- 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
-
- 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
-
- 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
- 29 [T-29] A modo de resumen Diagramas de caja
-
- 34 Anaacutelisis graacutefico y descriptivo de dos variables
-
- 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
- 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
- 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
- 33 [T-33] Ejercicio Distribuciones condicionadas
- 34 [T-34] Distribuciones absolutas conjunta y marginales
- 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
- 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
- 38 [T-38] Media y varianza condicionadas
- 39 [T-39] Media y varianza condicionadas
- 40 [T-40] ejercicios
- 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
- 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
- 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
- 44 [T-44] Covarianza
- 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
- 46 [T-46] Ejercicios
- 47 [T-47] Correlacioacuten y heterogeneidad
- 48 [T-48] Ejercicios
- 49 [T-49] Ejercicios
- 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
- 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
- 52 [T-52] Ejercicios
- 53 [T-53] Ejercicios
- 54 [T-54] Ejercicios
- Apeacutendices
-
- Praacutectica sobre el contraste de independencia de Pearson
- Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
- Bibliografiacutea
- Soluciones a los Ejercicios
-