EconometriaGRADO T1 Print

43
Dpto. de Econom´ ıa Cuantitativa Universidad Complutense de Madrid ECONOMETR ´ IA Introducci´ on a la econometr´ ıa; y an´ alisis gr´ afico y estad´ ıstico de relaciones Marcos Bujosa Trasparencias de clase para la asignatura econometr´ ıa de los grados en Econom´ ıa y Administraci´ on y Direcci´ on de Empresas de la Universidad Complutense de Madrid. 2010–2012 Marcos Bujosa [email protected] Actualizado el: 8 de marzo de 2012 Version 0.1.03 Copyright 2010–2012 Marcos Bujosa [email protected] Este material docente se distribuye bajo la Creative Commons Attribution-Share Alike 3.0 Spain. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/3.0/es/. Tabla de Contenido 1. Naturaleza y objetivos de la econometr´ ıa ............................. 2 2. Tipolog´ ıa de variables ....................................... 3 3. An´ alisis gr´ afico y estad´ ıstico de relaciones ............................ 4 3.1. An´ alisis gr´ afico y descriptivo de una variable ...................... 4 3.2. Descripci´ on num´ erica de una variable .......................... 8 3.3. Resumen del an´ alisis gr´ afico y descriptivo de una variable ............... 18 3.4. An´ alisis gr´ afico y descriptivo de dos variables ...................... 20 Ap´ endices 34 Pr´ actica sobre el contraste de independencia de Pearson ....................... 34 Pr´ actica sobre el coeficiente de correlaci´ on por rangos de Spearman ................. 35 Bibliograf´ ıa ................................................ 40 Soluciones a los Ejercicios ..................................... 41

description

econometrics

Transcript of EconometriaGRADO T1 Print

Page 1: EconometriaGRADO T1 Print

Dpto de Economıa CuantitativaUniversidad Complutense de Madrid

ECONOMETRIA

Introduccion a la econometrıa y analisis

grafico y estadıstico de relaciones

Marcos Bujosa

Trasparencias de clase para la asignatura econometrıa de los grados en

Economıa y Administracion y Direccion de Empresas de la Universidad

Complutense de Madrid

copy 2010ndash2012 Marcos Bujosa marcosbujosacceeucmes

Actualizado el 8 de marzo de 2012 Version 0103

Copyright copy 2010ndash2012 Marcos Bujosa marcosbujosacceeucmes

Este material docente se distribuye bajo la Creative Commons Attribution-Share Alike 30 Spain Para

ver una copia de esta licencia visite httpcreativecommonsorglicensesby-sa30es

Tabla de Contenido

1 Naturaleza y objetivos de la econometrıa 2

2 Tipologıa de variables 3

3 Analisis grafico y estadıstico de relaciones 4

31 Analisis grafico y descriptivo de una variable 4

32 Descripcion numerica de una variable 8

33 Resumen del analisis grafico y descriptivo de una variable 18

34 Analisis grafico y descriptivo de dos variables 20

Apendices 34

Practica sobre el contraste de independencia de Pearson 34

Practica sobre el coeficiente de correlacion por rangos de Spearman 35

Bibliografıa 40

Soluciones a los Ejercicios 41

1 Naturaleza y objetivos de la econometrıa

Las dos primeras transparecias de esta seccion estan basadas en el material de Miguel Jerez http

econometriamjblogspotcompeconometricshtml

uArr Introduccion iquestPor que modelar 1

Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos (ldquola muestrardquo)

El modelo sera util si resulta mas simple que los datos que representa pero captura las caracterısticas

mas interesantes de los datos

Se pueden construir modelos para satisfacer diferentes necesidades tales como

Estimacion

Prevision

Simulacion

Control

uArr El objetivo de la econometrıa 2

Econometrıa aplica inferencia estadıstica en modelos economicos Objetivos

Estimacion por ejemplo

sensibilidad de un valor financiero a movimientos de un ındice de referencia para evaluar

su exposicion al riesgo y cobertura con derivados sobre el ındice

Previsiones por ejemplo

probabilidad de incumplimiento futuro de un prestamo en funcion de las caracterısticas

de la operacion y del solicitante

Simulacion por ejemplo

rendimiento de una cartera de valores en diferentes escenarios

control por ejemplo

bancos centrales nivel de tipos de intervencion para controlar la inflacion

2

2 Tipologıa de variables

uArr Poblacion y variable estadıstica 3

Poblacion El universo de objetos estudiados

Conjunto de hogares alumnos de un curso automoviles fabricados este ano

Variable estadıstica Cada rasgo o caracterıstica de los elementos de la poblacion

Gasto anual en alimentacion color de ojos consumo de combustible por km

cualitativas El rasgo descrito no es de naturaleza numerica

color de ojos sexo nombre de la empresa

cuantitativas El rasgo es numerico

peso temperatura ingresos anuales precio

uArr Variables estadısticas cualitativas 4

Con cierta frecuencia las variables cualitativas se expresan con numeros

nominales La asignacion de numeros a las categorıas es arbitraria

mujer=1 hombre=0 Europa=1 EEUU=2 Japon=3 Otros=4

ordinales Indican un orden

producto preferido=3 siguiente en preferencia=2 menos deseado=1

En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido

uArr Variables estadısticas cuantitativas 5

discretas Suelen ser el resultado de contar

nordm de descendientes de una pareja lavadoras producidas

continuas Suelen ser medidas y tener decimales

temperatura peso superficie de una vivienda

3

uArr Ejercicios 6

Ejercicio 1 Clasificar las siguientes variables

(a) Temperatura maxima diaria

(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto

(c) Calificacion obtenida en un examen

(d) Marca de refresco consumido

(e) Codigo postal que aparece en una carta

(f) Estado civil de una persona

(g) Salario

(Pena y Romo 1997 ejercicio 21 de la seccion 26)

Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar

razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas

(Pena y Romo 1997 ejercicio 25 de la seccion 26)

uArr Tipos de datos en funcion del ındice 7

Seccion cruzada

Datos temporales (series de tiempo)

Datos de panel

3 Analisis grafico y estadıstico de relaciones

31 Analisis grafico y descriptivo de una variable

bull Descripcion de variables cualitativas distribucion de frecuencias

N observaciones

Los datos se clasifican por clases o categorıas (k clases)

colores de coches aparcados en el campus

El orden en que aparecen las clases es arbitrario

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esima

4

uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8

Fichero de datos ldquobweightgdtrdquo

Poblacion Mujeres gestantes y sus bebes recien nacidos

Muestra N = 1832 mujeres

Variable estadıstica raza

Numero de categorıas k = 3

1 = raza blanca 2 =raza negra 3=otras razas

k ni niN diagrama de barras

1 1624 8865

2 109 595

3 99 540

Moda La clase de mayor frecuencia

uArr Ejercicios 9

Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de

la madrerdquo

(b) iquestCual es la moda en esta distribucion

bweightinp Gretl

En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como

un comentario y Gretl lo ignora (es un metodo de documentar los programas)

Z bweightinp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquoracersquo

freq race

tambien lo podemos hacer asi

freq 2

ya que rsquoracersquo tiene asignado el numero 2

o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo

bull Descripcion de variables cuantitativas discretas distribucion de frecuencias

N observaciones

Los datos se ordenan de menor a mayor

Esto permite definir la distribucion de frecuencias acumuladas

5

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

Representamos por

n1 n2 nk

el nordm de observaciones de cada clase (de cada valor)

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni

N frecuencia relativa acumulada hasta la clase i-esima

uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10

Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel

de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)

(b) iquestCual es la moda en esta distribucion

(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los

individuos de la muestra (ldquogenderrdquo)

(d) iquestCual es el tamano de la muestra

cholesterolinp Gretl

Z cholesterolinp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquocholestrsquo

freq cholest

tambien lo podemos hacer asi

freq 1

o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo

diagrama de frecuencias del genero de los individuos de la muestra

freq gender

uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11

Este caso es mas complejo ya que las clases no estan definidas de manera natural

Hay que dividir el recorrido de la muestra en intervalos no solapados

El punto central de cada intervalo se denomina marca de clase ci

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase (en cada intervalo)

Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior

6

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

uArr Ejercicios 12

Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias

absolutas y relativas

(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos

(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso

Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa

bweight2inp Gretl

Z bweight2inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

generamos un histograma de la variable rsquobweightrsquo

freq bweight

hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoDistribucion de frecuenciasrsquo

Seleccione el numero de intervalos y

desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones

de frecuencias absolutas relativas y acumuladas

uArr Histograma y caracterısticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc

7

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 2: EconometriaGRADO T1 Print

1 Naturaleza y objetivos de la econometrıa

Las dos primeras transparecias de esta seccion estan basadas en el material de Miguel Jerez http

econometriamjblogspotcompeconometricshtml

uArr Introduccion iquestPor que modelar 1

Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos (ldquola muestrardquo)

El modelo sera util si resulta mas simple que los datos que representa pero captura las caracterısticas

mas interesantes de los datos

Se pueden construir modelos para satisfacer diferentes necesidades tales como

Estimacion

Prevision

Simulacion

Control

uArr El objetivo de la econometrıa 2

Econometrıa aplica inferencia estadıstica en modelos economicos Objetivos

Estimacion por ejemplo

sensibilidad de un valor financiero a movimientos de un ındice de referencia para evaluar

su exposicion al riesgo y cobertura con derivados sobre el ındice

Previsiones por ejemplo

probabilidad de incumplimiento futuro de un prestamo en funcion de las caracterısticas

de la operacion y del solicitante

Simulacion por ejemplo

rendimiento de una cartera de valores en diferentes escenarios

control por ejemplo

bancos centrales nivel de tipos de intervencion para controlar la inflacion

2

2 Tipologıa de variables

uArr Poblacion y variable estadıstica 3

Poblacion El universo de objetos estudiados

Conjunto de hogares alumnos de un curso automoviles fabricados este ano

Variable estadıstica Cada rasgo o caracterıstica de los elementos de la poblacion

Gasto anual en alimentacion color de ojos consumo de combustible por km

cualitativas El rasgo descrito no es de naturaleza numerica

color de ojos sexo nombre de la empresa

cuantitativas El rasgo es numerico

peso temperatura ingresos anuales precio

uArr Variables estadısticas cualitativas 4

Con cierta frecuencia las variables cualitativas se expresan con numeros

nominales La asignacion de numeros a las categorıas es arbitraria

mujer=1 hombre=0 Europa=1 EEUU=2 Japon=3 Otros=4

ordinales Indican un orden

producto preferido=3 siguiente en preferencia=2 menos deseado=1

En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido

uArr Variables estadısticas cuantitativas 5

discretas Suelen ser el resultado de contar

nordm de descendientes de una pareja lavadoras producidas

continuas Suelen ser medidas y tener decimales

temperatura peso superficie de una vivienda

3

uArr Ejercicios 6

Ejercicio 1 Clasificar las siguientes variables

(a) Temperatura maxima diaria

(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto

(c) Calificacion obtenida en un examen

(d) Marca de refresco consumido

(e) Codigo postal que aparece en una carta

(f) Estado civil de una persona

(g) Salario

(Pena y Romo 1997 ejercicio 21 de la seccion 26)

Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar

razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas

(Pena y Romo 1997 ejercicio 25 de la seccion 26)

uArr Tipos de datos en funcion del ındice 7

Seccion cruzada

Datos temporales (series de tiempo)

Datos de panel

3 Analisis grafico y estadıstico de relaciones

31 Analisis grafico y descriptivo de una variable

bull Descripcion de variables cualitativas distribucion de frecuencias

N observaciones

Los datos se clasifican por clases o categorıas (k clases)

colores de coches aparcados en el campus

El orden en que aparecen las clases es arbitrario

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esima

4

uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8

Fichero de datos ldquobweightgdtrdquo

Poblacion Mujeres gestantes y sus bebes recien nacidos

Muestra N = 1832 mujeres

Variable estadıstica raza

Numero de categorıas k = 3

1 = raza blanca 2 =raza negra 3=otras razas

k ni niN diagrama de barras

1 1624 8865

2 109 595

3 99 540

Moda La clase de mayor frecuencia

uArr Ejercicios 9

Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de

la madrerdquo

(b) iquestCual es la moda en esta distribucion

bweightinp Gretl

En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como

un comentario y Gretl lo ignora (es un metodo de documentar los programas)

Z bweightinp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquoracersquo

freq race

tambien lo podemos hacer asi

freq 2

ya que rsquoracersquo tiene asignado el numero 2

o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo

bull Descripcion de variables cuantitativas discretas distribucion de frecuencias

N observaciones

Los datos se ordenan de menor a mayor

Esto permite definir la distribucion de frecuencias acumuladas

5

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

Representamos por

n1 n2 nk

el nordm de observaciones de cada clase (de cada valor)

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni

N frecuencia relativa acumulada hasta la clase i-esima

uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10

Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel

de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)

(b) iquestCual es la moda en esta distribucion

(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los

individuos de la muestra (ldquogenderrdquo)

(d) iquestCual es el tamano de la muestra

cholesterolinp Gretl

Z cholesterolinp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquocholestrsquo

freq cholest

tambien lo podemos hacer asi

freq 1

o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo

diagrama de frecuencias del genero de los individuos de la muestra

freq gender

uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11

Este caso es mas complejo ya que las clases no estan definidas de manera natural

Hay que dividir el recorrido de la muestra en intervalos no solapados

El punto central de cada intervalo se denomina marca de clase ci

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase (en cada intervalo)

Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior

6

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

uArr Ejercicios 12

Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias

absolutas y relativas

(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos

(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso

Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa

bweight2inp Gretl

Z bweight2inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

generamos un histograma de la variable rsquobweightrsquo

freq bweight

hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoDistribucion de frecuenciasrsquo

Seleccione el numero de intervalos y

desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones

de frecuencias absolutas relativas y acumuladas

uArr Histograma y caracterısticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc

7

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 3: EconometriaGRADO T1 Print

2 Tipologıa de variables

uArr Poblacion y variable estadıstica 3

Poblacion El universo de objetos estudiados

Conjunto de hogares alumnos de un curso automoviles fabricados este ano

Variable estadıstica Cada rasgo o caracterıstica de los elementos de la poblacion

Gasto anual en alimentacion color de ojos consumo de combustible por km

cualitativas El rasgo descrito no es de naturaleza numerica

color de ojos sexo nombre de la empresa

cuantitativas El rasgo es numerico

peso temperatura ingresos anuales precio

uArr Variables estadısticas cualitativas 4

Con cierta frecuencia las variables cualitativas se expresan con numeros

nominales La asignacion de numeros a las categorıas es arbitraria

mujer=1 hombre=0 Europa=1 EEUU=2 Japon=3 Otros=4

ordinales Indican un orden

producto preferido=3 siguiente en preferencia=2 menos deseado=1

En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido

uArr Variables estadısticas cuantitativas 5

discretas Suelen ser el resultado de contar

nordm de descendientes de una pareja lavadoras producidas

continuas Suelen ser medidas y tener decimales

temperatura peso superficie de una vivienda

3

uArr Ejercicios 6

Ejercicio 1 Clasificar las siguientes variables

(a) Temperatura maxima diaria

(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto

(c) Calificacion obtenida en un examen

(d) Marca de refresco consumido

(e) Codigo postal que aparece en una carta

(f) Estado civil de una persona

(g) Salario

(Pena y Romo 1997 ejercicio 21 de la seccion 26)

Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar

razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas

(Pena y Romo 1997 ejercicio 25 de la seccion 26)

uArr Tipos de datos en funcion del ındice 7

Seccion cruzada

Datos temporales (series de tiempo)

Datos de panel

3 Analisis grafico y estadıstico de relaciones

31 Analisis grafico y descriptivo de una variable

bull Descripcion de variables cualitativas distribucion de frecuencias

N observaciones

Los datos se clasifican por clases o categorıas (k clases)

colores de coches aparcados en el campus

El orden en que aparecen las clases es arbitrario

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esima

4

uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8

Fichero de datos ldquobweightgdtrdquo

Poblacion Mujeres gestantes y sus bebes recien nacidos

Muestra N = 1832 mujeres

Variable estadıstica raza

Numero de categorıas k = 3

1 = raza blanca 2 =raza negra 3=otras razas

k ni niN diagrama de barras

1 1624 8865

2 109 595

3 99 540

Moda La clase de mayor frecuencia

uArr Ejercicios 9

Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de

la madrerdquo

(b) iquestCual es la moda en esta distribucion

bweightinp Gretl

En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como

un comentario y Gretl lo ignora (es un metodo de documentar los programas)

Z bweightinp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquoracersquo

freq race

tambien lo podemos hacer asi

freq 2

ya que rsquoracersquo tiene asignado el numero 2

o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo

bull Descripcion de variables cuantitativas discretas distribucion de frecuencias

N observaciones

Los datos se ordenan de menor a mayor

Esto permite definir la distribucion de frecuencias acumuladas

5

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

Representamos por

n1 n2 nk

el nordm de observaciones de cada clase (de cada valor)

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni

N frecuencia relativa acumulada hasta la clase i-esima

uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10

Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel

de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)

(b) iquestCual es la moda en esta distribucion

(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los

individuos de la muestra (ldquogenderrdquo)

(d) iquestCual es el tamano de la muestra

cholesterolinp Gretl

Z cholesterolinp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquocholestrsquo

freq cholest

tambien lo podemos hacer asi

freq 1

o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo

diagrama de frecuencias del genero de los individuos de la muestra

freq gender

uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11

Este caso es mas complejo ya que las clases no estan definidas de manera natural

Hay que dividir el recorrido de la muestra en intervalos no solapados

El punto central de cada intervalo se denomina marca de clase ci

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase (en cada intervalo)

Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior

6

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

uArr Ejercicios 12

Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias

absolutas y relativas

(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos

(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso

Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa

bweight2inp Gretl

Z bweight2inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

generamos un histograma de la variable rsquobweightrsquo

freq bweight

hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoDistribucion de frecuenciasrsquo

Seleccione el numero de intervalos y

desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones

de frecuencias absolutas relativas y acumuladas

uArr Histograma y caracterısticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc

7

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 4: EconometriaGRADO T1 Print

uArr Ejercicios 6

Ejercicio 1 Clasificar las siguientes variables

(a) Temperatura maxima diaria

(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto

(c) Calificacion obtenida en un examen

(d) Marca de refresco consumido

(e) Codigo postal que aparece en una carta

(f) Estado civil de una persona

(g) Salario

(Pena y Romo 1997 ejercicio 21 de la seccion 26)

Ejercicio 2 Se plantea un estudio para ordenar las cien mayores empresas de un paıs Determinar

razonadamente tres variables en que basar la clasificacion iquestQue tipo de variables es cada una de ellas

(Pena y Romo 1997 ejercicio 25 de la seccion 26)

uArr Tipos de datos en funcion del ındice 7

Seccion cruzada

Datos temporales (series de tiempo)

Datos de panel

3 Analisis grafico y estadıstico de relaciones

31 Analisis grafico y descriptivo de una variable

bull Descripcion de variables cualitativas distribucion de frecuencias

N observaciones

Los datos se clasifican por clases o categorıas (k clases)

colores de coches aparcados en el campus

El orden en que aparecen las clases es arbitrario

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esima

4

uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8

Fichero de datos ldquobweightgdtrdquo

Poblacion Mujeres gestantes y sus bebes recien nacidos

Muestra N = 1832 mujeres

Variable estadıstica raza

Numero de categorıas k = 3

1 = raza blanca 2 =raza negra 3=otras razas

k ni niN diagrama de barras

1 1624 8865

2 109 595

3 99 540

Moda La clase de mayor frecuencia

uArr Ejercicios 9

Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de

la madrerdquo

(b) iquestCual es la moda en esta distribucion

bweightinp Gretl

En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como

un comentario y Gretl lo ignora (es un metodo de documentar los programas)

Z bweightinp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquoracersquo

freq race

tambien lo podemos hacer asi

freq 2

ya que rsquoracersquo tiene asignado el numero 2

o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo

bull Descripcion de variables cuantitativas discretas distribucion de frecuencias

N observaciones

Los datos se ordenan de menor a mayor

Esto permite definir la distribucion de frecuencias acumuladas

5

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

Representamos por

n1 n2 nk

el nordm de observaciones de cada clase (de cada valor)

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni

N frecuencia relativa acumulada hasta la clase i-esima

uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10

Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel

de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)

(b) iquestCual es la moda en esta distribucion

(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los

individuos de la muestra (ldquogenderrdquo)

(d) iquestCual es el tamano de la muestra

cholesterolinp Gretl

Z cholesterolinp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquocholestrsquo

freq cholest

tambien lo podemos hacer asi

freq 1

o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo

diagrama de frecuencias del genero de los individuos de la muestra

freq gender

uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11

Este caso es mas complejo ya que las clases no estan definidas de manera natural

Hay que dividir el recorrido de la muestra en intervalos no solapados

El punto central de cada intervalo se denomina marca de clase ci

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase (en cada intervalo)

Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior

6

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

uArr Ejercicios 12

Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias

absolutas y relativas

(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos

(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso

Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa

bweight2inp Gretl

Z bweight2inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

generamos un histograma de la variable rsquobweightrsquo

freq bweight

hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoDistribucion de frecuenciasrsquo

Seleccione el numero de intervalos y

desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones

de frecuencias absolutas relativas y acumuladas

uArr Histograma y caracterısticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc

7

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 5: EconometriaGRADO T1 Print

uArr Descripcion de variables cualitativas Ejemplo de distribucion de frecuencias 8

Fichero de datos ldquobweightgdtrdquo

Poblacion Mujeres gestantes y sus bebes recien nacidos

Muestra N = 1832 mujeres

Variable estadıstica raza

Numero de categorıas k = 3

1 = raza blanca 2 =raza negra 3=otras razas

k ni niN diagrama de barras

1 1624 8865

2 109 595

3 99 540

Moda La clase de mayor frecuencia

uArr Ejercicios 9

Ejercicio 3 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas y relativas de la variable ldquoraza de

la madrerdquo

(b) iquestCual es la moda en esta distribucion

bweightinp Gretl

En el codigo de los guiones de sesion de Gretl todo lo que aparece tras el sımbolo es interpretado como

un comentario y Gretl lo ignora (es un metodo de documentar los programas)

Z bweightinp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquoracersquo

freq race

tambien lo podemos hacer asi

freq 2

ya que rsquoracersquo tiene asignado el numero 2

o pinchando con el boton derecho sobre rsquoracersquo y selecionando rsquoDistribucion de frecuenciasrsquo

bull Descripcion de variables cuantitativas discretas distribucion de frecuencias

N observaciones

Los datos se ordenan de menor a mayor

Esto permite definir la distribucion de frecuencias acumuladas

5

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable race freq race tambien lo podemos hacer asifreq 2 ya que race tiene asignado el numero 2 o pinchando con el boton derecho sobre race y selecionando Distribucion de frecuencias

Marcos Bujosa

Representamos por

n1 n2 nk

el nordm de observaciones de cada clase (de cada valor)

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni

N frecuencia relativa acumulada hasta la clase i-esima

uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10

Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel

de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)

(b) iquestCual es la moda en esta distribucion

(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los

individuos de la muestra (ldquogenderrdquo)

(d) iquestCual es el tamano de la muestra

cholesterolinp Gretl

Z cholesterolinp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquocholestrsquo

freq cholest

tambien lo podemos hacer asi

freq 1

o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo

diagrama de frecuencias del genero de los individuos de la muestra

freq gender

uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11

Este caso es mas complejo ya que las clases no estan definidas de manera natural

Hay que dividir el recorrido de la muestra en intervalos no solapados

El punto central de cada intervalo se denomina marca de clase ci

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase (en cada intervalo)

Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior

6

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

uArr Ejercicios 12

Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias

absolutas y relativas

(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos

(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso

Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa

bweight2inp Gretl

Z bweight2inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

generamos un histograma de la variable rsquobweightrsquo

freq bweight

hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoDistribucion de frecuenciasrsquo

Seleccione el numero de intervalos y

desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones

de frecuencias absolutas relativas y acumuladas

uArr Histograma y caracterısticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc

7

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 6: EconometriaGRADO T1 Print

Representamos por

n1 n2 nk

el nordm de observaciones de cada clase (de cada valor)

ni frecuencia absoluta de la clase i-esima

ni

N frecuencia relativa de la clase i-esimasumni=1 ni frecuencia acumulada hasta la clase i-esimasumni=1 ni

N frecuencia relativa acumulada hasta la clase i-esima

uArr Descripcion de variables cuantitativas discretas distribucion de frecuencias 10

Ejercicio 4 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo

(a) genere un diagrama de barras y observe las frecuencias absolutas relativas y acumuladas del nivel

de colesterol en la sangre de los individuos de la muestra (ldquocholestrdquo)

(b) iquestCual es la moda en esta distribucion

(c) genere un diagrama de barras y observe las frecuencias absolutas y relativas de los sexos de los

individuos de la muestra (ldquogenderrdquo)

(d) iquestCual es el tamano de la muestra

cholesterolinp Gretl

Z cholesterolinp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

generamos un diagrama de fecuencias de la variable rsquocholestrsquo

freq cholest

tambien lo podemos hacer asi

freq 1

o pinchando con el boton derecho sobre rsquocholestrsquo y selecionando rsquoDistribucion de frecuenciasrsquo

diagrama de frecuencias del genero de los individuos de la muestra

freq gender

uArr Descripcion de variables cuantitativas continuas distribucion de frecuencias (Histograma) 11

Este caso es mas complejo ya que las clases no estan definidas de manera natural

Hay que dividir el recorrido de la muestra en intervalos no solapados

El punto central de cada intervalo se denomina marca de clase ci

Representamos por

n1 n2 nk

el nordm de observaciones en cada clase (en cada intervalo)

Las definiciones de frecuencias absolutas relativas y acumuladas son identicas al caso anterior

6

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario generamos un diagrama de fecuencias de la variable cholest freq cholest tambien lo podemos hacer asifreq 1 o pinchando con el boton derecho sobre cholest y selecionando Distribucion de frecuencias diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa

uArr Ejercicios 12

Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias

absolutas y relativas

(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos

(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso

Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa

bweight2inp Gretl

Z bweight2inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

generamos un histograma de la variable rsquobweightrsquo

freq bweight

hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoDistribucion de frecuenciasrsquo

Seleccione el numero de intervalos y

desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones

de frecuencias absolutas relativas y acumuladas

uArr Histograma y caracterısticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc

7

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 7: EconometriaGRADO T1 Print

uArr Ejercicios 12

Ejercicio 5 Con Gretl abra el fichero de datos ldquobweightgdtrdquo

(a) genere un histograma de la variable ldquopeso del bebe al nacerrdquo (bweight) y observe las frecuencias

absolutas y relativas

(b) iquestCuanto ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(c) iquestQue porcentaje de ninos pesaron al nacer mas de 20035 gramos y menos de 23495

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos

(e) Genere otro histograma mas con 75 intervalos Observe las frecuencias de los intervalos en este caso

Si tuviera que anunciar un peso como ldquoel mas frecuente al nacerrdquo iquestque peso dirıa

bweight2inp Gretl

Z bweight2inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

generamos un histograma de la variable rsquobweightrsquo

freq bweight

hagalo de nuevo pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoDistribucion de frecuenciasrsquo

Seleccione el numero de intervalos y

desmarque la opcion rsquomostrar el graficorsquo si quiere ver las distribuciones

de frecuencias absolutas relativas y acumuladas

uArr Histograma y caracterısticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetrıa si es unimodal o bimodal etc

7

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt generamos un histograma de la variable bweight freq bweight hagalo de nuevo pinchando con el boton derecho sobre bweight y selecionando Distribucion de frecuencias Seleccione el numero de intervalos y desmarque la opcion mostrar el grafico si quiere ver las distribuciones de frecuencias absolutas relativas y acumuladas

Marcos Bujosa

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 8: EconometriaGRADO T1 Print

uArr Ejercicios 14

Ejercicio 6

(a) En el dibujo iquestque distribuciones son simetricas iquestCual es asimetrica hacia la izquierda

(o negativamente asimetrica) iquestCuales son unimodales iquestCuales bimodales

(b) iquestSimetrica o asimetrica iquestunimodal o bimodal

32 Descripcion numerica de una variable

bull Media y desviacion tıpica

Media o promedio El ldquocentro de la distribucionrdquo

x =x1 + x2 + middot middot middot+ xN

N=

sumxiN

Varianza Medida de la dispersion o concentracion

El promedio de las distancias respecto a x al cuadrado

s2x =(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

sum(xi minus x)2

N

Desviacion tıpica Medida de la dispersion o concentracion

Raız cuadrada de de la varianza (mismas unidades que los datos de la muestra)

sx =

radic(x1 minus x)2 + (x2 minus x)2 + middot middot middot+ (xN minus x)2

N=

radicsum(xi minus x)2

N

Otra forma de calcular la varianza es

s2x =

sum(x2i )

Nminus (x)2

por lo que la desviacion tıpica tambien se puede calcular ası

sx =

radicsum(x2i )

Nminus (x)2

uArr Ejercicios 15

Ejercicio 7

(a) iquestQue variable tiene una media mayor iquestla roja o la azul

(b) iquestQue distribucion tiene una mayor desviacion tıpica iquestLa verde o la azul

8

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 9: EconometriaGRADO T1 Print

uArr Ejercicios 16

Ejercicio 8 Mire cual es la media y la desviacion tıpica del peso de los recien nacidos del ejercicio

anterior

bweight3inp Gretl

(a) iquestCoincide la media con el peso mas frecuente al nacer que usted encontro

(b) iquestCual es el maximo peso registrado en la muestra iquestY el mınimo

(c) iquestTiene sentido calcular estos estadısticos en el caso de la variable rsquoracersquo

(d) En el caso de los datos de colesterol iquestpara que variable tiene sentido calcular los estadısticos y para

cual no

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

bull Coeficiente de variacion y de asimetrıa

Coeficiente de variacion Para comparar la dispersion de variables medidas con unidades distintas

CVx =sx|x|

La media no puede ser cero

Coeficiente de asimetrıa

Negativo (o hacia la izquierda) positivo (derecha) cero (simetrica)

CAx =

sum(xi minus x)3

Ns3x

9

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 10: EconometriaGRADO T1 Print

bull Coeficiente de apuntamiento o curtosis

(+) leptocurtica (-) platicurtica 0 mesocurtica CApx =sum

(ximinusx)4Ns4

xminus 3

uArr Ejercicios 17

Ejercicio 9 Coteje los estadısticos descriptivos de los datos de peso de recien nacidos y de niveles de

colesterol con sus respectivos histogramas o diagramas de frecuencia

Ejercicio 10 Con Gretl abra el fichero de datos ldquocholesterolgdtrdquo Vamos a ver las diferencias en los

niveles de colesterol entre lo hombres y las mujeres de la muestra

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras y observe los estadısticos descriptivos relativos a los niveles de coles-

terol (ldquocholestrdquo)

No cierre las ventanas del diagrama y los estadısticos descriptivos de la distribucion

(b) Restaure la muestra inicial y repita de nuevo los pasos pero ahora para los hombres (gender=0)

(c) Compare ambas distribuciones iquestHay diferencias

cholesterol2inp Gretl

Z cholesterol2inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

o pinchando en rsquoArchivorsquo -gt rsquoAbrir datosrsquo -gt rsquoArchivo de usuariorsquo

restringimos la muestra (solo datos de mujeres)

smpl gender=1 --restrict

Tambien podemos restringir la muestra abriendo el menu

despleglabe rsquoMuestrarsquo -gt rsquoRestringir a partir de criteriorsquo

y escribiendo en la ventana que se abre

gender = 1

informacion sobre la distribucion de los niveles de colesterol (para las mujeres)

freq cholest

summary cholest

restauramos la muestra completa

smpl full

Para restaurar la muestra tambien podemo abrir el menu

despleglabe rsquoMuestrarsquo y pinchar en rsquoRecuperar el rango completorsquo

10

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt o pinchando en Archivo -gt Abrir datos -gt Archivo de usuario restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict Tambien podemos restringir la muestra abriendo el menu despleglabe Muestra -gt Restringir a partir de criterio y escribiendo en la ventana que se abre gender = 1 informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest restauramos la muestra completasmpl full Para restaurar la muestra tambien podemo abrir el menu despleglabe Muestra y pinchar en Recuperar el rango completo restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 11: EconometriaGRADO T1 Print

restringimos la muestra (solo datos de mujeres)

smpl gender=0 --restrict

informacion sobre la distribucion de los niveles de colesterol (para los hombres)

freq cholest

summary cholest

bull Estadısticos descriptivos empleando la distribucion de frecuencias

Si no disponemos de los datos originales y solo de la distribucion de frecuencias

Una aproximacion de los estadısticos empleando las frecuencias y las marcas de clase

Media

x =

sumci middot niN

Varianza

s2x =

sum(ci minus x)2 middot ni

N

Coeficiente de asimetrıa

CAx =

sum(ci minus x)3 middot niNs3x

Coeficiente de curtosis

CApx =

sum(ci minus x)4 middot niNs4x

minus 3

Ejercicio 11 Estudiantes de cuatro grupos diferentes han realizado el mismo examen de una materia

El numero de alumnos de cada grupo es 87 81 69 y 24 respectivamente La nota media en cada grupo

ha sido 48 53 62 y 43

(a) Hallar la nota media de todos los estudiantes

(b) iquestComo podrıa obtenerse la desviacion tıpica

Ejercicio 12

(a) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la mınima desviacion tıpica

(b) Elegir cuatro numeros entre cero y diez ambos inclusive para que tengan la maxima desviacion tıpica

(c) iquestHay mas de una respuesta valida para (a) iquestY para (b)

11

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 12: EconometriaGRADO T1 Print

uArr Mediana 18

Mediana El ldquocentro de los datosrdquo (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos grupos con igual

numero de elementos

Ejercicio 13

(a) iquestCual es el peso mediano en la muestra de recien nacidos

(b) iquestCoincide con el peso medio

ZCodigo bweight3inp Gretl

Si el nordm de elementos de la muestra es par se toma el valor intermedio entre los dos valores centrales

Z bweight3inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

estadisticos principales

summary bweight

tambien vale con indicar el numero de la variable (1 en este caso)

summary 1

otra forma es pinchando con el boton derecho sobre rsquobweightrsquo y selecionando

rsquoEstadisticos descriptivosrsquo

uArr Cuartiles Rango rango intercuartılico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartılico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza la desviacion tıpica y el coeficiente de

variacion)

12

leemos el archivo de datos bweightgdtopen datosbweightgdt estadisticos principalessummary bweight tambien vale con indicar el numero de la variable (1 en este caso)summary 1 otra forma es pinchando con el boton derecho sobre bweight y selecionando Estadisticos descriptivos

Marcos Bujosa

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 13: EconometriaGRADO T1 Print

uArr Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo mınimo la mediana

y los cuartiles

uArr Ejercicio 21

Ejercicio 14

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico)

(c) Compruebe que el rango es de iexclcasi 5 kilos pero el rango intercuartılico es de menos de 700 gramos

(d) Genere un grafico con tres diagramas de cajas de la variable peso uno por cada grupo de ninos con

madres de raza distinta (observe el resumen numerico)

bweight4inp Gretl

Z bweight4inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

diagrama de cajas

boxplot bweight --output=display

Gretl tambien entenderia lo siguiente

boxplot 1

(la opcion rsquo--output=rdquodisplayrdquo rsquo solo es necesaria para ejecutar un scrip en ldquobatchrdquo)

Tambien es posible pinchar con el boton derecho sobre la variable

y seleccionar -gt rsquoGrafico de cajasrsquo

Pinchando con el boton derecho sobre el grafico puede seleccionar en el

menu desplagable -gt rsquoresumen numericorsquo para ver los valores numericos

Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)

boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display

Tecleando

boxplot bweight (race=1) bweight (race=2) bweight (race=3)

realizaria lo mismo

13

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt diagrama de cajasboxplot bweight --output=display Gretl tambien entenderia lo siguiente boxplot 1 (la opcion --output=display solo es necesaria para ejecutar un scrip en ``batch) Tambien es posible pinchar con el boton derecho sobre la variable y seleccionar -gt Grafico de cajas Pinchando con el boton derecho sobre el grafico puede seleccionar en el menu desplagable -gt resumen numerico para ver los valores numericos Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output=display Tecleando boxplot bweight (race=1) bweight (race=2) bweight (race=3) realizaria lo mismo

Marcos Bujosa

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 14: EconometriaGRADO T1 Print

uArr Diagramas de cajas con distintos bigotes 22

uArr Robustez de la mediana frente a la media en presencia de atıpicos 23

La media se ve afectada por datos extremos pero no la mediana

Ejercicio 15

(a) Calcule los estadısticos descriptivos de la variable peso

(b) Calcule el rango intercuartılico

(c) Modifique el peso del bebe mas pesado (obs 1013) ponga un peso de 700 kg (700000)

(d) Calcule de nuevo los estadısticos descriptivos de la variable peso y el rango intercuartılico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartılico

bweight5inp Gretl

La mediana y los cuartiles solo tienen en cuenta el orden y no la magnitud de los datos

En presencia de datos anomalos es mejor usar la mediana y el rango intercuartılico

Z bweight5inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio=mean(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquopmedio=mean(bweight)rdquo

varianza=var(bweight)

o tambien pinchar en rsquoAnadirrsquo -gt rsquoDefinir nueva variablersquo y escribir rdquovarianza=var(bweight)rdquo

desv tip=sd(bweight)

pmediano=median(bweight)

q1=quantile(bweight025)

q3=quantile(bweight075)

rango=q3-q1

definimos un nuevo peso

dato anomalo=700000

guardamos el peso del bebe mas grande

gordito=max(bweight)

generamos una nueva variable con el dato anomalo

14

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt calculo de estadisticos descriptivos uno a unopmedio=mean(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir pmedio=mean(bweight)varianza=var(bweight) o tambien pinchar en Anadir -gt Definir nueva variable y escribir varianza=var(bweight)desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight025)q3=quantile(bweight075)rango=q3-q1 definimos un nuevo peso dato_anomalo=700000 guardamos el peso del bebe mas grandegordito=max(bweight) generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweightgorditodato_anomalo) o defnimos una nueva variable nuevos_pesos igual a bweight o mas sencillo a sort(bweight) y editamos el valor a mano calculo de estadisticos descriptivos uno a unopmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos025)q3_n=quantile(nuevos_pesos075)rango_n=q3-q1 escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n tambien podemos pinchar en Ver -gt Escalares

Marcos Bujosa

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 15: EconometriaGRADO T1 Print

nuevos pesos=replace(bweightgorditodato anomalo)

o defnimos una nueva variable rdquonuevos pesosrdquo igual a rdquobweightrdquo

o mas sencillo a rdquosort(bweight)rdquo y editamos el valor a mano

calculo de estadisticos descriptivos rdquouno a unordquo

pmedio n=mean(nuevos pesos)

varianza n=var(nuevos pesos)

desv tip n=sd(nuevos pesos)

pmediano n=median(nuevos pesos)

q1 n=quantile(nuevos pesos025)

q3 n=quantile(nuevos pesos075)

rango n=q3-q1

escribimos los valores

print pmedio pmediano varianza desv tip rango pmedio n pmediano n varianza n desv tip n rango n

tambien podemos rdquopincharrdquo en rsquoVerrsquo -gt rsquoEscalaresrsquo

uArr Ejercicios 24

Ejercicio 16

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles (los que usted

quiera) de la distribucion de pesos de los ninos

bweight6inp Gretl

(b) Haga lo mismo con la variable ldquocolesterolrdquo si calcula percentiles que esten proximos (por ejemplo

94 95 y 96) enseguida notara que esta variable es discreta (observaciones concentradas en unos

pocos puntos)

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres empleando sendos

diagramas de cajas

cholesterol3inp Gretl

Z bweight6inp Gretl

leemos el archivo de datos bweightgdt

open datosbweightgdt

percentiles

p90=quantile(bweight090)

p91=quantile(bweight091)

p94=quantile(bweight094)

p95=quantile(bweight095)

p96=quantile(bweight096)

p97=quantile(bweight097)

p98=quantile(bweight098)

p01=quantile(bweight001)

15

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

leemos el archivo de datos bweightgdtopen datosbweightgdt percentilesp90=quantile(bweight090)p91=quantile(bweight091)p94=quantile(bweight094)p95=quantile(bweight095)p96=quantile(bweight096)p97=quantile(bweight097)p98=quantile(bweight098)p01=quantile(bweight001)

Marcos Bujosa

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 16: EconometriaGRADO T1 Print

Z cholesterol3inp Gretl

leemos el archivo de datos cholesterolgdt

open datoscholesterolgdt

percentiles

p90=quantile(cholest090)

p91=quantile(cholest091)

p94=quantile(cholest094)

p95=quantile(cholest095)

p96=quantile(cholest096)

p97=quantile(cholest097)

p98=quantile(cholest098)

diagramas de caja

boxplot 1 (gender=0) 1 (gender=1) --output=display

estadisticos principales

summary cholest --by=gender

uArr Ejercicios 25

Ejercicio 17 En distribuciones perfectamente simetricas media y mediana coinciden (el centro de la

distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden y no la magnitud de los datos un dato anomalo muy

muy grande ldquoarrastrarardquo la media a la derecha y aumentara el coeficiente de asimetrıa (aumentara la

asimetrıa hacia la derecha)

(a) En tal caso (distribuciones asimetricas hacia la derecha) iquesta que lado de la mediana esperamos ver a

la media

(b) iquestY si la distribucion es asimetrica hacia la izquierda

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol) A la luz de las

posiciones relativas de la media (cruz) y la mediana las distribuciones tanto para hombre como para

mujer son asimetricas hacia Verifique su respuesta mirando el signo del coeficiente de asimetrıa de

ambas distribuciones

16

leemos el archivo de datos cholesterolgdtopen datoscholesterolgdt percentilesp90=quantile(cholest090)p91=quantile(cholest091)p94=quantile(cholest094)p95=quantile(cholest095)p96=quantile(cholest096)p97=quantile(cholest097)p98=quantile(cholest098) diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output=display estadisticos principalessummary cholest --by=gender

Marcos Bujosa

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 17: EconometriaGRADO T1 Print

uArr Ejercicios 26

Ejercicio 18 Los datos siguientes expresan el numero de dıas transcurridos hasta la primera averıa en

cierto tipo de electrodomestico

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media desviacion tıpica mediana y rango intercuartılico de las observaciones

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion en semanas

(c) Obtener la media desviacion tıpica mediana y rango intercuartılico de los datos transformados

iquestQue relacion guardan con los valores originales

averiasinp Gretl

averias2inp Gretl

uArr iquestQue grafico es mas informativo en el caso de una serie temporal 27

17

leemos el archivo de datos averiastxtopen datosaveriastxt estadisticossummary v1 --simpleboxplot v1 --output=display o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1050)q1 = quantile(v1025)q3 = quantile(v1075)rango_inter_q = quantile(v1075) - quantile(v1025)trasformamos en semanasgenr v2=v17 y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output=display o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2050)q1_2 = quantile(v2025)q3_2 = quantile(v2075)rango_inter_q_2 = quantile(v2075) - quantile(v2025)

Marcos Bujosa

leemos el archivo de datos averiastxtopen datosaveriastxttrasformamos en semanasgenr v2=v17 estadisticossummary v1 v2 boxplot v1 v2 --output=display

Marcos Bujosa

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 18: EconometriaGRADO T1 Print

33 Resumen del analisis grafico y descriptivo de una variable

bull Diagramas de barras e Histogramas

uArr A modo de resumen Diagramas de barras e Histogramas 28

Cualitativas Clases definidas de manera

natural Orden arbitrario

Cuantitativas discretas Clases defi-

nidas de manera natural Orden

pre-establecido

Cuantitativas continuas Clases de-

finidas de arbitraria Orden pre-

establecido

0

01

02

03

04

05

06

07

08

09

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

002

004

006

008

01

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

002

004

006

008

01

012

014

1000 2000 3000 4000 5000F

recu

enci

are

lati

vaPeso del bebe al nacer (gramos)

uArr A modo de resumen Diagramas de caja 29

bull Centro de la distribucion

Moda

Unica medida para variables cualitativas

Sensible a la agregacion de clases

Puede haber multiples modas (multimodal)

Media

La mas importante

Sensible a datos extremos o anomalos

Mediana

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

18

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 19: EconometriaGRADO T1 Print

bull Medidas de dispersion

Varianza

Sensible a los cambios de unidad (multiplicaciones)

Sensible a datos extremos o anomalos

Desviacion tıpica

Raız cuadrada de la varianza (mismas unidades que los datos)

Coeficiente de variacion

CVx = sx|x|

Carente de unidades (insensible a os cambios de unidad)

Permite compara entre distribuciones

No definido si x = 0

Rango

Diferencia entre los datos maximo y mınimo

iexclSolo dos observaciones definen la dispersion

Rango intercuartılico

Diferencia entre los cuartiles tercero y primero

Depende del orden y (no tanto de la magnitud) de los datos mas robusto a datos anomalos

bull Otras medidas

Coeficiente de asimetrıa

negativo

asimetrıa a la izquierda La media se situa a la izquierda de la mediana

positivo

asimetrıa a la derecha La media se situa a la derecha de la mediana

Exceso de curtosis Medida de apuntamiento

Valores positivos (distribucion mas apuntada que una distribucion gaussiana)

Valores negativos (distribucion menos apuntada que una distribucion gaussiana)

19

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 20: EconometriaGRADO T1 Print

34 Analisis grafico y descriptivo de dos variables

uArr Tablas de contingencia frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta edad joven maduro viejo Nrenta

pobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)

uArr Tablas de contingencia frecuencia relativa conjunta y marginal 31

renta edad joven maduro viejo P1(middot)pobre 020 010 015 045

media 010 025 005 040

rico 001 006 008 015

P2(middot) 031 041 028 1

1 iquestQuien soy

2 iquestQue edad tengo

3 iquestQue renta tengo

Distribucion condicionada [001 006 008

] 015 =

[007 040 053

]

20

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 21: EconometriaGRADO T1 Print

uArr Ejercicio Diagrama de dispersion Distribuciones marginales 32

Ejercicio 19 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquodata2-1rsquo

calificacionesinp Gretl

(a) Seleccione simultaneamente las variables ldquovsatrdquo y ldquomsatrdquo (calificaciones en lengua y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione rsquoGrafico de dos variables XYrsquo

Elija ldquomsatrdquo para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione ldquomsatrdquo y pinchando sobre ella con el boton derecho genere un grafico de rsquoDistribucion de

frecuenciasrsquo con 45 intervalos

(d) Compare ambos graficos El primero representa la distribucion conjunta y el segundo la distribucion

marginal de las calificaciones en matematicas

(e) Repita el diagrama de dispersion pero con ldquovsatrdquo en el eje de abscisas (eje x)

(f) Genere un grafico de rsquoDistribucion de frecuenciasrsquo para ldquovsatrdquo con 48 intervalos

(g) Compare los dos ultimos graficos El primero representa la distribucion conjunta y el segundo la

distribucion marginal de las calificaciones en lengua (No cierre)

Z calificacionesinp Gretl

leemos el archivo de datos data2-1

open data2-1

gnuplot vsat msat --suppress-fitted --output=display

freq msat --output=rdquodisplayrdquo pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)

gnuplot msat vsat --suppress-fitted --output=display

freq vsat --output=rdquodisplayrdquo pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

uArr Ejercicio Distribuciones condicionadas 33

Ejercicio 20 Continuamos con la sesion de Gretl del ejercicio anterior pero ya puede cerrar los

graficos (diagramas de dispersion y barras)

calificaciones2inp Gretl

(a) Calcule los estadısticos principales de ldquovsatrdquo y observe su diagrama de caja de ldquovsatrdquo junto con el

resumen numerico (centre su atencion en la calificacion media)

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (ldquomsatrdquo)

(c) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (ldquomsatrdquo)

(e) Calcule de nuevo los estadısticos principales de ldquovsatrdquo junto con el diagrama de caja de ldquovsatrdquo (y su

resumen numerico) iquestHa cambiado algo iquestEn el mismo sentido que en el caso anterior

(f) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

21

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output=displayfreq msat --output=display pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output=displayfreq vsat --output=display pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 22: EconometriaGRADO T1 Print

Z calificaciones2inp Gretl

open data2-1 leemos el archivo de datos data2-1

recuerde mirar el resumen numerico de diagrama de caja

boxplot vsat vsat (msatgt600) vsat (msatgt650) --output=display

summary vsat estadisticos

smpl msatgt600 --restrict restrinjamos la muestra

summary vsat estadisticos

smpl msatgt650 --restrict restrinjamos la muestra mas aun

summary vsat

bull Variables continuas

uArr Distribuciones absolutas conjunta y marginales 34

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 4 4 1 9

160 minus 164 2 7 10 3 22

165 minus 169 3 20 25 9 4 61

170 minus 174 4 18 26 30 19 1 98

175 minus 179 2 17 22 20 4 1 66

180 minus 184 5 15 17 8 2 47

185 minus 189 1 4 2 1 8

gt 190 1 1

6 18 51 76 77 64 16 4 3121

uArr Distribuciones conjuntas Distribuciones condicionadas 35

Alturas de padres e hijos

Hijos

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

lt 160 0013 0013 0003 0029

160 minus 164 0006 0022 0032 0010 0070

165 minus 169 0010 0064 0080 0028 0013 0195

170 minus 174 0013 0058 0083 0096 0061 0003 0314

175 minus 179 0006 0054 0070 0064 0013 0003 0212

180 minus 184 0016 0048 0054 0026 0006 0151

185 minus 189 0003 0013 0006 0003 0026

gt 190 0003 0003

0019 0058 0163 0244 0247 0205 0051 0013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

165 minus 169 0049 0328 0410 0148 0065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres lt 160 160 minus 164 165 minus 169 170 minus 174 175 minus 179 180 minus 184 185 minus 189 gt 190

185 minus 189 0059 0255 0510 0117 0059

(Regresion a la media)

22

open data2-1 leemos el archivo de datos data2-1 recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msatgt600) vsat (msatgt650) --output=displaysummary vsat estadisticossmpl msatgt600 --restrict restrinjamos la muestrasummary vsat estadisticossmpl msatgt650 --restrict restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 23: EconometriaGRADO T1 Print

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion nube de puntos o scatter

Ejercicio 21 Cargue los datos de estatura entre padres e hijos (estatura padre hijogdt)

estaturasinp Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

Z estaturasinp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

diagrama de dispersion

scatters Estatura Hijo Estatura Padre --output=display

o mejor

gnuplot Estatura Hijo Estatura Padre --suppress-fitted --output=display

otra forma es marcar las dos series y desplegar el menu

(pulsando boton derecho sobre ellas) y despues seleccionar

rsquoGrafico de dos variables XYrsquo (pinchando el grafico este se puede editar)

uArr Ejercicio Diagrama de dispersion y relaciones entre variables 37

Ejercicio 22 Cargue los datos de ventas (ventastxt)

ventasinp Gretl

(a) Realice un grafico de las ventas su histograma y diagrama de caja iquestobserva alguna pauta

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama de dispersion entre

ventas y antiguedad (con ldquoAntigrdquo en eje de abscisas (X))

(c) iquestobserva alguna relacion entre antiguedad y ventas iquestde que tipo

Ejercicio 23 Cargue los datos ventas2 correspondientes a otra empresa (ventas2txt)

ventas2inp Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad

(b) iquestQue diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)

Z ventasinp Gretl

open datosventastxt

genr index agregamos variable rdquoindicerdquo para dibujar las rdquoVentasrdquo de cada vendedor

grafico de las ventas logradas por cada trabajador

gnuplot Ventas index --suppress-fitted --with-lines --output=display

boxplot Ventas --output=display

freq Ventas

23

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdt diagrama de dispersionscatters Estatura_Hijo Estatura_Padre --output=display o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output=display otra forma es marcar las dos series y desplegar el menu (pulsando boton derecho sobre ellas) y despues seleccionar Grafico de dos variables XY (pinchando el grafico este se puede editar)

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxtgenr index agregamos variable indice para dibujar las Ventas de cada vendedor grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output=displayboxplot Ventas --output=displayfreq Ventas Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 24: EconometriaGRADO T1 Print

Diagrama de dispersion entre ventas y experiencia

gnuplot Ventas Antig --suppress-fitted --output=display

Z ventas2inp Gretl

open datosventas2txt

gnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

bull Media y varianza condicionadas

Ejercicio 24 Cargue los datos ventas (los de la primera empresa mdashventastxt)

(Para este ejercicio necesitara dividir el recorrido de la muestra de la variable ldquoAntiguedadrdquo en inter-

valos no solapados por ejemplo de 10 meses cada uno)

ventas3inp Gretl

(a) Calcule la media y la varianza ldquocondicionadas a la antiguedadrdquo (para cada intervalo de 10 meses)

ajustando la muestra en funcion de la antiguedad

(b) iquestObserva una relacion creciente entre las medias condicionadas y la antiguedad iquestY en el caso de las

varianzas

(c) Observe el diagrama de dispersion para comprender el resultado (no olvide recuperar la muestra

completa para generar el graficomdash[smpl full])

Ejercicio 25 Repita el ejercicio pero ahora con los datos de la segunda empresa (ldquoventas2txtrdquo)

ventas4inp Gretl

Z ventas3inp Gretl

open datosventastxt cargamos datos

smpl Antiglt20 --restrict limitamos la muestra a los vendedores rdquonovatosrdquo (menos de 20 meses)

m1=mean(Ventas) calculamos la media de ventas de este grupo

v1=var(Ventas) calculamos la varianza de ventas de este grupo

smpl full recuperamos de nuevo toda la muestra

smpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)

smpl Antiglt30 --restrict

m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupo

v2=var(Ventas) asi hasta definir la ultima media condicional

smpl full recuperacion de la muestra completa

smpl 30lt=Antig --restrict nueva restriccion

smpl Antiglt40 --restrict

m3=mean(Ventas) calculos

v3=var(Ventas)

24

open datosventas2txtgnuplot Ventas Antig --suppress-fitted --output=display Diagrama de dispersion

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventas2txt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) para ventas2 se observa una relacion crecientemente creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 y en este caso tambien en la varianzaprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

open datosventastxt cargamos datossmpl Antiglt20 --restrict limitamos la muestra a los vendedores novatos (menos de 20 meses)m1=mean(Ventas) calculamos la media de ventas de este grupo v1=var(Ventas) calculamos la varianza de ventas de este gruposmpl full recuperamos de nuevo toda la muestrasmpl 20lt=Antig --restrict limitamos la muestra a vendedores con mas experiencia (de 20 a 30 meses)smpl Antiglt30 --restrict m2=mean(Ventas) y otra vez calculamos la media de ventas pero para este nuevo grupov2=var(Ventas) asi hasta definir la ultima media condicionalsmpl full recuperacion de la muestra completasmpl 30lt=Antig --restrict nueva restriccionsmpl Antiglt40 --restrictm3=mean(Ventas) calculosv3=var(Ventas)smpl full recuperacion de la muestra completasmpl 40lt=Antig --restrict nueva restriccionsmpl Antiglt50 --restrictm4=mean(Ventas) calculosv4=var(Ventas)smpl fullsmpl 50lt=Antig --restrictsmpl Antiglt60 --restrictm5=mean(Ventas)v5=var(Ventas)smpl fullsmpl 60lt=Antig --restrictsmpl Antiglt70 --restrictm6=mean(Ventas)v6=var(Ventas) el ultimo grupo corresponde a los vendedores con mas experiencia (70 meses o mas)smpl fullsmpl 70lt=Antig --restrictm7=mean(Ventas)v7=var(Ventas) se observa una clara relacion creciente en las ventas medias y la experienciaprint m1 m2 m3 m4 m5 m6 m7 pero no en las varianzasprint v1 v2 v3 v4 v5 v6 v7 Diagrama de dispersion de la muestra completasmpl fullgnuplot Ventas Antig --suppress-fitted --output=display

Marcos Bujosa

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 25: EconometriaGRADO T1 Print

smpl full recuperacion de la muestra completa

smpl 40lt=Antig --restrict nueva restriccion

smpl Antiglt50 --restrict

m4=mean(Ventas) calculos

v4=var(Ventas)

smpl full

smpl 50lt=Antig --restrict

smpl Antiglt60 --restrict

m5=mean(Ventas)

v5=var(Ventas)

smpl full

smpl 60lt=Antig --restrict

smpl Antiglt70 --restrict

m6=mean(Ventas)

v6=var(Ventas)

el ultimo grupo corresponde a los vendedores con mas

experiencia (70 meses o mas)

smpl full

smpl 70lt=Antig --restrict

m7=mean(Ventas)

v7=var(Ventas)

se observa una clara relacion creciente en las ventas medias

y la experiencia

print m1 m2 m3 m4 m5 m6 m7

pero no en las varianzas

print v1 v2 v3 v4 v5 v6 v7

Diagrama de dispersion de la muestra completa

smpl full

gnuplot Ventas Antig --suppress-fitted --output=display

uArr Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Venta

s

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentasinp Gretl

25

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 26: EconometriaGRADO T1 Print

El siguiente guion hace los mismo pero llamando a la funcion ldquoEstadCondrdquo que aparece un poco mas

abajo

Z EstCondVentasinp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventastxt cargamos los datos de rdquoventasrdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

A continuacion aparece la nueva funcion ( ldquoEstadCondrdquo) que hemos programado empleando un bucle

ldquowhilerdquo

Z EstadCondinp Gretl

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza)

de rdquoYrdquo para distintos intervalos (de rdquoWrdquo unidades de longitud) de la variable rdquoXrdquo

function list EstadCond (series y series x scalar w)

ordenamos los datos en funcion de la variable rdquoxrdquo

Y=sortby(xy)

X=sort(x)

inicialmente los limites del primer intervalo son

genr linf=0 limite inferior de intervalo

genr lsup=min(x) limite superior de intervalo

n=0 rdquonrdquo es un indice de la marce de clase (o intervalo)

series MCond =NA en rdquoMcondrdquo guardaremos medias de cada intervalo

series S2Cond=NA en rdquoS2Condrdquo guardaremos varianzas de cada intervalo

comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza)

sea inferior al valor maximo de rdquoxrdquo

loop while lsupltmax(x)

modificamos los limites en cada iteracion limite inferior sera igual al

anterior limite superior y el superior sera rdquowrdquo unidades mayor que antes

genr linf=lsup

genr lsup=lsup+w

restringimos la muestra al intervalo de esta iteracion

smpl X lt lsup --restrict

n1=$nobs num observaciones con antiguedad menor que lsup

smpl X gt= linf --restrict

n2=round($nobs2) num observaciones en el intervalo actual

n=n+n2 posicion estadisticos condicionados

calculamos media y varianza condicionadas (las del intervalo)

media = mean(Y)

varianza = var(Y)

smpl full restauramos la muestra completa

guardamos los estadisticos en la posicion rdquonrdquo

genr MCond[n] = media

26

include EstadCondinp cargamos la funcion EstadCondopen datosventastxt cargamos los datos de ventas calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

calcula y representa en un diagrama de dispersion los estadisticos condicionados (media y varianza) de Y para distintos intervalos (de W unidades de longitud) de la variable Xfunction list EstadCond (series y series x scalar w) ordenamos los datos en funcion de la variable x Y=sortby(xy) X=sort(x) inicialmente los limites del primer intervalo son genr linf=0 limite inferior de intervalo genr lsup=min(x) limite superior de intervalo n=0 n es un indice de la marce de clase (o intervalo) series MCond =NA en Mcond guardaremos medias de cada intervalo series S2Cond=NA en S2Cond guardaremos varianzas de cada intervalo comienzo de bucle que no para mientras el limite superior del intevalo (donde calcular media y varianza) sea inferior al valor maximo de x loop while lsupltmax(x) modificamos los limites en cada iteracion limite inferior sera igual al anterior limite superior y el superior sera w unidades mayor que antes genr linf=lsup genr lsup=lsup+w restringimos la muestra al intervalo de esta iteracion smpl X lt lsup --restrict n1=$nobs num observaciones con antiguedad menor que lsup smpl X gt= linf --restrict n2=round($nobs2) num observaciones en el intervalo actual n=n+n2 posicion estadisticos condicionados calculamos media y varianza condicionadas (las del intervalo) media = mean(Y) varianza = var(Y) smpl full restauramos la muestra completa guardamos los estadisticos en la posicion n genr MCond[n] = media genr S2Cond[n] = varianza n=n1 desplazamos origen de la cuenta para nueva posicion endloop gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados list EstCond = MCond S2Cond return EstCondend function

Marcos Bujosa

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 27: EconometriaGRADO T1 Print

genr S2Cond[n] = varianza

n=n1 desplazamos origen de la cuenta para nueva posicion

endloop

gnuplot Y MCond S2Cond X --output=display pintamos nube con estadisticos condicionados

list EstCond = MCond S2Cond

return EstCond

end function

uArr Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000

Venta

s

Varianza

condicionada

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2inp Gretl

Mismo calculo (mediante EstCondinp) pero ahora para el conjunto de datos ventas2txt

Z EstCondVentas2inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open datosventas2txt cargamos los datos de rdquoventas2rdquo

calculamos los estadisticos de rdquoVentasrdquo en intervalos de la variable rdquoAntigrdquo

(intervalos de antiguedad de 10 meses)

list EstCond = EstadCond(VentasAntig10)

uArr ejercicios 40

Reproduzcamos los dos graficos anteriores

Ejercicio 26 Abra el conjunto de datos ldquops2-1rdquo (open ps2-1 o rsquoArchivorsquo -gtrsquoAbrir datosrsquo

-gtrsquoArchivo de muestrarsquo -gtrsquoRammanathamrsquo -gtrsquops2-1rsquo

calificaciones3inp Gretl

(a) Calcule la media en la nota en lengua condicionada a las calificaciones en matematicas (en intervalos

de 100 puntos por ejemplo)

(b) Calcule la media en la nota en matematicas condicionada a las calificaciones en lengua

(c) iquestDirıa usted que a los que se les da bien las matematicas no son buenos en lengua y viceversa o

por el contrario iquestdirıa usted que los buenos estudiantes en una asignatura suelen serlo tambien en

otras

27

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen datosventas2txt cargamos los datos de ventas2 calculamos los estadisticos de Ventas en intervalos de la variable Antig (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(VentasAntig10)

Marcos Bujosa

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 28: EconometriaGRADO T1 Print

Z calificaciones3inp Gretl

include EstadCondinp cargamos la funcion rdquoEstadCondrdquo

open data2-1 cargamos los datos de las calificaciones

EstadCond(vsatmsat100) media lengua condicionada a nota en mates

EstadCond(msatvsat100) media en mates condicionada a nota en lengua

uArr Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables

uArr Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables

1 Relacion lineal positiva

2 Relacion lineal negativa

3 Relacion lineal aparente pero debida a observaciones atıpicas

4 Relacion no lineal

5 Sin relacion aparente entre las variables

28

include EstadCondinp cargamos la funcion EstadCondopen data2-1 cargamos los datos de las calificacionesEstadCond(vsatmsat100) media lengua condicionada a nota en matesEstadCond(msatvsat100) media en mates condicionada a nota en lengua

Marcos Bujosa

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 29: EconometriaGRADO T1 Print

uArr Primer intento de medicion de asociacion lineal entre variables Covarianza 43

cov(x y) =

sum(xi minus x)(yi minus y)

N

y

x

Estatu

radelhijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres

uArr Covarianza 44

cov(x y) =

sum(xi minus x)(yi minus y)

N

Mide el grado de asociacion lineal entre dos variable x e y

Si es ldquogranderdquo y positivo fuerte asociacion lineal directa

Si es ldquogranderdquo en valor absoluto y negativo fuerte asociacion lineal inversa

pero iquestque significa ldquogranderdquo

La covarianza depende de las unidades de medida de x e y

La covarianza depende de la dispersion de x e y

Es necesaria una normalizacion

uArr Segundo intento de medicion de asociacion lineal entre variables Correlacion 45

Coef correlacion de Pearson ρxy =cov(x y)

sxsy minus1 le cor(x y) le 1

Ahora ldquogranderdquo significa proximo a uno en valor absoluto

29

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 30: EconometriaGRADO T1 Print

uArr Ejercicios 46

Ejercicio 27 Cargue los datos estatura padre hijogdt

estaturas2inp Gretl

(a) Calcule la covarianza la correlacion y genere el diagrama de dispersion de las alturas (padrendashhijo)

(b) Transforme las alturas en desviaciones respecto a la media

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el diagrama de dispersion)

(d) Transforme las alturas en desviaciones a centımetros (cm) y calcule otra vez la covarianza y la

correlacion (y pinte otro diagrama de dispersion)

(e) Transforme las alturas en desviaciones a milımetros (mm) y calcule de nuevo covarianza correlacion

y la nube de puntos

(f) Compare los valores de las covarianzas y las correlaciones

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales de los hijos

con su version en desviaciones en centımetros (y pinte el diagrama de dispersion)

Z estaturas2inp Gretl

leemos el archivo de datos estatura padre hijogdt

open datosestatura padre hijogdt

cov ph=cov(Estatura Hijo Estatura Padre)($nobs-1)$nobs cuasi-covarianza

corr ph=corr(Estatura Hijo Estatura Padre)

gnuplot Estatura Hijo Estatura Padre --output=display

en desviaciones respecto a la media (metros)

series Hijo0=Estatura Hijo-mean(Estatura Hijo)

series Padre0=Estatura Padre-mean(Estatura Padre)

cov ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianza

corr ph0=corr(Hijo0 Padre0)

gnuplot Hijo0 Padre0 --output=display

en desviaciones respecto a la media (centimetros)

series Hijo0cm=Hijo0100

series Padre0cm=Padre0100

cov ph0 cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs

corr ph0 cm=corr(Hijo0cm Padre0cm)

gnuplot Hijo0cm Padre0cm --output=display

en desviaciones respecto a la media (milimetros)

series Hijo0mm=Hijo01000

series Padre0mm=Padre01000

cov ph0 mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs

corr ph0 mm=corr(Hijo0mm Padre0mm)

gnuplot Estatura Hijo Padre0mm --output=display

print cov ph cov ph0 cov ph0 cm cov ph0 mm corr ph corr ph0 corr ph0 cm corr ph0 mm

Estatura hijo y su trasformacion lineal

cov hh0cm=cov(Estatura HijoHijo0cm)($nobs-1)$nobs

30

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

leemos el archivo de datos estatura_padre_hijogdtopen datosestatura_padre_hijogdtcov_ph=cov(Estatura_Hijo Estatura_Padre)($nobs-1)$nobs cuasi-covarianzacorr_ph=corr(Estatura_Hijo Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output=display en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0 Padre0)($nobs-1)$nobs cuasi-covarianzacorr_ph0=corr(Hijo0 Padre0)gnuplot Hijo0 Padre0 --output=display en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0100series Padre0cm=Padre0100cov_ph0_cm=cov(Hijo0cm Padre0cm)($nobs-1)$nobs corr_ph0_cm=corr(Hijo0cm Padre0cm)gnuplot Hijo0cm Padre0cm --output=display en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo01000series Padre0mm=Padre01000cov_ph0_mm=cov(Hijo0mm Padre0mm)($nobs-1)$nobs corr_ph0_mm=corr(Hijo0mm Padre0mm)gnuplot Estatura_Hijo Padre0mm --output=displayprint cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_HijoHijo0cm)($nobs-1)$nobs corr_hh0cm=corr(Estatura_HijoHijo0cm)gnuplot Estatura_Hijo Hijo0cm --output=displayprint cov_hh0cm corr_hh0cm

Marcos Bujosa

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 31: EconometriaGRADO T1 Print

corr hh0cm=corr(Estatura HijoHijo0cm)

gnuplot Estatura Hijo Hijo0cm --output=display

print cov hh0cm corr hh0cm

uArr Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atıpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120

pre

cio

superficie

Datos heterogenos

uArr Ejercicios 48

Ejercicio 28 Cargue los datos CorrHeterogeneidad1gdt

CorrHeterogeneidad1inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

Z CorrHeterogeneidad1inp Gretl

open datosCorrHeterogeneidad1gdt

rho=corr(xy)

gnuplot y x --output=display

smpl 1 5

rho2=corr(xy)

gnuplot y x --output=display

print rho rho2

uArr Ejercicios 49

Ejercicio 29 Cargue los datos PrecioPisosgdt

CorrHeterogeneidad2inp Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

31

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosCorrHeterogeneidad1gdtrho=corr(xy)gnuplot y x --output=displaysmpl 1 5rho2=corr(xy)gnuplot y x --output=displayprint rho rho2

Marcos Bujosa

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 32: EconometriaGRADO T1 Print

Z CorrHeterogeneidad2inp Gretl

open datosPrecioPisosgdt

rho=corr(preciosup)

gnuplot precio sup --output=display

smpl barrio ciudad=1 --restrict

rho1=corr(preciosup)

gnuplot precio sup --output=display

smpl full

smpl barrio ciudad=2 --restrict

rho2=corr(preciosup)

gnuplot precio sup --output=display

print rho rho1 rho2

uArr Correlacion y causalidad Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo

iquestEs sensata la siguiente conclusion

ldquoHoy llovera porque lo han dicho en las noticiasrdquo

Temperatura media en Madrid y nordm de bodas

Nordm de ciguenas observadas cada mes y numero de nacimientos en zonas rurales de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura

uArr Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)

32

open datosPrecioPisosgdtrho=corr(preciosup)gnuplot precio sup --output=displaysmpl barrio_ciudad=1 --restrictrho1=corr(preciosup)gnuplot precio sup --output=displaysmpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(preciosup)gnuplot precio sup --output=displayprint rho rho1 rho2

Marcos Bujosa

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 33: EconometriaGRADO T1 Print

uArr Ejercicios 52

Ejercicio 30 Cargue los datos PrecioPisos2gdt

pisos2inp Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

Z pisos2inp Gretl

open datosPrecioPisos2gdt

smpl superficie gt= 80 --restrict

smpl superficie lt 100 --restrict

rho 80 100=corr(preciosuperficie)

gnuplot precio superficie --output=display

smpl full

rho=corr(preciosuperficie)

gnuplot precio superficie --output=display

print rho rho 80 100

uArr Ejercicios 53

Ejercicio 31 Indicar cual de las dos variables de los siguentes pares es la variable dependiente y si la

relacion es positiva o negativa

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 32

(a) iquestCual serıa el coeficiente de correlacion entre las edades de los conyuges si las mujeres siempre se

casaran con un hombre dos anos mayor que ellas

(b) iquestY si lo hiciesen con hombres que son cinco anos mayores

uArr Ejercicios 54

Ejercicio 33 El coeficiente de correlacion entre la estatura y el peso para un grupo de estudiantes es

de 07 Si consideramos por separado hombres y mujeres este coeficiente deberıa ser

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta

33

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

open datosPrecioPisos2gdtsmpl superficie gt= 80 --restrictsmpl superficie lt 100 --restrictrho_80_100=corr(preciosuperficie)gnuplot precio superficie --output=displaysmpl fullrho=corr(preciosuperficie)gnuplot precio superficie --output=displayprint rho rho_80_100

Marcos Bujosa

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 34: EconometriaGRADO T1 Print

Practica sobre el contraste de independencia de Pearson

Ejercicio 34

(a) Lease el Capıtulo 24 de Pena y Romo (1997)

(b) La siguiente tabla de contingencia muestra datos sobre supervivencia (1=sobrevive 0=perece) y el

tipo de billete (1=primera 2=segunda 3=tercera) de los viajeros del Titanic en el trayecto en el que

el enorme transatlantico impacto con un iceberg y se hundio

k perece (0) sobrevive (1) TOTAL

1ordf 129 193 322

2ordf 161 119 280

3ordf 574 137 711

TOTAL 864 449 1313

Cuadro 1 Tabla de contingencia observada para el accidente del Titanic

Bajo la hipotesis de que la probabilidad de sobrevivir es independiente del tipo de billete la

proporcion esperada de viajeros ahogados con billete de primera serıa igual a la proporcion de viajeros

de primera clase multiplicada por la proporcion de viajeros que no sobrevivieron

( viajeros ahogados) middot ( viajeros 1ordf clase) middot (Num viajeros) =864

1313middot 322

1313middot 1313 = 211887

Por tanto la frecuencia esperada de viajeros con pasaje de primera que sobrevivien es igual a

( supervivientes) middot ( viajeros 1ordf clase) middot (Num viajeros) =499

1313middot 322

1313middot 1313 = 110113

o lo que es lo mismo (y recuerde la discusion sobre los grados de libertad que ha leido en Pena y Romo

(1997))

(Num viajeros 1ordf clase)minus (Num esperado de fallecidos en 1ordf clase) = 322minus 211887 = 110113

En el Cuadro 1 se puede observar que se salvaron muchos mas viajeros con pasaje de primera de

los esperados bajo la hipotesis de independencia Complete el Cuadro 2 de frecuencias esperadas que

aparece a continuacion

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 280

3ordf 711

TOTAL 864 449 1313

Cuadro 2 Tabla de frecuencias esperadas para el accidente del Titanic

(c) Como habra visto en el Capıtulo 24 de Pena y Romo (1997) el contraste de independencia de Pearson

se basa en comparar las frecuencias observadas y las esperadas bajo la hipotesis nula de independencia

El estadıstico es (httpenwikipediaorgwikiPearson27s_chi-squared_testCalculating_

the_test-statistic)

χ2 =sum (Obsi minus Espi)2

Espi

Calcule dicho estadıstico con calculadora y las tablas de una χ2 o bien con Gretl mediante el comando

xtab (iexclque es mucho mas comodo)

34

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 35: EconometriaGRADO T1 Print

iquestEs aceptable la hipotesis de que el tipo de billete y la probabilidad de perecer fueron indepen-

dientes

Z titanicinp Gretl

open datostitanicgdt

xtab pclass survived o tambien xtab 1 2

(d) Repita el ejercicio para contrastar la independencia entre el sexo del viajero y la probabilidad de

sobrevivir Ser mujer iquestaumento la probabilidad de sobrevivir iquestdisminuyo iquestes independiente

Practicas sobre el coeficiente de correlacion por rangos de Spearman

Consulte el significado del coeficiente de correlacion por rangos de Spearman en httpenwikipedia

orgwikiSpearman_correlation y tambien en httpfacultyvassaredulowrych3bhtml

Ejercicio 35 El cuarteto de Anscombe (httpenwikipediaorgwikiAnscombersquos_quartet) com-

prende cuatro conjuntos de datos generados artificialmente por el estadıstico F J Anscombe

Figura 1 Diagramas de dispersion de los datos de Anscombe

Los cuatro conjuntos (de once pares de puntos (x y) cada uno) poseen propiedades estadısticas

comunes sin embargo al inspeccionar sus respectivos graficos se evidencian grandes diferencias entre

ellos Este conjunto de datos muestra la importancia de mirar graficamente los datos antes de ponerse a

trabajar con ellos Las propedades comunes se muestran en el siguiente cuadro

35

open datostitanicgdtxtab pclass survived o tambien xtab 1 2

Marcos Bujosa

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 36: EconometriaGRADO T1 Print

Propiedades comunes a los cuatro grupos Valor

Media de cada una de las variables x 90

Varianza de cada una de las variables x 110

Media de cada una de las variables y 75

Varianza de cada una de las variables y 412

Coef de Correlacion de Pearson entre cada una de las variables x e y 0816

Recta de regresion y = 3 + 05x

Sin embargo el coeficiente de correlacion por rangos de Spearman difiere entre los distintos grupos de

datos

El coeficiente de correlacion por rangos solo tiene en cuenta el orden y no el ritmo de crecimiento

de las variables De esta manera el coeficiente es igual a 1 solo si el menor dato x viene acompanado del

menor dato de y el segundo dato mas pequeno de x acompanado del segundo menor de y y ası hasta

el mayor dato de x acompanado del dato mas grande para y es decir el coeficiente toma el valor uno si

hay una relacion monotona creciente entre x e y a lo largo de la muestra Si la relacion fuera monotona

decreciente el coeficiente tomarıa el valor -1

En el diagrama de dispersion de y3 con x3 observamos una relacion monotona creciente en casi toda

la muestra unicamente rota por los dos ultimos datos el mayor de x3 viene acompanado del segundo

mayor para y3 y el mayor de y3 esta acompanado del segundo mayor para x3 Por ello el coeficiente de

correlacion por rangos de Spearman tiene que estar muy proximo a uno en este caso

El caso de los puntos situados a lo largo de la parabola es similar ya que la mayorıa de los datos

muestran una relacion estrictamente creciente sin embargo los cuatro ultimos datos tienen una relacion

monotona decreciente Por ello el coeficiente es menor que en el caso anterior

En el primer caso (y1 y x) los puntos no estan alineados no obstante hay una relacion global

aparentemente creciente (sin ningun tramo decreciente) por ello el coeficiente toma un valor intermedio a

los dos anteriores

En el ultimo caso el mayor dato de y4 viene acompanado del mayor dato para x4 pero el resto de

valores de y4 estan asociados al mismo valor para x4 ası que hay una gran indefinicion sobre si la relacion

es creciente o decreciente

Abra la base de datos anscombegdt con el programa Gretl y calcule (con spearman) los coeficientes

de correlacion por rangos para los siguientes pares de variables

(a) y1 con x

(b) y2 con x

(c) y3 con x

(d) y4 con x4

(e) Verifique que sin embargo el coef de correlacion de Pearson es 0 8165 para los cuatro pares de

variables anteriores

Z SpearmanAnscombeinp Gretl

open anscombegdt

gnuplot y1 x --output=display

spearman --verbose y1 x

gnuplot y2 x --output=display

spearman --verbose y2 x

gnuplot y3 x --output=display

36

open anscombegdtgnuplot y1 x --output=displayspearman --verbose y1 xgnuplot y2 x --output=displayspearman --verbose y2 xgnuplot y3 x --output=displayspearman --verbose y3 xgnuplot y4 x4 --output=displayspearman --verbose y4 x4corr y1 y2 y3 xcorr y4 x4

Marcos Bujosa

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 37: EconometriaGRADO T1 Print

spearman --verbose y3 x

gnuplot y4 x4 --output=display

spearman --verbose y4 x4

corr y1 y2 y3 x

corr y4 x4

Ejercicio 36

(a) Cargue en Gretl la base DATA3-3 (de la pestana de Ramanathan dentro de ldquoArchivos de muestrardquo)

con los de datos anuales sobre las patentes de EEUU y los gastos en I + D

YEAR de 1960 a 1993 (34 observaciones)

PATENTS Numero de solicitudes de patentes presentadas en miles

R D gasto en I + D en miles de millones de dolares de 1992 obtenido como la proporcion de los

gastos en dolares corrientes dividido por el deflactor del PIB

(b) Dibuje un diagrama de dispersion con R D en el eje horizontal y PATENTS en el vertical

(c) iquestDirıa usted que existe una relacion claramente creciente entre el gasto en I + D y el numero de

solicitudes de patentes

(d) iquestDirıa usted que la relacion es lineal a lo largo de la muestra es decir que un aumento en el gasto

en I + D tiene siempre el mismo efecto sobre PATENTS independientemente del nivel de R D o por el

contrario iquestobserva una pendiente distinta a lo largo de la muestra

(e) En este caso el coeficiente que calcula hasta que punto hay una relacion monotona entre variables es el

coeficiente de correlacion por rangos de Spearman Calcule en Gretl dicho coeficiente con el comando

spearman

Z PatentesIDinp Gretl

open data3-3gdt

gnuplot PATENTS R D --suppress-fitted --output=display

spearman PATENTS R D

37

open data3-3gdtgnuplot PATENTS R_D --suppress-fitted --output=displayspearman PATENTS R_D

Marcos Bujosa

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 38: EconometriaGRADO T1 Print

Algunos ejercicios sencillos

Ejercicio 37 A un grupo de estudiantes de estadıstica se les pregunto hasta que punto estaban ate-

morizados respecto al curso de estadıstica (ldquoestadistifobiardquo) usando una escala desde 0 (en absoluto

atemorizados) hasta 10 (extrema excitacion de emociones paralizantes) Aquı estan los datos de cuatro

estudiantes del curso

Estadistifobia entre los estudiantes

puntuacion frecuencia

5 1

7 2

10 1

Total 4

y algunas sumas calculadas con los datos que le pueden ser utiles (no todas le seran utiles) x es la media

de los datossumxi = 29

sum(ximinusx) = 0

sum(ximinusx)2 = 1275

sum(ximinusx)3 = 937

sum(ximinusx)4 = 8283

Para esta muestra de 4 datos calcule1

(a) la media la varianza muestral la desviacion estandar

(b) la mediana

(c) la moda

(d) Compare la media y la mediana y comente entonces algo sobre la forma de la distribucion de las

respuestas

Ejercicio 38 Calcule ldquoa ojordquo la media y la mediana para cada una de las siguientes tres distribuciones

en cada grafico senale con sendas flechas los lugares donde cabrıa encontrar la media y la mediana

Ejercicio 39 El grafico de mas abajo es una matriz de diagramas de dispersion que muestra los diagramas

de dispersion combinados de cuatro variables (x1 x2 x3 y x4) Asigne cada diagrama (de los cuatro

indicados mas abajo) con su correlacion

1Puede usar tanto Gretl como una sencilla calculadora y los resultados pueden diferir ya que Gretl calcula la cuasi-varianza

(divide por (N minus 1) en lugar de dividir por N para calcular la varianza)

38

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 39: EconometriaGRADO T1 Print

diagrama correlacion

(a) x1 frente a x2 (i) 12

(b) x1 frente a x3 (ii) 95

(c) x2 frente a x3 (iii) -80

(d) x2 frente a x4 (iv) 50

Ejercicio 40 iquestVerdadero o falso (VF)

(a) La mediana es insensible a valores extremos

(b) La media es insensible a valores extremos

(c) Para una distribucion con asimetrıa positiva la media es mayor que la mediana

(d) La varianza es igual al cuadrado de la desviacion tıpica

(e) El numero de estudiantes que asisten a una leccion de Matematicas en un dıa determinando es una

variable discreta

(f) La mediana es una medida de la posicion central mejor que la media cuando la distribucion presenta

excesiva asimetrıa

(g) Pese a que podamos tener una enorme cantidad de datos las tecnicas estadısticas nos permiten describir

y resumir los datos con unos pocos estadısticos

(h) Una muestra es un subconjunto de una poblacion

(i) Un estadıstico es un numero que describe una caracterıstica de la poblacion

(j) Una poblacion es un subconjunto de una muestra

(k) Una poblacion es la coleccion completa de elementos bajo estudio

Ejercicio 41 Sobre la base de la duracion de 272 erupciones del geiser ldquoOld Faithfulrdquo del parque Ye-

llowstone los guardas del parque intentan predecir el tiempo de espera hasta el comienzo de la proxima

erupcion En la siguiente figura se muestra un diagrama de dispersion que relaciona la duracion de cada

erupcion con el tiempo de espera hasta la siguiente (en segundos)

39

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 40: EconometriaGRADO T1 Print

(a) iquestProporciona el diagrama una razon para creer que la duracion de una erupcion influye en el tiempo

de espera hasta la siguiente (de una brevısima explicacion a su respuesta)

(b) Suponga que usted ha observado una erupcion con una duracion de 250 segundos iquestCual serıa su

prevision del tiempo de espera hasta la proxima

(c) iquestCuantas modas presenta la distribucion marginal de la duracion de las erupciones

Bibliografıa

Pena D y Romo J (1997) Introduccion a la Estadıstica para la Ciencias Sociales McGraw-Hill Madrid

ISBN 84-481-1617-8 4 34

40

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 41: EconometriaGRADO T1 Print

Soluciones a los Ejercicios

Ejercicio 11(a)

x =

sumci middot niN

=48times 87 + 53times 81 + 62times 69 + 43times 24

87 + 81 + 69 + 24= 528

donde ci es la nota media de cada grupo y ni el numero de alumnos de cada grupo

Ejercicio 11(b)

sx =

radicsum(ci minus x)2 middot ni

N

=

radic(48minus x)2 times 87 + (53minus x)2 times 81 + (62minus x)2 times 69 + (43minus x)2 times 24

261

=radic

0389 = 06237

Ejercicio 12(a) Cuatro numeros iguales dan una desviacion tıpica igual a cero (la mınima posible)

Ejercicio 12(b) Tienen que estar lo mas separados posible de la media por tanto la solucion es dos ceros

y dos 10 (es decir 0 0 10 10)

Ejercicio 12(c) Si para (a) cualesquiera cuatro numeros iguales

No para (b)

Ejercicio 34(b)

k perece (0) sobrevive (1) TOTAL

1ordf 211887 110113 322

2ordf 184250 95750 280

3ordf 467863 243137 711

TOTAL 864 449 1313

Ejercicio 34(c) Claramente no La hipotesis nula es rechazable casi para cualquier nivel de significacion

Tener un buen billete aumento mucho la probabilidad de sobrevivir

Ejercicio 34(d) Tampoco en este caso son independientes las mujeres tuvieron una mayor probabilidad

de sobrevivir

Z titanic2inp Gretl

open datostitanicgdt

41

open datostitanicgdtxtab sex survived o tambien xtab 3 2

Marcos Bujosa

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 42: EconometriaGRADO T1 Print

xtab sex survived o tambien xtab 3 2

Ejercicio 36(c) La relacion es creciente a lo largo de la muestra

Ejercicio 36(d) Es facil distinguir que la pendiente es mucho mayor al final de la muestra por tanto no

hay una relacion lineal entre PATENTS y R D

Ejercicio 37(a) media 725 varianza= 31875 (425) desviacion tıpica= 17854 (20616)

Ejercicio 37(b) 7

Ejercicio 37(c) 7

Ejercicio 37(d) Es asimetrica hacia la derecha (asimetrıa positiva)

Ejercicio 40(a) V

Ejercicio 40(b) F

Ejercicio 40(c) V

Ejercicio 40(d) V

Ejercicio 40(e) V

Ejercicio 40(f) V

Ejercicio 40(g) V

Ejercicio 40(h) V

Ejercicio 40(i) V

42

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios
Page 43: EconometriaGRADO T1 Print

Ejercicio 40(j) F

Ejercicio 40(k) V

Ejercicio 41(a) El grafico muestra una clara correlacion positiva entre ambas variables lo que sugiere

que efectivamente la duracion de una erupcion influye en cuando sucedera la siguiente

Ejercicio 41(b) Alrededor de 80 segundos

Ejercicio 41(c) Dos

43

  • Tabla de Contenido
  • 1 Naturaleza y objetivos de la econometriacutea
  • 1 [T-1] Introduccioacuten iquestPor queacute modelar
  • 2 [T-2] El objetivo de la econometriacutea
  • 2 Tipologiacutea de variables
  • 3 [T-3] Poblacioacuten y variable estadiacutestica
  • 4 [T-4] Variables estadiacutesticas cualitativas
  • 5 [T-5] Variables estadiacutesticas cuantitativas
  • 6 [T-6] Ejercicios
  • 7 [T-7] Tipos de datos en funcioacuten del iacutendice
  • 3 Anaacutelisis graacutefico y estadiacutestico de relaciones
    • 31 Anaacutelisis graacutefico y descriptivo de una variable
      • 8 [T-8] Descripcioacuten de variables cualitativas Ejemplo de distribucioacuten de frecuencias
      • 9 [T-9] Ejercicios
      • 10 [T-10] Descripcioacuten de variables cuantitativas discretas distribucioacuten de frecuencias
      • 11 [T-11] Descripcioacuten de variables cuantitativas continuas distribucioacuten de frecuencias (Histograma)
      • 12 [T-12] Ejercicios
      • 13 [T-13] Histograma y caracteriacutesticas de la distribucioacuten
      • 14 [T-14] Ejercicios
        • 32 Descripcioacuten numeacuterica de una variable
          • 15 [T-15] Ejercicios
          • 16 [T-16] Ejercicios
          • 17 [T-17] Ejercicios
          • 18 [T-18] Mediana
          • 19 [T-19] Cuartiles Rango rango intercuartiacutelico
          • 20 [T-20] Diagrama de cajas
          • 21 [T-21] Ejercicio
          • 22 [T-22] Diagramas de cajas con distintos bigotes
          • 23 [T-23] Robustez de la mediana frente a la media en presencia de atiacutepicos
          • 24 [T-24] Ejercicios
          • 25 [T-25] Ejercicios
          • 26 [T-26] Ejercicios
          • 27 [T-27] iquestQueacute graacutefico es maacutes informativo en el caso de una serie temporal
            • 33 Resumen del anaacutelisis graacutefico y descriptivo de una variable
              • 28 [T-28] A modo de resumen Diagramas de barras e Histogramas
              • 29 [T-29] A modo de resumen Diagramas de caja
                • 34 Anaacutelisis graacutefico y descriptivo de dos variables
                  • 30 [T-30] Tablas de contingencia frecuencia absoluta conjunta y marginal
                  • 31 [T-31] Tablas de contingencia frecuencia relativa conjunta y marginal
                  • 32 [T-32] Ejercicio Diagrama de dispersioacuten Distribuciones marginales
                  • 33 [T-33] Ejercicio Distribuciones condicionadas
                  • 34 [T-34] Distribuciones absolutas conjunta y marginales
                  • 35 [T-35] Distribuciones conjuntas Distribuciones condicionadas
                  • 36 [T-36] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 37 [T-37] Ejercicio Diagrama de dispersioacuten y relaciones entre variables
                  • 38 [T-38] Media y varianza condicionadas
                  • 39 [T-39] Media y varianza condicionadas
                  • 40 [T-40] ejercicios
                  • 41 [T-41] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 42 [T-42] Diagramas de dispersioacuten y relacioacuten entre variables
                  • 43 [T-43] Primer intento de medicion de asociacioacuten lineal entre variables Covarianza
                  • 44 [T-44] Covarianza
                  • 45 [T-45] Segundo intento de medicion de asociacioacuten lineal entre variables Correlacioacuten
                  • 46 [T-46] Ejercicios
                  • 47 [T-47] Correlacioacuten y heterogeneidad
                  • 48 [T-48] Ejercicios
                  • 49 [T-49] Ejercicios
                  • 50 [T-50] Correlacioacuten y causalidad Correlaciones espurias
                  • 51 [T-51] Correlacioacuten pequentildea o nula no significa ausencia de relacioacuten
                  • 52 [T-52] Ejercicios
                  • 53 [T-53] Ejercicios
                  • 54 [T-54] Ejercicios
                  • Apeacutendices
                    • Praacutectica sobre el contraste de independencia de Pearson
                    • Praacutectica sobre el coeficiente de correlacioacuten por rangos de Spearman
                    • Bibliografiacutea
                    • Soluciones a los Ejercicios