Estadística con R. Nivel...

38
1 Estadística con R. Nivel Básico Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de octubre de 2019 [email protected]

Transcript of Estadística con R. Nivel...

Page 1: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

1

Estadística con R. Nivel Básico

Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de octubre de 2019 [email protected]

Page 2: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

2 Índice

u Datosunivariantes:I.   MedidasdeposiciónII.   MedidasdedispersiónIII.  RepresentacióngráficadelosdatosIV. Medidasdeforma

u Datosbivariantes:I.   CoeficientedecorrelaciónII.   Gráficodedispersión

Índice:Estadísticadescriptiva

Page 3: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

3

Conceptosprevios

La estadística descriptiva se emplea para resumir la informaciónproporcionadaporundeterminadoconjuntodedatos.(Vanesa)La inferencia estadística emplea modelos para describir unadeterminadavariablealeatoria(X),considerandoelconjuntodedatosaestudiar unamuestradeobservacionesidénticaeindependientementedistribuidas(i.i.d)conlamismadistribucióndeX.(JoséMaría)Se puede estudiar una o varias variables simultáneamente, siendointeresanteanalizarenesteúltimocasolarelaciónentreellas.

Page 4: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

4

Partimosdeunconjuntodendatos:

x1,…,xnCorrespondientesalvalordeunadeterminadavariable,e.g.renta,edad,númerodehijos,etcétera.Enestapartedelcursovamosaemplearelconjuntodedatoscontenidoenelarchivodatos2.txt,quecontienelarentapercápitadelospaísesdelmundoendólares internacionalesde2011y losañospromediodeeducación(WorldDevelopmentIndicators,2016).Nuestro objetivo será resumir la información contenida en esteconjuntodedatos.

Conceptosprevios

Page 5: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

5

Medidasdeposición

NOTA:Esmuysensiblealosvaloresatípicosyobservacionesextremas.

MediaaritméticaEs unamedida de tendencia central (me indica en torno a qué valor sesitúanmisdatos)

Ejemplo:Cálculodelamediadelosdatosderentadedatos2.txt.

mean(renta)[1]15584.48

Page 6: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

6

Medidasdeposición

nimpar:x([n+1]/2)npar:mediadex(n/2),x([n/2+1)

NOTA:Esmenossensiblequelamediaavaloresatípicosyvaloresextremos.

MedianaConsiderando los datos ordenados demenor amayor, lamediana es elvalorquedejaaizquierdayderechaelmismonúmerodeobservaciones.Ordenamosenprimerlugarlosdatos:x(1),…,x(n)

Ejemplo:Cálculodelamedianadelosdatosderentadedatos2.txt.

median(renta)[1]9550.652

Page 7: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

7

Medidasdeposición

NOTA:Esmenossensiblequelamediaavaloresatípicosyvaloresextremos

Mediana

Ejemplo: Cálculo de la media y la mediana de los datos de renta dedatos2.txtmenossumáximo.

mean(renta2) median(renta2)[1]14823.54 [1]9460.94mean(renta) median(renta)[1]15584.48 [1]9550.652

Page 8: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

8

Medidasdeposición

Elcuantildeordenp(qp)elelvalorquedejaalaizquierdaunp%delasobservaciones(i.e.p%delosdatosmenoresqueesevalor).

Cuantiles

Casosparticulares:

Cuartiles:dividenlosdatosencuatrobloques.Q1:dejaalaizquierdael25%delasobservaciones.Q2–mediana:dejaalaizquierdael50%delasobservaciones.Q3:dejaalaizquierdael75%delasobservaciones.Q4–máximo:dejaalaizquierdael100%delasobservaciones.

Deciles:dividenlosdatosendiezbloques.

Percentiles:dividenlosdatosencienbloques.

Page 9: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

9

Medidasdeposición

Para calcularel cuantildeordenp (qp)descomponemos laobservaciónx(p[n-1]+1)ensuparteenteraydecimal:

p(n-1)+1=j+k

dondejeslaparteenterayklapartedecimal[0,1],siendoelcuantilqp

qp=(1-k)x(j)+kx(j+1)

Cuantiles

Ejemplo:Cálculodelprimerdecildelosdatosderentadedatos2.txt.

>quantile(renta,0.1)1318.772>0.9*rentaord[14]+0.1*rentaord[15]1318.772

Page 10: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

10

Medidasdedispersión

Lavarianzamideladistanciadelosdatosalamedia:Ladesviacióntípicaeslaraízpositivadelavarianza,siendosuprincipalventajacon respecto a ésta que viene representada en las mismas unidades que lavariable.NOTAS•  Ambasmedidasdedispersiónsonmuysensiblesalosvaloresextremos.•  Noesposiblecompararladispersióndedosvariablesendiferentesunidadesdemedidaconestosestadísticos.

Varianzaydesviacióntípica

Page 11: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

11

Medidasdedispersión

Esunamedidadedispersiónrelativa,quepermitelacomparacióndeladispersióndedosvariablesmedidasendistintasunidades.

Coeficientedevariación(CV)

Ejemplo:Cálculodevarianza,desv.típicayCVdeingresoyeducación.

>var(renta) var(educacion)[1]309647374 9.676187>sd(renta) sd(educacion)[1]17596.8 3.110657 >sd(renta)/mean(renta) sd(educacion)/mean(educacion)[1]1.129124 0.3777431

Page 12: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

12

Medidasdedispersión

Estasdosmedidasdedispersiónempleanlarelacionesentreloscuartiles:La principal diferencia entre ambas es que la segunda nos permitecompararladispersióndedosvariablesindependientementedelaescala.

Recorridointercuartílicoysemi-intercuartílico

Ejemplo:Recorrido intercuartílicoy semi-intercuartílicode la rentapercápita

RI<-quantile(renta,0.75)-quantile(renta,0.25)19485.99RSI<-RI/(quantile(renta,0.75)+quantile(renta,0.25))0.7380748

Page 13: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

13

Representacióngráfica

Diagramadecaja(boxplot)0e+00

2e+04

4e+04

6e+04

8e+04

1e+05

Q3

Q1 Q2Q1-1.5RI

Q3+1.5RI

Observacionesatípicas

Page 14: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

14

Representacióngráfica

Histograma

Seaa1<…<aj<aj+1<…,definimosparatpertenecienteal intervalo(ai,ai+1]. Laamplituddel intervalosedefinecomohn=ai+1-ai,mientrasqueI(ai,ai+1]esunindicadorquevale1silaobservaciónseencuentraendichointervaloyceroencasocontrario.

Ejemplo:Histogramaparalavariableingreso.

hist(renta)

(j)

Page 15: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

15

Representacióngráfica

Histogram of muestra

muestra

Frequency

0 20000 40000 60000 80000 120000

020

4060

80 Esalgosimple!

Page 16: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

16

RepresentacióngráficaHistograma del PIB per cápita

PIB per cápita

Frecuencia

0 20000 40000 60000 80000 100000

020

4060

80100

Page 17: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

17

RepresentacióngráficaHistogram of muestra

muestra

Frequency

0 20000 40000 60000 80000 120000

020

4060

80100

120

Histogram of muestra

muestra

Frequency

0 20000 40000 60000 80000 120000

020

4060

80

Histogram of muestra

muestraFrequency

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

05

1015

Page 18: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

18

Representacióngráfica

EstimadoresnúcleookernelEsunaformasofisticadaderepresentarladistribucióndelosdatos.Se puede generalizar estemétodo reemplazando la densidaduniformepor una función de densidad determinada que denominamos kernel onúcleo.

El más utilizado (y el que se emplea por defecto en R) es el núcleogaussiano.

Page 19: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

19

Estimadoresnúcleookernel

Page 20: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

20

Representacióngráfica

Estimadoresnúcleookernel

Elestimadorkernelvienedadopor:

Ejemplo: Estimación kernel de la función de densidad de la variableingreso.

plot(density(renta))

Page 21: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

21

Representacióngráfica

0 20000 40000 60000 80000 100000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

Page 22: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

22

RepresentacióngráficaHistogram of muestra

muestra

Density

0 20000 40000 60000 80000 100000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

5e-05

6e-05

Page 23: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

23

Representacióngráfica

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

Kernel triangular

N = 167 Bandwidth = 4264

Density

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

Kernel rectangular

N = 167 Bandwidth = 4264

Density

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

Kernel gaussiano

N = 167 Bandwidth = 4264Density

Page 24: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

24

Representacióngráfica

0e+00 5e+04 1e+05

0.0e+00

5.0e-06

1.0e-05

1.5e-05

2.0e-05

2.5e-05

3.0e-05

density.default(x = muestra, bw = 8000)

N = 167 Bandwidth = 8000

Density

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

density.default(x = muestra)

N = 167 Bandwidth = 4264

Density

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0e+00

2e-05

4e-05

6e-05

8e-05

density.default(x = muestra, bw = 1000)

N = 167 Bandwidth = 1000Density

Page 25: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

25

Medidasdeforma

§  g1=0,ladistribuciónessimétrica.§  g1<0,ladistribuciónesasimétricanegativa.§  g1>0,ladistribuciónesasimétricapositiva.

Coeficientedeasimetría

Ejemplo:

library(moments)skewness(renta)[1]2.346271

Page 26: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

26

Medidasdeforma

-1e+05 -5e+04 0e+00 5e+04 1e+05

0e+00

1e-05

2e-05

3e-05

4e-05

5e-05

density.default(x = sampleP, bw = 4000)

N = 1000 Bandwidth = 4000

Density

Page 27: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

27

Medidasdeforma

Mideelgradodeapuntamientodeladistribuciónconrespectoaladistribuciónnormalestándar§  g2=0,ladistribuciónesmesocúrtica.§  g2<0,ladistribuciónesplaticúrtica.§  g2>0,ladistribuciónesleptocúrtica.

Coeficientedecurtosis

Ejemplo:

library(moments)kurtosis(renta)-3[1]8.320581

Page 28: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

28

Medidasdeforma

-20 -10 0 10 20

0.00

0.05

0.10

0.15

0.20

density.default(x = sampleN, bw = 2)

N = 1000 Bandwidth = 2

Density

Page 29: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

29

Análisisdedatosbivariantes

Enestecasoobservamosdosvariablesdecadaunodeloscomponentesdelamuestra.Ejemplo:Relaciónentreelcapitalhumanodeunpaísysunivelderenta.Los objetivos del análisis de bivariante (multivariante, en términosgenerales) es entender la relación que existe entre las variables. Paraelloempleamos:1.  Estadísticosresumen.Lacovarianzayelcoeficientedecorrelación.2.  Herramientasgráficas.Elgráficodedispersión.

Page 30: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

30

CovarianzaentrelasvariablesXeY

Ejemplo:

cov(renta,educacion)[1]32489.33

Análisisdedatosbivariantes

LacovarianzadeterminaeltipoderelaciónlinealentrelasvariablesXeY

Lamagnituddeesteestadísticonoesinformativa,dadoquedependedelaunidaddemedidadelavariable,loqueesrelevanteessusigno.

Page 31: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

31

Proporcionaunamedidadelgradoderelaciónlinealentrelasvariables.§  rXY=0,noexisterelaciónlinealentrelasvariables.§  rXY=1,relaciónlinealpositivaperfectaentrelasvariables.§  rXY=-1,relaciónlinealnegativaperfectaentrelasvariables.§  0<rXY<1,relaciónlinealpositivaentrelasvariables.§  -1<rXY<0,relaciónlinealnegativaentrelasvariables.Ejemplo:

cor(renta,educacion)[1]0.5750804

Análisisdedatosbivariantes

Y

CoeficientedecorrelaciónentrelasvariablesXeY

Page 32: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

32

Análisisdedatosbivariantes

rXY=0,575

2 4 6 8 10 12 14

0e+00

2e+04

4e+04

6e+04

8e+04

1e+05

educacion

renta

Page 33: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

33

Análisisdedatosbivariantes

rXY=0,786

2 4 6 8 10 12 14

67

89

1011

educacion

log(renta)

Page 34: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

34

Análisisdedatosbivariantes

-3 -2 -1 0 1 2 3

-6-4

-20

24

6

Correlación positiva perfecta

X

Y

-3 -2 -1 0 1 2 3

-6-4

-20

24

6

Correlación negativa perfecta

X

Y

Page 35: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

35

Análisisdedatosbivariantes

rXY=0,96

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

-3 -2 -1 0 1 2 3

-6-4

-20

24

6

rXY=0,47

Page 36: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

36

Análisisdedatosbivariantes

UnrXYcercanoa0seinterpretacomounadébilasociaciónlineal

0 1 2 3 4 5 6

3.0

3.5

4.0

4.5

5.0

5.5

Correlación débil

X

Y

0 1 2 3 4 5 6

-20

24

68

sampleS + 3

3 +

sam

pleN

^3

rXY=0,03 rXY=-0,01

Page 37: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

37

1.Ejemplodedatostabulados

Nota 2 3 4 5 6 7 8 9 10Alumnos 2 2 6 18 15 9 7 3 1

Calcular:

a)  Notamedia.b)  Notamínimadel10porcientodelosmejoresalumnos.c)  VarianzadelascalificacionesdeEstadísticaII.d)  Diagramadecaja.¿Hayalgúnvaloratípico?e)  Histogramadelascalificacionesanteriores.

LossiguientesdatosrecogenunamuestradenotasdelaasignaturadeEstadísticaIIdelGradoenEconomía:

Page 38: Estadística con R. Nivel Básicovanesajorda.com/dir/wp-content/uploads/2019/10/curso_basico_R_V… · estudiar una muestra de observaciones idéntica e independientemente ... Se

38

2.Ejemplodedatostabulados

Nºaccidentes\añosdecarnet 2 5 10 150 3 2 15 201 7 10 12 132 15 9 5 2

Lasiguientetablarecogeinformaciónsobreelnúmerodeaccidentesenelúltimoañoylosañosdecarnetdeconducirdeunamuestradeclientesdeunaaseguradora:

a)  Calcularlacovarianzayelcoeficientedecorrelaciónentreelnúmerodeañosdecarnetyelnúmerodeaccidentes.

b)  Representargráficamentelarelaciónentreambasvariablespormediodeungráficodedispersión.