Estadística con R. Nivel...

Post on 30-Apr-2020

3 views 0 download

Transcript of Estadística con R. Nivel...

1

Estadística con R. Nivel Básico

Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de octubre de 2019 jordav@unican.es

2 Índice

u Datosunivariantes:I.   MedidasdeposiciónII.   MedidasdedispersiónIII.  RepresentacióngráficadelosdatosIV. Medidasdeforma

u Datosbivariantes:I.   CoeficientedecorrelaciónII.   Gráficodedispersión

Índice:Estadísticadescriptiva

3

Conceptosprevios

La estadística descriptiva se emplea para resumir la informaciónproporcionadaporundeterminadoconjuntodedatos.(Vanesa)La inferencia estadística emplea modelos para describir unadeterminadavariablealeatoria(X),considerandoelconjuntodedatosaestudiar unamuestradeobservacionesidénticaeindependientementedistribuidas(i.i.d)conlamismadistribucióndeX.(JoséMaría)Se puede estudiar una o varias variables simultáneamente, siendointeresanteanalizarenesteúltimocasolarelaciónentreellas.

4

Partimosdeunconjuntodendatos:

x1,…,xnCorrespondientesalvalordeunadeterminadavariable,e.g.renta,edad,númerodehijos,etcétera.Enestapartedelcursovamosaemplearelconjuntodedatoscontenidoenelarchivodatos2.txt,quecontienelarentapercápitadelospaísesdelmundoendólares internacionalesde2011y losañospromediodeeducación(WorldDevelopmentIndicators,2016).Nuestro objetivo será resumir la información contenida en esteconjuntodedatos.

Conceptosprevios

5

Medidasdeposición

NOTA:Esmuysensiblealosvaloresatípicosyobservacionesextremas.

MediaaritméticaEs unamedida de tendencia central (me indica en torno a qué valor sesitúanmisdatos)

Ejemplo:Cálculodelamediadelosdatosderentadedatos2.txt.

mean(renta)[1]15584.48

6

Medidasdeposición

nimpar:x([n+1]/2)npar:mediadex(n/2),x([n/2+1)

NOTA:Esmenossensiblequelamediaavaloresatípicosyvaloresextremos.

MedianaConsiderando los datos ordenados demenor amayor, lamediana es elvalorquedejaaizquierdayderechaelmismonúmerodeobservaciones.Ordenamosenprimerlugarlosdatos:x(1),…,x(n)

Ejemplo:Cálculodelamedianadelosdatosderentadedatos2.txt.

median(renta)[1]9550.652

7

Medidasdeposición

NOTA:Esmenossensiblequelamediaavaloresatípicosyvaloresextremos

Mediana

Ejemplo: Cálculo de la media y la mediana de los datos de renta dedatos2.txtmenossumáximo.

mean(renta2) median(renta2)[1]14823.54 [1]9460.94mean(renta) median(renta)[1]15584.48 [1]9550.652

8

Medidasdeposición

Elcuantildeordenp(qp)elelvalorquedejaalaizquierdaunp%delasobservaciones(i.e.p%delosdatosmenoresqueesevalor).

Cuantiles

Casosparticulares:

Cuartiles:dividenlosdatosencuatrobloques.Q1:dejaalaizquierdael25%delasobservaciones.Q2–mediana:dejaalaizquierdael50%delasobservaciones.Q3:dejaalaizquierdael75%delasobservaciones.Q4–máximo:dejaalaizquierdael100%delasobservaciones.

Deciles:dividenlosdatosendiezbloques.

Percentiles:dividenlosdatosencienbloques.

9

Medidasdeposición

Para calcularel cuantildeordenp (qp)descomponemos laobservaciónx(p[n-1]+1)ensuparteenteraydecimal:

p(n-1)+1=j+k

dondejeslaparteenterayklapartedecimal[0,1],siendoelcuantilqp

qp=(1-k)x(j)+kx(j+1)

Cuantiles

Ejemplo:Cálculodelprimerdecildelosdatosderentadedatos2.txt.

>quantile(renta,0.1)1318.772>0.9*rentaord[14]+0.1*rentaord[15]1318.772

10

Medidasdedispersión

Lavarianzamideladistanciadelosdatosalamedia:Ladesviacióntípicaeslaraízpositivadelavarianza,siendosuprincipalventajacon respecto a ésta que viene representada en las mismas unidades que lavariable.NOTAS•  Ambasmedidasdedispersiónsonmuysensiblesalosvaloresextremos.•  Noesposiblecompararladispersióndedosvariablesendiferentesunidadesdemedidaconestosestadísticos.

Varianzaydesviacióntípica

11

Medidasdedispersión

Esunamedidadedispersiónrelativa,quepermitelacomparacióndeladispersióndedosvariablesmedidasendistintasunidades.

Coeficientedevariación(CV)

Ejemplo:Cálculodevarianza,desv.típicayCVdeingresoyeducación.

>var(renta) var(educacion)[1]309647374 9.676187>sd(renta) sd(educacion)[1]17596.8 3.110657 >sd(renta)/mean(renta) sd(educacion)/mean(educacion)[1]1.129124 0.3777431

12

Medidasdedispersión

Estasdosmedidasdedispersiónempleanlarelacionesentreloscuartiles:La principal diferencia entre ambas es que la segunda nos permitecompararladispersióndedosvariablesindependientementedelaescala.

Recorridointercuartílicoysemi-intercuartílico

Ejemplo:Recorrido intercuartílicoy semi-intercuartílicode la rentapercápita

RI<-quantile(renta,0.75)-quantile(renta,0.25)19485.99RSI<-RI/(quantile(renta,0.75)+quantile(renta,0.25))0.7380748

13

Representacióngráfica

Diagramadecaja(boxplot)0e+00

2e+04

4e+04

6e+04

8e+04

1e+05

Q3

Q1 Q2Q1-1.5RI

Q3+1.5RI

Observacionesatípicas

14

Representacióngráfica

Histograma

Seaa1<…<aj<aj+1<…,definimosparatpertenecienteal intervalo(ai,ai+1]. Laamplituddel intervalosedefinecomohn=ai+1-ai,mientrasqueI(ai,ai+1]esunindicadorquevale1silaobservaciónseencuentraendichointervaloyceroencasocontrario.

Ejemplo:Histogramaparalavariableingreso.

hist(renta)

(j)

15

Representacióngráfica

Histogram of muestra

muestra

Frequency

0 20000 40000 60000 80000 120000

020

4060

80 Esalgosimple!

16

RepresentacióngráficaHistograma del PIB per cápita

PIB per cápita

Frecuencia

0 20000 40000 60000 80000 100000

020

4060

80100

17

RepresentacióngráficaHistogram of muestra

muestra

Frequency

0 20000 40000 60000 80000 120000

020

4060

80100

120

Histogram of muestra

muestra

Frequency

0 20000 40000 60000 80000 120000

020

4060

80

Histogram of muestra

muestraFrequency

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

05

1015

18

Representacióngráfica

EstimadoresnúcleookernelEsunaformasofisticadaderepresentarladistribucióndelosdatos.Se puede generalizar estemétodo reemplazando la densidaduniformepor una función de densidad determinada que denominamos kernel onúcleo.

El más utilizado (y el que se emplea por defecto en R) es el núcleogaussiano.

19

Estimadoresnúcleookernel

20

Representacióngráfica

Estimadoresnúcleookernel

Elestimadorkernelvienedadopor:

Ejemplo: Estimación kernel de la función de densidad de la variableingreso.

plot(density(renta))

21

Representacióngráfica

0 20000 40000 60000 80000 100000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

22

RepresentacióngráficaHistogram of muestra

muestra

Density

0 20000 40000 60000 80000 100000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

5e-05

6e-05

23

Representacióngráfica

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

Kernel triangular

N = 167 Bandwidth = 4264

Density

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

Kernel rectangular

N = 167 Bandwidth = 4264

Density

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

Kernel gaussiano

N = 167 Bandwidth = 4264Density

24

Representacióngráfica

0e+00 5e+04 1e+05

0.0e+00

5.0e-06

1.0e-05

1.5e-05

2.0e-05

2.5e-05

3.0e-05

density.default(x = muestra, bw = 8000)

N = 167 Bandwidth = 8000

Density

0 20000 40000 60000 80000 120000

0e+00

1e-05

2e-05

3e-05

4e-05

density.default(x = muestra)

N = 167 Bandwidth = 4264

Density

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0e+00

2e-05

4e-05

6e-05

8e-05

density.default(x = muestra, bw = 1000)

N = 167 Bandwidth = 1000Density

25

Medidasdeforma

§  g1=0,ladistribuciónessimétrica.§  g1<0,ladistribuciónesasimétricanegativa.§  g1>0,ladistribuciónesasimétricapositiva.

Coeficientedeasimetría

Ejemplo:

library(moments)skewness(renta)[1]2.346271

26

Medidasdeforma

-1e+05 -5e+04 0e+00 5e+04 1e+05

0e+00

1e-05

2e-05

3e-05

4e-05

5e-05

density.default(x = sampleP, bw = 4000)

N = 1000 Bandwidth = 4000

Density

27

Medidasdeforma

Mideelgradodeapuntamientodeladistribuciónconrespectoaladistribuciónnormalestándar§  g2=0,ladistribuciónesmesocúrtica.§  g2<0,ladistribuciónesplaticúrtica.§  g2>0,ladistribuciónesleptocúrtica.

Coeficientedecurtosis

Ejemplo:

library(moments)kurtosis(renta)-3[1]8.320581

28

Medidasdeforma

-20 -10 0 10 20

0.00

0.05

0.10

0.15

0.20

density.default(x = sampleN, bw = 2)

N = 1000 Bandwidth = 2

Density

29

Análisisdedatosbivariantes

Enestecasoobservamosdosvariablesdecadaunodeloscomponentesdelamuestra.Ejemplo:Relaciónentreelcapitalhumanodeunpaísysunivelderenta.Los objetivos del análisis de bivariante (multivariante, en términosgenerales) es entender la relación que existe entre las variables. Paraelloempleamos:1.  Estadísticosresumen.Lacovarianzayelcoeficientedecorrelación.2.  Herramientasgráficas.Elgráficodedispersión.

30

CovarianzaentrelasvariablesXeY

Ejemplo:

cov(renta,educacion)[1]32489.33

Análisisdedatosbivariantes

LacovarianzadeterminaeltipoderelaciónlinealentrelasvariablesXeY

Lamagnituddeesteestadísticonoesinformativa,dadoquedependedelaunidaddemedidadelavariable,loqueesrelevanteessusigno.

31

Proporcionaunamedidadelgradoderelaciónlinealentrelasvariables.§  rXY=0,noexisterelaciónlinealentrelasvariables.§  rXY=1,relaciónlinealpositivaperfectaentrelasvariables.§  rXY=-1,relaciónlinealnegativaperfectaentrelasvariables.§  0<rXY<1,relaciónlinealpositivaentrelasvariables.§  -1<rXY<0,relaciónlinealnegativaentrelasvariables.Ejemplo:

cor(renta,educacion)[1]0.5750804

Análisisdedatosbivariantes

Y

CoeficientedecorrelaciónentrelasvariablesXeY

32

Análisisdedatosbivariantes

rXY=0,575

2 4 6 8 10 12 14

0e+00

2e+04

4e+04

6e+04

8e+04

1e+05

educacion

renta

33

Análisisdedatosbivariantes

rXY=0,786

2 4 6 8 10 12 14

67

89

1011

educacion

log(renta)

34

Análisisdedatosbivariantes

-3 -2 -1 0 1 2 3

-6-4

-20

24

6

Correlación positiva perfecta

X

Y

-3 -2 -1 0 1 2 3

-6-4

-20

24

6

Correlación negativa perfecta

X

Y

35

Análisisdedatosbivariantes

rXY=0,96

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

-3 -2 -1 0 1 2 3

-6-4

-20

24

6

rXY=0,47

36

Análisisdedatosbivariantes

UnrXYcercanoa0seinterpretacomounadébilasociaciónlineal

0 1 2 3 4 5 6

3.0

3.5

4.0

4.5

5.0

5.5

Correlación débil

X

Y

0 1 2 3 4 5 6

-20

24

68

sampleS + 3

3 +

sam

pleN

^3

rXY=0,03 rXY=-0,01

37

1.Ejemplodedatostabulados

Nota 2 3 4 5 6 7 8 9 10Alumnos 2 2 6 18 15 9 7 3 1

Calcular:

a)  Notamedia.b)  Notamínimadel10porcientodelosmejoresalumnos.c)  VarianzadelascalificacionesdeEstadísticaII.d)  Diagramadecaja.¿Hayalgúnvaloratípico?e)  Histogramadelascalificacionesanteriores.

LossiguientesdatosrecogenunamuestradenotasdelaasignaturadeEstadísticaIIdelGradoenEconomía:

38

2.Ejemplodedatostabulados

Nºaccidentes\añosdecarnet 2 5 10 150 3 2 15 201 7 10 12 132 15 9 5 2

Lasiguientetablarecogeinformaciónsobreelnúmerodeaccidentesenelúltimoañoylosañosdecarnetdeconducirdeunamuestradeclientesdeunaaseguradora:

a)  Calcularlacovarianzayelcoeficientedecorrelaciónentreelnúmerodeañosdecarnetyelnúmerodeaccidentes.

b)  Representargráficamentelarelaciónentreambasvariablespormediodeungráficodedispersión.