Estadística con R. Nivel...
Transcript of Estadística con R. Nivel...
1
Estadística con R. Nivel Básico
Vanesa Jordá Departamento de Economía Universidad de Cantabria 15 de octubre de 2019 [email protected]
2 Índice
u Datosunivariantes:I. MedidasdeposiciónII. MedidasdedispersiónIII. RepresentacióngráficadelosdatosIV. Medidasdeforma
u Datosbivariantes:I. CoeficientedecorrelaciónII. Gráficodedispersión
Índice:Estadísticadescriptiva
3
Conceptosprevios
La estadística descriptiva se emplea para resumir la informaciónproporcionadaporundeterminadoconjuntodedatos.(Vanesa)La inferencia estadística emplea modelos para describir unadeterminadavariablealeatoria(X),considerandoelconjuntodedatosaestudiar unamuestradeobservacionesidénticaeindependientementedistribuidas(i.i.d)conlamismadistribucióndeX.(JoséMaría)Se puede estudiar una o varias variables simultáneamente, siendointeresanteanalizarenesteúltimocasolarelaciónentreellas.
4
Partimosdeunconjuntodendatos:
x1,…,xnCorrespondientesalvalordeunadeterminadavariable,e.g.renta,edad,númerodehijos,etcétera.Enestapartedelcursovamosaemplearelconjuntodedatoscontenidoenelarchivodatos2.txt,quecontienelarentapercápitadelospaísesdelmundoendólares internacionalesde2011y losañospromediodeeducación(WorldDevelopmentIndicators,2016).Nuestro objetivo será resumir la información contenida en esteconjuntodedatos.
Conceptosprevios
5
Medidasdeposición
NOTA:Esmuysensiblealosvaloresatípicosyobservacionesextremas.
MediaaritméticaEs unamedida de tendencia central (me indica en torno a qué valor sesitúanmisdatos)
Ejemplo:Cálculodelamediadelosdatosderentadedatos2.txt.
mean(renta)[1]15584.48
6
Medidasdeposición
nimpar:x([n+1]/2)npar:mediadex(n/2),x([n/2+1)
NOTA:Esmenossensiblequelamediaavaloresatípicosyvaloresextremos.
MedianaConsiderando los datos ordenados demenor amayor, lamediana es elvalorquedejaaizquierdayderechaelmismonúmerodeobservaciones.Ordenamosenprimerlugarlosdatos:x(1),…,x(n)
Ejemplo:Cálculodelamedianadelosdatosderentadedatos2.txt.
median(renta)[1]9550.652
7
Medidasdeposición
NOTA:Esmenossensiblequelamediaavaloresatípicosyvaloresextremos
Mediana
Ejemplo: Cálculo de la media y la mediana de los datos de renta dedatos2.txtmenossumáximo.
mean(renta2) median(renta2)[1]14823.54 [1]9460.94mean(renta) median(renta)[1]15584.48 [1]9550.652
8
Medidasdeposición
Elcuantildeordenp(qp)elelvalorquedejaalaizquierdaunp%delasobservaciones(i.e.p%delosdatosmenoresqueesevalor).
Cuantiles
Casosparticulares:
Cuartiles:dividenlosdatosencuatrobloques.Q1:dejaalaizquierdael25%delasobservaciones.Q2–mediana:dejaalaizquierdael50%delasobservaciones.Q3:dejaalaizquierdael75%delasobservaciones.Q4–máximo:dejaalaizquierdael100%delasobservaciones.
Deciles:dividenlosdatosendiezbloques.
Percentiles:dividenlosdatosencienbloques.
9
Medidasdeposición
Para calcularel cuantildeordenp (qp)descomponemos laobservaciónx(p[n-1]+1)ensuparteenteraydecimal:
p(n-1)+1=j+k
dondejeslaparteenterayklapartedecimal[0,1],siendoelcuantilqp
qp=(1-k)x(j)+kx(j+1)
Cuantiles
Ejemplo:Cálculodelprimerdecildelosdatosderentadedatos2.txt.
>quantile(renta,0.1)1318.772>0.9*rentaord[14]+0.1*rentaord[15]1318.772
10
Medidasdedispersión
Lavarianzamideladistanciadelosdatosalamedia:Ladesviacióntípicaeslaraízpositivadelavarianza,siendosuprincipalventajacon respecto a ésta que viene representada en las mismas unidades que lavariable.NOTAS• Ambasmedidasdedispersiónsonmuysensiblesalosvaloresextremos.• Noesposiblecompararladispersióndedosvariablesendiferentesunidadesdemedidaconestosestadísticos.
Varianzaydesviacióntípica
11
Medidasdedispersión
Esunamedidadedispersiónrelativa,quepermitelacomparacióndeladispersióndedosvariablesmedidasendistintasunidades.
Coeficientedevariación(CV)
Ejemplo:Cálculodevarianza,desv.típicayCVdeingresoyeducación.
>var(renta) var(educacion)[1]309647374 9.676187>sd(renta) sd(educacion)[1]17596.8 3.110657 >sd(renta)/mean(renta) sd(educacion)/mean(educacion)[1]1.129124 0.3777431
12
Medidasdedispersión
Estasdosmedidasdedispersiónempleanlarelacionesentreloscuartiles:La principal diferencia entre ambas es que la segunda nos permitecompararladispersióndedosvariablesindependientementedelaescala.
Recorridointercuartílicoysemi-intercuartílico
Ejemplo:Recorrido intercuartílicoy semi-intercuartílicode la rentapercápita
RI<-quantile(renta,0.75)-quantile(renta,0.25)19485.99RSI<-RI/(quantile(renta,0.75)+quantile(renta,0.25))0.7380748
13
Representacióngráfica
Diagramadecaja(boxplot)0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Q3
Q1 Q2Q1-1.5RI
Q3+1.5RI
Observacionesatípicas
14
Representacióngráfica
Histograma
Seaa1<…<aj<aj+1<…,definimosparatpertenecienteal intervalo(ai,ai+1]. Laamplituddel intervalosedefinecomohn=ai+1-ai,mientrasqueI(ai,ai+1]esunindicadorquevale1silaobservaciónseencuentraendichointervaloyceroencasocontrario.
Ejemplo:Histogramaparalavariableingreso.
hist(renta)
(j)
15
Representacióngráfica
Histogram of muestra
muestra
Frequency
0 20000 40000 60000 80000 120000
020
4060
80 Esalgosimple!
16
RepresentacióngráficaHistograma del PIB per cápita
PIB per cápita
Frecuencia
0 20000 40000 60000 80000 100000
020
4060
80100
17
RepresentacióngráficaHistogram of muestra
muestra
Frequency
0 20000 40000 60000 80000 120000
020
4060
80100
120
Histogram of muestra
muestra
Frequency
0 20000 40000 60000 80000 120000
020
4060
80
Histogram of muestra
muestraFrequency
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
05
1015
18
Representacióngráfica
EstimadoresnúcleookernelEsunaformasofisticadaderepresentarladistribucióndelosdatos.Se puede generalizar estemétodo reemplazando la densidaduniformepor una función de densidad determinada que denominamos kernel onúcleo.
El más utilizado (y el que se emplea por defecto en R) es el núcleogaussiano.
19
Estimadoresnúcleookernel
20
Representacióngráfica
Estimadoresnúcleookernel
Elestimadorkernelvienedadopor:
Ejemplo: Estimación kernel de la función de densidad de la variableingreso.
plot(density(renta))
21
Representacióngráfica
0 20000 40000 60000 80000 100000 120000
0e+00
1e-05
2e-05
3e-05
4e-05
22
RepresentacióngráficaHistogram of muestra
muestra
Density
0 20000 40000 60000 80000 100000 120000
0e+00
1e-05
2e-05
3e-05
4e-05
5e-05
6e-05
23
Representacióngráfica
0 20000 40000 60000 80000 120000
0e+00
1e-05
2e-05
3e-05
4e-05
Kernel triangular
N = 167 Bandwidth = 4264
Density
0 20000 40000 60000 80000 120000
0e+00
1e-05
2e-05
3e-05
4e-05
Kernel rectangular
N = 167 Bandwidth = 4264
Density
0 20000 40000 60000 80000 120000
0e+00
1e-05
2e-05
3e-05
4e-05
Kernel gaussiano
N = 167 Bandwidth = 4264Density
24
Representacióngráfica
0e+00 5e+04 1e+05
0.0e+00
5.0e-06
1.0e-05
1.5e-05
2.0e-05
2.5e-05
3.0e-05
density.default(x = muestra, bw = 8000)
N = 167 Bandwidth = 8000
Density
0 20000 40000 60000 80000 120000
0e+00
1e-05
2e-05
3e-05
4e-05
density.default(x = muestra)
N = 167 Bandwidth = 4264
Density
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
0e+00
2e-05
4e-05
6e-05
8e-05
density.default(x = muestra, bw = 1000)
N = 167 Bandwidth = 1000Density
25
Medidasdeforma
§ g1=0,ladistribuciónessimétrica.§ g1<0,ladistribuciónesasimétricanegativa.§ g1>0,ladistribuciónesasimétricapositiva.
Coeficientedeasimetría
Ejemplo:
library(moments)skewness(renta)[1]2.346271
26
Medidasdeforma
-1e+05 -5e+04 0e+00 5e+04 1e+05
0e+00
1e-05
2e-05
3e-05
4e-05
5e-05
density.default(x = sampleP, bw = 4000)
N = 1000 Bandwidth = 4000
Density
27
Medidasdeforma
Mideelgradodeapuntamientodeladistribuciónconrespectoaladistribuciónnormalestándar§ g2=0,ladistribuciónesmesocúrtica.§ g2<0,ladistribuciónesplaticúrtica.§ g2>0,ladistribuciónesleptocúrtica.
Coeficientedecurtosis
Ejemplo:
library(moments)kurtosis(renta)-3[1]8.320581
28
Medidasdeforma
-20 -10 0 10 20
0.00
0.05
0.10
0.15
0.20
density.default(x = sampleN, bw = 2)
N = 1000 Bandwidth = 2
Density
29
Análisisdedatosbivariantes
Enestecasoobservamosdosvariablesdecadaunodeloscomponentesdelamuestra.Ejemplo:Relaciónentreelcapitalhumanodeunpaísysunivelderenta.Los objetivos del análisis de bivariante (multivariante, en términosgenerales) es entender la relación que existe entre las variables. Paraelloempleamos:1. Estadísticosresumen.Lacovarianzayelcoeficientedecorrelación.2. Herramientasgráficas.Elgráficodedispersión.
30
CovarianzaentrelasvariablesXeY
Ejemplo:
cov(renta,educacion)[1]32489.33
Análisisdedatosbivariantes
LacovarianzadeterminaeltipoderelaciónlinealentrelasvariablesXeY
Lamagnituddeesteestadísticonoesinformativa,dadoquedependedelaunidaddemedidadelavariable,loqueesrelevanteessusigno.
31
Proporcionaunamedidadelgradoderelaciónlinealentrelasvariables.§ rXY=0,noexisterelaciónlinealentrelasvariables.§ rXY=1,relaciónlinealpositivaperfectaentrelasvariables.§ rXY=-1,relaciónlinealnegativaperfectaentrelasvariables.§ 0<rXY<1,relaciónlinealpositivaentrelasvariables.§ -1<rXY<0,relaciónlinealnegativaentrelasvariables.Ejemplo:
cor(renta,educacion)[1]0.5750804
Análisisdedatosbivariantes
Y
CoeficientedecorrelaciónentrelasvariablesXeY
32
Análisisdedatosbivariantes
rXY=0,575
2 4 6 8 10 12 14
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
educacion
renta
33
Análisisdedatosbivariantes
rXY=0,786
2 4 6 8 10 12 14
67
89
1011
educacion
log(renta)
34
Análisisdedatosbivariantes
-3 -2 -1 0 1 2 3
-6-4
-20
24
6
Correlación positiva perfecta
X
Y
-3 -2 -1 0 1 2 3
-6-4
-20
24
6
Correlación negativa perfecta
X
Y
35
Análisisdedatosbivariantes
rXY=0,96
-3 -2 -1 0 1 2 3
-3-2
-10
12
3
-3 -2 -1 0 1 2 3
-6-4
-20
24
6
rXY=0,47
36
Análisisdedatosbivariantes
UnrXYcercanoa0seinterpretacomounadébilasociaciónlineal
0 1 2 3 4 5 6
3.0
3.5
4.0
4.5
5.0
5.5
Correlación débil
X
Y
0 1 2 3 4 5 6
-20
24
68
sampleS + 3
3 +
sam
pleN
^3
rXY=0,03 rXY=-0,01
37
1.Ejemplodedatostabulados
Nota 2 3 4 5 6 7 8 9 10Alumnos 2 2 6 18 15 9 7 3 1
Calcular:
a) Notamedia.b) Notamínimadel10porcientodelosmejoresalumnos.c) VarianzadelascalificacionesdeEstadísticaII.d) Diagramadecaja.¿Hayalgúnvaloratípico?e) Histogramadelascalificacionesanteriores.
LossiguientesdatosrecogenunamuestradenotasdelaasignaturadeEstadísticaIIdelGradoenEconomía:
38
2.Ejemplodedatostabulados
Nºaccidentes\añosdecarnet 2 5 10 150 3 2 15 201 7 10 12 132 15 9 5 2
Lasiguientetablarecogeinformaciónsobreelnúmerodeaccidentesenelúltimoañoylosañosdecarnetdeconducirdeunamuestradeclientesdeunaaseguradora:
a) Calcularlacovarianzayelcoeficientedecorrelaciónentreelnúmerodeañosdecarnetyelnúmerodeaccidentes.
b) Representargráficamentelarelaciónentreambasvariablespormediodeungráficodedispersión.