Clase Intro Estadistica

39
Introduccin: Revisin de conceptos de estadstica Modelos de toma de decisiones Paul Castillo BardÆlez Maestra en Finanzas junio 2012 Paul Castillo BardÆlez (UP) Medidas de tendencia Central junio 2012 1 / 39

description

Introducción a la estadistica

Transcript of Clase Intro Estadistica

Introducción: Revisión de conceptos de estadísticaModelos de toma de decisiones

Paul Castillo Bardález

Maestría en Finanzas

junio 2012

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 1 / 39

IntroducciónConceptos fundamentales

Los métodos estadísticos ofrecen herramientas potentes para analizardatos y extraer conclusiones de ellos.

Estas herramientas se pueden aplicar a indicadores �nancieros, comolos retornos de activos, el crecimiento de las ventas, precios decommodities, entre otros.

En lo que sigue vamos a realizar la mayoría de aplicaciones de losmétodos estadísticos que se van a estudiar para analizar ladistribución de los retornos.

En general los métodos que se estudian se aplican a variables quepresentan la propiedad de reversión a la media.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 2 / 39

IntroducciónConceptos fundamentales

Vamos a explorar cuatro propiedades de los retornos:

¿Dónde estan centrados?¿Qué tan dispersos son?Si estan distribuídos simétricamenteSi la presencia de valores extremos es importante.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 3 / 39

IntroducciónConceptos fundamentales

Hay dos grandes campos de la estadística que son útiles para las�nanzas:

La estadística descriptiva, que estudia como organizar los datos demanera efectiva.

La inferencia estadística, que involucra, estimación y predicción.El fundamento de la inferencia estadística es la teoría deprobabilidad, que se estudiará en detalle a lo largo del curso.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 4 / 39

IntroducciónConceptos fundamentales: población y muestra

La población se de�ne como la totalidad de miembros de un grupoespecí�co.

Las medidas que describen a la población se denominan parámetros.Ejemplo, media y el rango.

La muestra es un subconjunto de la población. Se utiliza cuando lapoblación no se encuentra disponible, o es altamente costosaobtenerla.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 5 / 39

IntroducciónEscalas de medida

Se consideran cuatro escalas de medida:

Nominal, es el nivel más elemental de escala. En este caso los datos secategorizan pero no se establece un ranking. Por ejemplo, tipos defondos mutuos, renta �ja, variable o mixtos.Ordinal: En esta escala los datos se clasi�can en categorias que luegoson ordenadas de acuerdo con alguna característica. Por ejemplo, elranking que establece standar and Poors para fondos mutuos.Intervalos: Esta escala no solo ofrece un ranking sino también aseguraque existe una diferencia �ja entre cada intervalo. Por ejemplo, escalasde temperatura.Ratios: Es la escala más completa de medida. Tienen las mismascaracterísticas que una escala de intervalo pero también un punto deorigen. En esta escala se pueden calcuar ratios, sumar y restar demanera consistente sus unidades. Como resultado se pueden aplicar ungrupo grande de herramientas estadísticas a este tipo de escala. Losretornos de activos �nancieros pertenecen a esta escala.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 6 / 39

IntroducciónClasi�cando los datos

Una forma muy fácil y práctica de clasi�car los datos es utilizandouna distribución de frecuencias.

La distribución de frecuencias tabula los datos en un númerorelativamente pequeño de intervalos. Para construir la distribución defrecuencias hay que seguir los siguientes pasos.

Ordenar los datos en orden descendente.Calcular el rango de los datos, el máximo menos el mínimo.Determinar el número de intervalos, k

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 7 / 39

IntroducciónClasi�cando los datos: distribución de frecuencias

Pasos.

Determinar el ancho del intervalo, rangok .Determinar los límites del intervalo sumando al valor mínimo el anchodel mismo.Contar el número de valores que caen en cada intervalo.Construir una tabla con los intervalos, del menor al mayor, con elnúmero de datos que caen en cada intervalo.

Es importante escoger un ancho para el intervalo que searepresentativo. Si el intervalo es muy pequeño, puede no contenerningún dato.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 8 / 39

IntroducciónClasi�cando los datos: distribución de frecuencias relativa

La frecuencia se determina como la frecuencia absoluta dividada porel número total de datos.La frecuencia acumulada, suma los frecuencias relativas del intervalomenor al mayor. Sea la siguiente información sobre la tasa dein�ación de países,

País In�ación País In�ación

Australia 9.0 Italia 6.8Bélgica 4.8 Japón 9.3Canadá 7.7 Holanda 7.7Dinamarca 6.2 Sudafrica 9.1Francia 6.3 España 5.8Alemania 8.8 Suecia 9.9Irlanda 7.0 Suiza 6.9UK 7.6 EE.UU 8.7

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 9 / 39

IntroducciónClasi�cando los datos: distribución de frecuencias relativa

La distribución de frecuencias esta dada por:

Intervalo Frec. Absoluta Frec.Relativa (%) Frec. acumulada Frec. acumulada (%)

4.0 a 5.0 1 6.25 1 6.255.0 a 6.0 1 6.25 2 12.506.0 a 7.0 4 25.00 6 37.507.0 a 8.0 4 25.00 10 62.508.0 a 9.0 2 12.50 12 75.009.0 a 10.0 4 25.00 16 100.00

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 10 / 39

IntroducciónClasi�cando los datos: distribución de frecuencias relativa

Retornos de la Bolsa de Valores de Lima:

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 11 / 39

IntroducciónClasi�cando los datos: distribución de frecuencias relativa

A la grá�ca de la distribución de frecuencias se denomina histograma.Por ejemplo, histograma de los Retornos de la Bolsa de Valores deLima:

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 12 / 39

Medidas de tendencia centralDe�niciones fundamentales

Las medidas de tendencia central especi�can donde estancentrados los datos. Son más usadas que otras medidas delocalización, en parte porque tienen mayor aplicabilidad y son tambiénfáciles de calcular.

Las medidas de tendencia central más utilizadas son: la mediaarítmetica, la mediana, la moda, la media ponderada y la mediageométrica.Las medidas de localización miden, además de la tedencia central,la distribución de los datos.

Las medidas de localización más utilizadas son: los cuartíles, quintiles,deciles y percentiles.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 13 / 39

Medidas de tendencial centralLa media arítmetica

La media arítmetica es la suma de las observaciones dividida entreel número de observaciones. Esta medida se puede calcular tanto enla población de los datos como en una muestra.En el caso de los retornos de la Bolsa de Valores de Lima, paracalcular la media poblacional se debe utilizar los retornos de todas lasempresas que listan en la BVL.Para una media muestral, se necesitarían únicamente un grupo deempresas, por ejemplo los retornos de las 15 acciones que componenel ISBVL.Análiticamente la media poblacional esta dada por:

µ =

i=N

∑i=1

Xi

NDonde, N es el tamaño total de la población, Xi representa el dato, iy µ la media poblacional.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 14 / 39

Medidas de tendencial centralLa media muestral

La media muestral es la media que se computa sobre unsubconjunto de datos, una muestra.

X =

i=n

∑i=1Xi

n

Donde, n es el tamaño de la muestra, Xi representa el dato, i y X lamedia muestral.La media muestral se puede calcular utilizando información de cortetransversal, es decir información en el mismo periodo, pero para unconjunto distintas unidades de análisis, por ejemplo, el promedio delos retornos de las 30 empresas más grandes del país.También se puede calcular con información de series de tiempo,información de la misma unidad de análisis pero para distintasunidades de tiempo.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 15 / 39

Medidas de tendencial centralPropiedades de la media

La media mide el punto de atracción de los datos. Desviacionesrespecto a la media se pueden interpretar como medidas de riesgo enlos retornos.

Una ventaja de la media sobre otras medias de tenencia central comola mediana y la moda, es que utiliza toda la información sobre eltamaño y la magnitud de las observaciones.

Una propiedad y también una debilidad de la media es que es sensiblea valores extremos.

Para evitar el efecto de los valores extremos es usual computartambién la mediana.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 16 / 39

Medidas de tendencial centralLa mediana

La mediana es valor de la unidad que esta localizada en el puntomedio de los datos cuando estos se ordenan. Si el número de datos esimpar la mediana ocupa el lugar, (n+1)2 .

Cuando el número de datos es par, la mediana ocupa el valor, n2 on+22 .

Por ejemplo, sea la siguiente secuencia de retornos: f2,4,5,6,200g,dado que n = 5, la posición de la mediana es (n+1)2 = 3, por lo tanto,la mediana de los retornos es 5.

Note la diferencia con la media, X = (2+4+5+6+200)5 = 43, 4, que sí se

afecta por valores extremos.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 17 / 39

Medidas de tendencial centralLa moda

La moda es el valor mas frecuente en la distribución de los datos.Cuando una distribución tiene un único valor más frecuente sedenomina unimodal.

Una distribución puede tener más de una moda, puede ser bimodal(dos modas), trimodal ( tres modas) o en general multimodal.

La moda es la única medida de tendencia central que puede utilizarsecon datos nominales. Por ejemplo, en un grupo de fondos mutuos, sepuede calcular la moda del tipo de fondo. Este será el tipo de fondomas común en al muestra.

Cuando ninguno de los valores de la muestra se repite, entonces sedice que la distribución no tiene moda.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 18 / 39

Medidas de tendencial centralOtros conceptos de media:la media ponderada

El concepto de media ponderada es recurrente en el análisis deportafolio. En el concepto de la media arítimetica todos los valorestienen igual peso, 1n .Cuando se trabajan con portafolios se requiere de un conceptodiferente de media en donde se puedan asignar distintos pesos a loscomponentes de portafolio.Para ilustrar el concepto, considere un administrador de portafolios,que tiene invertido el 70 por ciento del fondo en acciones, y el 30 porciento en bonos de gobierno. El retorno promedio del portafolioclaramente re�ejerá el peso que cada tipo de activo tiene en elportafolio.

El promedio ponderado, Xw =i=N

∑i=1

wiXi , donde, wi representan los

pesos que tiene los datos, tal quei=N

∑i=1

wi = 1

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 19 / 39

Medidas de tendencial centralOtros conceptos de media:la media ponderada

Ejemplo, en año 1998, el retorno de inversiones en acciones fue de -10%, mientras que el retorno de invertir en bonos alcanzó, 5%

El fondo muto A, inviertió 70 por ciento en acciones y 30 por cientoen bonos, mientras que el fondo muto B, invertió 60 por ciento enbonos y 40 por ciento en acciones.

Los retornos del portafolio del fondo mutuo A son:

rAp = 0.7� (�10%) + 0.3� (5%) = �5.5%

Mientras que el retorno del portafolio B, esta dado por:

rAp = 0.4� (�10%) + 0.6� (5%) = �1.0%

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 20 / 39

Medidas de tendencial centralOtros conceptos de media:la media geométrica

La media geométrica se utiliza con mayor frecuencia para calcularretornos promedio con datos de series de tiempo o para computar latasa de crecimiento de una variable.

La media geométrica se calcula de la siguiente manera:

G = npX1X2X3..Xn

donde, Xi � 0, para i = 1, 2, 3...nLa ecuación anterior también puede escribirse de la siguiente manera:

lnG =

i=n

∑i=1lnXi

n

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 21 / 39

Medidas de tendencial centralOtros conceptos de media:la media geométrica

Muchas variables en �nanzas toman valores negativos, por lo que parapoder aplicar la media geométrica es necesario hacer unatransformación previa.La media geométrica se calcula de la siguientemanera:

1+ R = nq(1+ X1) (1+ X2) .. (1+ Xn)

La ecuación anterior también puede escribirse de la siguiente manera:

ln (1+ R) =

i=n

∑i=1ln (1+ Xi )

n

Cuando, Xi toma valores cercanos a cero, la ecuación anterior esaproximadamente igual a la media arítmetica. Las diferencias entre lamedia geométrica y la media aritmética son mayores cuando los datosmuestran mayor variabilidad.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 22 / 39

Medidas de tendencial centralOtros conceptos de media:la media geométrica

Veamos el siguiente ejemplo

Media Aritmetica y GeométricaAños Fondo A Fondo B

1998 16.2% 9.2%1999 20.3% 3.8%2000 9.3% 13.1%2001 �11.1% 1.6%2002 �17.0% �13.0%Media Aritmetica 3.54% 2.34%Media Geométrica 2.94% 2.53

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 23 / 39

Medidas de tendencial centralOtros conceptos de media:la media Armónica

Esta medida de tendencia central se utiliza en menos aplicaciones, sede�ne de la siguiente manera

XH =

i=n

∑i=1X�1i

n�1

Donde, Xi > 0, para i = 1, 2, 3...nEste es un tipo especial de promedio, en la que se ponderan lasobservaciones por la inversa de las mismas.Suponga que un inversionista compra de activo �nanciero S/ 1000cada mes por 2 meses. El precio por acción en estos dos meses esS/.10 y S/. 15 en cada mes ¿Cuál es precio promedio pagado?La media armónica.

XH = 100010�1 + 20�1

2�1= S/.12

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 24 / 39

Otras medidas de LocalizaciónCuartiles, cuantiles, Deciles y Percentiles.

Sabiendo el valor de la media, o de culaquier otra medida detendencia central, se puede localizar los datos de la distribuciónmidiendo la distancia respecto a estas medidas de tendencia central.

Sabemos que la mediana divide la distribución por la mitad, se puedende�ne otras líneas que dividan la distribución en partes iguales.

Los cuartiles dividen la distribución en cuatro partes, los quinteles ladividen en 5 partes, los deciles en 10 partes y en percentiles en 100partes.

Dada una distribución de datos, Py es la línea debajo de la cual seubica el y por ciento de la distribución. Py = (n+ 1)

y100

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 25 / 39

Medidas de dispersiónIntroducción.

Como ya se discutió anteriormente, el retorno promedio nos da unaidea de localización de los retornos. Sin embargo para tener una ideamás precisa se necesita conocer además la despersión de estosretornos respecto a su media.

Las medidas de dispersión miden la variabilidad respecto a lasmedidas de tendencial central.

Si el retorno promedio mide las ganancias de una inversión, ladispersión mide el riesgo.

Cuando la medida de dispersión no se compara con ningún punto dereferencia se denomina dispersión absoluta.Vamos a estudiar las siguientes medidas de dispersión: el rango, ladesviación media absoluta, la varianza, la desviación estándard y lasemi-varianza y la semi-desviación.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 26 / 39

Medidas de dispersiónEl rango y la desviación media absoluta.

Se de�ne como la diferencia entre el valor máximo y el valor mínimo.

R = Xmax � Xmin

Una ventaja de este indicador es que es fácil de calcular.

Sin embargo, su principal desventaja es que no usa toda lainformación de la muestra, únicamente dos valores el máximo y elmínimo.

La desviación media absoluta se de�ne como:

MAD = ∑����Xi�Xn

����

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 27 / 39

Medidas de dispersiónLa desviación media absoluta.

Donde, X es el promedio muestral, y n es el tamaño.

Media Aritmetica y GeométricaAños Fondo A Fondo B

1998 16.2% 9.2%1999 20.3% 3.8%2000 9.3% 13.1%2001 �11.1% 1.6%2002 �17.0% �13.0%Media Aritmetica 3.54% 2.34%Media Geométrica 2.94% 2.53

En este caso, el rango de los dos fondos mutuos es :RA = 37.3 yRB = 26.1

Por su parte, MADA = 14.1 y MADB = 6.9

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 28 / 39

Medidas de dispersiónLa varianza y la desviación estándard poblacional

La varianza poblacional se de�ne a partir de la siguiente ecuación:

σ2 =i=n

∑i=1

(Xi � u)2

N

Mide la distancia cuadrática media de los datos a la media población.La principal desventaja de esta medida es que esta en unidades decuadrado.

σ =

vuuti=n

∑i=1

(Xi � u)2

N

Estas medidas, en muchos casos no estan disponibles debido a querequieren el uso de la información de toda población. En estos casoshay que utilizar sus medidas análogas muestrales.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 29 / 39

Medidas de dispersiónLa varianza y la desviación estándard muestral

La varianza muestral se de�ne a partir de la siguiente ecuación:

s2 =i=n

∑i=1

�Xi � X

�2n� 1

Donde, X es la media muestral y n es el tamaño de la muestra.

La desviación estándard muestral se de�ne como:

s =

vuuti=n

∑i=1

�Xi � X

�2n� 1

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 30 / 39

La varianza y la desviación estándard muestral.El procedimiento de cálculo

Para calcular la varianza y la desviación estándard se utiliza elsiguiente procedimiento:

Calcular la media muestral, XCalcular las desviaciones cuadráticas de cada observación respecto a lamedia muestral

�Xi � X

�2.

Sumas las desviaciones cuadráticas,i=n

∑i=1

�Xi � X

�2Dividir la suma entre, n� 1

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 31 / 39

La semi-varianza y la semi-desviación estándard muestral.El procedimiento de cálculo

La desviación estándard y la varianza se interpretan como una medidadel riesgo de un activo.

Cuando los inversionistas buscan medir únicamente la dispersióndebajo de la media, se utiliza tanto la semi-varianza y lasemi-desviación estándard.

s2 = ∑Xi�X

�Xi � X

�2n� 1

s =

vuut ∑Xi�X

�Xi � X

�2n� 1

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 32 / 39

La semi-varianza y la semi-desviación estándard muestral.El procedimiento de cálculo

Calcular la media muestral, X

Calcular las desviaciones cuadráticas respecto a la media muestral�Xi � X

�2. únicamente para las observaciones que son menores que

la media

Sumas las desviaciones cuadráticas, ∑Xi�X

�Xi � X

�2Dividir la suma entre, n� 1También se puede calcular semi-desviaciones estándard respecto aotros valores centrales.

s2 = ∑Xi�B

(Xi � B)2

n� 1

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 33 / 39

El coe�ciente de variación y el ratio de SharpeDe�nición

La desviación estándard y la varianza tienen el problema quedependen de la magnitud de los retornos promedios y de las unidadesde medida.

Esto hace dí�cil la comparación de estos indicadores de dispersion.

El coe�ciente de variación hace comparable la desviación estándardporque la normaliza por el valor de la media y elimina el efecto de lasunidades de medida.

CV =s

XEl ratio de Sharpe por su parte mide el exceso de retorno sobre unactivo libre de riesgo, por unidad de riesgo. Se de�ne como:

Sr =Rp � RFsp

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 34 / 39

Simetría y CurtosisAlgunas distribuciones de utilidad: Normal, T-student, Cauchy, Logistic, Gumble y Pareto.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 35 / 39

Simetría y KurtosisDe�nición

Una distribución es simétrica si las dos mitades de la distribuciónrespecto de la media son indénticas.

La distribución normal es una distribución simétrica. Sus principalespropiadades son:

Su media y mediana son iguales.Su distribución se de�ne con dos parámetros, la media y la desviaciónestándard poblacional, µ y σ.El 68 por ciento de la masa de probabilidad se concentra alrededor dela media más una desviación estándard.

Se dice que una distribución es asimétrica positiva si pocos valoresextremos positivos y muchos valores negativos

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 36 / 39

Simetría y KurtosisDe�nición

El coe�ciente de asimetría se calcula de la siguiente forma:

SK =n

(n� 1) (n� 2) ,i=n

∑i=1

�Xi � X

�S3

3

La curtosis es un indicador que mide que tan empinada o achatada esuna distribución de probabilidad. La distribución normal tiene unnivel de curtosis de 3.

El coe�ciente de curtosis en muestra se mide como:

K =1n

i=n

∑i=1

�Xi � X

�S4

4

� 3

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 37 / 39

Simetría y KurtosisDe�nición

Se dice que una distribución es leptocurtica si es más empinada que ladistribución normal.

Se dice que es mesocúrtica cuando es más achatada que unadistribución normal.

Los datos diarios de retornos son usualmente leptocúrticos, mientrasque los datos mensuales se comportan más como un distribuciónnormal.

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 38 / 39

Estadísticos DescriptivosRetornos de la BVL

Paul Castillo Bardález (UP) Medidas de tendencia Central junio 2012 39 / 39