Loss Models

of 60/60
Página 1 de 60 Loss Models Capítulo 2 Modelos para el Monto de un Único Pago Traducción por: Manuel Ignacio Fernández Orellana 2.1 INTRODUCCIÓN El propósito del seguro es indemnizar a los tenedores de pólizas en el caso de ocurrencia de eventos adversos imprevistos. Hay una gran variedad de eventos que son objeto de cobertura por parte de los seguros, como bien lo indica la tabla 2.1 (Tabla 2.1) Beneficios de Seguros Evento Nombre del Seguro Beneficio Muerte Vida Pago fijo al beneficiario Vida Continua Anualidad (Renta Vitalicia) Pago fijo, periódico al tenedor de póliza Acto Ilícito Culposo Responsabilidad Civil Pago de cargos legales y daños Daño a la Propiedad Propiedad Pago relacionado con el monto del daño Inhabilidad para trabajar Invalidez Reemplazo del salario Enfermedad Salud Pago de gastos médicos Existen algunas características comunes a cualquier sistema de seguros. Estos son: 1. Debe haber riesgo – una condición que exige la posibilidad de un desvío adverso respecto del resultado esperado. 2. La pérdida debe ser financiera – es decir, implica que el valor de la pérdida puede medirse en dólares. 3. Algo o la totalidad del riesgo se transfiere del asegurado al asegurador 4. Existe la expectativa de que mediante la formación de una cartera de riesgos (pooling), el asegurador logre mejorar la estimación del total de siniestros. Lo expresado arriba fue extraído de un texto de introducción al seguro de Vaughan [121]. Afirmaciones similares pueden encontrarse en otros textos. Pueden hallarse definiciones de interés adicionales en “Principios de la Ciencia Actuarial” de la Sociedad de Actuarios [113]. Algunas de ellas, junto con un principio (el número del principio fue tomado del documento citado) se repiten aquí.
  • date post

    18-Jan-2016
  • Category

    Documents

  • view

    30
  • download

    0

Embed Size (px)

description

Modelos de Perdidas

Transcript of Loss Models

  • Pgina 1 de 60

    Loss Models Captulo 2

    Modelos para el Monto de un nico Pago

    Traduccin por: Manuel Ignacio Fernndez Orellana

    2.1 INTRODUCCIN

    El propsito del seguro es indemnizar a los tenedores de plizas en el caso de ocurrencia de

    eventos adversos imprevistos. Hay una gran variedad de eventos que son objeto de cobertura por

    parte de los seguros, como bien lo indica la tabla 2.1

    (Tabla 2.1) Beneficios de Seguros

    Evento Nombre del Seguro Beneficio

    Muerte Vida Pago fijo al beneficiario

    Vida Continua Anualidad (Renta Vitalicia) Pago fijo, peridico al tenedor de pliza

    Acto Ilcito Culposo Responsabilidad Civil Pago de cargos legales y daos

    Dao a la Propiedad Propiedad Pago relacionado con el monto del dao

    Inhabilidad para trabajar Invalidez Reemplazo del salario

    Enfermedad Salud Pago de gastos mdicos

    Existen algunas caractersticas comunes a cualquier sistema de seguros. Estos son:

    1. Debe haber riesgo una condicin que exige la posibilidad de un desvo adverso respecto

    del resultado esperado.

    2. La prdida debe ser financiera es decir, implica que el valor de la prdida puede medirse

    en dlares.

    3. Algo o la totalidad del riesgo se transfiere del asegurado al asegurador 4. Existe la expectativa de que mediante la formacin de una cartera de riesgos (pooling), el

    asegurador logre mejorar la estimacin del total de siniestros.

    Lo expresado arriba fue extrado de un texto de introduccin al seguro de Vaughan [121].

    Afirmaciones similares pueden encontrarse en otros textos. Pueden hallarse definiciones de inters

    adicionales en Principios de la Ciencia Actuarial de la Sociedad de Actuarios [113]. Algunas de

    ellas, junto con un principio (el nmero del principio fue tomado del documento citado) se repiten

    aqu.

  • Pgina 2 de 60

    Definicin 2.1 Regularidad Estadstica

    Una regularidad estadstica describe un fenmeno tal que, si se realiza una sucesin de

    experimentos independientes bajo las mismas condiciones especficas, la proporcin de ocurrencias

    de un evento dado se estabiliza a medida que el nmero de experimentos realizados aumenta.

    Definicin 2.2 Modelo Matemtico

    Un modelo matemtico es una representacin abstracta y simplificada de un fenmeno dado, que

    puede expresarse en trminos matemticos.

    Definicin 2.3 Modelo Estocstico

    Un modelo estocstico es un modelo matemtico aplicado a un fenmeno que presenta regularidad

    estadstica y que puede describir con precisin las probabilidades de aparicin de los eventos de los

    eventos en cuestin.

    Definicin 2.4 Riesgo Actuarial

    Un riesgo actuarial es un fenmeno que tiene un impacto econmico y que est sujeto a la

    incertidumbre respecto a una o ms de las variables de riesgo: ocurrencia e intensidad (monto)

    Principio 3.1 Los riesgos actuariales pueden ser modelados estocsticamente

    Una caracterstica importante del sistema de seguros es que toda cantidad puede ser medida en

    unidades monetarias. Esto significa que el conjunto de nmeros reales ser suficiente a nuestros

    propsitos y que, especficamente, se podrn usar variables aleatorias para la construccin de

    modelos actuariales.

    Otra caracterstica distintiva de todos los sistemas de seguros es el elemento de aleatoriedad.

    Como bien lo notamos en la Definicin 2.4, cada flujo de beneficios pagados a un tenedor de pliza

    tiene tres componentes: el nmero de pagos a los beneficiarios (si los hay), el plazo de dichos pagos

    y el monto de cada pago. Por ejemplo, un seguro de vida bsico hace exactamente un solo pago,

    en concepto de un monto fijo, pero en un momento aleatorio. En el caso de los seguros de

    automviles, cada uno de los tres componentes es aleatorio.

    As como lo indicamos en la Definicin 1.9, las distribuciones de siniestros se refieren a la

    asignacin de probabilidades a cada uno de estos procesos.

    En este captulo, nos dedicaremos especficamente a determinar la distribucin de siniestros o de

    los montos a pagar. La determinacin de los modelos probabilsticas que se refieren al componente

    que mide el nmero de pagos ser abordar en el Captulo 3.

    La explicacin de las distribuciones de siniestros empezar con la descripcin de dos mtodos

    alternativos para la obtencin de una distribucin de siniestros. El mtodo emprico es fcil de

    implementar, si bien no siempre est disponible. El enfoque paramtrico posee muchas

    caractersticas atractivas, a pesar de ser ms difcil. El resto del captulo est dedicado a una

  • Pgina 3 de 60

    explicacin detallada del enfoque paramtrico. En particular, se tratan los varios tipos de

    problemas que surgen debido a la naturaleza de los datos relacionados con el negocio de los

    seguros. Estos incluyen la gran variedad de mtodos de estimacin, datos de plizas con

    modificaciones en la cobertura, datos de mltiples fuentes, tests de hiptesis, y situaciones ms

    complejas (por ejemplo, distribuciones bivariadas).

    A lo largo del captulo usaremos dos ejemplos para ejemplificar los mtodos utilizados. El primero

    es el ejemplo 1.4. Como recordatorio, los datos son siniestros dentales bsicos en una pliza con un

    deducible de 50. Los diez pagos observados fueron

    141 16 46 40 351 259 317 1511 107 567

    Nos vamos a referir a este ejemplo como ejemplo de datos dentales agrupados.

    El segundo ejemplo es el siguiente.

    Ejemplo 2.1 Considerar el mismo contexto, esto es, pagos dentales, solo que ahora suponga que

    somos capaces de recolectar ms datos de montos. En particular, los datos se encuentran

    resumidos en la Tabla 2.2

    Tabla 2.2 Datos dentales agrupados

    Monto Pagado Nmero de Pagos

    0-25 30

    25-10 31

    50-100 57

    100-150 42

    150-250 65

    250-500 84

    500-1000 45

    1000-1500 10

    1500-2500 11

    2500-4000 3

    Nos vamos a referir a este ejemplo como ejemplo de datos agrupados

    2 ESTIMACIN EMPRICA

    De los dos mtodos de estimacin ms comunes, la estimacin emprica es por lejos la ms simple.

    Y como tal, no deberamos olvidar que cuando tenemos a disposicin una gran cantidad de

    observaciones, este mtodo bien puede ser el ms preciso.

    En esta seccin se introduce una definicin formal y unos cuantos estimadores empricos

    especficos.

    Dado que habremos de contar con ms de una forma de resolver un problema en particular, es

    imperativo que tengamos algn mtodo para evaluar a un estimador.

  • Un punto importante es que la calidad es una propiedad de un estimador y no del estimado.

    Estamos interesados en la calidad del mtodo, no en la calidad de un resultado particular que

    pudiera surgir de su aplicacin.

    2.2.1 Definicin

    El propsito de cualquier proceso de estimacin es utilizar los resultados o realizaciones de una

    muestra para inferir sobre la poblacin de la cual fue extrada. Asumiremos de ahora en ms que

    trabajamos con muestras aleatorias.

    Definicin 2.5 (Muestra Aleatoria)

    Sean VAIID (variables aleatorias independientes e idnticamente distribuidas).

    Entonces, esta coleccin de variables aleatorias es lo que se denomina muestra aleatoria. n

    X , , X1

    x )

    Una consecuencia inmediata es que la funcin de distribucin conjunta de una muestra aleatoria se

    obtiene haciendo el producto de las funciones de distribucin marginales.

    ( )n

    n

    X , , X n X ii

    F x , , x F (1 1 1=

    = siendo la funcin de distribucin comn a toda la muestra aleatoria

    XF (x)

    La definicin es vlida solo si, dada una poblacin a la cual se le extrae una muestra, cada

    miembro de la poblacin tiene iguales posibilidades (o igual probabilidad) de ser extrado y la

    identidad de cada uno de los miembros extrados es irrelevante, de modo que no influye en la

    identidad de otro miembro extrado,

    El enfoque emprico estima a a partir de la distribucin emprica. X

    F (x)

    Definicin 2.6 La distribucin emprica se obtiene de una muestra, asignando una probabilidad de

    n1 a cada observacin. Ms formalmente, la funcin de distribucin acumulada (cdf)1 es:

    ( ) jn nmero de x xF x n= (datos individuales)

    La funcin de distribucin acumulada es una funcin escalera que se incrementa en n1 en cada

    punto que es dato. Es una distribucin discreta que asigna una probabilidad a lo sumo a n valores.

    La funcin de probabilidad (pf)2 es

    ( ) jn nmero de x xf x n== (datos individuales)

    1 cumulative distribution function 2 probability function

    Pgina 4 de 60

  • Siempre que tengamos una funcin de distribucin acumulada (cdf) o una funcin de probabilidad

    (pf), hay asociada una variable aleatoria. Por razones de notacin, es conveniente definir a una

    variable aleatoria para la cual su cdf3 coincide con su cdf emprica.

    Definicin 2.7 (Variable Aleatoria Emprica)

    La Variable Aleatoria Emprica es una VA que tiene a ( )nF x como su funcin de distribucin acumulada, y se denota . X

    Para datos agrupados resulta imposible determinar la funcin de distribucin acumulada, porque

    los datos individuales no estn disponibles. Sin embargo, es posible aproximarla con la siguiente

    definicin. La definicin adems provee una notacin estndar para conjuntos de datos agrupados

    (Grfico 2.1) Funcin de Distribucin Emprica para montos individuales de planes dentales

    Definicin 2.8 Sean los lmites para un conjunto de datos agrupados. Sea el

    nmero de observaciones en el intervalo , j=1,, r. Es posible que .

    rc c c0 1< <

    Como

    j j

    probabilidad asociada al intervalo (c ,c ]

    j n j j n j n j n jn j

    j j funcin de distribucinacumulada hasta cj(asociada a la probabilidad deque x x )j

    (c x )F (c ) ( x c )F (c ) F (c ) F (c )F (c )

    c c

    1

    1 1 11

    11

    + = +

    longitud del subintervaloque va desde el lmite inferiorhasta el punto donde quieroaproximar la funcin de distribucin acumulada

    jj j

    longitud del intervalo

    ( x c )c c 11

    3 En este texto los trminos funcin de probabilidad y funcin de densidad de probabilidad y las abreviaciones

    pf y pdf sern usadas indistintamente. El contexto debera dejar claro si la VA en cuestin es discreta, continua o

    en parte continua y en parte discreta. La pdf ser denotada como una funcin f(x) y en el caso especial en el que la

    VA asuma solo valores enteros, la pf puede ser escrita como n

    p

    Pgina 5 de 60

  • Entonces

    ( )int ervalo genrico(grupo j-simo)

    n j n jn n j j j-1 j

    j j

    0 x c

    F (c ) F (c )F x F (c ) ( x c ) x (c ,c ] j=1,2,..,r

    c c

    0

    11 1

    11

    = +

    r x c

    >

    (r es la cantidad de intervalos utilizados en la agrupacin de datos)

    Aclaraciones

    (1) La ojiva, en principio, no est definida para en el caso en el que .

    SALVO, que , la cantidad de observaciones en sea cero, es decir, r

    x c 1> rc = r

    nr

    (c , )1 rn 0=(2) La ojiva debe ser una funcin lineal a trozos. Como tal, la derivada existe en todos los

    puntos excepto en los lmites superior e inferior de cada intervalo (en los ). Y donde

    existe, es tan solo la pendiente del segmento de recta que los une.

    jc

    Definicin 2.9 (Histograma)

    Se denomina histograma a la derivada (donde exista) de la ojiva, es decir, a la aproximacin

    emprica de la funcin de densidad

    // En el campo continuo, se cumple la relacin, dada una variable aleatoria X con sus respectivas

    funcin de densidad y su funcin de distribucin acumulada Xf (x)

    XF (x)

    X Xf (x) dx= dF (x)

    Una aproximacin sera siendo X Xf (x) x F (x)

    j j

    x c c 1 =

    X X j X j F (x) F (c ) F (c )1 =

    Definicin formal de histograma:

    ( ) n j n j jn j-1 jj j j j

    0 x c

    F (c ) F (c ) nf x x (c ,c ] j=1,2,..,r

    c c n(c c )

    01

    1 10

    = =

    r x c

    >

    // Notar que

    n j n j n j n jj-1 j n n j j n

    j j j j

    F (c ) F (c ) F (c ) F (c )d dx (c ,c ): F (x)= F (c ) ( x c ) f (x)

    dx dx c c c c1 1

    1 11 1

    + = =

    As como en el campo continuo las condiciones para que una funcin de la variable aleatoria x sea

    considerada funcin de densidad de probabilidad eran:

    (1) (no negatividad) Xf (x) x0

    (2) Xf (x) dx =1

    +

    (ley de cierre) Pgina 6 de 60

  • Por ser el histograma una aproximacin de la funcin de densidad de probabilidad, (1) El

    histograma es SIEMPRE no negativo, y (2) tiene un rea de uno, salvo que , en tal caso

    no hay manera de representar la probabilidad del ltimo grupo r

    c = r

    (c , )1 Es importante notar que es el rea y no la altura de las barras del histograma la que es

    proporcional al nmero correspondiente a un grupo.

    2.2.2 Estimadores empricos (pg. 29)

    A partir de la distribucin emprica u ojiva, podemos obtener estimadores de cualquier

    caracterstica de la distribucin poblacional. A lo largo del libro, asumimos que una muestra

    aleatoria extrada de una poblacin, result en las observaciones x ,.1 ualquier inferencia que

    hagamos ser de la poblacin que produjo estos valores. n

    ..,x . C

    Lo ms importante de la estimacin emprica es hallar para la distribucin emprica la medida o

    cantidad que nos interesa de la poblacin de la cual extrajimos la muestra.

    2.2.2.1 Estimador emprico de la media (pg 30)

    Para datos individuales, la media de la distribucin emprica se obtiene como n

    jj

    x xn 1

    1=

    = = Esta es la familiar media muestral que ejemplifica la base de la estimacin emprica: para

    determinar cierto aspecto o caracterstica de la poblacin, se determina la misma caracterstica a

    partir de la muestra. A lo largo del libro se indicar a un estimado o a un estimador con un

    circunflejo (o sombrero).

    2.2.2.2 Estimador emprico de otros momentos

    Los momentos poblacionales, si existe, se definen como

    Definicin 2.10

    El k-simo momento absoluto (o simple) es (momento en torno al origen) kk' E[ x ] =

    El k-simo momento central es kk

    E[( x ) ] = Es comn denotar a como '1

    No podemos estar seguros de que las sumas o integrales que definen a estos momentos convergen.

    Cuando la suma o la integral no converge decimos que ese momento no existe.

    El momento se dice que es infinito si la suma o la integral se aproxima al infinito.

    Aparte de la media, ciertos momentos han adquirido nombres especficos y smbolos adicionales

    Pgina 7 de 60

  • Pgina 8 de 60

    efinicin 2.11 D (pg. 31)

    ( k )

    Varianza : '2 2 2 = = Desvo Estndar: =

    Coeficiente de Variacin:

    Coeficiente de Asimetra:

    Kurtosis:

    Momento Factorial de orden k: E[ ]=E[x(x 1) (x-k+1)] , k

    2

    2

    31 3

    42 4

    =

    = " `

    Para cualquier distribucin simtrica el coeficiente de Asimetra ( es el coeficiente de

    l histograma de la figura 2.3 es un ejemplo de distribucin de simetra positiva

    a kurtosis mide la naturaleza del apartamiento de los valores en torno a la media. Una pequea

    ientras que la kurtosis es similar a la varianza, en el sentido de que mide apartamiento, es ms

    os centrales y absolutos son

    2 44 4 3 2 4 6 3= +

    os estimadores empricos

    1 0= 1asimetra). Las distribuciones de simetra positiva tienden a tener la mayor masa de probabilidad

    en valores pequeos, pero el resto de la probabilidad se extiende a lo largo de un gran rango de

    valores ms grandes

    E

    L

    kurtosis (es SIEMPRE NO NEGATIVA) indica la existencia de un pico agudo en el medio. Una

    kurtosis grande indica un descenso ms lento.

    M

    efectivo para distinguir a aquellas distribuciones que colocan probabilidad adicional en los valores

    ms grandes. Una variable aleatoria con distribucin normal tiene una kurtosis de 3, sin importar

    el valor de sus parmetros.

    Las relaciones entre moment

    ' ' 33 3 2 3 2= +' ' '

    L para datos individuales son

    ( )

    nk k 1

    k jj

    nk

    kk j

    j

    ' E(X ) xn

    E((X ) ) x xn

    1

    1

    1 =

    =

    = =

    = =

    Notar que la varianza muestral se define dividiendo la suma de cuadrados por el tamao de la

    muestra. Es un poco diferente respecto de la usual divisin por n-1. Una explicacin de por qu

    dicha diferencia, se encuentra en la siguiente subseccin.

  • Para datos agrupados, y suponiendo que , el histograma puede ser integrado para obtener

    los momentos. Los momentos absolutos son r

    c

  • ( )j ji i

    i j i

    c cc cj rk j jk k k ki i

    i i j j j j i ii i jc c u c

    n nn nE X u x dx x dx u dx u dxn(c c ) n(c c ) n(c c ) n(c c )

    1 1 1

    1

    1 1 11 1

    = = +

    = + + + 1

    ( )k k kj rk k

    k j j j ji i i i

    i i j j j ji i j

    n (u c ) n u (c u)n (c c ) n uE X un(k )(c c ) n(k )(c c ) n(c c ) n

    1 11 1 111

    1 1 11 11 1+ + + +

    = = +

    = + + + + + Para el caso especial en el que k=1, la frmula se simplifica

    ( )kj r

    j j ji i i i

    j ji i

    n ( uc c u u )n (c c ) n uE X un n(c c )

    2 1 2111

    11 1

    22 2

    ++

    = =

    + = + + j

    n+

    i]

    (2.5)

    En los informes que hacen uso de datos agrupados, es muy comn incluir la media muestral de las

    observaciones en cada grupo. Sea la media muestral para el i-simo grupo, con lo que

    . Entonces el valor esperado limitado puede ser calculado en i

    a

    i ia (c ,c1 forma exacta en los lmites del intervalo como

    ( )

    Pgina 10 de 60

    j ri ji i

    i i j

    n cn aE X un n1 1= = +

    = + ( ) j rji i i

    i i

    cE X u n a n

    n n1 1

    1= =

    = + j+

    jlmite c nmero de siniestrosnmero de siniestros del grupo monto de grupo

    LEV=del grupo j+1 en adelantenmero total de siniestros nmero total de siniestros

    +

    No queda claro cul es la mejor manera de interpolar entre los lmites de cada grupo. Una idea se

    sugiere en el ejercicio 2.3

    Ejemplo 2.4

    Determinar la media emprica, el desvo estndar, el coeficiente de asimetra y kurtosis de las dos

    muestras. Adems, estimar la esperanza limitada a 400 para cada muestra

    Para el ejemplo de datos individuales tenemos

    '

    '

    '

    '

    =(141+...+567)/10=335.5

    =(141 +...+567 )/10=2.9307 10

    =(141 +...+567 )/10=3.7287 10

    =(141 +...+567 )/10=5.3463 10

    12 2

    23 3

    34 4

    4

    5

    8

    11

    =335.5

    = 2.9307 10 335.5 .

    =(1.5343 10 )/(7.6691 10 )=2.0006

    =(5.3463 10 )/(3.2583 10 )=5.9586

    5 2

    8 71

    11 102

    42486

    =

    De (2.4) la esperanza limitada a 400 es

    E(X ) ( ) / .400 141 16 46 40 351 259 317 400 107 400 10 207 7 = + + + + + + + + + =

  • Para los datos agrupados tenemos

    '

    '

    '

    ( ) ( ) = ... =353.34

    ( )

    ( ) ( ) = ... =3.5768 10

    ( )

    ( ) ( ) = ...

    ( )

    2 2 2 21

    3 3 3 3 52

    4 4 4 43

    30 25 0 3 4000 25001 378 2 25 0 4000 250030 25 0 3 4000 25001 378 3 25 0 4000 250030 25 0 3 4000 25001 378 4 25 0 4000 2500

    + + + + + +

    '

    =6.5863 10

    ( ) ( ) = ... =1.6261 10

    ( )

    =353.34

    = 3.5768 10 353.34 .

    =(6.5863 10 )/(1.1235 10 )=3.2730

    =(1.6261 10 )/(5.4210 10

    8

    5 5 5 5 124

    5 2

    8 81

    12 102

    30 25 0 3 4000 25001 378 5 25 0 4000 2500 48253

    + +

    = )=16.904

    De (2.5) la esperanza limitada a 400 es E(X ) { ( . ) ( . ) ( ) ( ) ( ) [ ( )( ) ] / ( )

    +(45+10+11+3)(400)}/378 =215.56

    2 2400 30 125 31 37 5 57 75 42 125 65 200 84 2 400 500 250 400 2 250 = + + + + + +

    Definicin 2.2.2.3 (Percentiles)

    Saber todos los percentiles es equivalente a saber la funcin de distribucin acumulada. La

    definicin formal de percentil es la siguiente

    Definicin 2.13 El (100p) percentil de una distribucin F(x) es cualquier nmero , tal que p

    pF( ) p F( )

    p , donde

    p phF( ) Lim F( h)

    0

    +

    =

    Si la funcin de distribucin acumulada es una funcin montona estrictamente creciente, entonces

    la solucin va a ser nica. // p

    F ( p)1 =Pero si la funcin de distribucin acumulada es constante en algn intervalo, como es el caso de

    toda distribucin discreta y toda distribucin emprica, los valores en los que sta es constante se

    aceptan como un percentil especfico.

    El estimador emprico de un percentil es simplemente el correspondiente percentil de la

    distribucin emprica.

    Ejemplo 2.5 (ejemplo dental)

    Determinar los estimadores empricos de los percentiles 45 y 80 a partir de las dos muestras.

    Datos Individuales

    .

    F ( ) .

    F ( ) .10

    0 4510

    141 05 141141 0 4= ==

    ) .

    F ( ) . ( ,

    F ( ) .10

    0 810

    351 0 8 351 567567 0 8= =

    Pgina 11 de 60

  • Datos Agrupados

    Pgina 12 de 60

    0.45 =Fc378 ^0.45b c= 1378fffffffffff160 + [email protected] [email protected] 150ffffffffffffffffffffffffffffffff^[email protected] 150b cF G

    [ ^0.45 = 165.5384615

    378 = n

    378B0.45 = 170.1 [c [email protected] 1 = 150 F [email protected] 1

    b c= 160c j = 250 F cj

    b c= 225X^^^\^^^Z

    ^0.45 = [email protected] 160` [email protected] [email protected] 160ffffffffffffffffffffffffffffffff+ 150 0.45 =Fc378 ^0.8b c= 1378fffffffffff225 + [email protected] [email protected] 250ffffffffffffffffffffffffffffffff^[email protected] 250

    b cF G

    378B0.8 = 3024302.42 250,500

    b Cc [email protected] 1 = 250 , F c [email protected] 1

    b c= 225c j = 500 , F c j

    b c= 309

    ^0.8 = [email protected] 225` [email protected] [email protected] 225ffffffffffffffffffffffffffffffff+ 250 = 480.3571429 En ambos casos, el percentil puede ser encontrado grficamente localizando el porcentaje (0.45 y

    0.80 en el ejemplo de arriba) por sobre el eje vertical del grfico adecuado (funcin de distribucin

    acumulada u ojiva) y luego encontrando el percentil en el eje horizontal.

    En el caso de datos individuales el mtodo descrito arriba es insatisfactorio porque no provee

    una nica respuesta en algunos caso, y para otros existen varios percentiles con el mismo valor hay

    varias maneras de suavizar el proceso. Nosotros preferimos el siguiente

    Definicin 2.14 El estimador emprico suavizado de un percentil se obtiene haciendo

    (Datos Individuales)

    ^p = [email protected] h` ax g` a + hx g + 1b cg = n + 1` apB C parte entera del nmero n + 1` aph = n + 1` [email protected] g parte fraccionaria del nmero n + 1` ap

    indica la funcin de mayor valor entero, y adems, [email protected] A

    x 1` a x 2` a x n` a son los estadsticos de orden de la muestra.

    Salvo que haya dos o ms datos con el mismo valor, los percentiles sern nicos.

    Una caracterstica de este procedimiento es que ^p no puede obtenerse como p< 1n + 1ffffffffffffffff, o

    p>1

    n + 1ffffffffffffffff. Parece razonable en la medida que no deberamos ser capaces de inferir el valor de los

    percentiles muy bajos o muy altos a partir de muestras pequeas. Usaremos la versin suavizada

    cada vez que se pida o se requiera el percentil emprico.

  • Ejemplo 2.6 Determinar, para los datos individuales del ejemplo dental, los estimados suavizados

    de los percentiles 45 y 80

    ^0.45eeeeeeeeeeeee: g = 10 + 1` a

    B0.45B C= [email protected] A= 4 [ h = 0.95

    ^0.45 = [email protected] 0.95` ax 4` a + 0.95x 5` a = [email protected] 0.95` aB107 + 0.95B141 = 139.3

    ^0.8eeeeeeeeee: g = 10 + 1` aB0.8B C= [email protected] A= 8 [ h = 0.8x 8` a = 351 , x 9` a = 567^0.8 = [email protected] 0.8` aB351 + 0.8B567 = 523.8

    2.2.3 Estimacin por Intervalo

    Todos los estimadores discutidos hasta el momento han sido estimadores puntuales. Es decir

    que el proceso de estimacin produce un nico valor que representa nuestro mejor intento de

    determinar el valor del parmetro poblacional. Si bien aquel valor puede ser bueno, no

    esperamos que coincida exactamente con el verdadero valor. Un resultado todava ms til

    surge a partir de un estimador por intervalo. En lugar de arrojar un nico valor, el resultado

    del proceso de estimacin es un rango de nmeros posibles, cada uno con la misma

    probabilidad o chance de ser el verdadero valor. Un tipo especfico de estimador por intervalo

    es el intervalo de confianza.

    Definicin de Intervalo de Confianza

    Un intervalo de confianza al para el parmetro [email protected]` a100% es un par de valores L(lower inferior) y U(upper superior) que surgen de una muestra aleatoria tales que

    Pr L U` a [email protected] 8 L, U son variables aleatoriasb c

    Notar que esta definicin no define unvocamente al intervalo. Como la definicin es una

    afirmacin probabilstica y debe cumplirse para todo valor de , no dice nada acerca de si un determinado intervalo incluye al verdadero valor de de una poblacin en particular. Ms an, el nivel de confianza (level of confidence), [email protected] , no es una propiedad de los valores obtenidos especficamente.5

    La interpretacin correcta es que si usamos un determinado estimador por intervalo una y otra

    vez, en una gran cantidad de muestras, aproximadamente el [email protected]` a100% de las veces nuestro intervalo va a incluir al verdadero valor.

    Construir intervalos de confianza puede resultar bastante difcil. Por ejemplo, sabemos que si una

    poblacin se comporta segn una distribucin Normal con media y varianza desconocidas, un

    intervalo de confianza al para la media es: [email protected]` a100%

    5 and not of the particular values obtained

    Pgina 13 de 60

  • L =X

    [email protected] t

    2fffffff,[email protected] 1

    snpwwwwwwwwwwwwwwwwwwwffffffffffff

    U =Xfffff+ t

    2fffffff,[email protected] 1

    snpwwwwwwwwwwwwwwwwwwwffffffffffff

    donde s = Xi = 1

    n [email protected] c2

    [email protected] 1fffffffffffffffffffffffffff

    vuuuutwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

    y t es el percentil ,b [email protected]` a100% de la distribucin t con b grados de libertad. Pero requiere un gran esfuerzo verificar que esto efectivamente es correcto. Sin

    embargo, existe un mtodo de construir intervalos de confianza aproximados, de forma

    relativamente sencilla. Suponer que tenemos un estimador puntual ^ de un parmetro tal que y que se comporta aproximadamente como una distribucin normal.

    Con todos estos supuestos tenemos que aproximadamente

    E ^b c= ; Var ^b c= v ` a ^

    [email protected] =Pr @[email protected]

    2fffffff

    ^ @ v ` a z

    [email protected] 2fffffrwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

    fffffffffffffffffffffffffffffffffffffffffffffHLLLJ (2.7)

    Al despejar se obtiene el intervalo deseado. A veces es bastante difcil de hacer, debido a la aparicin de en el denominador). Por ello, se reemplaza a v ` a por v para obtener la frmula todava ms aproximada

    ^b c

    [email protected] =Pr @[email protected]

    2fffffff

    ^ @ v ^b crwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffff z

    [email protected]

    HLLLJIMMMK (2.8)

    donde [email protected] es el percentil de la distribucin normal estndar. [email protected]` a100%

    // Por simetra de la distribucin Normal, z 2fffffff

    LLLL MMMM= [email protected] 2fffffff

    LLLL MMMM // 8 2R:z

    [email protected][email protected]

    2fffffff

    // IC [email protected] :^ F [email protected] 2fffffff v ^

    b crwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww Ejemplo 2.7 (pg 37)

    Usar la ecuacin (2.8) para construir un intervalo de confianza aproximado al 95%, para la media

    de una poblacin normal y varianza desconocida.

    Usar ^ = xfff y notar que E , ^B C= Var ^b c= npwwwwwwwwwwwwwwwwwwwffffffffffff y ^ tiene una distribucin normal. El intervalo

    de confianza es entonces xfffF 1.96

    snpwwwwwwwwwwwwwwwwwwwffffffffffff. Puesto que t , el intervalo de confianza

    aproximado debe ser ms angosto que el intervalo exacto dado por (2.6)

    0.025,[email protected] 1 >1.96

    L = [email protected]

    2fffffff,[email protected] 1

    snpwwwwwwwwwwwwwwwwwwwffffffffffff

    U = xfff+ t 2fffffff,[email protected] 1

    snpwwwwwwwwwwwwwwwwwwwffffffffffff

    Eso significa que nuestro nivel de confianza es algo menor al 95%.

    Ejemplo 2.8 Usar (2.7) y (2.8) para construir un intervalo de confianza al 95% para la media de

    una distribucin de Poisson. Obtener intervalos para el caso particular en el que n=25 y xfff= 0.12

    Pgina 14 de 60

  • Para el primer intervalo planteamos

    0.95 =Pr @ 1.96 [email protected] nfffffrwwwwwwwwwwwwwwwwwwwwwwwww

    fffffffffffffffffff 1.96hllj

    immk

    // Si Y ~ Poisson, entonces E [email protected] A=Var [email protected] A=

    // E XfffffB C= ; Var XfffffB C=2

    nffffff

    [email protected]

    fffffffffffffffffffLLLLLLLLL

    MMMMMMMMM 1.96 ^ [email protected] LLL MMM 1.96

    nffffswwwwwwwwwwwwwwwwwwwwwwwwwww^ [email protected] b c2 =1.962

    nfffff g^[email protected] 2 Xfffff+ 1.962

    nfffffffffffffffff g+Xfffff 0

    Resolviendo la ecuacin cuadrtica produce el intervalo

    Xfffff+ 1.9208

    nffffffffffffffffffffff gF 1

    2fff 15.3664 X

    fffff+ 3.84162

    nffffffffffffffffffffffffffffff

    nfffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff

    vuuutwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

    Si n=25 y xfff= 0.12, el intervalo es IC: 0. 197F 0.156

    Para la segunda aproximacin, el intervalo es

    XfffffF 1.96

    Xfffffnffffffswwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

    Si n=25 y xfff= 0.12, el intervalo es IC: 0. 12F 0.136

    Este intervalo se extiende por debajo del cero, lo cual no es cierto para le verdadero valor de . Es por esto que (2.8) no es ms que una psima aproximacin en este caso.

    Los intervalos creados hasta el momento han sido paramtricos, en el sentido de que se ha

    utilizado a la distribucin normal como una aproximacin. Pero hay una situacin en la que

    podemos formar un intervalo de confianza que sea verdaderamente no-paramtrico. Es decir, el

    nivel de confianza elegido es correcto ms all de la distribucin de la poblacin.

    La situacin es la construccin de un intervalo de confianza para el percentil de una poblacin. El

    siguiente teorema provee el resultado requerido.

    Teorema (pg. 38)

    2 ,,Sea X1 ,X Xn una muestra aleatoria de tamao n donde cada X j tiene una distribucin continua. Sean X 1` a ,X 2` a ,,X n` a los estadsticos de orden de la muestra. Sean 1 a

  • Ejemplo 2.9 (datos individuales) Construir un intervalo de confianza de por lo menos el 90% para

    el percentil 70.

    La respuesta NO ES NICA, pero tiene sentido construir el intervalo usando la menor cantidad

    posible de estadsticos. Las probabilidades asociadas a la distribucin binomial con n=10 y p=0.7

    estn dadas en la tabla 2.3

    Tabla 2.3

    i Pr(B=i) i Pr(B=i)

    0 0.00001 6 0.20012

    1 0.00014 7 0.26683

    2 0.00145 8 0.23347

    3 0.00900 9 0.12106

    4 0.03676 10 0.02825

    5 0.10292

    La forma ms rpida de llegar a la probabilidad de 0.9 es sumando

    0.26683+.23347+0.20012+0.12106+0.10292=0.92440

    Esta es la Pr 5 B 10` ac , y justamente el intervalo general para una muestra de tamao 10 es . Para este conjunto de datos el intervalo es (141,1511) y el nivel de confianza es en

    realidad 92.44%.

    X 5` a ,X 10` ab

    Notar que de haber utilizado Pr(B=10) para obtener la probabilidad deseada, el valor de b sera

    infinito y el lmite superior del intervalo de confianza hubiera sido el valor ms grande que puede

    tomar la variable aleatoria. Similarmente, resulta que si = 0, entonces el lmite inferior es el valor mnimo que puede tomar la variable aleatoria.

    Para tamaos de muestras mayores este proceso se vuelve engorroso, en la medida en que las

    probabilidades asociadas a la Binomial se tornan numerosas y difciles de calcular. En este

    contexto, podemos recurrir a la distribucin normal para una aproximacin eficiente de la

    binomial. El siguiente ejemplo ilustra el proceso.

    Ejemplo 2.10 Determinar qu estadsticos de orden son los que forman parte de los lmites de un

    intervalo de confianza al 90% correspondiente al percentil 70 proveniente de una muestra aleatoria

    de tamao 750.

    La variable B tiene una distribucin binomial con parmetros 750 y 0.70. sta puede aproximarse

    mediante una distribucin normal con media 750(0.7)=525 y varianza 750(0.7)(0.3)=157.5 y con

    un desvo estndar de 12.55. Entonces tenemos que

    0.9 =Pr a B b` a=Pr [email protected] [email protected] 52512.55

    fffffffffffffffffffffffffffffffffffffffffff

  • [email protected] [email protected] 52512.55

    [email protected] 1.645 [ a = [email protected] [email protected] 525

    12.55ffffffffffffffffffffffffffffffffffffffffff= 1.645 [ b = 546.14

    X^^^^^\^^^^^Z

    Para garantizar por lo menos un 90% de confianza, el intervalo X 504` a ,X 547` ab c

    En el ejercicio 2.16 se le pide hallar la frmula general para a y b cuando n,p y [email protected] son arbitrarios. Un uso particular de dicho resultado es en estudios de simulacin donde el objetivo es

    estimar un cierto percentil de una poblacin. El resultado permite determinar el nmero de

    simulaciones necesarias para obtener cierto nivel de precisin (Cp. 4)

    2.3 Evaluacin de un Estimador (pg 39)

    Ahora que tenemos la habilidad de estimar cantidades en base a la informacin muestral, es

    esencial que seamos capaces de evaluar la calidad de nuestro trabajo. En general, existen cuatro

    tipos de errores que podemos cometer

    1. Hemos extrado una muestra proveniente de una poblacin diferente de la que pretendamos

    2. Hemos seleccionado un modelo para una poblacin que no es verdadero, o hicimos suposiciones acerca de la poblacin que no son ciertas.

    3. Nuestra muestra no es representativa de la poblacin, debido a que la posibilidad de eleccin de los miembros de la muestra no es la misma para todos (no es una muestra

    aleatoria)

    4. El mtodo de estimacin en s es imperfecto

    El primer tipo de error ocurre cuando el muestreo se prolonga a lo largo de un perodo de tiempo

    extenso, Por ejemplo, los datos sobre montos de siniestros para automviles seran imprecisos si

    incluyeran informacin de un perodo anterior a un cambio en las condiciones de manejo (como ser

    un cambio en el lmite de la velocidad mxima permitida). Otra posibilidad es la existencia de un

    esquema de muestreo defectuoso. Por ejemplo, los datos de los siniestros pueden no incluir una

    provisin para aquellos que han ocurrido pero que an no han sido informados (por ejemplo, la

    experiencia en mortalidad, de un ao calendario, recolectada desde el 1/Enero podra omitir

    algunas muertes ocurridas en Diciembre).

    El segundo tipo de error no es posible con estimadores empricos, ya que no se realiza ningn tipo

    de suposicin acerca de la aleatoriedad de la muestra. Veremos cmo este error puede acrecentarse

    en la siguiente seccin.

    El tercer tipo de error puede minimizarse, pero no eliminarse. Cada vez que hacemos un anlisis

    en base a la muestra en lugar de la poblacin, la posibilidad de error se incrementa. No hay

    Pgina 17 de 60

  • ninguna seguridad de que los miembros de la muestra reflejarn fielmente a la poblacin y no hay

    siquiera la ms remota idea de darnos cuenta que hemos elegido una muestra de esa ndole una

    vez que, en ese momento, la hemos tomado.

    El cuarto tipo de error se evala simultneamente con el tercero. La idea ac es que para algunos

    estimadores, an si extrajramos una muestra de la totalidad de la poblacin, estaramos todava

    cometiendo un error. Un ejemplo de tal estimador podra ser uno que requiera que los datos estn

    agrupados y que la media de la poblacin se estime por medio de (2.2)

    k . =Xj = 1

    r

    njc jk + [email protected] [email protected] 1

    k + 1

    n k + 1` a c [email protected] [email protected] 1b cfffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffhlj

    imk

    En esta seccin estaremos trabajando con el efecto combinado del tercer y cuarto tipos de error,

    denominados errores de muestreo o errores de estimacin.

    Definicin 2.16 Un estimador puntual es una funcin de los valores obtenidos a partir de una

    muestra aleatoria. Como tal, un estimador es en s mismo una variable aleatoria, con su propia

    distribucin, denominada distribucin de muestreo (o muestral)

    Definicin 2.17 Un estimado puntual (valor estimado) es la realizacin numrica de un estimador

    basado en una muestra aleatoria en particular.

    Dejaremos de lado el denominativo puntual siempre que est claro que no nos estamos refiriendo

    a un estimador por intervalo. A pesar de no ser parte del eje de discusin aqu, deberamos notar

    que los lmites de un intervalo de confianza como lo hemos descrito en la seccin 2.2.3 son tambin

    variables aleatorias.

    Asumimos que el propsito de construir el estimador y posteriormente utilizar el estimado, es para

    producir una buena conjetura acerca de algunos aspectos importantes de la poblacin.

    Por una cuestin de notacin, usaremos tpicamente las letras del alfabeto griego para referirnos a

    medidas o cantidades poblacionales y podremos circunflejos sobre ellas para denotar estimadores.

    Al ser una variable aleatoria, tambin es muy comn denotar a su correspondiente estimador con

    una letra romana minscula. El siguiente ejemplo aclara estos conceptos.

    Ejemplo 2.11 Considerar la media y la varianza. Son claramente caractersticas poblacionales.

    Estos son posibles estimadores

    ^ =Xfffff=X

    j = 1

    n X jnffffffff ^2 =Sn2 = 1nffffXj = 1

    n

    X [email protected] c2

    y sus correspondientes estimadores son

    Pgina 18 de 60

  • ^ = xfff=Xj = 1

    n x jnffffff ^2 = sn2 = 1

    nffffX

    j = 1

    n

    x [email protected] c2

    Otros estimadores podran haber sido

    ^ = ^ 0.5 ^ 2 [email protected] 12 = [email protected] 1fffffffffffffffffX

    j = 1

    n

    X [email protected] c2

    Con esta notacin, como la definida arriba, no hay manera alguna de distinguir al estimador de su

    estimado, utilizando letras griegas.

    El primer conjunto de estimadores son los estimadores empricos. El segundo miembro, utiliza el

    estimador emprico de la mediana para estimar la media y usa el ms comnmente elegido

    denominador, n-1, para la estimacin de la varianza.

    Debemos dejar nuevamente bien claro que la nica cantidad que puede ser evaluada respecto de su

    calidad, es el estimador, no el estimado. Todas las medidas utilizadas aqu se aplican a la variable

    aleatoria, e intentan indicar cun bien nos ira si adoptramos un determinado procedimiento. En

    cualquier caso particular de aplicacin, el estimado en s puede resultar tanto bueno como malo,

    algo que podr verificarse en el futuro pero que no se puede evidenciar de antemano o al momento

    en el que se efecta el proceso de estimacin.

    Las medidas de calidad de una estimador introducidas aqu son las estndar incluidas en la

    mayora de los libros de Estadstica Matemtica.

    Para todas las definiciones que siguen, (posiblemente un vector) indicar el parmetro y ^ el estimador.

    La primera medida indica cun bien el estimador resulta en promedio. Si un buen estimador se

    utiliza repetidamente, en muchas situaciones similares, los errores deberan cancelarse de modo que

    no debera haber un comportamiento tendencial por sobre o por debajo del parmetro. (Concepto

    de insesgadez)

    Definicin 2.18 El sesgo (en ingls, bias) de un estimador ^ es b ^b c=E ^b [email protected]

    Un estimador para el que el sesgo es idnticamente cero se le da el nombre de insesgado

    ( b ) ^b c= 0 8

    Notar que el sesgo es una funcin del valor del parmetro. El grado en el que un estimador se aleja

    o aparta, en promedio, podra depender de un valor particular del parmetro. Todo lo dems

    igual, preferiremos que un estimador sea insesgado.

    Ejemplo 2,12 Determinar el sesgo de cada uno de los siguientes estimadores. Hgalo primero sin

    hacer suposiciones sobre la poblacin, y luego bajo el supuesto de que la poblacin tiene una

    funcin de distribucin F X x` a= x 0

  • varianza es 112fffffff) es conocida. Sin algn tupo de suposicin los siguientes clculos pueden

    efectuarse.

    E Xfffffb c= E 1

    nffffX

    j = 1

    n

    X j

    hj ik= 1nffffX

    j = 1

    n

    E xjb c= b Xfffffb c= 0

    E Sn2

    b c=E 1nffffX

    j = 1

    n

    X [email protected] c2hj ik= 1

    nffffE X

    j = 1

    n

    X j2

    hj [email protected] nXfffff2b cHLJ

    IMK= 2 + 2b [email protected] 1n2fffffffX

    i = 1

    n Xj = 1

    n

    E Xi X jb c

    E Sn2

    b c= 2 + 2b [email protected] 1n2fffffffn [email protected] 1` a2 + n 2 + 2b cD E= [email protected] 1

    nfffffffffffffffff2

    b2 Sn2

    b [email protected] 2nfffffff

    E [email protected] 12

    b c= E [email protected] 1fffffffffffffffffsn2d e=2 , b 2 [email protected] 12b c= 0

    Entonces, independientemente de la distribucin de la poblacin, Xfffff y [email protected] 1

    2 son insesgados y Sn2

    tiene un sesgo negativo. El valor esperado de la mediana muestral depende de la distribucin

    poblacional. Si n es impar podemos escribir n=2m+1 y la mediana de la funcin de densidad de

    probabilidad, haciendo que p es = ^ 0.5 f ^ 0.5

    p` a= n!

    m!` a2fffffffffffffffff X p` aF X p` aB Cm [email protected] X p` aB Cm

    Para la distribucin en cuestin f X p` a= 1, por lo tanto

    E ^ 0.5b c= Z

    0

    1

    pn!

    m!` a2ffffffffffffffffpm [email protected] pb cm dp = n!

    m!` a2ffffffffffffffffZ

    0

    1

    pm + 1 [email protected] pb cm

    dp = n!m!` a2ffffffffffffffffB m + 2,m + 1b c

    = n!m!` a2ffffffffffffffff m + 2

    ` a m + 1` a 2m + 3` affffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff= n!m!` a2ffffffffffffffff

    m + 1` a !m!2m + 2` a !ffffffffffffffffffffffffffffffffffff= 12fff= 0.5

    y vemos que es insesgado. Este resultado no es frecuente para la mediana muestral, se debe a

    la simetra de la densidad.

    ^ 0.5

    A pesar de que Sn2 es sesgado, vemos que a medida que crece el tamao de la muestra, el sesgo

    decrece y en el lmite es cero. Esto induce la siguiente definicin.

    Definicin 2.19 Sea un estimador basado en una muestra de tamao n. Un estimador es asintticamente insesgado

    ^n

    si el limnQ1

    b ^nb c= 0 8 ` a

    Para que un estimador sea til, no solo debera ser preciso en promedio, sino que adems debera

    acercarse al verdadero valor del parmetro, al menos la mayora de las veces.

    La precisin debera mejorar con el tamao muestral. En particular, si el tamao de la muestra es

    infinito (as que de hecho estaramos muestreando a la poblacin) deberamos esperar que nuestro

    estimador fuera perfecto. (Concepto de consistencia)

    La afirmacin ms dbil al respecto, es decir, aquella que es ms fcil de satisfacer, est dada por

    la siguiente definicin

    Pgina 20 de 60

  • Definicin 2.20 Un estimador es consistente (llamado a veces, en este contexto, dbilmente

    consistente) si 8 >0,8: limnQ1

    Pr ^[email protected] MMMM0,8: limnQ1 Pr

    ^[email protected]

    LLLL MMMM

  • Ejemplo 2.14 Considerar el estimador ^ = 5 de un parmetro desconocido . El MSE es , que es muy pequeo cuando es cercano a 5, pero se vuelve malo para otros valores. Por supuesto que este estimador es tanto sesgado como inconsistente.

    [email protected] ` a2

    Un resultado que surge directamente de las varias definiciones es

    MS E ^b c= E ^ @E ^b c+ E ^b [email protected] D E2

    X\ZY][

    MS E ^b c=Var ^b c+ b ^b cD E2

    Si restringimos nuestra atencin solamente a los estimadores insesgados, el mejor de ellos puede

    definirse de la siguiente manera.

    Definicin 2.22 Un estimador ^ se denomina estimador insesgado de varianza mnima uniforme6 si es 1) insesgado y 2) para todo valor de no existe otro estimador insesgado que tenga menor varianza.

    Es por el hecho de que estamos buscando solo estimadores insesgados, que hubiera sido igualmente

    efectivo haber hecho la definicin en trminos del Error Cuadrtico Medio (MSE). Podramos

    tambin generalizar la definicin, buscando estimadores que sean los uniformemente mejores7

    respecto del MSE, pero el ejemplo anterior indica por qu esto no es posible.

    Existen algunos teoremas que son de utilidad para determinar los UMVUEs (estimadores

    insesgados de mnima varianza). Sin embargo, dichos estimadores son difciles de obtener. Por otro

    lado, todava sigue siendo til el criterio a los efectos de comparar dos estimadores alternativos.

    Ejemplo 2.15

    En el ejemplo 2.12 se demostr que tanto la media como la mediana muestrales eran insesgadas

    para una distribucin uniforme. Cul tiene el error cuadrtico medio ms chico para un tamao

    de muestra de 11?

    Para la media muestral, el MSE es la varianza, que es

    112fffffffffnffffffff= 1

    12 A 11fffffffffffffffffff= 1

    132fffffffffff .

    Para la mediana muestral, el MSE= [email protected] 1

    4ffff= 1

    52fffffff

    (usando los clculos del ejemplo 2.13 con m=5) y por lo tanto la media muestral es preferible (en

    este caso)

    6 UMVUE: uniformly minimum variance unbiased estimator 7 uniformly best

    Pgina 22 de 60

  • Todo el material discutido hasta este punto entra dentro del ttulo de lo conocido como estadstica

    clsica o frecuencialista. Algunas de las suposiciones de este enfoque son que 1) la poblacin

    existe, 2) el parmetro es un valor fijo que resulta ser desconocido y 3) que el analista no conoce

    ms que lo que le es revelado a travs de una muestra de nmeros extrados de la poblacin. Las

    inferencias se realizan haciendo ms supuestos entorno a la naturaleza del proceso de muestreo y/o

    la poblacin, y luego las leyes de probabilidad son aplicadas.

    Existe un enfoque alternativo del proceso de estimacin conocido como Bayesiano. Este enfoque

    asume que tenemos ya una idea de cmo podra ser el parmetro y que esta idea puede expresarse

    como una distribucin de probabilidad, y que los datos son fijos sin nmeros adicionales que valga

    la pena considerar.8 De nuevo, se pueden aplicar las leyes de probabilidad. Los detalles de este

    proceso se retoman en la Seccin 2.8.

    2.4 Estimacin Paramtrica (pg. 45)

    Hasta el momento la estimacin emprica parece ser bastante buena. Sin embargo, tiene un

    nmero importante de desventajas, que van a ser ejemplificadas luego en este captulo. Eso

    significa que necesitamos algo mejor.

    Tal aproximacin es la que se conoce como estimacin paramtrica. Existen otras, pero salvo una

    breve introduccin en la seccin 2.11 no sern presentadas.

    2.4.1 Definicin

    Antes habamos obtenido cantidades de una poblacin (o su distribucin) que describa varias de

    sus caractersticas. Existen ciertos casos en los que el proceso puede revertirse.

    Definicin 2.23 Una familia paramtrica de distribuciones es una coleccin de funciones donde la

    identidad de un determinado miembro est indexado por un nmero finito de variables llamadas

    parmetros ( ). Ms formalmente, la familia es 1 ,2 ,,kF x ;b c ;2T U

    donde es un escalar o un vector y es el conjunto de todos los posibles valores de . Adems, la variable aleatoria X puede ser multivariada y por lo tanto x puede ser tambin un

    vector.

    Si es verdad que la distribucin poblacional es un miembro de la familia paramtrica, es

    suficiente con ser capaces de obtener el valor de para determinar la distribucin. Luego de ello, cualquier cantidad de inters puede ser determinada.

    La estimacin paramtrica puede ser reducida a cuatro pasos:

    1. Determinar la familia paramtrica que describe a la poblacin 2. Determinar el valor de los parmetros 3. Determinar el valor de la cantidad que nos es de inters

    8 the data are fixed with no further numbers worthy of consideration

    Pgina 23 de 60

  • 4. Evaluar la precisin del valor hallado en (3)

    2.4.2 Mtodos basados en la igualacin de cantidades poblacionales y muestrales

    Los mtodos de estimacin de parmetros caen dentro de dos categoras. Una es encontrar un

    sistema de ecuaciones donde el nmero de ecuaciones iguale al nmero de parmetros. Esperamos

    que entonces exista exactamente una solucin posible a las ecuaciones, la cual se convierte en el

    estimador. Las ecuaciones se eligen de modo que ciertas caractersticas que deseamos que sean

    ciertas efectivamente lo sean. El otro conjunto de mtodos optimiza cierto criterio relevante, segn

    nuestros propsitos.

    Hay dos mtodos populares en la primera categora: 1) el mtodo de los momentos e 2) igualacin

    de percentiles. El mtodo de momentos se basa en asegurarnos de que el modelo paramtrico tenga

    los mismos momentos que el modelo emprico.

    Definicin 2.24 Si una familia paramtrica tiene r parmetros, las ecuaciones de momentos son:

    Pgina 24 de 60

    j . = 1nffffX

    =

    n

    xij j = 1,,,r (Igualacin de momentos absolutos entorno al origen)

    i 1

    donde j . =E X j |B C

    es una funcin del vector de parmetros desconocido . El estimador por el mtodo de los momentos es la solucin a estas ecuaciones.

    Ejemplo 2.16 (datos individuales)

    Determinar los valores estimados por el mtodo de los momentos para las distribuciones

    Exponencial, Gamma y Pareto. Para cada caso, estimar la media, el desvo estndar y la

    probabilidad de que el monto de un siniestro individual supere los $500.

    Exponencial

    Para la distribucin exponencial, la ecuacin es =335.5 entonces ^ = 335.5. La media es que es estimada por medio de 335.5, el desvo estndar es tambin y el estimado es 335.5. Pr X>500

    ` [email protected] [email protected] 500335.5fffffffffffffffffffffff= 0.22530 Gamma

    Para la distribucin Gamma

    = 335.5 + 1` a2 = 293068.3

    Las soluciones son , =538.03 ^ = 0.62357 ^La media es que se estima con (0.62357)(538.03)=335.5 El desvo estndar es 12fffff que se estima con 424.86 Pr X>500

    ` a= [email protected] , 500ffffffffffff g

    que se estima con 0.22593

    Pareto

  • Para la distribucin de Pareto

    @ 1ffffffffffffffffff= 335.5

    22 @ 1` a @ 2` afffffffffffffffffffffffffffffffffffffffffffffff= 293068.3

    X^^^^^\^^^^^^^Z

    Las soluciones son y ^ = 5.3131 ^ = 1447.1La media es

    @ 1ffffffffffffffffff, que se estima con 335.5

    El desvo estndar es 12ffff

    @ 1` a @ 2` a12ffffffffffffffffffffffffffffffffffffffffffffffffffffff que se estima con 424.88

    Pr X>500` a=

    500 + ` afffffffffffffffffffffffffffffffff que se estima con 0.20663

    Debera notarse que para los ejemplos de las distribuciones Gamma y Pareto, el mtodo de

    momentos arroja estimadores que coinciden con los estimadores empricos.

    Esto debera quedar claro de la definicin del mtodo de momentos. Para el caso de la

    exponencial, con un solo parmetro, solo la media coincide. Como recordatorio, el estimador

    emprico de Pr(X>500)=0.2

    El segundo mtodo conocido es el denominado Igualacin de Percentiles. Ac los percentiles de

    una muestra y los del modelo son forzados a ser iguales en r puntos seleccionados arbitrariamente.

    Las ecuaciones son: p j = F ^p j ;d e

    j = 1,, rEjemplo 2.17 Estimar los parmetros utilizando igualacin de percentiles para las distribuciones

    exponencial y Pareto. Usar el percentil 70 para la exponencial y los percentiles 40 y 70 para la

    distribucin de Pareto.

    Los percentiles son ^0.7 = 0.3 317` a+ 0.7 351` a= 340.8^0.4 = 0.6 107` a+ 0.4 141` a= 120.6

    Para la distribucin exponencial

    Pgina 25 de 60

    0.7 = [email protected] exp @ 340,8f fffffffffffffffffg[^ = 283.06

    Para la distribucin Pareto

    ^^^\

    0.7 = [email protected] + 340.8ffffffffffffffffffffffffffffffF G 1` a

    0.4 = [email protected] + 120.6ffffffffffffffffffffffffffffffF G 2` a

    X^^^^^^^^^^^^^^Z^

    de (2): = ln 0.6` a

    ln + 120.6fffffffffffffffffffffffffffffffffffd efffffffffffffffffffffffffffffffffffffffffff

    en (1): ln 0.3` a= ln 0.6` a

    ln + 120.6fffffffffffffffffffffffffffffffffffd efffffffffffffffffffffffffffffffffffffffffffln + 340.8ffffffffffffffffffffffffffffff

    f g

  • Se usa un mtodo iterativo como ser biseccin o Newton Raspn para obtener la solucin

    , ^ = 424.5 ^ = 2.0428

    2.4.4 Estimadores basados en optimizacin

    El mayor problema de los estimadores basados en ecuaciones es su incapacidad de ajustar bien en

    TODO el rango de valores observados, concentrndose en cambio en coincidir en unas pocas

    caractersticas elegidas. Para poder ajustar bien a lo largo, debemos dejar de insistir en hacer que

    el modelo emprico y terico, es decir, sus distribuciones, coincidan exactamente en algn aspecto.

    En cambio, pedimos que estn cerca de alguna manera medible. Veremos tres formas de hacerlo.

    Uno de ellos entra dentro de la categora que lleva el nombre de mnima distancia y relaciona a los

    datos y al modelo en lugares especficos. El segundo mtodo no tiene un nombre reconocido, y

    requiere el agrupamiento de los datos en intervalos, y luego compara determinada caracterstica

    del modelo con los datos en cada intervalo. El tercer mtodo es mxima verosimilitud.

    Todos estos mtodos requieren la habilidad para maximizar o minimizar funciones de una o ms

    variables. En la mayora de las aplicaciones, la tcnica de clculo de igualar todas las derivadas a

    cero y resolver el sistema de ecuaciones, va a ser bastante difcil de aplicar.

    Muchos algoritmos numricos han sido diseados para hallar el ptimo de funciones. La mayora

    de los textos de anlisis numrico provee una introduccin. Y numerosos algoritmos para

    implementarlos se pueden encontrar en el Numerical Recipes Series (serie de recetas numricas).

    Asimismo, los programas de planilla de clculo (spreadsheet programs) incluyen una herramienta

    de optimizacin.

    Finalmente, como una herramienta multiuso recomendamos el mtodo simples. Una explicacin

    detallada de algoritmos puede encontrarse en Sequential Simples Optimization [123], y se

    facilitan programas en [103]. El algoritmo es descrito en al Apndice C. La mayor ventaja es que

    no se requiere el clculo de las derivadas. Sin embargo, la convergencia es lenta.

    Independientemente del mtodo usado, recomendamos fuertemente que se verifique la solucin

    propuesta, evaluando a la funcin en puntos cercanos y constatar que se trata de un mximo o de

    un mnimo.

    Muchos programas anuncian xito cuando en realidad no se lleg al punto ptimo. Finalmente,

    advertimos que cualquier rutina numrica es capaz de determinar ptimos locales. Es imposible

    saber con certeza si no existe un valor superior, a una distancia alejada de la solucin propuesta.

    La siguiente definicin del estimador general de distancia mnima fue sacado de Klugman y Parsa

    [77].

    Pgina 26 de 60

  • Definicin 2.25 Para cierta familia paramtrica, sea F(x; ) la funcin de distribucin acumulada y sea G(x; ) una funcin de x unvocamente relacionada con F. Esto es, si conocemos F y podemos obtener G, y si conocemos G y podemos obtener F. Sea Gn x` a la obtenida a partir de la funcin de distribucin acumulada emprica, de la misma manera. Entonces, si existe el valor de

    que minimiza Q ` a=Xj = 1

    k

    wj G c j ;b c

    @Gn c jb cD E2

    se denomina estimador de mnima distancia de . Los valores de c y w son elegidos arbitrariamente1

  • La principal ventaja de estos dos estimadores por sobre sus contrapartes de mnima distancia, es

    que los errores son de alguna ms independientes. Es decir, si es difcil hacer coincidir a la funcin

    de distribucin acumulada en un punto, esa dificultad va a perpetuarse en los argumentos

    siguientes al usar el mtodo de mnima distancia.

    (Responde a la pregunta: por qu es superior el mtodo de 2 modificado y mnimo LAS respecto al estimador Crmer von Mises y mnimo LAS? )

    La modificacin en el procedimiento basado en el chi cuadrado se refiere al uso del valor emprico

    como peso en vez del valor del modelo. (en vez de dividir por el nmero esperado terico)

    Estos estimadores son especialmente tiles para datos agrupados porque requieren solo de

    informacin emprica en los valores elegidos.

    El siguiente ejemplo muestra cmo estos problemas pueden sobrellevarse mediante una planilla de

    clculo.

    Ejemplo 2.21 (ejemplo dental, datos agrupados)

    Determinar los estimadores de mnima cdf y mnimo chi cuadrado modificado para el parmetro

    de una distribucin exponencial. Para el mnimo cdf usar pesos de 1. Para el caso de mnimo cdf, la expresin a minimizar es

    Q ` a= [email protected]@ [email protected] 30378ffffffffffff g2 ++ [email protected]@ [email protected] 378

    378ffffffffffff g2

    Usando una rutina de optimizacin de una planilla de clculo, produce un estimado ^ =281.5852. El resultado est en la tabla 2.6

    Para el mnimo chi cuadrado modificado, la cantidad a minimizar es

    Q ` a= 378 [email protected]@

    [email protected] 30

    b cD E230

    fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff++ 378 [email protected]

    [email protected]@

    2500ffffffffffffffffb [email protected] 11

    D E211

    fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff+ [email protected]

    [email protected] 3

    B C23

    ffffffffffffffffffffffffffffffffffffffffffffffff Notar que combinamos los ltimos dos grupos (2500 a 4000 y 4000 a 1), porque sin

    observaciones por encima de 4000, la contribucin del ltimo intervalo a Q estara indefinida. De

    nuevo, usando una planilla de clculo obtenemos el valor estimado ^ = 274.7305. El resultado est en la tabla 2.7.

    Los mtodos descritos hasta el momento tienen una caracterstica que es tanto una ventaja como

    una desventaja. Estos mtodos le confieren al analista un amplio margen de libertad, permitiendo

    una gran flexibilidad respecto a la funcin a comparar. Si el analista tiene un avezado

    conocimiento del ejercicio de estimacin, puede adoptar cierto criterio que le permita a los datos

    ajustarse de la manera que ms sea conveniente.

    Por ejemplo, si el objetivo es cotizar (poner un precio) a un contrato de reaseguro en el que

    seremos responsables por el pago de siniestros en el rango de 1 a 5 millones de dlares, entonces el

    mtodo de mnimo LAS con la mayor parte del peso en los intervalos que se extienden en el rango

    Pgina 28 de 60

  • clave, parecera ser la mejor opcin. Por otro lado, tal flexibilidad permite al inescrupuloso o tal

    vez mal informado analista, obtener resultados que no son apropiados.

    El ltimo mtodo que va a ser presentado en esta seccin no deja lugar a decisiones arbitrarias.

    Ms an, es el mejor mtodo, desde el punto de vista de sus propiedades estadsticas. Es la

    llamada Estimacin Mximo Verosmil (MV)13; el proceso, el estimador, y el estimado estn todos

    identificados por la abreviatura MLE. La filosofa es bien simple. Sea la funcin de verosimilitud la

    probabilidad de haber observado lo que se observ, dado un valor hipottico del parmetro. El

    estimador ms razonable del verdadero parmetro es aquel le corresponde la ms alta probabilidad

    de haber obtenido lo que efectivamente se obtuvo. Suponiendo independencia de las observaciones

    tenemos la siguiente definicin.

    Definicin 2.27

    La funcin de verosimilitud para un conjunto n de observaciones independientes es

    L ` a=Yj = 1

    n

    Lj ` a donde Lj ` a es la contribucin de la j-sima observacin a la verosimilitud. Si la j-sima observacin es un evento con probabilidad positiva (tal como la de una distribucin discreta o de

    un intervalo), entonces la contribucin es esa probabilidad. Si la j-sima observacin es un valor

    que proviene de una distribucin continua, la contribucin es la funcin de densidad de

    probabilidad en ese valor.

    Dos casos en donde es fcil escribir la funcin de verosimilitud

    1. Datos Individuales: L ` a=Yj = 1

    n

    f x j ;b c

    2. Datos Agrupados: L ` a=Yj = 1

    k

    F c j ;b c

    @F [email protected] 1 ;b cD En j

    Notar que si existe un lmite de la pliza de u, la contribucin de un siniestro que excede al lmite

    (tal que el monto pagado asciende a u) es 1 y no . Esto es porque la distribucin

    subyacente es de siniestros, y no de montos pagados. Cuando se paga u, todo lo que se sabe del

    siniestro es que estuvo por encima del lmite.

    @F u ;b c cf u ;b

    No hay garanta de que la funcin de verosimilitud tenga un mximo. Es decir, L ` a podra crecer a medida que se acerca a un lmite como ser cero o infinito. Adems, existe la posibilidad de mximos locales. Para la mayora de los casos no ser posible realizar la maximizacin a travs

    de herramientas analticas, y en tal caso se usarn mtodos numricos.

    Los estimadores mximo verosmiles poseen un nmero de propiedades que en conjunto no las

    comparte con ningn otro estimador paramtrico. Entre ellas estn las siguientes:

    13 Maximum Likelihood Estimation (MLE)

    Pgina 29 de 60

  • 1. Son asintticamente insesgados limnQ1

    b ^nb c= 0

    2. De entre los estimadores que tienen distribucin normal, son los que tienen menor varianza

    asinttica

    3. El estimador MV de una funcin de un parmetro es la misma funcin del estimador MV del parmetro. Es decir, el estimador MV es invariante frente a la transformacin de un parmetro

    g^ ` a= g ^b c4. Se puede obtener la expresin explcita de la varianza asinttica. El tercer punto significa que de cualquier forma en la que parametricemos a la funcin, siempre

    obtendremos la misma respuesta a la hora de estimar una cantidad de inters.

    El punto 4 significa que siempre podremos aproximar la varianza del estimador (bajo la condicin

    de que la verdadera distribucin sea un miembro de la familia paramtrica elegida)

    Ejemplo 2.22 (Ejemplo dental, datos individuales)

    Hallar los estimadores por el mtodo de los momentos y por Mxima Verosimilitud de los

    parmetros de una distribucin Lognormal. selos para estimar la media de la poblacin

    lognormal. Realice un estudio de simulacin para ver cul estimador es superior cuando la

    poblacin es lognormal con = y =1 5Por mtodo de los momentos

    Si la meta u objetivo fuera simplemente estimar la media, sabramos si las frmulas que el

    estimador por momentos es la media muestral. Con respecto a los estimados de los parmetros, las

    ecuaciones de momentos son:

    335.5 = exp + 1

    2fff2f g

    293068.3 = exp 2 + 22b c

    + 1

    2fff2 = ln335.5

    + 2 = 12fffln293068.3 [

    2 = 2 [email protected] ln335.5F G= 0.956917053

    = [email protected] 0.956917053

    =5.33716 y =0.97822 , ^ ^ con lo que el valor estimado de la media es exp 5.33716 + 1

    2fff0.97822` a2f g= 335.5

    Por mtodo de MV

    La funcin de verosimilitud de la funcin es:

    L ,` a=Yj = 1

    10 1x j 2pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffffffffffffexp @

    logx [email protected] c2

    22fffffffffffffffffffffffffffffffffffff

    HLJIMK

    El logaritmo de la funcin de verosimilitud y sus derivadas parciales son

    l ,` [email protected] = 1

    10

    logx [email protected] [email protected] 102ffffffff glog2 @X

    j = 1

    10 logx [email protected] c2

    22fffffffffffffffffffffffffffffffffffff

    Pgina 30 de 60

  • lfffffffff=X

    j = 1

    10 logx [email protected]

    ffffffffffffffffffffffffffff [email protected] 10fffffff+Xj = 1

    10 logx [email protected] c2

    3fffffffffffffffffffffffffffffffffffff

    Igualando las derivadas parciales a cero se obtienen los valores estimados MV

    ^ = 110fffffffX

    j = 1

    10

    logx j

    ^ = 110fffffffX

    j = 1

    10

    [email protected] ^

    d e2vuutwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

    En este ejemplo los valores estimados son ^=5.07491 y ^=1.30055. Usted debera notar que estos nmeros difieren de los presentados en el ejemplo 1.4

    Los diez nmeros eran los montos pagados con un deducible de 50. El modelo encontrado en ese

    ejemplo anterior era para el siniestro en s. En este ejemplo, estamos encontrando un modelo para

    el monto pagado. El valor estimado de la media es exp 5.07491 + 12fff1.30055` a2f g= 372.65

    Los resultados de la simulacin se presentan en la tabla 2.8 basada en 1000 muestras de tamao

    10. Mientras que por un lado, existe cierto sesgo para este tamao muestral (el verdadero valor de

    la media es ex , el estimador de mxima verosimilitud es claramente superior con

    respecto a la varianza y al error medio cuadrtico.)

    p 5.5` a= 244.69

    Tabla 2.8

    Mtodo media varianza MSE

    Momentos 245.14 10430.45 10430.65

    MV 248.85 8849.95 8867.21

    2.5.1 Varianza de los estimadores MV (pg. 62)

    La clave es un teorema presente en la mayora de los libros de estadstica matemtica. La versin

    particular citada aqu y su generalizacin multiparamtrica est sacada de Rohatgi [109,p.384] y se

    enuncia sin demostracin.

    Recordar que L ` a es la funcin de verosimilitud y que l ` a es su logaritmo. Todos los resultados asumen que la poblacin tiene una distribucin que es un miembro de la familia paramtrica

    elegida.

    Teorema 2.2

    Asumir que la funcin de probabilidad satisface lo siguiente (para en un intervalo conteniendo el verdadero valor, y reemplace a las integrales por sumas para variables discretas).

    f x ;b cc

    1. lo es tres veces diferenciable respecto a g f x ;b 2. Z fffffffff x ;

    b cdx = 0 Esto permite poder sacar la derivada afuera de la integral y por eso

    estamos derivando a la constante 1

    Pgina 31 de 60

  • // Z fffffffff x ;b c

    dx = ddfffffffZ f x ;b cdxV W= d

    dfffffff1` a= 0

    3. Z 22fffffffffff x ;b c

    dx = 0 Es el mismo concepto para la derivada segunda

    //Z 22fffffffffff x ;b c

    dx = ddfffffff Z fffffffff x ;

    b cdx{~~~~~~~~~~~ }~~~~~~~~~~~y

    constante

    X^^\^Z^

    Y^^]^[^= 0

    4. @1

  • Las condiciones (i) a (iv) suelen ser consideradas como condiciones de regularidad. Un escptico

    podra traducir esta afirmacin como condiciones que casi siempre son verdaderas pero de difcil

    comprobacin, as que asumamos que se cumplen en nuestro caso.

    El propsito de las condiciones es garantizar que la funcin de densidad es lo suficientemente

    suave respecto a cambios en el parmetro y que no existe nada inusual acerca de la densidad en s

    misma.

    Los enunciados arriba asumen que la muestra consiste en observaciones independientes e

    idnticamente distribuidas.

    Una versin ms general del resultado, utiliza el logaritmo de la funcin de verosimilitud

    I ` [email protected] 22ffffffffffl ` aHJ IK=E ffffffffl ` a

    f g2HLJIMK

    Un caso intermedio es aquel en el que si bien las observaciones son independientes, no son

    idnticas. En este caso, sea Lj ` a la contribucin de la j-sima observacin a la funcin de verosimilitud y sea l j ` a=X

    j = 1

    n

    l j ` a el logaritmo de la funcin de verosimilitud, entonces I ` [email protected] 22ffffffffffl

    ` aHJ IK=E ffffffffXj = 1n

    l j ` ahj ik2HLLJ

    IMMK Si hay ms de un parmetro, el nico cambio es que el vector de estimadores mximo verosmiles

    (MV) ahora tiene una distribucin asinttica normal multivariada. La matriz de covarianza de

    esta distribucin se obtiene de la inversa de la matriz de rs elementos.

    Para cualquier variable aleatoria multidimensional o multivariada, con respecto a la matriz de

    covarianza, la varianza de cada variable aleatoria individual se ubica en los elementos de la

    diagonal principal, y las covarianzas por afuera de la diagonal.

    I ` [email protected]

    2

    s rffffffffffffffffffffffl ` a

    HJ [email protected] E 2s rfffffffffffffffffffffflog f x ;b cHJ IK

    I ` ars= E r

    ffffffffffl ` a sffffffffffl ` aF G= nE rfffffffffflog f x ;

    b c sfffffffffflog f x ;b cF G

    La primera expresin en cada lnea es siempre correcta. La segunda expresin asume que la

    verosimilitud es el producto de las n funciones de probabilidad idnticas

    Cuando las observaciones son independientes pero no tienen distribuciones idnticas

    I ` [email protected]

    j = 1

    n

    E 2

    s rffffffffffffffffffffffl j ` a

    HJ IK A esta matriz generalmente se la denomina matriz de informacin.

    Pgina 33 de 60

  • sta debera parecer familiar en la medida en que es la misma matriz que fue utilizada para el

    mtodo de scoring (recordar que (2.13) est basada en E 2

    s rffffffffffffffffffffffl ` a

    HJ IK ). La nica diferencia es que el verdadero valor de la varianza asinttica requiere de los verdaderos valores de los

    parmetros, mientras que el mtodo scoring los reemplaza por los estimadores MV. Como nunca

    sabremos los verdaderos valores, esto es lo ms cercano a lo que haremos para evaluar la varianza

    de nuestro estimador.

    La matriz de informacin tambin constituye la cota inferior de Rao- Crmer (ver por ejemplo,

    Hogg y Craig [65, pp. 370-373]). Esto es, bajo las condiciones usuales, ningn estimador insesgado

    tiene una varianza ms chica que la del correspondiente elemento en la diagonal principal de la

    inversa de la matriz de informacin. Por lo tanto, al menos asintticamente, ningn estimador

    insesgado es ms preciso que el estimador MV.

    Ejemplo 2.24 (ejemplo dental, datos individuales)

    Estimar la matriz de covarianza del estimador de mxima verosimilitud para una distribucin

    lognormal.

    Las primeras derivadas parciales fueron obtenidas en el ejemplo 2.22

    lfffffffff=X

    j = 1

    10 logx [email protected]

    ffffffffffffffffffffffffffff ; [email protected] 10fffffff+Xj = 110 logx

    [email protected] c2 3

    fffffffffffffffffffffffffffffffffffff Las derivadas parciales segundas son:

    2 [email protected] 10 2fffffff ;

    2 [email protected] 2X

    j = 1

    10 logx [email protected] c

    3ffffffffffffffffffffffffffffffffff ; 2 l2fffffffffff= [email protected] 3Xj = 1

    10 logx [email protected] c2

    4fffffffffffffffffffffffffffffffffffff

    Los valores esperados son, teniendo en cuenta que logX se distribuye como una normal con

    parmetros (media) y (desvo estndar) E

    2 l2fffffffffffHJ [email protected] 102fffffff ; E

    2 lffffffffffffffffffHJ IK= 0 ; E 2 l2fffffffffffF [email protected] 202fffffff

    Cambiando los signos e invirtiendo, obtenemos la matriz de covarianza. En realidad, este es un

    estimado, porque el teorema 2.22 solo provee la expresin de la matriz de covarianza en el lmite.

    En este caso es

    210fffffff 00

    220fffffff

    HLLLLLJIMMMMMK

    Ahora aproximaremos la matriz de covarianza reemplazando por el valor estimado de mediante el mtodo MV, calculado en el ejemplo 2.22

    0.16914 00 0.084572

    F G

    Pgina 34 de 60

  • Los ceros afuera de la diagonal indican que los valores estimados de los dos parmetros estn

    asintticamente incorrelacionados. Para el caso particular de la distribucin lognormal, esto

    tambin es cierto para cualquier tamao de la muestra.

    Algo que podramos hacer con esta informacin es construir un intervalo de confianza aproximado

    al 95% para el verdadero valor de los parmetros. Esto sera aplicando 1.96 desvos estndar a

    ambos lados del valor estimado.

    ; 5.07491F 1.96 0.16914` a12fffff= 5.07491F 0.80608 : 1.30055F 1.96 0.084572` a12fffff= 1.30055F 0.56999 Si hubisemos sido capaces de obtener los valores esperados necesarios para obtener la matriz de

    informacin, ya sea por nuestra falta de destreza integrando o por la inexistencia de una

    antiderivada analtica, se puede construir una aproximacin colocando las derivadas segundas del

    logaritmo de la funcin de verosimilitud directamente adentro de la matriz. Para la distribucin

    lognormal, usando los valores estimados de los parmetros, resulta ser que los nmeros no

    cambian. (A ud. se le pide probar que esto es as en el ejercicio 51). Esto es probable que no se

    cumpla en futuros ejemplos y ejercicios (un ejemplo aparece en el ejercicio 2.52). Como ltima

    aproximacin, si ni siquiera contamos con las derivadas, podemos aproximar con una frmula

    aproximada de derivacin.

    Ejemplo 2.25 (continuacin del ejemplo 2.24) Aproximar la matriz de covarianza por cada uno de

    los mtodos menos refinados sugeridos arriba,

    Anteriormente a sacar los valores esperados, los elementos de la matriz de informacin son:

    2 [email protected] 10^2

    [email protected] 5.91216 2 [email protected] 2X

    j = 1

    10 logx [email protected] ^d e

    ^3ffffffffffffffffffffffffffffffffffff= 0

    2 l2fffffffffff= 10^2

    [email protected] 3Xj = 1

    10 logx [email protected] ^d e2

    ^[email protected] 11.82431

    Cambiando el signo e invirtiendo la matriz dan los mismos valores que los obtenidos usando el

    valor esperado.

    2.5.2 Funciones de Estimadores MV (pg 67)

    Sin el siguiente teorema, todo este trabajo habra sido de poco valor. Esto es porque no estamos

    tpicamente interesados en los parmetros en s mismos, ms bien, estamos interesados en una

    funcin de los parmetros. El siguiente teorema est sacado de Rao [104, p.321]

    Pgina 35 de 60

  • Teorema 2.3

    Sea X una variable aleatoria multidimensional de dimensin k basado en una n = X1n ,,Xknb

    .c

    muestra de tamao n. Suponiendo que Xn es asintticamente normal con media y matriz de covarianza /n, donde ni ni dependen de n. Sea g una funcin de k variables totalmente diferenciable. Sea G . Entonces n = g X1n ,

    b c,Xkn Gn es asintticamente normal con media g ` a y

    matriz de covarianza , donde gb c. gb c g es el vector de derivadas parciales primeras (gradiente), es decir, gb c. = g1ffffffffff,,

    gkfffffffffff g y evaluada en , el verdadero valor del parmetro de

    la variable aleatoria original.

    Este es un caso especfico de aproximacin de los momentos de funciones de variables aleatorias.

    El mtodo general se denomina Mtodo Delta (Delta Method). Para nuestros propsitos, Xn es el

    vector de estimadores mximo verosmiles de los parmetros y es el verdadero valor. Como de costumbre, aproximamos el resultado reemplazando con los valores estimados de los parmetros.

    Ejemplo 2.26 (Ejemplo dental, datos individuales)

    Aproxime la varianza de un estimador MV de la media, usando la distribucin lognormal.

    Compare esto con la varianza del mtodo de los momentos.

    La funcin en cuestin es g ,` a= exp + 12fff2f g

    gfffffffff= exp + 1

    2fff2f g

    HJ IK^ = 5.07491^ = 1.30055

    = 372.64

    gfffffffff= exp + 1

    2fff2f g

    HJ IK^ = 5.07491^ = 1.30055

    = 484.64

    La varianza aproximada del estimador es

    371.64 [email protected] A 0.16914 0

    0 0.084572

    F G 371.64484.64

    F G= 43351Un intervalo al 95% de confianza es 372.64F 1.96 43351pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

    IC: 372.64F 408.09

    El estimador del mtodo de momentos es la media muestral, que tiene varianza Var X

    fffffb cn

    ffffffffffffffffffffffffff. Esta puede ser estimada como

    200564.510

    fffffffffffffffffffffffffffff= 20056.45 usando el estimador insesgado de la varianza. Por qu el estimador del mtodo de los momentos parece ser tan superior?

    La respuesta yace en los valores estimados mismos.

    El valor estimado de por momentos fue 0.97822, mientras que por MV fue de 1.30055. El estimador MV indica que se trata de una poblacin con una mayor varianza y por lo tanto

    cualquier valor estimado sacado de esa poblacin, sera de esperar que tuviera una mayor varianza

    Pgina 36 de 60

  • muestral. Un test ms apropiado consiste en usar a los estimadores MV para evaluar a los

    estimadores por momentos. Con esos parmetros la varianza de la poblacin es 614784 y la

    varianza de la muestra es 61478.4. De manera similar, si la varianza aproximada de los

    estimadores MV fuese evaluada utilizando los estimadores por momentos, la varianza estimada

    sera mucho menor.

    El intervalo de arriba es un intervalo de confianza para la media de la poblacin. Sera de mayor

    inters el valor real o efectivo14 resultante de los siniestros el ao prximo.

    Ejemplo 2.27 (continuacin ejemplo 2.26)

    Suponer que conocemos que habr 100 siniestros el ao que viene. Determinar un intervalo de

    prediccin al 95% para el pago total.

    Sea S , donde X es el monto del i-simo siniestro. Entonces E(S)=100E(X) es

    estimada por 100(372.64)=37264.

    =X1 ++X100 i

    El error cuadrtico de este estimado est dado por

    E S @ 100exp ^ + 12fff^ 2f g

    hj ik2HLLJ

    IMMK =E [email protected] 100e +

    12fffff2d e+ 100e + [email protected] ^ + 12fffff^2d eF G2

    X^\^Z

    Y^]^[

    = E S @ 100e +12fffff2d e2HJ IK+ 10000 E e + [email protected] ^ + 12fffff^2d e2

    HJ IK+ 200E [email protected] 100e + 12fffff2d e e + [email protected] ^ + 12fffff^2d eF G= Var S

    ` a+ 10000Var e ^ + 12fffff^2d e =100Var(X)+10000(43351)

    = 100 e 2 + 22

    @e 2 + 2

    b c+ 10000 43351` a= 61478393 + 433510000 = 494988393La tercera lnea se deduce que se trata del producto de variables independientes, cada una con

    valor esperado nulo. Son independientes porque S depende nicamente de las futuras

    observaciones, mientras que y dependen solo de las observaciones pasadas. Con el fin de evaluar Var(X), se reemplaz por los estimados de los parmetros.

    ^ ^

    Un intervalo al 95% es 37264F 1.96 494988393pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww, es decir IC : 37264F 43607 15 Debemos poner nfasis de nuevo en que si la poblacin es lognormal, el estimador MV de la media

    tendr menor varianza que el estimador por momentos. Las verdaderas varianzas de estos

    14 actual value 15 (es una mala aproximacin o estimacin)

    Pgina 37 de 60

  • estimadores dependen de los verdaderos valores de los parmetros y seran evaluados en

    justamente ese conjunto comn de valores.16

    Ejemplo 2.28 (datos agrupados) Estimar los parmetros para una distribucin de Pareto, la matriz

    de covarianza aproximada, y construir un intervalo de confianza al 95% para la media de la

    poblacin.

    Utilizando el mtodo de scoring, los parmetros estimados son ^=3.8275 y . La matriz de covarianza aproximada es

    ^ = 948.52

    0.97058 290.01290.01 90384

    F G

    El valor estimado de la media es ^

    ^ @ 1ffffffffffffffffff= 948.52

    2.8275fffffffffffffffffffff= 335.46

    Las derivadas con respecto a y a respectivamente son

    g ,b c= @ 1ffffffffffffffffff[5 g ,b c= g ,

    b c

    fffffffffffffffffffffffffff, g ,b c

    fffffffffffffffffffffffffffhj ik= @ @ 1` a2ffffffffffffffffffffffffff,

    1 @ 1ffffffffffffffffffhj ik

    gffffffffff,b [email protected] @ 1` a2ffffffffffffffffffffffffffgffffffff,b c= 1 @ 1ffffffffffffffffff

    X^^^^^\^^^^^^^Z

    Al ser evaluadas en los valores estimados estimados de los parmetros se obtiene

    gffffffffff^,^b [email protected] 118.64 ; gffffffff^,^

    b c= 0.35367 La varianza aproximada del estimador MV de la media es

    Var

    ^ @ 1ffffffffffffffffff^hj ikt g ^,^

    b c

    fffffffffffffffffffffffffff g ^,^b c

    fffffffffffffffffffffffffffHJ IK

    I ^,^b cD [email protected] 1g ^,^b c

    fffffffffffffffffffffffffffg ^,^b c

    fffffffffffffffffffffffffff

    HLLLLLLLJ

    IMMMMMMMK

    Var

    ^ @ 1ffffffffffffffffff^hj ikt @ 118.64 [email protected] A 0.97058 290.01

    290.01 90.384F G @ 118.64

    0.35367

    F G= 629.51 y un intervalo de confianza aproximado al 95% es:

    IC: 335.46F 1.96 629.51` a1

    2fffff= 335.46F 49.18

    2.6 Ventajas de la estimacin paramtrica

    Hemos dedicado un gran esfuerzo en descubrir la mecnica de la estimacin paramtrica, as como

    en determinar mtodos para la evaluacin de los estimadores. Mientras que por un lado muchos de

    los conceptos involucrados en la realizacin de comparaciones ya ha sido discutida, utilizamos esta

    seccin para organizar y expandir esas ideas.

    2.6.1 Precisin

    16 The true variances of these estimators depend on the true values of the parameters and would be evaluated at the

    common set of values Pgina 38 de 60

  • Ya se ha establecido que cuando la poblacin sigue la familia paramtrica elegida, los estimadores

    MV son superiores a otros competidores. Es posible que an cuando la poblacin sea levemente

    distinta de la familia elegida, los estimadores MV sigan funcionando bien. Sin embargo, es un gran

    riesgo. Si esta fuera la nica ventaja de la estimacin paramtrica, solo valdra la pena en el caso

    en el que tengamos un grado de confianza acerca de la naturaleza de la poblacin. Pero hay

    muchas otras razones para elegir estimadores paramtricos. stas sern resaltadas en las siguientes

    subsecciones.

    2.6.2 Se pueden hacer inferencias ms all de la poblacin que gener los datos

    El propsito de un modelo actuarial no es solamente representar al pasado, sino tambin

    representar el futuro. El futuro va a diferir del pasado de maneras que no son predecibles (por

    ejemplo variables aleatorias del mbito en donde se producen los siniestros17) y en manera

    predecible (por ejemplo, cambios planeados en la estructura de beneficios o en las caractersticas

    de esos asegurados). Incluso cambios aleatorios pueden ser estimados, como ser la utilizacin de

    una tasa de inflacin prevista o pronosticada. Una vez que se estableci la tasa, el cambio ya es

    planeado, no aleatorio. Es esencial que nosotros seamos capaces de usar nuestro modelo para

    investigar el impacto de cambios planeados, as como efectuar un anlisis del tipo qu pasara

    si..? sobre los posibles cambios aleatorios.

    Ejemplo 2.29 (datos individuales)

    El conjunto de datos consiste en momentos pagados (por el asegurador) con un deducible de 50.

    Estimar el monto pagado esperado por pago18, luego de imponer un 10% de inflacin en todos los

    siniestros. Intente hacerlo emprica y paramtricamente.

    Empricamente, podemos obtener el nuevo monto pagado a partir de los diez montos pagados

    anteriores:

    141 [

    1.1 141 + 50` a{~~~~~~ }~~~~~~ymonto total del siniestro

    es elmonto del siniestroSIN aplicar el deducible

    f g{~~~~~~~~~~~~~~~~~ }~~~~~~~~~~~~~~~~~ySe ajusta elmonto del stro A por inflacin r = 10%

    @ 50

    {~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ }~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ySe aplica el deducible al valor ajustado por inflacin

    = 160.1

    16 1.1(16+50)-50=22.6 [

    46 [ 1.1(46+50)-50=55.6

    40 [ 1.1(40+50)-50=49.0

    351 [ 1.1(351+50)-50=391.1

    259 [ 1.1(259+50)-50=289.9

    317 [ 1.1(317+50)-50=353.7

    1511 [ 1.1(1511+50)-50=1667.1

    107 [ 1.1(107+50)-50=122.7

    17 loss producing environment 18 Expected amount paid payment per payment

    Pgina 39 de 60

  • 567[ 1.1(567+50)-50=628.7

    Estos nmeros representan lo que se debera pagar luego de aplicada la inflacin del 10% sobre los

    siniestros.

    Podramos usar la media muestral de 374.05 como nuestro estimador, pero estaramos

    sobreestimando el verdadero valor.

    374.05 = 160.1 + 22.6 + 55.6 + 49 + 391.1 + 289.9 + 353.7 + 1667.1 + 122.7 + 628.710

    fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff El valor ms bajo posible que podramos haber registrado por este anlisis emprico es

    1.1(0+50)-50=5=5

    Montos pagados por debajo de 5 provienen de siniestros de entre 45.45-50 (un siniestro de 45.45 al

    ser inflada un 10% est justo en el deducible de 50)

    Estos datos no aparecen y no pueden aparecer en nuestro de datos. Adems la inflacin afecta la

    frecuencia en este caso; habr ms pagos al ser ahora ms fcil exceder el deducible. Es imposible

    obtener un estimador emprico.

    Estimacin paramtrica

    Para una solucin paramtrica, considerar una distribucin exponencial con el parmetro estimado

    por el mtodo de los momentos. Para resolver este problema necesitamos que la distribucin

    exponencial modele el monto del siniestro, no el monto del pago. Si X es la variable aleatoria

    monto del siniestro e Y la variable aleatoria monto pagado, entonces para el modelo obtenemos.

    E Y`a= E [email protected] 50|X>50b c=Z

    50

    [email protected] 50` a

    f x | X>50b c

    dx =Z50

    [email protected] 50` a f x` a

    [email protected] 50` afffffffffffffffffffffffffffffffdx

    =Z50

    [email protected] 50` [email protected] 1 [email protected] xfffff

    [email protected]

    fffffffffffffffffffffffffdx =Z50

    +1 [email protected] 50` [email protected] 1 exp @ [email protected]

    d [email protected] 50fffffffff

    exp @ 50fffffffffd effffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffd [email protected] 50ffffffffffffffffffff

    f g =

    exp @ 50fffffffffd e

    exp @ 50fffffffffd effffffffffffffffffffffffffffffffffffffff 2` a=

    = =Yfffff= 355.5

    Con inflacin, el monto pagado es 1. y el pago esperado es [email protected] 50|1.1X>50

    E [email protected] 50|1.1X>50b c=Z