Download - Loss Models

de 60

Loss Models Capítulo 2

Modelos para el Monto de un Único Pago

Traducción por: Manuel Ignacio Fernández Orellana

2.1 INTRODUCCIÓN

El propósito del seguro es indemnizar a los tenedores de pólizas en el caso de ocurrencia de

eventos adversos imprevistos. Hay una gran variedad de eventos que son objeto de cobertura por

parte de los seguros, como bien lo indica la tabla 2.1

(Tabla 2.1) Beneficios de Seguros

Evento Nombre del Seguro Beneficio

Muerte Vida Pago fijo al beneficiario

Vida Continua Anualidad (Renta Vitalicia) Pago fijo, periódico al tenedor de póliza

Acto Ilícito Culposo Responsabilidad Civil Pago de cargos legales y daños

Daño a la Propiedad Propiedad Pago relacionado con el monto del daño

Inhabilidad para trabajar Invalidez Reemplazo del salario

Enfermedad Salud Pago de gastos médicos

Existen algunas características comunes a cualquier sistema de seguros. Estos son:

1. Debe haber riesgo – una condición que exige la posibilidad de un desvío adverso respecto

del resultado esperado.

2. La pérdida debe ser financiera – es decir, implica que el valor de la pérdida puede medirse

en dólares.

3. Algo o la totalidad del riesgo se transfiere del asegurado al asegurador

4. Existe la expectativa de que mediante la formación de una cartera de riesgos (pooling), el

asegurador logre mejorar la estimación del total de siniestros.

Lo expresado arriba fue extraído de un texto de introducción al seguro de Vaughan [121].

Afirmaciones similares pueden encontrarse en otros textos. Pueden hallarse definiciones de interés

adicionales en “Principios de la Ciencia Actuarial” de la Sociedad de Actuarios [113]. Algunas de

ellas, junto con un principio (el número del principio fue tomado del documento citado) se repiten

aquí.

de 60

Definición 2.1 Regularidad Estadística

Una regularidad estadística describe un fenómeno tal que, si se realiza una sucesión de

experimentos independientes bajo las mismas condiciones específicas, la proporción de ocurrencias

de un evento dado se estabiliza a medida que el número de experimentos realizados aumenta.

Definición 2.2 Modelo Matemático

Un modelo matemático es una representación abstracta y simplificada de un fenómeno dado, que

puede expresarse en términos matemáticos.

Definición 2.3 Modelo Estocástico

Un modelo estocástico es un modelo matemático aplicado a un fenómeno que presenta regularidad

estadística y que puede describir con precisión las probabilidades de aparición de los eventos de los

eventos en cuestión.

Definición 2.4 Riesgo Actuarial

Un riesgo actuarial es un fenómeno que tiene un impacto económico y que está sujeto a la

incertidumbre respecto a una o más de las variables de riesgo: ocurrencia e intensidad (monto)

Principio 3.1 Los riesgos actuariales pueden ser modelados estocásticamente

Una característica importante del sistema de seguros es que toda cantidad puede ser medida en

unidades monetarias. Esto significa que el conjunto de números reales será suficiente a nuestros

propósitos y que, específicamente, se podrán usar variables aleatorias para la construcción de

modelos actuariales.

Otra característica distintiva de todos los sistemas de seguros es el elemento de aleatoriedad.

Como bien lo notamos en la Definición 2.4, cada flujo de beneficios pagados a un tenedor de póliza

tiene tres componentes: el número de pagos a los beneficiarios (si los hay), el plazo de dichos pagos

y el monto de cada pago. Por ejemplo, un seguro de vida básico hace exactamente un solo pago,

en concepto de un monto fijo, pero en un momento aleatorio. En el caso de los seguros de

automóviles, cada uno de los tres componentes es aleatorio.

Así como lo indicamos en la Definición 1.9, las distribuciones de siniestros se refieren a la

asignación de probabilidades a cada uno de estos procesos.

En este capítulo, nos dedicaremos específicamente a determinar la distribución de siniestros o de

los montos a pagar. La determinación de los modelos probabilísticas que se refieren al componente

que mide el número de pagos será abordará en el Capítulo 3.

La explicación de las distribuciones de siniestros empezará con la descripción de dos métodos

alternativos para la obtención de una distribución de siniestros. El método empírico es fácil de

implementar, si bien no siempre esté disponible. El enfoque paramétrico posee muchas

características atractivas, a pesar de ser más difícil. El resto del capítulo está dedicado a una

de 60

explicación detallada del enfoque paramétrico. En particular, se tratan los varios tipos de

problemas que surgen debido a la naturaleza de los datos relacionados con el negocio de los

seguros. Estos incluyen la gran variedad de métodos de estimación, datos de pólizas con

modificaciones en la cobertura, datos de múltiples fuentes, tests de hipótesis, y situaciones más

complejas (por ejemplo, distribuciones bivariadas).

A lo largo del capítulo usaremos dos ejemplos para ejemplificar los métodos utilizados. El primero

es el ejemplo 1.4. Como recordatorio, los datos son siniestros dentales básicos en una póliza con un

deducible de 50. Los diez pagos observados fueron

141 16 46 40 351 259 317 1511 107 567

Nos vamos a referir a este ejemplo como “ejemplo de datos dentales agrupados”.

El segundo ejemplo es el siguiente.

Ejemplo 2.1 Considerar el mismo contexto, esto es, pagos dentales, solo que ahora suponga que

somos capaces de recolectar más datos de montos. En particular, los datos se encuentran

resumidos en la Tabla 2.2

Tabla 2.2 Datos dentales agrupados

Monto Pagado Número de Pagos

0-25 30

25-10 31

50-100 57

100-150 42

150-250 65

250-500 84

500-1000 45

1000-1500 10

1500-2500 11

2500-4000 3

Nos vamos a referir a este ejemplo como “ejemplo de datos agrupados”

2 ESTIMACIÓN EMPÍRICA

De los dos métodos de estimación más comunes, la estimación empírica es por lejos la más simple.

Y como tal, no deberíamos olvidar que cuando tenemos a disposición una gran cantidad de

observaciones, este método bien puede ser el más preciso.

En esta sección se introduce una definición formal y unos cuantos estimadores empíricos

específicos.

Dado que habremos de contar con más de una forma de resolver un problema en particular, es

imperativo que tengamos algún método para evaluar a un estimador.

Un punto importante es que la “calidad” es una propiedad de un estimador y no del estimado.

Estamos interesados en la calidad del método, no en la calidad de un resultado particular que

pudiera surgir de su aplicación.

2.2.1 Definición

El propósito de cualquier proceso de estimación es utilizar los resultados o realizaciones de una

muestra para inferir sobre la población de la cual fue extraída. Asumiremos de ahora en más que

trabajamos con muestras aleatorias.

Definición 2.5 (Muestra Aleatoria)

Sean VAIID (variables aleatorias independientes e idénticamente distribuidas).

Entonces, esta colección de variables aleatorias es lo que se denomina muestra aleatoria. n

X , , X1 …

x )

Una consecuencia inmediata es que la función de distribución conjunta de una muestra aleatoria se

obtiene haciendo el producto de las funciones de distribución marginales.

( )n

n

X , , X n X ii

F x , , x F (1

11=

=∏… …

siendo la función de distribución común a toda la muestra aleatoria X

F (x)

La definición es válida solo si, dada una población a la cual se le extrae una muestra, cada

miembro de la población tiene iguales posibilidades (o igual probabilidad) de ser extraído y la

identidad de cada uno de los miembros extraídos es irrelevante, de modo que no influye en la

identidad de otro miembro extraído,

El enfoque empírico estima a a partir de la distribución empírica. X

F (x)

Definición 2.6 La distribución empírica se obtiene de una muestra, asignando una probabilidad de

n1 a cada observación. Más formalmente, la función de distribución acumulada (cdf)1 es:

( ) jn

número de x xF x

n

≤= (datos individuales)

La función de distribución acumulada es una función “escalera” que se incrementa en n1 en cada

punto que es dato. Es una distribución discreta que asigna una probabilidad a lo sumo a n valores.

La función de probabilidad (pf)2 es

( ) jn

número de x xf x

n

== (datos individuales)

1 “cumulative distribution function” 2 “probability function”

Página 4 de 60

Siempre que tengamos una función de distribución acumulada (cdf) o una función de probabilidad

(pf), hay asociada una variable aleatoria. Por razones de notación, es conveniente definir a una

variable aleatoria para la cual su cdf3 coincide con su cdf empírica.

Definición 2.7 (Variable Aleatoria Empírica)

La Variable Aleatoria Empírica es una VA que tiene a ( )nF x como su función de

distribución acumulada, y se denota . X

Para datos agrupados resulta imposible determinar la función de distribución acumulada, porque

los datos individuales no están disponibles. Sin embargo, es posible aproximarla con la siguiente

definición. La definición además provee una notación estándar para conjuntos de datos agrupados

(Gráfico 2.1) Función de Distribución Empírica para montos individuales de planes dentales

Definición 2.8 Sean los límites para un conjunto de datos agrupados. Sea el

número de observaciones en el intervalo , j=1,…, r. Es posible que .

rc c c0 1< < <

jn

j-1 j(c ,c ]

rc = ∞

La función de distribución empírica se obtiene en los límites de cada intervalo como

( )j

iin j

nF c

n1==

∑

El gráfico que surge de conectar los valores de la función de distribución acumulada empírica, en

cada uno de estos puntos , por segmentos de líneas rectas, se denomina ojiva y es una

aproximación de la función de distribución acumulada empírica. La definición formal es r

c ,c ,c1 2

( ) j n j j n jn j

j j

r

0

j

x c

(c x)F (c ) ( x c )F (c )F x c x c

c c

x c

0

1 11

1

1

− −−

−

⎧⎪ ≤⎪⎪⎪ − + −⎪⎪= ≤⎨⎪ −⎪⎪>⎩

⎪⎪⎪

≤

Como

j j

probabilidad asociada al intervalo (c ,c ]

j n j j n j n j n jn j

j j función de distribuciónacumulada hasta cj(asociada a la probabilidad deque x x )j

(c x )F (c ) ( x c )F (c ) F (c ) F (c )F (c )

c c

1

1 1 11

1

1

−

− − −−

−

−≤

− + − −= +

−

longitud del subintervaloque va desde el límite inferiorhasta el punto donde quieroaproximar la función de distribución acumulada

jj j

longitud del intervalo

( x c )c c 1

1−

−

−−

3 En este texto los términos “función de probabilidad” y “función de densidad de probabilidad” y las abreviaciones

“pf” y “pdf” serán usadas indistintamente. El contexto debería dejar claro si la VA en cuestión es discreta, continua o

en parte continua y en parte discreta. La pdf será denotada como una función f(x) y en el caso especial en el que la

VA asuma solo valores enteros, la pf puede ser escrita como n

p

Página 5 de 60

Entonces

( )

int ervalo genérico(grupo j-ésimo)

n j n jn n j j j-1 j

j j

0 x c

F (c ) F (c )F x F (c ) ( x c ) x (c ,c ] j=1,2,..,r

c c

0

11 1

1

1

−− −

−

≤

−= + − ∈

−

r x c

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪ >⎪⎪⎪⎪⎪⎩

(r es la cantidad de intervalos utilizados en la agrupación de datos)

Aclaraciones

(1) La ojiva, en principio, no está definida para en el caso en el que .

SALVO, que , la cantidad de observaciones en sea cero, es decir, r

x c 1−>r

c = ∞

rn

r(c , )1− ∞

rn 0=

(2) La ojiva debe ser una función lineal a trozos. Como tal, la derivada existe en todos los

puntos excepto en los límites superior e inferior de cada intervalo (en los ). Y donde

existe, es tan solo la pendiente del segmento de recta que los une.

jc

Definición 2.9 (Histograma)

Se denomina histograma a la derivada (donde exista) de la ojiva, es decir, a la aproximación

empírica de la función de densidad

// En el campo continuo, se cumple la relación, dada una variable aleatoria X con sus respectivas

función de densidad y su función de distribución acumulada Xf (x)

XF (x)

X Xf (x) dx= dF (x)

Una aproximación sería siendo X Xf (x) x F (x)Δ Δ≈

j j

x c c 1Δ −= −

X X j X j

F (x) F (c ) F (c )1Δ −= −

Definición formal de histograma:

( ) n j n j jn j-1 j

j j j j

0 x c

F (c ) F (c ) nf x x (c ,c ] j=1,2,..,r

c c n(c c )

0

1

1 1

0

−

− −

≤−

= = ∈− −

r x c

⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪ >⎪⎪⎩

// Notar que

n j n j n j n jj-1 j n n j j n

j j j j

F (c ) F (c ) F (c ) F (c )d dx (c ,c ): F (x)= F (c ) ( x c ) f (x)

dx dx c c c c1 1

1 11 1

− −− −

− −

⎡ ⎤− −⎢ ⎥∀ ∈ + − = =⎢ ⎥− −⎢ ⎥⎣ ⎦

Así como en el campo continuo las condiciones para que una función de la variable aleatoria x sea

considerada función de densidad de probabilidad eran:

(1) (no negatividad) Xf (x) x0≥ ∀ ∈ ℜ

(2) Xf (x) dx =1

+∞

−∞∫ (ley de cierre)

Página 6 de 60

Por ser el histograma una aproximación de la función de densidad de probabilidad, (1) El

histograma es SIEMPRE no negativo, y (2) tiene un área de uno, salvo que , en tal caso

no hay manera de representar la probabilidad del último grupo r

c = ∞

r(c , )1− ∞

Es importante notar que es el área y no la altura de las barras del histograma la que es

proporcional al número correspondiente a un grupo.

2.2.2 Estimadores empíricos (pág. 29)

A partir de la distribución empírica u ojiva, podemos obtener estimadores de cualquier

característica de la distribución poblacional. A lo largo del libro, asumimos que una muestra

aleatoria extraída de una población, resultó en las observaciones x ,.1 ualquier inferencia que

hagamos será de la población que produjo estos valores. n

..,x . C

Lo más importante de la “estimación empírica” es hallar para la distribución empírica la medida o

cantidad que nos interesa de la población de la cual extrajimos la muestra.

2.2.2.1 Estimador empírico de la media (pág 30)

Para datos individuales, la media de la distribución empírica se obtiene como n

jj

ˆ x xn

1

1μ

=

= = ∑

Esta es la familiar media muestral que ejemplifica la base de la estimación empírica: para

determinar cierto aspecto o característica de la población, se determina la misma característica a

partir de la muestra. A lo largo del libro se indicará a un estimado o a un estimador con un

circunflejo (o “sombrero”).

2.2.2.2 Estimador empírico de otros momentos

Los momentos poblacionales, si existe, se definen como

Definición 2.10

El k-ésimo momento absoluto (o simple) es (momento en torno al origen) kk' E[ x ]μ =

El k-ésimo momento central es kk

E[( x ) ]μ μ= −

Es común denotar a como μ '1μ

No podemos estar seguros de que las sumas o integrales que definen a estos momentos convergen.

Cuando la suma o la integral no converge decimos que ese momento no existe.

El momento se dice que es “infinito” si la suma o la integral se aproxima al infinito.

Aparte de la media, ciertos momentos han adquirido nombres específicos y símbolos adicionales

Página 7 de 60

de 60

efinición 2.11 D (pág. 31)

( k )

Varianza : '22 2σ μ μ= = −

Desvío Estándar: =

Coeficiente de Variación:

Coeficiente de Asimetría:

Kurtosis:

Momento Factorial de orden k: E[ ]=E[x(x 1) (x-k+1)] , k

2

2

31 3

42 4

μ

σ σσμ

μγ

σμ

γσ

μ −

=

=

∀ ∈

Para cualquier distribución simétrica el coeficiente de Asimetría ( es el coeficiente de

l histograma de la figura 2.3 es un ejemplo de distribución de simetría positiva

a kurtosis mide la naturaleza del apartamiento de los valores en torno a la media. Una pequeña

ientras que la kurtosis es similar a la varianza, en el sentido de que mide apartamiento, es más

os centrales y absolutos son

2 44 4 3 2μ μ 4μ μ 6μ μ 3μ= − + −

os estimadores empíricos

1γ 0= 1γ

asimetría). Las distribuciones de simetría positiva tienden a tener la mayor masa de probabilidad

en valores pequeños, pero el resto de la probabilidad se extiende a lo largo de un gran rango de

valores más grandes

E

L

kurtosis (es SIEMPRE NO NEGATIVA) indica la existencia de un pico agudo en el medio. Una

kurtosis grande indica un descenso más lento.

M

efectivo para distinguir a aquellas distribuciones que colocan probabilidad adicional en los valores

más grandes. Una variable aleatoria con distribución normal tiene una kurtosis de 3, sin importar

el valor de sus parámetros.

Las relaciones entre moment

' ' 33 3 2μ μ 3μ μ 2μ= − +

' ' '

L para datos individuales son

( )

nk kˆ 1

k jj

nk

kk j

j

ˆ ' E(X ) xn

ˆˆ E((X ) ) x xn

1

1

μ

1μ μ

=

=

= =

= − = −

∑

∑

Notar que la varianza muestral se define dividiendo la suma de cuadrados por el tamaño de la

muestra. Es un poco diferente respecto de la usual división por n-1. Una explicación de por qué

dicha diferencia, se encuentra en la siguiente subsección.

Para datos agrupados, y suponiendo que , el histograma puede ser integrado para obtener

los momentos. Los momentos absolutos son r

c < ∞

j

nj j jj j

j j j

j

j

nf ( x )c c

n(c c )r r rj jk k

k nj j j jj j jc c

x c k kr rkj j j j

kj j j jj jx c

n nˆ ' x f ( x )dx x dx x dx

n(c c ) n(c c )

n n (c c )xˆ '

n(c c ) k n (k )(c c )

1

1 1 1

1

1 11 1 1

1 111

1 11 1

μ

1μ

1 1

−

− − −

−

=−

− −= = =

= + ++−

− −= ==

= = =− −

⎡ ⎤ −⎢ ⎥= =⎢ ⎥− + + −⎢ ⎥⎣ ⎦

∑ ∑ ∑∫ ∫

∑ ∑

c

k

c

∫

k krj j

k jj jj

c cˆ ' n

n(k ) c c

1 11

11

1μ

1

+ +−

−=

−=

+ −∑

Otro grupo de momentos es extremadamente útil en los cálculos de seguros. Como bien se indicó

en la Definición 1.7, es común limitar el monto que va a ser pagado por la compañía aseguradora.

Si Y es la variable aleatoria monto pagado, está , donde u es el límite de

la póliza y el símbolo “ ” es interpretado como “el mínimo entre”. Esto lleva a la siguiente

definición.

(Y min(X,u)= X u= )∧

∧

Definición 2.12 El momento limitado de orden k de X es

{ }kk kE[(X ) ] E[Y ] E min(X,u)μ ⎡ ⎤− = = ⎢ ⎥⎣ ⎦

El primer momento limitado se denomina valor esperado limitado (o esperanza limitada) y se

denota LEV4.

Si X asume solo valores no negativos todos los momentos limitados con k deben existir. 0≥

Más aún, , si existe. nLim E(X u)=E(X)→∞

∧

Las fórmulas para el cálculo de los momentos limitados son

CASO DISCRETO:

j j

k k kj j j

x u x u

E (X u) = x f( x ) u f( x )< ≥

⎡ ⎤∧ +⎢ ⎥⎣ ⎦ ∑ ∑

CASO CONTINUO: u

k k k

uE (X u) = x f( x) dx + u f( x ) dx

0

∞⎡ ⎤∧⎢ ⎥⎣ ⎦ ∫ ∫

En ambos casos el segundo término puede ser reemplazado por ku F(u1 )⎡ ⎤−⎢ ⎥⎣ ⎦

Se puede al igual que antes, obtener estimadores empíricos.

Para datos individuales, la fórmula es

j j

k kj

x <u x ³u

ˆE (X u) = x + un1⎛ ⎞⎟⎜ ⎟⎜⎡ ⎤ ⎟⎜∧ ⎟⎜⎢ ⎥ ⎟⎣ ⎦ ⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠∑ ∑ k (2.4)

Para datos agrupados, el histograma puede ser utilizado si , la fórmula es j j

u [c ,c ]1−∈

4 Limited Expected Value

Página 9 de 60

( )j ji i

i j i

c cc cj rk j jk k k ki i

i i j j j j i ii i jc c u c

n nn nÊ X u x dx x dx u dx u dxn(c c ) n(c c ) n(c c ) n(c c )

1 1 1

1

1 1 11 1− − −

−

− − −= = +

⎡ ⎤⎢ ⎥∧ = + + +⎢ ⎥ − − −⎣ ⎦

∑ ∑∫ ∫ ∫ ∫1−−

( )k k kj rk k

k j j j ji i i i

i i j j j ji i j

n (u c ) n u (c u)n (c c ) n uÊ X un(k )(c c ) n(k )(c c ) n(c c ) n

1 11 1 111

1 1 11 11 1

+ +− + +−−

− − −= = +

− −−⎡ ⎤⎢ ⎥∧ = + + +⎢ ⎥ + − + − −⎣ ⎦

∑ ∑

Para el caso especial en el que k=1, la fórmula se simplifica

( )kj r

j j ji i i i

j ji i

n ( uc c u u )n (c c ) n uÊ X un n(c c )

2 1 2111

11 1

2

2 2

+−−+

−= =

− −+∧ = + +

−∑ ∑j

n+

i]

(2.5)

En los informes que hacen uso de datos agrupados, es muy común incluir la media muestral de las

observaciones en cada grupo. Sea la media muestral para el i-ésimo grupo, con lo que

. Entonces el valor esperado limitado puede ser calculado en i

a

i ia (c ,c1−∈ forma exacta en los

límites del intervalo como

( )

Página 10 de 60

j ri ji i

i i j

n cn aÊ X un n

1 1= = +

∧ = +∑ ∑

( )j r

ji i i

i i

cÊ X u n a n

n n1 1

1

= =

∧ = +∑ ∑j+

jlímite c número de siniestrosnúmero de siniestros del grupo monto de grupo

LEV=del grupo j+1 en adelantenúmero total de siniestros número total de siniestros

⎛ ⎞∑ × ⎟⎜ ⎟⎜+ × ⎟⎜ ⎟⎜ ⎟⎜⎝ ⎠

No queda claro cuál es la mejor manera de interpolar entre los límites de cada grupo. Una idea se

sugiere en el ejercicio 2.3

Ejemplo 2.4

Determinar la media empírica, el desvío estándar, el coeficiente de asimetría y kurtosis de las dos

muestras. Además, estimar la esperanza limitada a 400 para cada muestra

Para el ejemplo de datos individuales tenemos

'

'

'

'

ˆ =(141+...+567)/10=335.5

ˆ =(141 +...+567 )/10=2.9307 10

ˆ =(141 +...+567 )/10=3.7287 10

ˆ =(141 +...+567 )/10=5.3463 10

12 2

23 3

34 4

4

μ

μ

μ

μ

×

×

×

5

8

11

ˆ=335.5

ˆ= 2.9307 10 335.5 .

ˆ =(1.5343 10 )/(7.6691 10 )=2.0006

ˆ =(5.3463 10 )/(3.2583 10 )=5.9586

5 2

8 71

11 102

μ

σ 42486

γ

γ

× − =

× ×

× ×

De (2.4) la esperanza limitada a 400 es

Ê(X ) ( ) / .400 141 16 46 40 351 259 317 400 107 400 10 207 7∧ = + + + + + + + + + =

Para los datos agrupados tenemos

'

'

'

( ) ( )ˆ = ... =353.34

( )

( ) ( )ˆ = ... =3.5768 10

( )

( ) ( )ˆ = ...

( )

2 2 2 2

1

3 3 3 35

2

4 4 4 4

3

30 25 0 3 4000 25001μ

378 2 25 0 4000 2500

30 25 0 3 4000 25001μ

378 3 25 0 4000 2500

30 25 0 3 4000 25001μ

378 4 25 0 4000 2500

⎡ ⎤− −⎢ ⎥+ +⎢ ⎥− −⎢ ⎥⎣ ⎦⎡ ⎤− −⎢ ⎥+ + ×⎢ ⎥− −⎢ ⎥⎣ ⎦

− −+ +

− −

'

=6.5863 10

( ) ( )ˆ = ... =1.6261 10

( )

ˆ=353.34

ˆ= 3.5768 10 353.34 .

ˆ =(6.5863 10 )/(1.1235 10 )=3.2730

ˆ =(1.6261 10 )/(5.4210 10

8

5 5 5 512

4

5 2

8 81

12 102

30 25 0 3 4000 25001μ

378 5 25 0 4000 2500μ

σ 48253

γ

γ

⎡ ⎤⎢ ⎥ ×⎢ ⎥⎢ ⎥⎣ ⎦⎡ ⎤− −⎢ ⎥+ + ×⎢ ⎥− −⎢ ⎥⎣ ⎦

× − =

× ×

× × )=16.904

De (2.5) la esperanza limitada a 400 es ˆE(X ) { ( . ) ( . ) ( ) ( ) ( ) [ ( )( ) ] / ( )

+(45+10+11+3)(400)}/378 =215.56

2 2400 30 125 31 37 5 57 75 42 125 65 200 84 2 400 500 250 400 2 250∧ = + + + + + − − +

Definición 2.2.2.3 (Percentiles)

Saber todos los percentiles es equivalente a saber la función de distribución acumulada. La

definición formal de percentil es la siguiente

Definición 2.13 El (100p) percentil de una distribución F(x) es cualquier número , tal que p

π

pF( ) p F( )π− ≤ ≤

pπ , donde

p phF( ) Lim F( h)

0π π

+

−

→= −

Si la función de distribución acumulada es una función monótona estrictamente creciente, entonces

la solución va a ser única. // p

F ( p)1π −=

Pero si la función de distribución acumulada es constante en algún intervalo, como es el caso de

toda distribución discreta y toda distribución empírica, los valores en los que ésta es constante se

aceptan como un percentil específico.

El estimador empírico de un percentil es simplemente el correspondiente percentil de la

distribución empírica.

Ejemplo 2.5 (ejemplo dental)

Determinar los estimadores empíricos de los percentiles 45 y 80 a partir de las dos muestras.

Datos Individuales

• .

F ( ) .ˆ

F ( ) .10

0 4510

141 05π 141

141 0 4−

⎫⎪= ⎪⎪ ⇒ =⎬⎪= ⎪⎪⎭

)• .

F ( ) .ˆ ( ,

F ( ) .10

0 810

351 0 8π 351 567

567 0 8−

⎫⎪= ⎪⎪ ⇒ ∈⎬⎪= ⎪⎪⎭

Página 11 de 60

Datos Agrupados

Página 12 de 60

• 0.45 =Fc378 π0.45

b c

=1

378fffffffffff160 + 225@ 160

250@ 150ffffffffffffffffffffffffffffffffπ0.45@ 150

b c

F G

[ π0.45 = 165.5384615

378 = n

378B0.45 = 170.1 [c j@ 1 = 150 F cj@ 1

b c

= 160

c j = 250 F cj

b c

= 225

X

^

^

^

\

^

^

^

Z

π0.45 = 378B0.45@ 160` a250@ 150

225@ 160ffffffffffffffffffffffffffffffff+ 150

• 0.45 =Fc378 π0.8

b c

=1

378fffffffffff225 + 309@ 225

500@ 250ffffffffffffffffffffffffffffffffπ0.8@ 250

b c

F G

378B0.8 = 3024

302.42 250,500b C

c j@ 1 = 250 , F c j@ 1

b c

= 225

c j = 500 , F c j

b c

= 309

π0.8 = 0.8B378@ 225` a500@ 250

309@ 225ffffffffffffffffffffffffffffffff+ 250 = 480.3571429

En ambos casos, el percentil puede ser encontrado gráficamente localizando el porcentaje (0.45 y

0.80 en el ejemplo de arriba) por sobre el eje vertical del gráfico adecuado (función de distribución

acumulada u ojiva) y luego encontrando el percentil en el eje horizontal.

En el caso de datos individuales el método descrito arriba es insatisfactorio porque no provee

una única respuesta en algunos caso, y para otros existen varios percentiles con el mismo valor hay

varias maneras de suavizar el proceso. Nosotros preferimos el siguiente

Definición 2.14 El estimador empírico suavizado de un percentil se obtiene haciendo

(Datos Individuales)

πp = 1@ h` a

x g` a + hx

g + 1b c

g = n + 1` a

pB C

parte entera del número n + 1` a

p

h = n + 1` a

p@ g parte fraccionaria del número n + 1` a

p

indica la función de mayor valor entero, y además, A@ A

x 1` a ≤ x 2

` a ≤…≤ x n` a son los estadísticos de

orden de la muestra.

Salvo que haya dos o más datos con el mismo valor, los percentiles serán únicos.

Una característica de este procedimiento es que πp no puede obtenerse como p<1

n + 1ffffffffffffffff, o

p>1

n + 1ffffffffffffffff. Parece razonable en la medida que no deberíamos ser capaces de inferir el valor de los

percentiles muy bajos o muy altos a partir de muestras pequeñas. Usaremos la versión suavizada

cada vez que se pida o se requiera el percentil empírico.

Ejemplo 2.6 Determinar, para los datos individuales del ejemplo dental, los estimados suavizados

de los percentiles 45 y 80

π0.45eeeeeeeeeeeee:g = 10 + 1` a

B0.45B C

= 4.95@ A

= 4 [ h = 0.95

π0.45 = 1@ 0.95` a

x 4` a + 0.95x 5

` a = 1@ 0.95` a

B107 + 0.95B141 = 139.3

π0.8eeeeeeeeee:

g = 10 + 1` a

B0.8B C

= 8.8@ A

= 8 [ h = 0.8

x 8` a = 351 , x 9

` a = 567

π0.8 = 1@ 0.8` a

B351 + 0.8B567 = 523.8

2.2.3 Estimación por Intervalo

Todos los estimadores discutidos hasta el momento han sido estimadores puntuales. Es decir

que el proceso de estimación produce un único valor que representa nuestro mejor intento de

determinar el valor del parámetro poblacional. Si bien aquel valor puede ser bueno, no

esperamos que coincida exactamente con el verdadero valor. Un resultado todavía más útil

surge a partir de un estimador por intervalo. En lugar de arrojar un único valor, el resultado

del proceso de estimación es un rango de números posibles, cada uno con la misma

probabilidad o chance de ser el verdadero valor. Un tipo específico de estimador por intervalo

es el intervalo de confianza.

Definición de Intervalo de Confianza

Un intervalo de confianza al para el parámetro 1@α` a

100% θ es un par de valores L(“lower”

inferior) y U(“upper” superior) que surgen de una muestra aleatoria tales que

Pr L ≤ θ ≤ U` a

≥ 1@α 8θ L, U son variables aleatoriasb c

Notar que esta definición no define unívocamente al intervalo. Como la definición es una

afirmación probabilística y debe cumplirse para todo valor de θ , no dice nada acerca de si un

determinado intervalo incluye al verdadero valor de θ de una población en particular.

Más aún, el nivel de confianza (level of confidence), 1@α , no es una propiedad de los valores

obtenidos específicamente.5

La interpretación correcta es que si usamos un determinado estimador por intervalo una y otra

vez, en una gran cantidad de muestras, aproximadamente el 1@α` a

100% de las veces nuestro

intervalo va a incluir al verdadero valor.

Construir intervalos de confianza puede resultar bastante difícil. Por ejemplo, sabemos que si una

población se comporta según una distribución Normal con media y varianza desconocidas, un

intervalo de confianza al para la media es: 1@α` a

100%

5 and not of the particular values obtained

Página 13 de 60

L =X

fffff@ t α

2fffffff,n@ 1

snpwwwwwwwwwwwwwwwwwwwffffffffffff

U =Xfffff+ t α

2fffffff,n@ 1


donde s = Xi = 1

n xi@xfffb c2

n@ 1fffffffffffffffffffffffffff

vuuuut

wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

y t es el percentil α,b 1@α` a

100% de la distribución “t” con b

grados de libertad. Pero requiere un gran esfuerzo verificar que esto efectivamente es correcto. Sin

embargo, existe un método de construir intervalos de confianza aproximados, de forma

relativamente sencilla. Suponer que tenemos un estimador puntual θ^ de un parámetro θ tal que

y que θ se comporta aproximadamente como una distribución normal.

Con todos estos supuestos tenemos que aproximadamente

E θ^b c

= θ ; Var θ^b c

= v θ` a ^

1@α =Pr @z1@

α2fffffff≤

θ^ @ θv θ` a

≤ z1@ α

2fffffr

wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffffffffffffffffffffffffffH

L

L

L

J

(2.7)

Al despejar θ se obtiene el intervalo deseado. A veces es bastante difícil de hacer, debido a la

aparición de θ en el denominador). Por ello, se reemplaza a v θ` a

por v para obtener la

fórmula todavía más aproximada

θ^b c

1@α =Pr @z1@

α2fffffff≤

θ^ @ θ

v θ^b c

rwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffff≤ z

1@α2fffffff

H

L

L

L

J

I

M

M

M

K

(2.8)

donde z1@ α es el percentil de la distribución normal estándar. 1@α` a

100%

// Por simetría de la distribución Normal, z α2fffffff

L

L

L

L

M

M

M

M

= z1@

α2fffffff

L

L

L

L

M

M

M

M

// 8α 2R:z1@

α2fffffff=@z α

2fffffff

// IC 1@ α :θ^ F z1@

α2fffffff v θ^

b c

rwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

Ejemplo 2.7 (pág 37)

Usar la ecuación (2.8) para construir un intervalo de confianza aproximado al 95%, para la media

de una población normal y varianza desconocida.

Usar θ^ = xfff y notar que E , θ^

B C

= θ Var θ^b c

=σnpwwwwwwwwwwwwwwwwwwwffffffffffff y θ^ tiene una distribución normal. El intervalo

de confianza es entonces xfffF 1.96

snpwwwwwwwwwwwwwwwwwwwffffffffffff. Puesto que t , el intervalo de confianza

aproximado debe ser más angosto que el intervalo exacto dado por (2.6)

0.025,n@ 1 >1.96

L = x

fff@t α

2fffffff,n@ 1


U = xfff+ t α

2fffffff,n@ 1


Eso significa que nuestro nivel de confianza es algo menor al 95%.

Ejemplo 2.8 Usar (2.7) y (2.8) para construir un intervalo de confianza al 95% para la media de

una distribución de Poisson. Obtener intervalos para el caso particular en el que n=25 y xfff= 0.12

Página 14 de 60

Para el primer intervalo planteamos

0.95 =Pr @ 1.96 ≤Xfffff@ θθnfffffrwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffff≤ 1.96

h

l

l

j

i

m

m

k

// Si Y ~ Poisson, entonces E Y@ A

=Var Y@ A

= θ

// E XfffffB C

= θ ; Var XfffffB C

=θ2

nffffff

Xfffff@θθnfffffrwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffff

L

L

L

L

L

L

L

L

L

M

M

M

M

M

M

M

M

M

≤ 1.96 ^ Xfffff@ θ

L

L

L

M

M

M≤ 1.96θnffffswwwwwwwwwwwwwwwwwwwwwwwwwww^ X

fffff@ θ

b c2

=1.962 θnfffff g

^θ2@θ 2 X

fffff+

1.962

nfffffffffffffffff g

+Xfffff≤ 0

Resolviendo la ecuación cuadrática produce el intervalo

Xfffff+

1.9208n

ffffffffffffffffffffff g

F12fff 15.3664 X

fffff+ 3.84162

nffffffffffffffffffffffffffffff

nfffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff

vuuut

wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

Si n=25 y xfff= 0.12, el intervalo es IC: 0. 197F 0.156

Para la segunda aproximación, el intervalo es

XfffffF 1.96

Xfffff

nffffffswwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

Si n=25 y xfff= 0.12, el intervalo es IC: 0. 12F 0.136

Este intervalo se extiende por debajo del cero, lo cual no es cierto para le verdadero valor de θ .

Es por esto que (2.8) no es más que una pésima aproximación en este caso.

Los intervalos creados hasta el momento han sido paramétricos, en el sentido de que se ha

utilizado a la distribución normal como una aproximación. Pero hay una situación en la que

podemos formar un intervalo de confianza que sea verdaderamente no-paramétrico. Es decir, el

nivel de confianza elegido es correcto más allá de la distribución de la población.

La situación es la construcción de un intervalo de confianza para el percentil de una población. El

siguiente teorema provee el resultado requerido.

Teorema (pág. 38)

2 ,…,Sea X1 ,X Xn una muestra aleatoria de tamaño n donde cada X j tiene una distribución

continua. Sean X 1` a ,X 2

` a ,…,X n` a los estadísticos de orden de la muestra. Sean 1 ≤ a<b ≤ n dos

números enteros. Entonces el intervalo es un intervalo de confianza al X a` a ,X b

` a

b c

1@α` a

100%

para π (el percentil p de la población), donde p

1@α =Pr a ≤ B ≤ b@ A

y donde B es una variable aleatoria con distribución Binomial con parámetros n y p

Notar que como a y b deben ser enteros, existe un límite a los posibles valores que puede tomar

. Esto se evidencia en el siguiente ejemplo. 1@α

Página 15 de 60

Ejemplo 2.9 (datos individuales) Construir un intervalo de confianza de por lo menos el 90% para

el percentil 70.

La respuesta NO ES ÚNICA, pero tiene sentido construir el intervalo usando la menor cantidad

posible de estadísticos. Las probabilidades asociadas a la distribución binomial con n=10 y p=0.7

están dadas en la tabla 2.3

Tabla 2.3

i Pr(B=i) i Pr(B=i)

0 0.00001 6 0.20012

1 0.00014 7 0.26683

2 0.00145 8 0.23347

3 0.00900 9 0.12106

4 0.03676 10 0.02825

5 0.10292

La forma más rápida de llegar a la probabilidad de 0.9 es sumando

0.26683+.23347+0.20012+0.12106+0.10292=0.92440

Esta es la Pr 5 ≤ B ≤ 10` a

c

, y justamente el intervalo general para una muestra de tamaño 10 es

. Para este conjunto de datos el intervalo es (141,1511) y el nivel de confianza es en

realidad 92.44%.

X 5` a ,X 10

` a

b

Notar que de haber utilizado Pr(B=10) para obtener la probabilidad deseada, el valor de b sería

infinito y el límite superior del intervalo de confianza hubiera sido el valor más grande que puede

tomar la variable aleatoria. Similarmente, resulta que si α = 0, entonces el límite inferior es el

valor mínimo que puede tomar la variable aleatoria.

Para tamaños de muestras mayores este proceso se vuelve engorroso, en la medida en que las

probabilidades asociadas a la Binomial se tornan numerosas y difíciles de calcular. En este

contexto, podemos recurrir a la distribución normal para una aproximación eficiente de la

binomial. El siguiente ejemplo ilustra el proceso.

Ejemplo 2.10 Determinar qué estadísticos de orden son los que forman parte de los límites de un

intervalo de confianza al 90% correspondiente al percentil 70 proveniente de una muestra aleatoria

de tamaño 750.

La variable B tiene una distribución binomial con parámetros 750 y 0.70. Ésta puede aproximarse

mediante una distribución normal con media 750(0.7)=525 y varianza 750(0.7)(0.3)=157.5 y con

un desvío estándar de 12.55. Entonces tenemos que

0.9 =Pr a ≤ B ≤ b` a

=Pra@ 0.5@ 525

12.55fffffffffffffffffffffffffffffffffffffffffff<z<

b@ 0.5@ 52512.55

fffffffffffffffffffffffffffffffffffffffffff g

donde z tiene una distribución normal estándar y donde se aplicó una corrección por continuidad

(se resta 0.5). Un intervalo simétrico al 90% se obtiene planteando

Página 16 de 60

a@ 0.5@ 52512.55

fffffffffffffffffffffffffffffffffffffffffff=@ 1.645 [ a = 504.86

b@ 0.5@ 52512.55

ffffffffffffffffffffffffffffffffffffffffff= 1.645 [ b = 546.14

X

^

^

^

^

^

\

^

^

^

^

^

Z

Para garantizar por lo menos un 90% de confianza, el intervalo X 504` a ,X 547

` a

b c

En el ejercicio 2.16 se le pide hallar la fórmula general para a y b cuando n,p y 1@α son

arbitrarios. Un uso particular de dicho resultado es en estudios de simulación donde el objetivo es

estimar un cierto percentil de una población. El resultado permite determinar el número de

simulaciones necesarias para obtener cierto nivel de precisión (Cáp. 4)

2.3 Evaluación de un Estimador (pág 39)

Ahora que tenemos la habilidad de estimar cantidades en base a la información muestral, es

esencial que seamos capaces de evaluar la calidad de nuestro trabajo. En general, existen cuatro

tipos de errores que podemos cometer

1. Hemos extraído una muestra proveniente de una población diferente de la que pretendíamos

2. Hemos seleccionado un modelo para una población que no es verdadero, o hicimos

suposiciones acerca de la población que no son ciertas.

3. Nuestra muestra no es representativa de la población, debido a que la posibilidad de

elección de los miembros de la muestra no es la misma para todos (no es una muestra

aleatoria)

4. El método de estimación en sí es imperfecto

El primer tipo de error ocurre cuando el muestreo se prolonga a lo largo de un período de tiempo

extenso, Por ejemplo, los datos sobre montos de siniestros para automóviles serían imprecisos si

incluyeran información de un período anterior a un cambio en las condiciones de manejo (como ser

un cambio en el límite de la velocidad máxima permitida). Otra posibilidad es la existencia de un

esquema de muestreo defectuoso. Por ejemplo, los datos de los siniestros pueden no incluir una

provisión para aquellos que han ocurrido pero que aún no han sido informados (por ejemplo, la

experiencia en mortalidad, de un año calendario, recolectada desde el 1/Enero podría omitir

algunas muertes ocurridas en Diciembre).

El segundo tipo de error no es posible con estimadores empíricos, ya que no se realiza ningún tipo

de suposición acerca de la aleatoriedad de la muestra. Veremos cómo este error puede acrecentarse

en la siguiente sección.

El tercer tipo de error puede minimizarse, pero no eliminarse. Cada vez que hacemos un análisis

en base a la muestra en lugar de la población, la posibilidad de error se incrementa. No hay

Página 17 de 60

ninguna seguridad de que los miembros de la muestra reflejarán fielmente a la población y no hay

siquiera la más remota idea de darnos cuenta que hemos elegido una muestra de esa índole una

vez que, en ese momento, la hemos tomado.

El cuarto tipo de error se evalúa simultáneamente con el tercero. La idea acá es que para algunos

estimadores, aún si extrajéramos una muestra de la totalidad de la población, estaríamos todavía

cometiendo un error. Un ejemplo de tal estimador podría ser uno que requiera que los datos estén

agrupados y que la media de la población se estime por medio de (2.2)

μk . =Xj = 1

r

nj

c jk + 1@c j@ 1

k + 1

n k + 1` a

c j@c j@ 1

b c

fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffh

l

j

i

m

k

En esta sección estaremos trabajando con el efecto combinado del tercer y cuarto tipos de error,

denominados errores de muestreo o errores de estimación.

Definición 2.16 Un estimador puntual es una función de los valores obtenidos a partir de una

muestra aleatoria. Como tal, un estimador es en sí mismo una variable aleatoria, con su propia

distribución, denominada distribución de muestreo (o muestral)

Definición 2.17 Un estimado puntual (valor estimado) es la realización numérica de un estimador

basado en una muestra aleatoria en particular.

Dejaremos de lado el denominativo “puntual” siempre que esté claro que no nos estamos refiriendo

a un estimador por intervalo. A pesar de no ser parte del eje de discusión aquí, deberíamos notar

que los límites de un intervalo de confianza como lo hemos descrito en la sección 2.2.3 son también

variables aleatorias.

Asumimos que el propósito de construir el estimador y posteriormente utilizar el estimado, es para

producir una buena conjetura acerca de algunos aspectos importantes de la población.

Por una cuestión de notación, usaremos típicamente las letras del alfabeto griego para referirnos a

medidas o cantidades poblacionales y podremos circunflejos sobre ellas para denotar estimadores.

Al ser una variable aleatoria, también es muy común denotar a su correspondiente estimador con

una letra romana minúscula. El siguiente ejemplo aclara estos conceptos.

Ejemplo 2.11 Considerar la media y la varianza. Son claramente características poblacionales.

Estos son posibles estimadores

μ =Xfffff=X

j = 1

n X j

nffffffff σ2

=Sn2 =

1nffffX

j = 1

n

X j@Xfffff

b c2

y sus correspondientes estimadores son

Página 18 de 60

μ = xfff=X

j = 1

n x j

nffffff σ2

= sn2 =

1nffffX

j = 1

n

x j@xfffb c2

Otros estimadores podrían haber sido

σμ = Π^ 0.5^ 2=Sn@ 1

2 =1

n@ 1fffffffffffffffffX

j = 1

n

X j@Xfffff

b c2

Con esta notación, como la definida arriba, no hay manera alguna de distinguir al estimador de su

estimado, utilizando letras griegas.

El primer conjunto de estimadores son los estimadores empíricos. El segundo miembro, utiliza el

estimador empírico de la mediana para estimar la media y usa el más comúnmente elegido

denominador, n-1, para la estimación de la varianza.

Debemos dejar nuevamente bien claro que la única cantidad que puede ser evaluada respecto de su

calidad, es el estimador, no el estimado. Todas las medidas utilizadas aquí se aplican a la variable

aleatoria, e intentan indicar cuán bien nos iría si adoptáramos un determinado procedimiento. En

cualquier caso particular de aplicación, el estimado en sí puede resultar tanto bueno como malo,

algo que podrá verificarse en el futuro pero que no se puede evidenciar de antemano o al momento

en el que se efectúa el proceso de estimación.

Las medidas de calidad de una estimador introducidas aquí son las estándar incluidas en la

mayoría de los libros de Estadística Matemática.

Para todas las definiciones que siguen, θ (posiblemente un vector) indicará el parámetro y θ^ el

estimador.

La primera medida indica cuán bien el estimador resulta en promedio. Si un buen estimador se

utiliza repetidamente, en muchas situaciones similares, los errores deberían cancelarse de modo que

no debería haber un comportamiento tendencial por sobre o por debajo del parámetro. (Concepto

de insesgadez)

Definición 2.18 El sesgo (en inglés, “bias”) de un estimador θ^ es b θ θ^b c

=E θ^b c

@ θ

Un estimador para el que el sesgo es idénticamente cero se le da el nombre de insesgado

( b ) θ θ^b c

= 0 8θ

Notar que el sesgo es una función del valor del parámetro. El grado en el que un estimador se aleja

o aparta, en promedio, podría depender de un valor particular del parámetro. Todo lo demás

igual, preferiremos que un estimador sea insesgado.

Ejemplo 2,12 Determinar el sesgo de cada uno de los siguientes estimadores. Hágalo primero sin

hacer suposiciones sobre la población, y luego bajo el supuesto de que la población tiene una

función de distribución F X x` a

= x 0<x<1. Notar que en este ejemplo artificial, hemos asumido la

distribución de la población (y que por lo tanto, por ser distribución uniforme, su media es 12fff y la

Página 19 de 60

varianza es 112fffffff) es conocida. Sin algún tupo de suposición los siguientes cálculos pueden

efectuarse.

E Xfffffb c

= E1nffffX

j = 1

n

X j

h

j

i

k=1nffffX

j = 1

n

E xj

b c

= μ b μ Xfffffb c

= 0

E Sn2

b c

=E1nffffX

j = 1

n

X j@Xfffff

b c2h

j

i

k=1nffffE X

j = 1

n

X j2

h

j

i

k@E nXfffff

2b c

H

L

J

I

M

K= σ2 + μ2b c

@1n2fffffffX

i = 1

n

Xj = 1

n

E Xi X j

b c

E Sn2

b c

= σ2 + μ2b c

@1n2fffffffn n@ 1

` a

μ2 + n σ2 + μ2b c

D E

=n@ 1

nfffffffffffffffffσ2

bσ2 Sn

2b c

=@σ 2

nfffffff

E Sn@ 12

b c

= En

n@ 1fffffffffffffffffsn

2d e

=σ2 , b σ2 sn@ 1

2b c

= 0

Entonces, independientemente de la distribución de la población, Xfffff y Sn@ 1

2 son insesgados y Sn2

tiene un sesgo negativo. El valor esperado de la mediana muestral depende de la distribución

poblacional. Si n es impar podemos escribir n=2m+1 y la mediana de la función de densidad de

probabilidad, haciendo que p es = Π^ 0.5

fΠ^ 0.5

p` a

=n!

m!` a2fffffffffffffffff X p

` a

F X p` a

B Cm

1@F X p` a

B Cm

Para la distribución en cuestión f X p` a

= 1, por lo tanto

E Π^ 0.5

b c

= Z0

1

pn!

m!` a2ffffffffffffffffpm 1@ p

b cm

dp =n!

m!` a2ffffffffffffffffZ

0

1

pm + 1 1@ pb cm

dp =n!

m!` a2ffffffffffffffffB m + 2,m + 1

b c

=n!

m!` a2ffffffffffffffffΓ m + 2

` a

Γ m + 1` a

Γ 2m + 3` a

ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff= n!

m!` a2ffffffffffffffffm + 1

` a

!m!2m + 2` a

!ffffffffffffffffffffffffffffffffffff= 1

2fff= π0.5

y vemos que es insesgado. Este resultado no es frecuente para la mediana muestral, se debe a

la simetría de la densidad.

Π^ 0.5

A pesar de que Sn2 es sesgado, vemos que a medida que crece el tamaño de la muestra, el sesgo

decrece y en el límite es cero. Esto induce la siguiente definición.

Definición 2.19 Sea θ un estimador basado en una muestra de tamaño n. Un estimador es

asintóticamente insesgado

^n

si el limnQ1

bθ θ^n

b c

= 0 8 θ` a

Para que un estimador sea útil, no solo debería ser preciso en promedio, sino que además debería

acercarse al verdadero valor del parámetro, al menos la mayoría de las veces.

La precisión debería mejorar con el tamaño muestral. En particular, si el tamaño de la muestra es

infinito (así que de hecho estaríamos muestreando a la población) deberíamos esperar que nuestro

estimador fuera perfecto. (Concepto de consistencia)

La afirmación más débil al respecto, es decir, aquella que es más fácil de satisfacer, está dada por

la siguiente definición

Página 20 de 60

Definición 2.20 Un estimador es consistente (llamado a veces, en este contexto, débilmente

consistente) si 8 δ>0,8θ: limnQ1

Pr θ^n@θL

L

L

L

M

M

M

M

<δF G

= 1

Una condición suficiente pero no necesaria para la consistencia débil es que 1) el estimador sea

insesgado y que 2) limnQ1

Var θ^n

b c

= 0

1` a

bθ θ^b c

= 0^E θ^b c

= θ

2` a

limnQ1

Var θ^n

b c

= 0 [ 8δ>0,8θ: lim

nQ1Pr θ^n@θL

L

L

L

M

M

M

M

<δF G

= 1

Ejemplo 2.13 (Continuación Ejemplo 2.11)

Determinar cuál de los estimadores de la media es consistente. Hágalo bajo la suposición de que la

población tiene distribución uniforme F(x)=x , 0<x<1

Está claro del desarrollo anterior que tanto la media como la mediana muestrales son insesgados,

Con respecto a la varianza, tenemos que limnQ1

Var Xfffffb c

= limnQ1

σ2

nfffffff= 0

Siempre y cuando exista la varianza, la media muestral va a ser consistente para la media

poblacional. Con respecto a la mediana,

Var Π^ 0.5

b c

= Z0

1

p2 n!

m!` a2ffffffffffffffffpm 1@ p

b cm

dp@14ffff= m + 2

2 2m + 3` a

fffffffffffffffffffffffffffffffff@

14ffff

limnQ1

Var Π^ 0.5

b c

= limnQ1

m + 22 2m + 3` a

fffffffffffffffffffffffffffffffff@

14ffffF G

= 0

La mayoría de los estimadores son consistentes. Lo que nos importa, en realidad, es que un

estimador no solo sea correcto en promedio, sino que se acerque la mayor parte de las veces, y en

particular, que se acerque más al verdadero valor del parámetro más que otros estimadores rivales.

Una medida, para muestras finitas, surge de la definición de consistencia. La calidad de un

estimador podría ser medido por la probabilidad de que se acerquen dentro de un δ al verdadero

valor, es decir midiendo P . Pero la elección de θ^ @ θL

L

L

M

M

M<δd e

δ es arbitrario y preferimos medidas

que no se puedan alterar según las preferencias del investigador.

Por ello, podríamos considerar E , el error absoluto promedioθ^n@θL

L

L

L

M

M

M

M

F G

. Pero sabemos que trabajar

con valores absolutos, presenta retos matemáticos indeseados, y por ello la siguiente se ha

convertido en la medida de precisión generalmente aceptada.

Definición 2.21 El error medio cuadrático (MSE: mean squared error) de un estimador es

MS E θ^b c

=E θ^ @ θb c2F G

Notar que el MSE es una función del verdadero valor del parámetro. Un estimador puede ser

extremadamente bueno para algunos valores del parámetro pero muy malo o pobre para otros.

Página 21 de 60

Ejemplo 2.14 Considerar el estimador θ^ = 5 de un parámetro desconocido θ . El MSE es ,

que es muy pequeño cuando θ es cercano a 5, pero se vuelve malo para otros valores. Por

supuesto que este estimador es tanto sesgado como inconsistente.

5@ θ` a2

Un resultado que surge directamente de las varias definiciones es

MS E θ θ^b c

= E θ^ @E θ^b c

+ E θ^b c

@ θD E2X

\

Z

Y

]

[

MS E θ θ^b c

=Var θ^b c

+ bθ θ^b c

D E2

Si restringimos nuestra atención solamente a los estimadores insesgados, el mejor de ellos puede

definirse de la siguiente manera.

Definición 2.22 Un estimador θ^ se denomina estimador insesgado de varianza mínima uniforme6

si es 1) insesgado y 2) para todo valor de θ no existe otro estimador insesgado que tenga menor

varianza.

Es por el hecho de que estamos buscando solo estimadores insesgados, que hubiera sido igualmente

efectivo haber hecho la definición en términos del Error Cuadrático Medio (MSE). Podríamos

también generalizar la definición, buscando estimadores que sean los uniformemente mejores7

respecto del MSE, pero el ejemplo anterior indica por qué esto no es posible.

Existen algunos teoremas que son de utilidad para determinar los UMVUEs (estimadores

insesgados de mínima varianza). Sin embargo, dichos estimadores son difíciles de obtener. Por otro

lado, todavía sigue siendo útil el criterio a los efectos de comparar dos estimadores alternativos.

Ejemplo 2.15

En el ejemplo 2.12 se demostró que tanto la media como la mediana muestrales eran insesgadas

para una distribución uniforme. ¿Cuál tiene el error cuadrático medio más chico para un tamaño

de muestra de 11?

Para la media muestral, el MSE es la varianza, que es

112fffffffff

nffffffff= 1

12 A 11fffffffffffffffffff= 1

132fffffffffff .

Para la mediana muestral, el MSE= 726fffffff@

14ffff= 1

52fffffff

(usando los cálculos del ejemplo 2.13 con m=5) y por lo tanto la media muestral es preferible (en

este caso)

6 UMVUE: uniformly minimum variance unbiased estimator 7 uniformly best

Página 22 de 60

Todo el material discutido hasta este punto entra dentro del título de lo conocido como estadística

“clásica” o “frecuencialista”. Algunas de las suposiciones de este enfoque son que 1) la población

existe, 2) el parámetro es un valor fijo que resulta ser desconocido y 3) que el analista no conoce

más que lo que le es revelado a través de una muestra de números extraídos de la población. Las

inferencias se realizan haciendo más supuestos entorno a la naturaleza del proceso de muestreo y/o

la población, y luego las leyes de probabilidad son aplicadas.

Existe un enfoque alternativo del proceso de estimación conocido como “Bayesiano”. Este enfoque

asume que tenemos ya una idea de cómo podría ser el parámetro y que esta idea puede expresarse

como una distribución de probabilidad, y que los datos son fijos sin números adicionales que valga

la pena considerar.8 De nuevo, se pueden aplicar las leyes de probabilidad. Los detalles de este

proceso se retoman en la Sección 2.8.

2.4 Estimación Paramétrica (pág. 45)

Hasta el momento la estimación empírica parece ser bastante buena. Sin embargo, tiene un

número importante de desventajas, que van a ser ejemplificadas luego en este capítulo. Eso

significa que necesitamos algo mejor.

Tal aproximación es la que se conoce como estimación paramétrica. Existen otras, pero salvo una

breve introducción en la sección 2.11 no serán presentadas.

2.4.1 Definición

Antes habíamos obtenido cantidades de una población (o su distribución) que describía varias de

sus características. Existen ciertos casos en los que el proceso puede revertirse.

Definición 2.23 Una familia paramétrica de distribuciones es una colección de funciones donde la

identidad de un determinado miembro está indexado por un número finito de variables llamadas

parámetros ( θ ). Más formalmente, la familia es 1 ,θ2 ,…,θk

F x ;θb c

;θ2ΘT U

donde θ es un escalar o un vector y Θ es el conjunto de todos los posibles valores de θ .

Además, la variable aleatoria X puede ser multivariada y por lo tanto x puede ser también un

vector.

Si es verdad que la distribución poblacional es un miembro de la familia paramétrica, es

suficiente con ser capaces de obtener el valor de θ para determinar la distribución. Luego de ello,

cualquier cantidad de interés puede ser determinada.

La estimación paramétrica puede ser reducida a cuatro pasos:

1. Determinar la familia paramétrica que describe a la población

2. Determinar el valor de los parámetros

3. Determinar el valor de la cantidad que nos es de interés

8 “the data are fixed with no further numbers worthy of consideration”

Página 23 de 60

4. Evaluar la precisión del valor hallado en (3)

2.4.2 Métodos basados en la igualación de cantidades poblacionales y muestrales

Los métodos de estimación de parámetros caen dentro de dos categorías. Una es encontrar un

sistema de ecuaciones donde el número de ecuaciones iguale al número de parámetros. Esperamos

que entonces exista exactamente una solución posible a las ecuaciones, la cual se convierte en el

estimador. Las ecuaciones se eligen de modo que ciertas características que deseamos que sean

ciertas efectivamente lo sean. El otro conjunto de métodos optimiza cierto criterio relevante, según

nuestros propósitos.

Hay dos métodos populares en la primera categoría: 1) el método de los momentos e 2) igualación

de percentiles. El método de momentos se basa en asegurarnos de que el modelo paramétrico tenga

los mismos momentos que el modelo empírico.

Definición 2.24 Si una familia paramétrica tiene r parámetros, las ecuaciones de momentos son:

Página 24 de 60

μj . =1nffffX

=

n

xij j = 1,…,,r (Igualación de momentos absolutos entorno al origen)

i 1

donde μj . =E X j |θB C

es una función del vector de parámetros desconocido θ . El estimador por el

método de los momentos es la solución a estas ecuaciones.

Ejemplo 2.16 (datos individuales)

Determinar los valores estimados por el método de los momentos para las distribuciones

Exponencial, Gamma y Pareto. Para cada caso, estimar la media, el desvío estándar y la

probabilidad de que el monto de un siniestro individual supere los $500.

Exponencial

Para la distribución exponencial, la ecuación es θ=335.5 entonces θ^ = 335.5. La media es θ que

es estimada por medio de 335.5, el desvío estándar es también θ y el estimado es 335.5.

Pr X>500` a

=e@500θfffffffffffffff

=e@500

335.5fffffffffffffffffffffff

= 0.22530

Gamma

Para la distribución Gamma

αθ = 335.5α α + 1` a

θ2 = 293068.3

Las soluciones son α , θ=538.03 ^ = 0.62357 ^

La media es αθ que se estima con (0.62357)(538.03)=335.5

El desvío estándar es α12fffffθ que se estima con 424.86

Pr X>500` a

= 1@Γ α,500θffffffffffff g

que se estima con 0.22593

Pareto

Para la distribución de Pareto

θα @ 1ffffffffffffffffff= 335.5

2θ2

α @ 1` a

α @ 2` a

fffffffffffffffffffffffffffffffffffffffffffffff= 293068.3

X

^

^

^

^

^

^

\

^

^

^

^

^

^

Z

Las soluciones son α y θ ^ = 5.3131 ^ = 1447.1

La media es θ

α @ 1ffffffffffffffffff, que se estima con 335.5

El desvío estándar es θ α

12ffff

α @ 1` a

α @ 2` a

12ffff

ffffffffffffffffffffffffffffffffffffffffffffffffff que se estima con 424.88

Pr X>500` a

=θ

500 + θ` aαfffffffffffffffffffffffffffffffff que se estima con 0.20663

Debería notarse que para los ejemplos de las distribuciones Gamma y Pareto, el método de

momentos arroja estimadores que coinciden con los estimadores empíricos.

Esto debería quedar claro de la definición del método de momentos. Para el caso de la

exponencial, con un solo parámetro, solo la media coincide. Como recordatorio, el estimador

empírico de Pr(X>500)=0.2

El segundo método conocido es el denominado Igualación de Percentiles. Acá los percentiles de

una muestra y los del modelo son forzados a ser iguales en r puntos seleccionados arbitrariamente.

Las ecuaciones son: p j = F πp j;θ

d e

j = 1,…, r

Ejemplo 2.17 Estimar los parámetros utilizando igualación de percentiles para las distribuciones

exponencial y Pareto. Usar el percentil 70 para la exponencial y los percentiles 40 y 70 para la

distribución de Pareto.

Los percentiles son π0.7 = 0.3 317

` a

+ 0.7 351` a

= 340.8

π0.4 = 0.6 107` a

+ 0.4 141` a

= 120.6

Para la distribución exponencial

Página 25 de 60

0.7 = 1@ exp @340,8θ

f fffffffffffffffffg[θ^ = 283.06

Para la distribución Pareto

^

^

^

\

0.7 = 1@θ

θ + 340.8ffffffffffffffffffffffffffffffF G

α

1` a

0.4 = 1@θ

θ + 120.6ffffffffffffffffffffffffffffffF G

α

2` a

X

^

^

^

^

^

^

^

^

^

^

^

^

^

^

^

Z

de (2): α =ln 0.6` a

ln θθ + 120.6fffffffffffffffffffffffffffffffffff

d e

fffffffffffffffffffffffffffffffffffffffffff

en (1): ln 0.3` a

=ln 0.6` a

ln θθ + 120.6fffffffffffffffffffffffffffffffffff

d e

fffffffffffffffffffffffffffffffffffffffffffln θθ + 340.8fffffffffffffffffffffffffffffff g

Se usa un método iterativo como ser bisección o Newton Raspón para obtener la solución

, α θ^ = 424.5 ^ = 2.0428

2.4.4 Estimadores basados en optimización

El mayor problema de los estimadores basados en ecuaciones es su incapacidad de ajustar bien en

TODO el rango de valores observados, concentrándose en cambio en coincidir en unas pocas

características elegidas. Para poder ajustar bien a lo largo, debemos dejar de insistir en hacer que

el modelo empírico y teórico, es decir, sus distribuciones, coincidan exactamente en algún aspecto.

En cambio, pedimos que estén “cerca” de alguna manera medible. Veremos tres formas de hacerlo.

Uno de ellos entra dentro de la categoría que lleva el nombre de mínima distancia y relaciona a los

datos y al modelo en lugares específicos. El segundo método no tiene un nombre reconocido, y

requiere el agrupamiento de los datos en intervalos, y luego compara determinada característica

del modelo con los datos en cada intervalo. El tercer método es máxima verosimilitud.

Todos estos métodos requieren la habilidad para maximizar o minimizar funciones de una o más

variables. En la mayoría de las aplicaciones, la técnica de cálculo de igualar todas las derivadas a

cero y resolver el sistema de ecuaciones, va a ser bastante difícil de aplicar.

Muchos algoritmos numéricos han sido diseñados para hallar el óptimo de funciones. La mayoría

de los textos de análisis numérico provee una introducción. Y numerosos algoritmos para

implementarlos se pueden encontrar en el “Numerical Recipes Series” (serie de recetas numéricas).

Asimismo, los programas de planilla de cálculo (spreadsheet programs) incluyen una herramienta

de optimización.

Finalmente, como una herramienta multiuso recomendamos el método simples. Una explicación

detallada de algoritmos puede encontrarse en “Sequential Simples Optimization” [123], y se

facilitan programas en [103]. El algoritmo es descrito en al Apéndice C. La mayor ventaja es que

no se requiere el cálculo de las derivadas. Sin embargo, la convergencia es lenta.

Independientemente del método usado, recomendamos fuertemente que se verifique la solución

propuesta, evaluando a la función en puntos cercanos y constatar que se trata de un máximo o de

un mínimo.

Muchos programas anuncian “éxito” cuando en realidad no se llegó al punto óptimo. Finalmente,

advertimos que cualquier rutina numérica es capaz de determinar óptimos locales. Es imposible

saber con certeza si no existe un valor superior, a una distancia alejada de la solución propuesta.

La siguiente definición del estimador general de distancia mínima fue sacado de Klugman y Parsa

[77].

Página 26 de 60

Definición 2.25 Para cierta familia paramétrica, sea F(x; θ) la función de distribución acumulada

y sea G(x; θ ) una función de x unívocamente relacionada con F. Esto es, si conocemos F y θ

podemos obtener G, y si conocemos G y θ podemos obtener F. Sea Gn x` a

la obtenida a partir de

la función de distribución acumulada empírica, de la misma manera. Entonces, si existe el valor de

que minimiza Qθ θ` a

=Xj = 1

k

wj G c j ;θb c

@Gn c j

b c

D E2

se denomina estimador de mínima distancia de θ .

Los valores de c y w son elegidos arbitrariamente1 <c 2 <…<ck 1 ,…,wk ≥ 0 9.

Si se usan datos agrupados, los cj serán los límites de clase (del intervalo). Los valores de los

límites se fijan a propósitos de la estimación. Dos ejemplos específicos de este tipo de estimador

son:

1. Mínima cdf10 (función de distribución acumulada): G x ;θb c

=F x ;θb c

conocido también como el estimador Crámer- von Mises

2. Mínima LEV11 (esperanza límitada): G x ;θb c

=E XV x ;θb c

Este segundo estimador, limita cada término de la suma (2.11) a observaciones en un determinado

intervalo.

Definición 2.26 Sea la partición del rango de posibles valores c donde 0 <c1 <…<ck c 0 es el

mínimo valor posible en el modelo y ck es el máximo valor posible. Sea Gj θ` a

cualquier función

que dependa solo de θ , F c , y para j@ 1 ;θb c

F cj ;θb c c

f x ;θb

cj@ 1 <x<c j . Sea Gj la misma

cantidad asociada a la distribución empírica. Entonces, si existe, el valor de θ que minimiza

Q θ` a

=Xj = 1

k

wj Gj θ` a

@Gj

B C2

se denomina estimador de distancia mínima por intervalo de θ . Los pesos w son 1 ,…,wk ≥ 0

arbitrarios.

Dos ejemplos específicos de este tipo de estimador son los siguientes (pág 54)

1. Mínimo chi cuadrado modificado: G , j θ` a

= n F cj ;θb c

@F cj@ 1 ;θb

D E

c

wj =1

Gj

ffffffff

2. Mínimo LAS12 (Intensidad Media de Tramo): G j θ` a

=E XVcj ;θB C

@E XVc j@ 1 ;θB C

Se le pide en el ejercicio 2.24 verificar que la especificación de mínimo LAS cumple con las

condiciones de la definición.

9 No es obligatorio que el criterio involucre cuadrados. Podríamos haber utilizado el valor absoluto y otra función de

pérdida. Elevar al cuadrado tiene la conocida ventaja de ser matemáticamente maleable. 10 Cumulative distribution function 11 Limited Expected Value (LEV) 12 Layer Average Severity (LAS)

Página 27 de 60

La principal ventaja de estos dos estimadores por sobre sus contrapartes de mínima distancia, es

que los errores son de alguna más independientes. Es decir, si es difícil hacer coincidir a la función

de distribución acumulada en un punto, esa dificultad va a perpetuarse en los argumentos

siguientes al usar el método de mínima distancia.

(Responde a la pregunta: ¿por qué es superior el método de χ2 modificado y mínimo LAS

respecto al estimador Crámer von Mises y mínimo LAS? )

La modificación en el procedimiento basado en el chi cuadrado se refiere al uso del valor empírico

como peso en vez del valor del modelo. (en vez de dividir por el número esperado teórico)

Estos estimadores son especialmente útiles para datos agrupados porque requieren solo de

información empírica en los valores elegidos.

El siguiente ejemplo muestra cómo estos problemas pueden sobrellevarse mediante una planilla de

cálculo.

Ejemplo 2.21 (ejemplo dental, datos agrupados)

Determinar los estimadores de mínima cdf y mínimo chi cuadrado modificado para el parámetro

de una distribución exponencial. Para el mínimo cdf usar pesos de 1. θ

Para el caso de mínimo cdf, la expresión a minimizar es

Q θ` a

= 1@e@25θffffffffff@

30378ffffffffffff g

2

+…+ 1@e@400θfffffffffffffff@

378378ffffffffffff g

2

Usando una rutina de optimización de una planilla de cálculo, produce un estimado θ^ =281.5852.

El resultado está en la tabla 2.6

Para el mínimo chi cuadrado modificado, la cantidad a minimizar es ç

Q θ` a

=378 1@e@

25θffffffff@ 30

b c

D E2

30fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff+…+

378 e@1500θffffffffffffffff@e@

2500θffffffffffffffffb c

@ 11D E2

11fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff+

378e@2500θffffffffffffffff@ 3

B C2

3ffffffffffffffffffffffffffffffffffffffffffffffff

Notar que combinamos los últimos dos grupos (2500 a 4000 y 4000 a 1), porque sin

observaciones por encima de 4000, la contribución del último intervalo a Q estaría indefinida. De

nuevo, usando una planilla de cálculo obtenemos el valor estimado θ^ = 274.7305. El resultado está

en la tabla 2.7.

Los métodos descritos hasta el momento tienen una característica que es tanto una ventaja como

una desventaja. Estos métodos le confieren al analista un amplio margen de libertad, permitiendo

una gran flexibilidad respecto a la función a comparar. Si el analista tiene un avezado

conocimiento del ejercicio de estimación, puede adoptar cierto criterio que le permita a los datos

ajustarse de la manera que más sea conveniente.

Por ejemplo, si el objetivo es cotizar (poner un precio) a un contrato de reaseguro en el que

seremos responsables por el pago de siniestros en el rango de 1 a 5 millones de dólares, entonces el

método de mínimo LAS con la mayor parte del peso en los intervalos que se extienden en el rango

Página 28 de 60

clave, parecería ser la mejor opción. Por otro lado, tal flexibilidad permite al inescrupuloso o tal

vez mal informado analista, obtener resultados que no son apropiados.

El último método que va a ser presentado en esta sección no deja lugar a decisiones arbitrarias.

Más aún, es el mejor método, desde el punto de vista de sus propiedades estadísticas. Es la

llamada Estimación Máximo Verosímil (MV)13; el proceso, el estimador, y el estimado están todos

identificados por la abreviatura MLE. La filosofía es bien simple. Sea la función de verosimilitud la

probabilidad de haber observado lo que se observó, dado un valor hipotético del parámetro. El

estimador más razonable del verdadero parámetro es aquel le corresponde la más alta probabilidad

de haber obtenido lo que efectivamente se obtuvo. Suponiendo independencia de las observaciones

tenemos la siguiente definición.

Definición 2.27

La función de verosimilitud para un conjunto n de observaciones independientes es

L θ` a

=Yj = 1

n

Lj θ` a

donde Lj θ` a

es la contribución de la j-ésima observación a la verosimilitud. Si la j-ésima

observación es un evento con probabilidad positiva (tal como la de una distribución discreta o de

un intervalo), entonces la contribución es esa probabilidad. Si la j-ésima observación es un valor

que proviene de una distribución continua, la contribución es la función de densidad de

probabilidad en ese valor.

Dos casos en donde es fácil escribir la función de verosimilitud

1. Datos Individuales: L θ` a

=Yj = 1

n

f x j ;θb c

2. Datos Agrupados: L θ` a

=Yj = 1

k

F c j ;θb c

@F cj@ 1 ;θb c

D En j

Notar que si existe un límite de la póliza de u, la contribución de un siniestro que excede al límite

(tal que el monto pagado asciende a u) es 1 y no . Esto es porque la distribución

subyacente es de siniestros, y no de montos pagados. Cuando se paga u, todo lo que se sabe del

siniestro es que estuvo por encima del límite.

@F u ;θb c c

f u ;θb

No hay garantía de que la función de verosimilitud tenga un máximo. Es decir, L θ` a

podría

crecer a medida que θ se acerca a un límite como ser cero o infinito. Además, existe la posibilidad

de máximos locales. Para la mayoría de los casos no será posible realizar la maximización a través

de herramientas analíticas, y en tal caso se usarán métodos numéricos.

Los estimadores máximo verosímiles poseen un número de propiedades que en conjunto no las

comparte con ningún otro estimador paramétrico. Entre ellas están las siguientes:

13 Maximum Likelihood Estimation (MLE)

Página 29 de 60

1. Son asintóticamente insesgados limnQ1

bθ θ^n

b c

= 0

2. De entre los estimadores que tienen distribución normal, son los que tienen menor varianza

asintótica

3. El estimador MV de una función de un parámetro es la misma función del estimador MV del

parámetro. Es decir, el estimador MV es invariante frente a la transformación de un parámetro

g θ` a

= g θ^b c

4. Se puede obtener la expresión explícita de la varianza asintótica.

El tercer punto significa que de cualquier forma en la que parametricemos a la función, siempre

obtendremos la misma respuesta a la hora de estimar una cantidad de interés.

El punto 4 significa que siempre podremos aproximar la varianza del estimador (bajo la condición

de que la verdadera distribución sea un miembro de la familia paramétrica elegida)

Ejemplo 2.22 (Ejemplo dental, datos individuales)

Hallar los estimadores por el método de los momentos y por Máxima Verosimilitud de los

parámetros de una distribución Lognormal. Úselos para estimar la media de la población

lognormal. Realice un estudio de simulación para ver cuál estimador es superior cuando la

población es lognormal con μ = y σ=1 5

Por método de los momentos

Si la meta u objetivo fuera simplemente estimar la media, sabríamos si las fórmulas que el

estimador por momentos es la media muestral. Con respecto a los estimados de los parámetros, las

ecuaciones de momentos son:

335.5 = exp μ +

12fffσ2

f g

293068.3 = exp 2μ + 2σ2b c

μ +

12fffσ2 = ln335.5

μ + σ 2 =12fffln293068.3

[ σ2 = 2

12fffln293068.3@ ln335.5F G

= 0.956917053

μ =12fffln293068.3@ 0.956917053

μ=5.33716 y σ=0.97822 , ^ ^

con lo que el valor estimado de la media es exp 5.33716 +12fff0.97822` a2

f g

= 335.5

Por método de MV

La función de verosimilitud de la función es:

L μ,σ` a

=Yj = 1

10 1x j σ 2πpwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffffffffffffexp @

logx j@μb c2

2σ2fffffffffffffffffffffffffffffffffffff

H

L

J

I

M

K

El logaritmo de la función de verosimilitud y sus derivadas parciales son

l μ,σ` a

=@Xj = 1

10

logx j@ 10logσ@102ffffffff g

log2π @Xj = 1

10 logx j@μb c2

2σ2fffffffffffffffffffffffffffffffffffff

Página 30 de 60

∂l∂μfffffffff=X

j = 1

10 logx j@μ

σ2ffffffffffffffffffffffffffff

∂l∂σfffffffff=@ 10

σfffffff+X

j = 1

10 logx j@μb c2

σ3fffffffffffffffffffffffffffffffffffff

Igualando las derivadas parciales a cero se obtienen los valores estimados MV

μ =110fffffffX

j = 1

10

logx j

σ =110fffffffX

j = 1

10

logxj@ μ

d e2vuutwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

En este ejemplo los valores estimados son μ=5.07491 y σ=1.30055. Usted debería notar que

estos números difieren de los presentados en el ejemplo 1.4

Los diez números eran los montos pagados con un deducible de 50. El modelo encontrado en ese

ejemplo anterior era para el siniestro en sí. En este ejemplo, estamos encontrando un modelo para

el monto pagado. El valor estimado de la media es exp 5.07491 +12fff1.30055` a2

f g

= 372.65

Los resultados de la simulación se presentan en la tabla 2.8 basada en 1000 muestras de tamaño

10. Mientras que por un lado, existe cierto sesgo para este tamaño muestral (el verdadero valor de

la media es ex , el estimador de máxima verosimilitud es claramente superior con

respecto a la varianza y al error medio cuadrático.)

p 5.5` a

= 244.69

Tabla 2.8

Método media varianza MSE

Momentos 245.14 10430.45 10430.65

MV 248.85 8849.95 8867.21

2.5.1 Varianza de los estimadores MV (pág. 62)

La clave es un teorema presente en la mayoría de los libros de estadística matemática. La versión

particular citada aquí y su generalización multiparamétrica está sacada de Rohatgi [109,p.384] y se

enuncia sin demostración.

Recordar que L θ` a

es la función de verosimilitud y que l θ` a

es su logaritmo. Todos los resultados

asumen que la población tiene una distribución que es un miembro de la familia paramétrica

elegida.

Teorema 2.2

Asumir que la función de probabilidad satisface lo siguiente (para θ en un intervalo

conteniendo el verdadero valor, y reemplace a las integrales por sumas para variables discretas).

f x ;θb c

c

1. lo es tres veces diferenciable respecto a g f x ;θb

θ

2. Z ∂∂θfffffffff x ;θb c

dx = 0 Esto permite poder sacar la derivada afuera de la integral y por eso

estamos derivando a la constante 1

Página 31 de 60

// Z ∂∂θfffffffff x ;θb c

dx =ddθfffffffZ f x ;θ

b c

dxV W

=ddθfffffff1` a= 0

3. Z ∂ 2

∂θ2fffffffffff x ;θ

b c

dx = 0 Es el mismo concepto para la derivada segunda

//Z ∂ 2

∂θ2fffffffffff x ;θ

b c

dx =ddθfffffff Z ∂

∂θfffffffff x ;θb c

dx{~~~~~~~~~~~ }~~~~~~~~~~~y

constante

X

^

^

\

^

^

Z

Y

^

^

]

^

^

[

= 0

4. @1<Z f x ;θb c ∂ 2

∂θ2fffffffffflog f x ;θ

b c

dx<0

Esto indica que la integral indicada existe y que en el punto donde la derivada se hace cero, se

obtiene un máximo

5. Existe una función H(x) tal que Z con H x` a

f x ;θb c

dx<1∂ 3


b c

L

L

L

L

L

L

M

M

M

M

M

M

<H x` a

. Esto asegura

que la población no sea demasiado extraña con respecto a los valores extremos.

Entonces se cumplen los siguientes resultados

(A) A medida que nQ1, la probabilidad de que la ecuación de verosimilitud ( L. θ` a

= 0 )

tenga solución se acerca a uno

(B) A medida que nQ1, la distribución del estimador por máxima verosimilitud θ^n

converge a una distribución normal con media θ y varianza tal que I θ` a

Var θ^n

b c

Q 1

Donde

I θ` a

=@nE∂ 2


b c

H

J

I

K=@nZ f x ;θb c ∂ 2


b c

dx

= n E∂∂θfffffffflog f x ;θ

b c

f g

2H

L

J

I

M

K= nZ f x ;θb c ∂

∂θfffffffflog f x ;θ

b c

f g

2

dx

Para cualquier z, lo último puede interpretarse como que

limnQ1

Prθ^ @ θ

I θ` a

B C@12ffff

fffffffffffffffffffffffff<z

X

^

^

^

\

^

^

^

Z

Y

^

^

^

]

^

^

^

[

= Φ z` a

y por lo tanto I θ` a

B C@12fffff

es una aproximación útil de Var θ^n

b c

A la cantidad I θ` a

se le da el nombre de información (a veces más específicamente, información

de Fisher).

De este resultado surge inmediatamente que el estimador máximo verosímil (MV) es

asintóticamente insesgado y consistente.

Página 32 de 60

Las condiciones (i) a (iv) suelen ser consideradas como condiciones de regularidad. Un escéptico

podría traducir esta afirmación como “condiciones que casi siempre son verdaderas pero de difícil

comprobación, así que asumamos que se cumplen en nuestro caso”.

El propósito de las condiciones es garantizar que la función de densidad es lo suficientemente

suave respecto a cambios en el parámetro y que no existe nada inusual acerca de la densidad en sí

misma.

Los enunciados arriba asumen que la muestra consiste en observaciones independientes e

idénticamente distribuidas.

Una versión más general del resultado, utiliza el logaritmo de la función de verosimilitud

I θ` a

=@E∂ 2

∂θ2ffffffffffl θ` aH

J

I

K=E∂∂θffffffffl θ` a

f g

2H

L

J

I

M

K

Un caso intermedio es aquel en el que si bien las observaciones son independientes, no son

idénticas. En este caso, sea Lj θ` a

la contribución de la j-ésima observación a la función de

verosimilitud y sea l j θ` a

=Xj = 1

n

l j θ` a

el logaritmo de la función de verosimilitud, entonces

I θ` a

=@E∂ 2

∂θ2ffffffffffl θ` aH

J

I

K=E∂∂θffffffffX

j = 1

n

l j θ` a

h

j

i

k

2H

L

L

J

I

M

M

K

Si hay más de un parámetro, el único cambio es que el vector de estimadores máximo verosímiles

(MV) ahora tiene una distribución asintótica normal multivariada. La matriz de covarianza de

esta distribución se obtiene de la inversa de la matriz de rs elementos.

Para cualquier variable aleatoria multidimensional o multivariada, con respecto a la matriz de

covarianza, la varianza de cada variable aleatoria individual se ubica en los elementos de la

diagonal principal, y las covarianzas por afuera de la diagonal.

I θ` a

rs=@E

∂ 2

∂θs ∂θr

ffffffffffffffffffffffl θ` aH

J

I

K=@n E∂ 2

∂θs ∂θr

fffffffffffffffffffffflog f x ;θb c

H

J

I

K

I θ` a

rs= E

∂∂θr

ffffffffffl θ` a ∂∂θs

ffffffffffl θ` aF G

= nE∂∂θr

fffffffffflog f x ;θb c ∂

∂θs

fffffffffflog f x ;θb c

F G

La primera expresión en cada línea es siempre correcta. La segunda expresión asume que la

verosimilitud es el producto de las n funciones de probabilidad idénticas

Cuando las observaciones son independientes pero no tienen distribuciones idénticas

I θ` a

rs=@X

j = 1

n

E∂ 2

∂θs ∂θr

ffffffffffffffffffffffl j θ` a

H

J

I

K

A esta matriz generalmente se la denomina matriz de información.

Página 33 de 60

Ésta debería parecer familiar en la medida en que es la misma matriz que fue utilizada para el

método de scoring (recordar que (2.13) está basada en E∂ 2

∂θs ∂θr

ffffffffffffffffffffffl θ` aH

J

I

K ). La única diferencia es

que el verdadero valor de la varianza asintótica requiere de los verdaderos valores de los

parámetros, mientras que el método scoring los reemplaza por los estimadores MV. Como nunca

sabremos los verdaderos valores, esto es lo más cercano a lo que haremos para evaluar la varianza

de nuestro estimador.

La matriz de información también constituye la cota inferior de Rao- Crámer (ver por ejemplo,

Hogg y Craig [65, pp. 370-373]). Esto es, bajo las condiciones usuales, ningún estimador insesgado

tiene una varianza más chica que la del correspondiente elemento en la diagonal principal de la

inversa de la matriz de información. Por lo tanto, al menos asintóticamente, ningún estimador

insesgado es más preciso que el estimador MV.

Ejemplo 2.24 (ejemplo dental, datos individuales)

Estimar la matriz de covarianza del estimador de máxima verosimilitud para una distribución

lognormal.

Las primeras derivadas parciales fueron obtenidas en el ejemplo 2.22

∂l∂μfffffffff=X

j = 1

10 logx j@μ

σ2ffffffffffffffffffffffffffff ; ∂l

∂σfffffffff=@ 10

σfffffff+X

j = 1

10 logxj@μ

b c2

σ 3fffffffffffffffffffffffffffffffffffff

Las derivadas parciales segundas son:

∂ 2 l∂μ2fffffffffff=@ 10

σ 2fffffff ; ∂ 2 l

∂σ∂μffffffffffffffffff=@ 2X

j = 1

10 logx j@μb c

σ3ffffffffffffffffffffffffffffffffff ; ∂

2 l∂σ2fffffffffff= 10

σ2fffffff@ 3X

j = 1

10 logx j@μb c2

σ4fffffffffffffffffffffffffffffffffffff

Los valores esperados son, teniendo en cuenta que logX se distribuye como una normal con

parámetros μ (media) y σ (desvío estándar)

E∂ 2 l∂μ2fffffffffffH

J

I

K=@10σ2fffffff ; E ∂ 2 l

∂σ∂μffffffffffffffffffH

J

I

K= 0 ; E∂ 2 l∂σ2fffffffffffF G

=@20σ2fffffff

Cambiando los signos e invirtiendo, obtenemos la matriz de covarianza. En realidad, este es un

estimado, porque el teorema 2.22 solo provee la expresión de la matriz de covarianza en el límite.

En este caso es

σ2

10fffffff 0

0σ2

20fffffff

H

L

L

L

L

L

J

I

M

M

M

M

M

K

Ahora aproximaremos la matriz de covarianza reemplazando por el valor estimado de σmediante

el método MV, calculado en el ejemplo 2.22

0.16914 00 0.084572

F G

Página 34 de 60

Los ceros afuera de la diagonal indican que los valores estimados de los dos parámetros están

asintóticamente incorrelacionados. Para el caso particular de la distribución lognormal, esto

también es cierto para cualquier tamaño de la muestra.

Algo que podríamos hacer con esta información es construir un intervalo de confianza aproximado

al 95% para el verdadero valor de los parámetros. Esto sería aplicando 1.96 desvíos estándar a

ambos lados del valor estimado.

μ ; 5.07491F 1.96 0.16914` a

12fffff= 5.07491F 0.80608

σ : 1.30055F 1.96 0.084572` a

12fffff= 1.30055F 0.56999

Si hubiésemos sido capaces de obtener los valores esperados necesarios para obtener la matriz de

información, ya sea por nuestra falta de destreza integrando o por la inexistencia de una

antiderivada analítica, se puede construir una aproximación colocando las derivadas segundas del

logaritmo de la función de verosimilitud directamente adentro de la matriz. Para la distribución

lognormal, usando los valores estimados de los parámetros, resulta ser que los números no

cambian. (A ud. se le pide probar que esto es así en el ejercicio 51). Esto es probable que no se

cumpla en futuros ejemplos y ejercicios (un ejemplo aparece en el ejercicio 2.52). Como última

aproximación, si ni siquiera contamos con las derivadas, podemos aproximar con una fórmula

aproximada de derivación.

Ejemplo 2.25 (continuación del ejemplo 2.24) Aproximar la matriz de covarianza por cada uno de

los métodos menos refinados sugeridos arriba,

Anteriormente a sacar los valores esperados, los elementos de la matriz de información son:

∂ 2 l∂μ2fffffffffff=@ 10

σ2fffffff=@ 5.91216

∂ 2 l∂σ∂μffffffffffffffffff=@ 2X

j = 1

10 logx j@ μd e

σ3

ffffffffffffffffffffffffffffffffffff= 0

∂ 2 l∂σ2fffffffffff= 10

σ2fffffff@ 3X

j = 1

10 logx j@ μd e2

σ4

fffffffffffffffffffffffffffffffffffffff=@ 11.82431

Cambiando el signo e invirtiendo la matriz dan los mismos valores que los obtenidos usando el

valor esperado.

2.5.2 Funciones de Estimadores MV (pág 67)

Sin el siguiente teorema, todo este trabajo habría sido de poco valor. Esto es porque no estamos

típicamente interesados en los parámetros en sí mismos, más bien, estamos interesados en una

función de los parámetros. El siguiente teorema está sacado de Rao [104, p.321]

Página 35 de 60

Teorema 2.3

Sea X una variable aleatoria multidimensional de dimensión k basado en una n = X1n ,…,Xkn

b

.c

muestra de tamaño n. Suponiendo que Xn es asintóticamente normal con media θ y matriz de

covarianza Σ/n, donde ni θ ni Σ dependen de n. Sea g una función de k variables totalmente

diferenciable. Sea G . Entonces n = g X1n ,…b c

,Xkn Gn es asintóticamente normal con media g θ` a

y

matriz de covarianza , donde ∂gb c

. Σ ∂gb c

∂g es el vector de derivadas parciales primeras

(gradiente), es decir, ∂gb c

. =∂g∂θ1

ffffffffff,…,∂g∂θk

fffffffffff g

y evaluada en θ , el verdadero valor del parámetro de

la variable aleatoria original.

Este es un caso específico de aproximación de los momentos de funciones de variables aleatorias.

El método general se denomina Método Delta (Delta Method). Para nuestros propósitos, Xn es el

vector de estimadores máximo verosímiles de los parámetros y θ es el verdadero valor. Como de

costumbre, aproximamos el resultado reemplazando con los valores estimados de los parámetros.

Ejemplo 2.26 (Ejemplo dental, datos individuales)

Aproxime la varianza de un estimador MV de la media, usando la distribución lognormal.

Compare esto con la varianza del método de los momentos.

La función en cuestión es g μ,σ` a

= exp μ +12fffσ2

f g

∂g∂μfffffffff= exp μ +

12fffσ2

f g

H

J

I

K

μ = 5.07491

σ = 1.30055

= 372.64

∂g∂σfffffffff= σexp μ +

12fffσ2

f g

H

J

I

K

μ = 5.07491

σ = 1.30055

= 484.64

La varianza aproximada del estimador es

371.64 484.64@ A 0.16914 0

0 0.084572

F G 371.64484.64

F G

= 43351

Un intervalo al 95% de confianza es 372.64F 1.96 43351pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

IC: 372.64F 408.09

El estimador del método de momentos es la media muestral, que tiene varianza Var X

fffffb c

nffffffffffffffffffffffffff. Esta

puede ser estimada como 200564.5

10fffffffffffffffffffffffffffff= 20056.45 usando el estimador insesgado de la varianza.

¿Por qué el estimador del método de los momentos parece ser tan superior?

La respuesta yace en los valores estimados mismos.

El valor estimado de σ por momentos fue 0.97822, mientras que por MV fue de 1.30055. El

estimador MV indica que se trata de una población con una mayor varianza y por lo tanto

cualquier valor estimado sacado de esa población, sería de esperar que tuviera una mayor varianza

Página 36 de 60

muestral. Un test más apropiado consiste en usar a los estimadores MV para evaluar a los

estimadores por momentos. Con esos parámetros la varianza de la población es 614784 y la

varianza de la muestra es 61478.4. De manera similar, si la varianza aproximada de los

estimadores MV fuese evaluada utilizando los estimadores por momentos, la varianza estimada

sería mucho menor.

El intervalo de arriba es un intervalo de confianza para la media de la población. Sería de mayor

interés el valor real o efectivo14 resultante de los siniestros el año próximo.

Ejemplo 2.27 (continuación ejemplo 2.26)

Suponer que conocemos que habrá 100 siniestros el año que viene. Determinar un intervalo de

predicción al 95% para el pago total.

Sea S , donde X es el monto del i-ésimo siniestro. Entonces E(S)=100E(X) es

estimada por 100(372.64)=37264.

=X1 +…+X100 i

El error cuadrático de este estimado está dado por

E S @ 100exp μ +12fffσ 2

f g

h

j

i

k

2H

L

L

J

I

M

M

K

=E S@ 100e μ +12fffffσ2

d e

+ 100eμ +12fffffσ2

@e μ +12fffffσ2

d e

F G

2X

^

\

^

Z

Y

^

]

^

[

= E S @ 100eμ +12fffffσ2

d e2H

J

I

K+ 10000 E eμ +12fffffσ2

@e μ +12fffffσ2

d e2H

J

I

K+ 200E S@ 100eμ +12fffffσ2

d e

e μ +12fffffσ2

@e μ +12fffffσ2

d e

F G

= Var S` a

+ 10000Var e μ +12fffffσ2

d e

=100Var(X)+10000(43351)

= 100 e 2μ + 2σ2

@e 2μ + σ2b c

+ 10000 43351` a

= 61478393 + 433510000 = 494988393

La tercera línea se deduce que se trata del producto de variables independientes, cada una con

valor esperado nulo. Son independientes porque S depende únicamente de las futuras

observaciones, mientras que μ y σ dependen solo de las observaciones pasadas. Con el fin de

evaluar Var(X), se reemplazó por los estimados de los parámetros.

^ ^

Un intervalo al 95% es 37264F 1.96 494988393pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww, es decir IC : 37264F 43607 15

Debemos poner énfasis de nuevo en que si la población es lognormal, el estimador MV de la media

tendrá menor varianza que el estimador por momentos. Las verdaderas varianzas de estos

14 actual value 15 (es una mala “aproximación” o estimación)

Página 37 de 60

estimadores dependen de los verdaderos valores de los parámetros y serían evaluados en

justamente ese conjunto común de valores.16

Ejemplo 2.28 (datos agrupados) Estimar los parámetros para una distribución de Pareto, la matriz

de covarianza aproximada, y construir un intervalo de confianza al 95% para la media de la

población.

Utilizando el método de scoring, los parámetros estimados son α=3.8275 y θ . La matriz

de covarianza aproximada es

^ = 948.52

0.97058 290.01290.01 90384

F G

El valor estimado de la media es θ^

α @ 1ffffffffffffffffff= 948.52

2.8275fffffffffffffffffffff= 335.46

Las derivadas con respecto a α y a θ respectivamente son

g α,θb c

=θ

α @ 1ffffffffffffffffff

[5 g α,θb c

=∂g α,θb c

∂αfffffffffffffffffffffffffff,

∂g α,θb c

∂θfffffffffffffffffffffffffff

h

j

i

k

= @θ

α @ 1` a2ffffffffffffffffffffffffff, 1


h

j

i

k

∂g∂αffffffffffα,θb c

=@θ

α @ 1` a2ffffffffffffffffffffffffff

∂g∂θffffffffα,θb c

=1


X

^

^

^

^

^

^

\

^

^

^

^

^

^

Z

Al ser evaluadas en los valores estimados estimados de los parámetros se obtiene

∂g∂αffffffffffα,θ^b c

=@ 118.64 ; ∂g∂θffffffffα,θ^b c

= 0.35367

La varianza aproximada del estimador MV de la media es

Varθ

α @ 1ffffffffffffffffff^

h

j

i

kt∂g α,θ^b c

∂αfffffffffffffffffffffffffff ∂g α,θ^

b c


H

J

I

K

I α,θ^b c

D E@ 1

∂g α,θ^b c

∂αfffffffffffffffffffffffffff

∂g α,θ^b c


H

L

L

L

L

L

L

L

J

I

M

M

M

M

M

M

M

K

Varθ

α @ 1ffffffffffffffffff^

h

j

i

kt @ 118.64 0.35367@ A 0.97058 290.01

290.01 90.384F G @ 118.64

0.35367

F G

= 629.51

y un intervalo de confianza aproximado al 95% es:

IC: 335.46F 1.96 629.51` a

12fffff= 335.46F 49.18

2.6 Ventajas de la estimación paramétrica

Hemos dedicado un gran esfuerzo en descubrir la mecánica de la estimación paramétrica, así como

en determinar métodos para la evaluación de los estimadores. Mientras que por un lado muchos de

los conceptos involucrados en la realización de comparaciones ya ha sido discutida, utilizamos esta

sección para organizar y expandir esas ideas.

2.6.1 Precisión

16 “The true variances of these estimators depend on the true values of the parameters and would be evaluated at the

common set of values” Página 38 de 60

Ya se ha establecido que cuando la población sigue la familia paramétrica elegida, los estimadores

MV son superiores a otros competidores. Es posible que aún cuando la población sea levemente

distinta de la familia elegida, los estimadores MV sigan funcionando bien. Sin embargo, es un gran

riesgo. Si esta fuera la única ventaja de la estimación paramétrica, solo valdría la pena en el caso

en el que tengamos un grado de confianza acerca de la naturaleza de la población. Pero hay

muchas otras razones para elegir estimadores paramétricos. Éstas serán resaltadas en las siguientes

subsecciones.

2.6.2 Se pueden hacer inferencias más allá de la población que generó los datos

El propósito de un modelo actuarial no es solamente representar al pasado, sino también

representar el futuro. El futuro va a diferir del pasado de maneras que no son predecibles (por

ejemplo variables aleatorias del ámbito en donde se producen los siniestros17) y en manera

predecible (por ejemplo, cambios planeados en la estructura de beneficios o en las características

de esos asegurados). Incluso cambios aleatorios pueden ser estimados, como ser la utilización de

una tasa de inflación prevista o pronosticada. Una vez que se estableció la tasa, el cambio ya es

planeado, no aleatorio. Es esencial que nosotros seamos capaces de usar nuestro modelo para

investigar el impacto de cambios planeados, así como efectuar un análisis del tipo “¿qué pasaría

si..?” sobre los posibles cambios aleatorios.

Ejemplo 2.29 (datos individuales)

El conjunto de datos consiste en momentos pagados (por el asegurador) con un deducible de 50.

Estimar el monto pagado esperado por pago18, luego de imponer un 10% de inflación en todos los

siniestros. Intente hacerlo empírica y paramétricamente.

Empíricamente, podemos obtener el nuevo monto pagado a partir de los diez montos pagados

anteriores:

141 [

1.1 141 + 50` a

{~~~~~~ }~~~~~~y

monto total del siniestroes elmonto del siniestroSIN aplicar el deducible

f g

{~~~~~~~~~~~~~~~~~ }~~~~~~~~~~~~~~~~~y

Se ajusta elmonto del stro A por inflación r = 10%

@ 50

{~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ }~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~y

Se aplica el deducible al valor ajustado por inflación

= 160.1

16 1.1(16+50)-50=22.6 [

46 [ 1.1(46+50)-50=55.6

40 [ 1.1(40+50)-50=49.0

351 [ 1.1(351+50)-50=391.1

259 [ 1.1(259+50)-50=289.9

317 [ 1.1(317+50)-50=353.7

1511 [ 1.1(1511+50)-50=1667.1

107 [ 1.1(107+50)-50=122.7

17 “loss producing environment” 18 “Expected amount paid payment per payment”

Página 39 de 60

567[ 1.1(567+50)-50=628.7

Estos números representan lo que se debería pagar luego de aplicada la inflación del 10% sobre los

siniestros.

Podríamos usar la media muestral de 374.05 como nuestro estimador, pero estaríamos

sobreestimando el verdadero valor.

374.05 =160.1 + 22.6 + 55.6 + 49 + 391.1 + 289.9 + 353.7 + 1667.1 + 122.7 + 628.7

10fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff

El valor más bajo posible que podríamos haber registrado por este análisis empírico es

1.1(0+50)-50=5=5

Montos pagados por debajo de 5 provienen de siniestros de entre 45.45-50 (un siniestro de 45.45 al

ser inflada un 10% está justo en el deducible de 50)

Estos datos no aparecen y no pueden aparecer en nuestro de datos. Además la inflación afecta la

frecuencia en este caso; habrá más pagos al ser ahora más fácil exceder el deducible. Es imposible

obtener un estimador empírico.

Estimación paramétrica

Para una solución paramétrica, considerar una distribución exponencial con el parámetro estimado

por el método de los momentos. Para resolver este problema necesitamos que la distribución

exponencial modele el monto del siniestro, no el monto del pago. Si X es la variable aleatoria

monto del siniestro e Y la variable aleatoria monto pagado, entonces para el modelo obtenemos.

E Y` a

= E X@ 50|X>50b c

=Z50

+1

x@ 50` a

f x | X>50b c

dx =Z50

+1

x@ 50` a f x

` a

1@F 50` a

fffffffffffffffffffffffffffffffdx

=Z50

+1

x@ 50` aθ@ 1 e@

xθfffff

e@50θffffffff

fffffffffffffffffffffffffdx =Z50

+1 x@ 50` a

θ@ 1 exp @ x@50θffffffffffffffffffffff

d e

@50θfffffffff

exp @ 50θfffffffff

d e

ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffd x@ 50θfffffffffffffffffffff g

θ =θexp @ 50

θfffffffff

d e

exp @ 50θfffffffff

d e

ffffffffffffffffffffffffffffffffffffffffΓ 2` a

= θ

= θ =Yfffff= 355.5

Con inflación, el monto pagado es 1. y el pago esperado es 1X@ 50|1.1X>50

E 1.1X@ 50|1.1X>50b c

=Z501.1ffffffffffff

+1

1.1x@ 50` a335.5@ 1e

@x

335.5ffffffffffffffffff

d e

[email protected]

d e

335.5ffffffffffffffffff

ffffffffffffffffffffffffffffffffffffffffffffffffffdx

También notar que previamente a la inflación, la probabilidad de que un siniestro produzca un

desembolso de dinero (pago) era

Pr X>50` a

= exp @50

335.5ffffffffffffffffff g

= 0.86154

Luego de la inflación es

Pr 1.1X>50` a

= exp @

501.1fffffffffff

335.5fffffffffffffffff

h

j

i

k

= 0.87329

Página 40 de 60

En la solución paramétrica seguimos una cantidad de pasos determinados. Primero postulamos un

modelo para los siniestros incluyendo a aquellos por debajo de 50. Sin embargo los únicos datos

disponibles eran los montos pagados, Luego usamos el modelo para estudiar el monto pagado bajo

el nuevo escenario. Este será in enfoque estándar y será desarrollado en la sección 2.9

Ejemplo 2.30

Los datos de la Tabla 2.10 representan 217 pagos de responsabilidad civil19 de pólizas con un

límite de 300000. Estimar el cambio porcentual del pago promedio que resulta de (a) un 10% de

inflación y (b) imposición de un deducible de 1000. En ambos casos el límite se mantiene en

300000.

Tabla 2.10 Pago número Promedio Fn x

` a

0-2500 41 1389 0.188940092

2500-7500 48 4661 0.410138248

7500-12500 24 9991 0.520737327

12500-17500 18 15482 0.603686635

17500-22500 15 20232 0.672811059

22500-32500 14 26616 0.737327188

32500-47500 16 40278 0.811059907

47500-67500 12 56414 0.866359447

67500-87500 6 74985 0.894009216

87500-125000 11 106851 0.94470046

125000-225000 5 184735 0.967741935

225000-300000 4 264025 0.986175115

300000- 3 300000 1.000000000

Total 217

Empíricamente, tenemos suficiente información para calcular la media previa a las modificaciones.

Esto es,

X ni ai = 41B1389 + 48B4661 + 24B9991 + 18B15482 + 15B20232 + 14B26616 + 16B40278 +

+ 12B56414 + 6B74985 + 11B106851 + 5B184735 + 4B264025 + 3B300000 = 7301703

xfff=

7301703217fffffffffffffffffffffffffff= 33648

Sin embargo, con un 10% de inflación, es imposible determinar el efecto sobre los 4 pagos que

estaban entre 225000-300000. Algunos de ellos pueden toparse con el límite al ser inflados. Con

respecto al deducible, no sabemos cuántos de los 41 pagos del primer grupo será afectada o la

magnitud del efecto. De nuevo, los métodos empíricos fallan, no se aplican. Sin embargo,

deberíamos darnos cuenta de que si utilizamos al histograma como la función de densidad, los

cálculos se vuelven posibles. (ver ejercicio 2.53)

19 Liability Payments

Página 41 de 60

Para una solución paramétrica consideremos la distribución lognormal con los parámetros

estimados a partir de la igualación de los percentiles 30 y 70. Los percentiles son:

¿ Π ? Tabla: 0.30

Pago número Promedio Fn x` a

0-2500 41 1389 0.188940092

2500-7500 48 4661 0.410138248

Π 0.30 = 2500 +0.3@ 0.188940092

0.410138248@ 0.188940092ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff7500@ 2500

` a

= 5010.416678t 5010

¿ ? Tabla: Π 0.70

Pago número Promedio Fn x` a

17500-22500 15 20232 0.672811059

22500-32500 14 26616 0.737327188

Π 0.70 = 22500 +0.70@ 0.672811059

0.737327188@ 0.672811059ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff32500@ 22500

` a

= 26714.28586t 26714

Las ecuaciones resultan

0.3 = Φlog2010@μ

σffffffffffffffffffffffffffffffffffffffff g

0.7 = Φlog26714@μ

σffffffffffffffffffffffffffffffffffffffffffff g

X

^

^

^

^

^

^

^

^

\

^

^

^

^

^

^

^

^

Z

[ (Tabla ó Excel) @ 0.52440 =

log5010@μσ

fffffffffffffffffffffffffffffffffffffff

0.52440 =log26714@μ

σfffffffffffffffffffffffffffffffffffffffffff

X

^

^

^

^

^

\

^

^

^

^

^

Z

[ σ = 1.595871μ = 9.356065

Hacemos notar que el pago esperado es E X , con un 10% de inflación la

cantidad deseada es

V 300000b c

= 33960.11

E min 1.1X, 300000b c

D E

= E 1.1XV 300000B C

=300000

1.1ffffffffffffffffffffffffffffff= 272727.2727 A A

E 1.1 XV 272727b c

D E

= 1.1 E XV 272727B C

{~~~~~~~~~~~~ }~~~~~~~~~~~~y

33354.59

= 36690.05

El incremento debido a la inflación es 36690.0533960.11fffffffffffffffffffffffffffff

@ 1 = 0.0804 , es decir, un 8.04% de aumento.

Imponer un deducible de 1000 cambia la variable PAGO. Si queremos obtener un pago esperado

por siniestro, la variable aleatoria de interés es:

Y =0 X ≤ 1000X@ 1000 1000<X<300000299000 X ≥ 300000

X

^

\

^

Z

y el valor esperado es

E Y` a

= Z1000

300000

x@ 1000` a

f x` a

dx + 299000 1@F 300000` a

B C

= Z0

300000

x f x` a

dx@ Z0

1000

x f x` a

dx @ 1000 F 300000` a

@F 1000` a

B C

+ 299000 1@F 300000` a

B C

= Z0

300000

x f x` a

dx + 300000 1@F 300000` a

B C

X

^

^

\

^

^

Z

Y

^

^

]

^

^

[

@ Z0

1000

x f x` a

dx + 1000 1@F 1000` a

B C

X

^

^

\

^

^

Z

Y

^

^

]

^

^

[

=E XV 300000B C

@E XV 1000B C

= [email protected] = 32986.48

Página 42 de 60

La reducción debido al deducible es [email protected]= 0.0287, o el 2.87%

Estos ejemplos nos dejan claro que los modelos paramétricos proveen una flexibilidad no presente

en su contraparte empírica. Vemos que el agrupamiento no representa un obstáculo ni tampoco la

imposición de la inflación. El segundo de los ejemplos resalta la utilidad del valor esperado

limitado. El siguiente teorema confirma dicha afirmación.

Teorema 2.5 (pág. 74)

Sea X la variable aleatoria “monto del siniestro”. Con una tasa de inflación “r”, un deducible de

“d”, un límite de “u”, un coaseguro de α , la variable aleatoria “monto pagado (por siniestro)” es:

Y =

0 si X ≤d

1 + rffffffffffffffff

α 1 + r` a

X@ dB C

sid

1 + rffffffffffffffff<X<

u1 + rffffffffffffffff

α u@ d` a

si X ≥u


X

^

^

^

^

^

^

^

^

^

^

^

\

^

^

^

^

^

^

^

^

^

^

^

Z

Entonces, el monto pagado por siniestro esperado es

E Y` a

= α 1 + r` a

E XV u1 + rffffffffffffffffD E

@E XV d1 + rffffffffffffffffF G

X

\

Z

Y

]

[

Demostración (no es la del libro)

Página 43 de 60

E Y` a

= Z@1

+1

y x` a

f x` a

dx = Z@1

d1 + rffffffffffffffffff

0 A f x` a

dx + Zd

1 + rffffffffffffffffff

u1 + rffffffffffffffffff

α 1 + r` a

x@ dB C

f x` a

dx + Zu


+1

α u@ d` a

f x` a

dx

1 + r` a Z

d+

= α

1 rffffffffffffffffff


x f x` a

dx@ α d Zd+1 rffffffffffffffffff


f x` a

dx + α u@ d` a Z


+1

f x` a

dx

1 + r` a Z

0


x f x` a

dx@ Z0


x f x` a

dx

H

L

L

L

J

I

M

M

M

K

@αd Zd



f x` a

dx + Zu


+1

f x` a

dx

H

L

L

L

L

L

J

I

M

M

M

M

M

K

+ αu Zu


+1

f x` a

dx

= α

= α 1 + r` a Z

0


x f x` a

dx@ Z0


x f x` a

dx

H

L

L

L

J

I

M

M

M

K

@αd Zd


+1

f x` a

dx + αu Zu


+1

f x` a

dx

= α 1 + r` a Z

0


x f x` a

dx@u

1 + rffffffffffffffffZ


+1

f x` a

dx

H

L

L

J

I

M

M

K

@ Z0


x f x` a

dx@d

1 + rffffffffffffffffZ


+1

f x` a

dx

H

L

L

J

I

M

M

K

X

^

^

^

^

\

^

^

^

^

Z

Y

^

^

^

^

]

^

^

^

^

[

= α 1 + r` a

E XV u1 + rffffffffffffffffD E

@E XV d1 + rffffffffffffffffF G

X

\

Z

Y

]

[

Si queríamos el valor esperado del pago por cada pago, necesitamos solo entender que ahora la

variable aleatoria en cuestión es Y / X>d


Corolario 2.6

Página 44 de 60

El valor esperado del pago por pago es

E Y / X>d

1 + rffffffffffffffffF G

= α 1 + r` a

E XV u1 + rffffffffffffffffff

D E

@E XV d1 + rffffffffffffffffff

D E

1@F d1 + rffffffffffffffffff

d e

fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff ff

Del Teorema 2.5 vemos que la diferencia de LEVs es a veces una cantidad útil. El siguiente

resultado provee de un método alternativo para el cálculo de los LEV del modelo, que puede ser

especialmente útil para obtener diferencias.

Teorema 2.7

si Pr X<0` a

= 0 [ E XV xb c

= Z 0

x

1@F y` a

B C

dy

Demostración (no es la del libro)

E X Integrando por partes V xB C

= Z0

x

u f u` a

du + x 1@F x` a

B C

= uF u` a

B C

u = 0

u = x

@ Z0

x

F u` a

du

X

^

\

^

Z

Y

^

]

^

[

+ x 1@F x` a

B C

= xF x` a

@ 0b c

@ Z0

x

F u` a

du + x@ x F x` a

= x@ Z0

x

F u` a

du = Z0

x

1 du@ Z0

x

F u` a

du = Z0

x

1@F u` a

B C

du

El mismo resultado se cumple para distribuciones discretas y mixtas

Corolario 2.8 E XV ub c

@E XV db c

=Zd

u

1@F y` a

B C

dy

E XV ub c

= Z0

u

1@F t` a

B C

dt ; E XV db c

= Z0

d

1@F t` a

B C

dt

[

E XV ub c

@E XV db c

= Z0

u

1@F t` a

B C

dt@ Z0

d

1@F t` a

B C

dt = Zd

0

1@F t` a

B C

dt + Z0

u

1@F t` a

B C

dt = Zd

u

1@F t` a

B C

dt

El teorema 2.5 nos dice que para la mayoría de las modificaciones el valor esperado limitado es

suficiente. Sin embargo, en la literatura encontrarán que otras dos cantidades se usan a menudo.

Estos son: cociente de eliminación de siniestros (LER20) y el siniestro medio excedente21.

Definición (LER)

El cociente de eliminación de siniestros (LER) para un deducible de d, es la reducción relativa en

el pago esperado dada una imposición de un deducible.

Formalmente, LERX d` a

=E min X,d

b c

D E

E X` a

fffffffffffffffffffffffffffffffffffffffffffff=E XV db c

E X` a

ffffffffffffffffffffffffffffffff

20 Loss Elimination Ratio (LER) 21 Mean Excess Loss

Suponiendo que E(X) y E(X^d) existen

En general, el término “cociente de eliminación de siniestros” (LER) puede referirse a la reducción

en el pago esperado ante cualquier combinación o conjunto de modificaciones.

Una propiedad, si bien interesante, pero que no es necesariamente útil es que el LERX d` a

satisface todas las propiedades de una función de distribución

• LERX d` a

=E XV dB C

z~~~~~ |~~~~~x≥0

E X` a

{~ }~y

>0

ffffffffffffffffffffffffffffffffffffff≥ 0

• LERX 0` a

=E XV 0B C

E X` a

fffffffffffffffffffffffffffff=E min X,0

b c

D E

E X` a

ffffffffffffffffffffffffffffffffffffffffffff= E 0` a

E X` a

ffffffffffffffffff= 0

• limdQ1

LERX d` a

= limdQ1

E XV dB C

E X` a

ffffffffffffffffffffffffffffff=limdQ1

E XV dB C

E X` a

ffffffffffffffffffffffffffffffffffffffffffffff=E X` a

E X` a

ffffffffffffffffff= 1

• dduffffffffLERX u

` a

=dduffffffffE XV u

b c

E X` a

ffffffffffffffffffffffffffffffff= 1E X` a

ffffffffffffffffffdduffffffffZ

0

u

1@F t` a

B C

dt

X

^

\

^

Z

Y

^

]

^

[

=1@F u

` a

z~~~~~ |~~~~~x≥0

E X` a

{~ }~y

>0

ffffffffffffffffffffffffffffffffffffff≥ 0 (Función no decreciente)

En la definición, se notó que los momentos deben existir antes de definir el LER. Es hora de

hablar acerca de la existencia de los momentos cuando E(X) no existe, es porque o bien

limuQ1Z

d

u

x f x` a

dx no converge, o bien porque limdQ 0Z

d

u

x f x` a

dx no converge. Si el segundo límite

existe, todavía E X va a seguir existiendo, aún para las distribuciones de colas pesadas. Pero

si el primer límite existe y el segundo no, tanto E(x) como E(X^x) no va a existir, pero sí sus

diferencias. El concepto de “cola pesada” será discutido o abordado en la siguiente sección.

V xb c

La segunda cantidad que es útil en la descripción del comportamiento de la variable aleatoria

siniestro, respecto a grandes siniestros22. Esto será ampliado en la siguiente sección.

Definición El siniestro medio excedente23 para un deducible de “d” es el valor esperado del

siniestro por encima del deducible, condicionado a que el monto del siniestro superó el deducible.

De lo contrario 2.6 es:

eX d` a

= e d` a

=E X@ d | X>db c

=E X` a

@E XV db c

1@Fx d` a

ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff

Por supuesto que si E(X) es 1 debido a que X tiene una cola pesada, el siniestro medio

excedente también será 1. Si existe algún problema cerca del origen, el numerador puede ser

evaluado como Zd

1

x@ d` a

f x` a

dx

22 “The second quantity is useful in describing the behavior of the loss random variable with regard to large losses”. 23 Mean Excess Loss

Página 45 de 60

Ejemplo 2.31 Determinar el siniestro medio excedente de una distribución de Pareto

Página 46 de 60

f x` a

=αθα

x + θ α + 1ffffffffffffffffffffffffffffff

E X kB C

=θk

` a

ff

k !α @ 1 α @ 2 … α @` a` a

ffffffffffffffffffffffffffffffffffffffffffffffffffk

` a

ffffffffffffffffffffffffffffff

E XV xB C

=

θα @ 1ffffffffffffffffff1@ θ

x + θfffffffffffffffff g

α@ 1H

L

J

I

M

K α ≠ 1

@ θ logθ


α = 1

X

^

^

^

^

^

^

^

^

^

^

\

^

^

^

^

^

^

^

^

^

X x` a

= 1@θ

^

Z

Fx + θfffffffffffffffff g

α

[ 1@F X x` a

=θ


α

eX d` a

=

θα@1ffffffffffffffffffff@

θα@affffffffffffffffffff1@ θ

d + θffffffffffffffffff

d eα@ 1H

J

I

K

θd + θffffffffffffffffff

d eαffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff=

θα@1ffffffffffffffffffff

d e


d eα@ 1


d eαfffffffffffffffffffffffffffffffffffffffffffffffffffffffffff=

θα@1ffffffffffffffffffff

θd + θffffffffffffffffffffffffffffffffff= d + θ


(Suponiendo α ) >1

Notar que la función es una línea recta. El resultado final de la explicación que sigue indica cómo

el momento segundo limitado puede utilizarse para calcular la varianza de un monto de siniestro

modificado.

Teorema 2.9

Sea X una variable aleatoria para el monto del siniestro. Con un deducible de “d”, un límite de

“u”, un coaseguro de α . Si Y representa el monto pagado (por siniestro) entonces

Y =0 X ≤ dα X@ d` a

d<X<u

α u@ d` a

X ≥ u

X

^

^

^

\

^

^

^

Z

Entonces la varianza del monto pagado por siniestro es

Var Y` a

= E Y 2b c

@ E Y` a

B C2

= α 2 E XV ub c2D E

@E XV db c2D E

@ 2d E XV uB C

+ 2d E XV dB C

@ E XV ub c

@E XV db c

D E2X

\

Z

Y

]

[

La varianza del monto pagado pago por pago se obtiene dividiendo el primer término de (2.15) por

1@F X d` a

y el segundo por . Es decir, 1@F X d` a

B 2C

Var Y / X>db c

=E Y 2b c

1@F X d` a

ffffffffffffffffffffffffffffffff@

E Y` a

b c2

1@F X d` a

B C2fffffffffffffffffffffffffffffffffffffff

Ejemplo 2.32 (Continuación, ejemplo 2.30) Estimar la varianza del monto del siniestro con un

deducible de 1000 y un límite de 300000.

de 60

c

E

Los dos números que se piden son E X y E X . Para la distribución

lognormal, en general tenemos

V10002B C

V 130000b 2D

E X V xb c2D E

= Z0

xt 2

2πpwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwσtffffffffffffffffffffffffffexp @ 1

2ffflogt@μ

σffffffffffffffffffffffffff g

2H

L

J

I

M

Kdt + x 2 1@Φlogx@μ

σfffffffffffffffffffffffffff g

H

J

I

K

= Z@1

logx@ μσ

ffffffffffffffffffffffffffffffffexp yσ + μ` a

2πpwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwffffffffffffffffffffffffffffffffffffffffexp @ 1

2fffy2

f g

σexp yσ + μ` a

dy + x 2 1@Φlogx@μ


H

J

I

K

= exp 2μ + 2σ2b c

Φlogx@μ@ 2σ2

σffffffffffffffffffffffffffffffffffffffffffffffF G

+ x 2 1@Φlogx@μ


H

J

I

K

Entonces usando los valores estimados de los parámetros

μ=9.356065 y σ=1.595871 tenemos ^ ^

E X y E X V 1000b c2D E

= 962490 V 300000b c2D E

= 4581050352

Finalmente,

Var Y` a

= 4581050352@ 962490@ 2000 33960.11` a

+ 2000 973.63` a

@ 33960.11@ 973.63` a2 = 3426007039

El cálculo de la función de distribución acumulada o del LEV para muchas distribuciones

involucra integrales que deben ser evaluadas numéricamente. Dos ejemplos específicos surgidos con

anterioridad fueron la beta incompleta, denotada en este texto como β y la gamma,

denotada como integrales Γ α

a ; b ; xb c

; x` a

. Están definidas formalmente en la subsección 2.7.3 y se

discuten con detalle al comienzo del Apéndice A. Estas funciones están disponibles en la mayoría

de las planillas de cálculo y programas estadísticos.

2.6.4 Tests de Hipótesis (pág. 81; ver pág. 126)

Algunas veces nuestras preguntas son del tipo “sí o no” más que la búsqueda de un valor

numérico. Si la pregunta se refiere a los parámetros, podemos plantear un test de hipótesis

estadístico. El test se lleva a cabo obteniendo un estadístico del test y una región crítica. Una de

las grandes ventajas de los estimadores MV es que tenemos acceso al test de cociente de

verosimilitudes. El siguiente teorema está sacado de Rao[104,p.350] y describe el Test.

Teorema 2.10

Sea θ = una variable aleatoria de dimensión r que representa a los parámetros de la

distribución de la población. La hipótesis es que k restricciones de la forma R

θ1 ,…,θr

b c

.

j θ` a

tiene primeras

derivadas parciales continuas. Sea la hipótesis alternativa, que no hay restricciones en los valores

de los parámetros. Sea L la función de verosimilitud, donde x representa a todos los datos

de la muestra aleatoria (

θ; xb c

x = x1 ,…,xn`

.a

) . Los estimadores MV restringidos de θ son aquellos

que maximizan a la función de verosimilitud con k restricciones, los cuales se denotan con θ*.

Sean θ los estimadores MV no restringidos. Finalmente, el estadístico del test de cociente de

verosimilitudes se define como

^

LRT = 2 logL θ^; xb c

@ logL θ* ; xb c

D E

~χk2

Entonces, suponiendo que se cumplen las condiciones (i) a (iv) del Teorema 2.2, a medida que el

tamaño de la muestra se acerca a infinito, el estadístico del test, bajo el supuesto de que la

hipótesis nula es verdadera, se comporta como una distribución χ2 con k grados de libertad.

2.9 Selección y Validación de Modelos (pág. 115)

Hasta este momento nuestra búsqueda de un modelo paramétrico nos ha permitido postular

demasiados modelos. Disponemos de una gran cantidad de distribuciones de las cuales elegir, y

una variedad enorme de maneras de estimar los parámetros. Lo que necesitamos ahora es un

método para acotar y seleccionar un único modelo y un solo valor estimado del parámetro(s). Con

respecto a la selección del modelo, existen dos enfoques. El primero es un enfoque mecánico del

tipo “sí o no”. Para cada modelo propuesto, la decisión a tomar consiste en aceptar o no aceptar el

modelo. Cualquier modelo aceptable, luego puede ser usado, con algún otro criterio no estadístico

para guiar la decisión. La Principal desventaja es que existen demasiados modelos no aceptables, o

demasiados modelos aceptables, algunos de los cuales puede violar la buscada parsimonia.

El segundo enfoque consiste en ordenar de mejor a peor los modelos y elegir el que aparezca

primero en la lista. Esto parece tener más sentido, aún así, veremos de todas maneras el enfoque

de sí/no, en parte porque eventualmente lleva al desarrollo de un criterio de comparación de

modelos.

Independientemente del enfoque utilizado, tenga en cuenta que no debería ignorar su propia

experiencia. Aún si no está basándose en un enfoque Bayesiano, sus opiniones acerca de qué

modelo posiblemente sea el mejor es interesante. Por ejemplo, si en el pasado la distribución

Weibull ha resultado ser un modelo consistente, pero esta vez los datos sugieren que se trata de

una distribución Gamma transformada, sería aconsejable que siga utilizando la Weibull de todas

maneras. O suponer que un cliente necesita ayuda para el proceso de estimación, pero cree que la

distribución a utilizar es la lognormal. Si existe una leve diferencia entre la lognormal y otra

distribución, hay muy pocas razones para volcarse a favor de la alternativa. Por supuesto, si los

datos indican que la distribución generalizada de Pareto es por lejos la mejor, deberá explicar su

elección y describir a su cliente el nuevo modelo.

Con respecto a la estimación de parámetros, preferiremos la estimación de máxima

verosimilitud a menos que exista alguna buena razón para no hacerlo. Alguno de esos argumentos

fueron desarrollados a lo largo del capítulo. También deberíamos resaltar que estamos

recomendando un enfoque genérico de estimación. Esto es, ya sea que esté a favor del método de

MV, mínimo χ modificado, u otro método, ese método será usado independientemente del

modelo considerado.

2

Página 48 de 60

Los estadígrafos le han dedicado una gran cantidad de energía al estudio de distribuciones

específicas en un intento de aprender cómo deberían manejarse (por ejemplo, hay un libro entero

[4] dedicado a la distribución de Pareto), y es ciertamente verdadero que uno podría confrontar o

comparar la estimación y la estrategia de prueba con el modelo.24 Con nuestro gran número de

modelos, preferiríamos adoptar una estrategia consistente.

2.9.1 Probando la aceptabilidad de un modelo

El asunto podría ser toma como test de hipótesis. La hipótesis nula es que el modelo es aceptable,

mientras que la alternativa es que no lo es. En el caso paramétrico, esto puede ser expresado

formalmente como

H 0 :F X x

` a

= F x ; θb c

para algún θ 2 Θ

H 1 : F X x` a

≠ F x ; θb c

8θ2Θ

Acá, F X x` a

es la función de distribución acumulada y F x es la función de distribución para

algún miembro de la familia paramétrica elegida. Esta es una situación en la que la hipótesis

clásica es menos que ideal. En la mayoría de las situaciones el propósito de tomar muestras y

hacer tests para convencer a otros de que la hipótesis alternativa es verdadera. Para ser

convincente, controlamos la probabilidad de tipo I, esto es, seleccionar H cuando H es falsa.

Acá estamos esperando elegir la hipótesis nula y por lo tanto convencer a otros de que el modelo

es un “buen modelo”, pero no podemos controlar la probabilidad de que nuestra decisión fue

equivocada.

; θb c

1 0

Más aún, estamos en serios problemas cuando el tamaño de la muestra es grande. Nosotros

sabemos que de hecho la hipótesis nula es FALSA!! Es extremadamente improbable o poco posible

que un proceso tan complejo como lo es el que produce los montos de siniestros de la compañía de

seguros provenga de una población que pueda describirse con tan pocos parámetros. Lo que sí

esperamos es que seamos capaces de encontrar un modelo sencillo que sea útil para los cálculos que

subsecuentemente pretendemos efectuar. En la medida en que tengamos un gran tamaño muestral,

nuestro test va a ser tan poderoso que la naturaleza falsa de la hipótesis nula se vuelve detectable.

Como resultado, hay una gran posibilidad de que TODOS LOS MODELOS SEAN

RECHAZADOS!

2.9.1.1 Tests Informales (pág. 118)

Lo expresado anteriormente (arriba) nos indica que en realidad podríamos preferir un test

informal, uno que haga uso de juicios de valor más que estadísticos. Existen dos procedimientos

que son de utilidad. Nuestro favorito es sobrescribir el histograma de los datos por sobre el de la

función de distribución acumulada del modelo. Un buen modelo debería tener una función de

densidad que se parezca al histograma. Si los datos no estuvieran agrupados, deben agruparse a los

fines de construir el histograma.

24 “It is certainly true that one could match the estimation and testing strategy to the model”

Página 49 de 60

El otro gráfico comúnmente usado, es el Q.Q plot. Este REQUIERE DE DATOS

INDIVIDUALES. Las observaciones tienen que estar ordenadas de modo tal que x1 ≤…≤ xn . Los

n puntos a ser graficados son j

n + 1ffffffffffffffff, F x j ;θ

b c

f g

. Si el modelo fuera bueno, los puntos estos

deberían yacer en las cercanías de la línea que une al punto (0,0) con el punto (1,1).

El segundo enfoque informal consiste en anotar algunos números relevantes de la muestra y

compararlos con los mismos números del modelo. Estos “números” pueden ser probabilidades

acumuladas, esperanzas limitadas, LAS (intensidades medias de tramo) o cualquier otra cosa que

pueda ser considera importante.

Ejemplo 2.6.1

En el ejemplo 2.36 se ajustó una distribución lognormal a los datos de la tabla 2.10. Los

estimadores MV resultaron ser μ=9.29376 y ^ σ=1.62713. Evaluar la calidad del modelo

comparando el histograma con la función de densidad de probabilidad y anotando las intensidades

medias de tramo (LAS) para cada clase.

Debido a la asimetría en los datos, es mejor presentar el gráfico en dos partes Fig.2.11 y Fig.2.12.

El primero abarca el rango 0-32500 mientras que el segundo cubre el rango 32500-300000. Vemos

que el ajuste es bastante bueno a lo largo. En particular, la función de densidad tiende a atravesar

a ambas porciones vertical y horizontal del histograma, en las cercanías de la mitad de cada

segmento.

(ver Fi. 2.11, pág 119) función de densidad de la lognormal e histograma para bajos siniestros

Las intensidades medias de tramo aparecen en la Tabla 2.14. Las intensidades medias de tramo

empíricas se encuentran 1) tomando las entradas de la tercera columna de la tabla 2.10,

sustrayendo el límite inferior del intervalo y luego multiplicando dicha diferencia por la entrada en

la segunda columna, luego 2) tomando el ancho de los intervalos tantas veces como la suma de las

entradas en la segunda columna para todas las filas subsecuentes, y luego 3) dividiendo la suma de

los dos primeros elementos por 217, el tamaño de la muestra.

Las intensidades medias de tramo del modelo se encuentran utilizando la fórmula de esperanza

limitada del Apéndice A. Parece ser que se encuentran bastante cercanas entre sí, de nuevo,

indicando el buen ajuste del modelo lognormal.

(Fig 2.12, ver pág. 120)

Función de densidad de probabilidad de la lognormal y el hisgtograma para grandes siniestros

Tabla 2.14

LAS de la distribución Lognormal

Página 50 de 60

Pagos LAS empírica LAS lognormal

0-2500 2290 2275

2500-7500 3427 3450

7500-12500 2672 2615

12500-17500 2229 2114

17500-22500 1825 1773

22500-32500 2892 2858

32500-47500 3408 3198

47500-67500 3166 3084

67500-87500 2327 2285

87500-125000 3055 3056

125000-225000 4602 4550

225000-300000 1756 1909

300000- - 7679

Ejemplo 2.62 En el ejemplo 2.56 el estimador Bayesiano de la distribución de Pareto de un solo

parámetro α para los datos del ejemplo 2.55, era 2.499416. Evaluar la calidad de este modelo

construyendo un “QQ-plot”

El diagrama se encuentra en la Figura 2.13 (pág 122) (Leyenda: qq plot para una distribución

Pareto de un único parámetro)

Del gráfico, parecería que existe un alejamiento sistemático respecto a la línea recta, y por lo tanto

la elección de una distribución de Pareto con un único parámetro es cuestionable para este

conjunto de datos. Sin embargo, con tan pocos puntos de datos, es difícil estar seguros de esta

conclusión.

Debería notarse que las comparaciones entre el modelo y los datos, solo funciona, como lo hemos

descrito aquí, cuando los datos son completos, en el sentido de que ningún deducible, límite o

modificaciones similares nos han impedido recuperar la totalidad de los siniestros. Los métodos que

cubren o tratan con este problema se desarrollan en a sección 2.10.

2.9.1.2 Tests Formales (pág. 119)

Si bien estos criterios son ciertamente útiles, un test formal puede ser más persuasivo. También es

verdad que para modelos específicos se han desarrollado tests especiales, pero a pesar de ello, el

test genérico más comúnmente utilizado es el test χ2 de bondad de ajuste. Este test requiere de

datos agrupados, pero así como en la comparación de histogramas, eso significa que los parámetros

hayan tenido que haber sido estimados a partir de esa versión agrupada de datos. Para el grupo j

el test se basa en nj , la cantidad de observaciones en ese grupo y

Ej = n Pr X 2 grupo j ;θb c

Página 51 de 60

donde n es el tamaño de la muestra y la probabilidad es para una única observación cayendo en el

grupo j, dado que θ equivale a su valor estimado. El estadístico del test es

Q =Xj = 1

k nj@E j

b c2

E j

ffffffffffffffffffffffffffffffff

y la hipótesis nula es rechazada si Q supera a χd,α2 donde d=k-r-1 es el número de grados de

libertad (recordar que r es el número de parámetros estimados) y α es el nivel de significación.

Entonces el valor crítico es el número que hace que Pr , donde χ tiene distribución

chi cuadrado con d grados de libertad. El pvalue del test es

χ2 >χd,α2

b c

= α 2

pvalue =Pr χ2 >Qb c

Una convención común para la validez del test, es decir, que la probabilidad de cometer error tipo

I sea realmente α , es que E j ≥ 5 para todos los grupos25. Si eso no ocurre, deben expandirse los

límites y rehacer el test, o combinar grupos adyacentes. La teoría en la que se basa el test insiste

en que los parámetros sean estimados con el mismo método. De acuerdo con Moore [91], la

estimación por el método de Máxima Verosimilitud o el Mínimo χ2 modificado son satisfactorias.

(pie de página, ref. 17, pág. 121)

Moore cita un cierto número de reglas. Entre ellas se encuentran:

(1) Todos los grupos con al menos una frecuencia esperada de al menos 1, y el 80% de los grupos

con una frecuencia esperada de al menos 5

(2) Un total promedio por grupo de por lo menos 4 cuando se hace el test al 1% de significación,

y un total promedio de 2 cuando el test es al 5% de significación

(3) En al menos 3 grupos, un tamaño muestral de por lo menos 10, y el cociente entre el

cuadrado de la muestra ( n2 ) con el número de grupos (k) debe ser por lo menos de 10

Resumen de las condiciones de validez del test chi cuadrado

• E para el 80% de los grupos j = nPr x2 c j@ 1 ,c j

b C

;θT U

≥ 5

• 8Gj : E j ≥ 1 j=1,2,…,k (k:cantidad de grupos o intervalos)

• α = 0.01 [ nj ≥ 4

• α = 0.05[ nj ≥ 2

• 9 3 grupos / nj ≥ 10

• n2

kfffffff≥ 10 ; k ≤

n2

10fffffff (relación que limita la cantidad de intervalos o grupos a construir!!)

Ejemplo 2.63 (continuación, ejemplo 2.61)

Realice el test χ de bondad de ajuste para ver si el modelo lognormal es apropiado. Los

resultados del test aparecen en la tabla 2.15

2

Tabla 2.15

Intervalo Observaciones Esperados ChiCuadrado

25 cells

Página 52 de 60

0-2500 41 39.75 0.04

2500-7500 48 49.17 0.03

7500-12500 24 27.00 0.33

12500-17500 18 17.55 0.01

17500-22500 15 12.48 0.51

22500-32500 14 16.70 0.44

32500-47500 16 14.77 0.10

47500-67500 12 11.18 0.06

67500-87500 6 6.71 0.07

87500-125000 11 7.22 1.98

125000-225000 5 7.68 0.94

225000- 7 6.79 0.01

Notar que los últimos dos grupos se combinaron a los efectos de hacer que el valor esperado del

total supere 5. El típico cálculo es

E 4 = 217 Φlog17500@ 9.29376

1.62713fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff g

@Φlog12500@ 9.29376

1.62713fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff g

X

\

Z

Y

]

[

= 217 0.615109@ 0.534216` a

= 17.55

El estadístico del test es 4.51. Hay 9 grados de libertad (12 grupos, menos 2 parámetros estimados,

menos 1) y el valor crítico para un nivel de significación del 5% es 16.92 con lo que no se rechaza

la hipótesis nula. Es decir, no existe evidencia en esta muestra de tamaño 217 para rechazar a la

distribución lognormal como un modelo. El pvalue es 0.8748 y entonces también este modelo sería

aceptado para cualquier nivel de significación común. (Recordar que la hipótesis nula se acepta

para cualquiera cuyo nivel de significancia sea menor que el pvalue).

Los resultados del test de bondad de ajuste concuerdan con la evidencia visual presentada

anteriormente. La distribución lognormal cumple y es útil para estos datos.

La única vez en la que el test es impráctico es cuando hay demasiadas pocas observaciones. En ese

caso no es posible tener grupos suficientes para captar la forma de los datos y el modelo, y en ese

extremo no será posible tener un número positivo de grados de libertad. Por ejemplo, con 10

observaciones, un agrupamiento cuidadoso podría crear 2 grupos con nuestro mínimo total

esperado de 5. Pero incluso con un solo parámetro a estimar, habrá 0 grados de libertad, y por lo

tanto ningún test χ puede ser utilizado. Un test alternativo funciona especialmente con datos

individuales. Es el test Kolmogorov- Smirnov

2

. El estadístico del test es fácil de calcular, es el

máximo valor absoluto de la diferencia entre la función de distribución acumulada del modelo y la

función de distribución acumulada empírica. Es decir,

D = supx

Fn x` a

@F x ;θ^b c

L

L

L

L

M

M

M

M

Debido a que la función de distribución acumulada empírica es discontinua, necesitamos un

supremo (mínimo límite superior). Esto tan solo significa que en uno de los puntos de los datos, la

función de distribución del modelo debe ser comparada con la función de distribución empírica

justo antes y justo después del salto.

Página 53 de 60

Una propiedad agradable del test es que el máximo debe ocurrir en alguno de los puntos “dato”.

Si bien existen tablas detalladas para los valores aproximados de los valores críticos (buenos para

n ≥ 15) y expuestos en la tabla 2.16, es importante reconocer que los valores críticos en esta tabla

solo se aplican cuando los parámetros de la distribución hipotética se especifican en la hipótesis

nula. Cuando los parámetros son estimados a partir de la muestra, los valores críticos pueden ser

disminuidos. No hay ninguna manera fácil de hacer el ajuste (como reducir los grados de libertad

como en el test χ ). Stephens [116] provee tablas para testear un número de distribuciones en

particular. Él también sugiere un enfoque general; usar solo la mitad de los datos para estimar los

parámetros, pero luego usar la totalidad de los datos para la realización del test. En este caso, los

valores críticos en la tabla 2.16 pueden ser aplicados, al menos, asintóticamente. Para los ejemplos

y ejercicios en este texto vamos a utilizar los valores tabulados, pues no contamos con otra cosa a

mano.

2

Ejemplo 2.64 Haga un test de la adecuacidad del modelo Pareto de un solo parámetro del ejemplo

2.62 usando el test Kolmogorov- Smirnov.

Un gráfica comparativo entre la función de distribución empírica y del modelo aparecen en la

Figura 2.14. Debería ser fácil ver que la mayor diferencia ocurre justo antes del tercer salto. La

manera más fácil de calcular el valor del estadístico del test es con una tabla como 2.17.

Tabla 2.16: valores críticos de Kolmogorov- Smirnov

Nivel de Significancia Valor Crítico

0.20 1.07

npwwwwwwwwwwwwwwwwwwwfffffffffffff

0.10 1.22


0.05 1.36


0.01 1.63


Tabla 2.17 Estadístico del Test Kolmogorov- Smirnov

Observación fdd empírica- fdd empírica+ fdd modelo Máxima Diferencia

104 0.0 0.1 0.0934 0.0934

107 0.1 0.2 0.1556 0.0556

125 0.2 0.3 0.4275 0.2275

126 0.3 0.4 0.4388 0.1388

132 0.4 0.5 0.5004 0.1004

133 0.5 0.6 0.5097 0.0903

141 0.6 0.7 0.5763 0.1237

145 0.7 0.8 0.6049 0.1951

223 0.8 0.9 0.8653 0.0653

Página 54 de 60

319 0.9 1.0 0.9449 0.0551

Acá la fdd empírica simplemente crece en 1nffff en cada punto de la muestra. Entonces la fdd del

modelo se calcula en cada punto dato. Por ejemplo, en la tercera fila el valor de la fdd del modelo

de 0.4275 se compara con el valor empírico antes (0.2) y luego (0.3) del salto. La mayor diferencia

ocurre antes del salto y es 0.2275. Este es el máximo entre todos y se convierte en el estadístico

del test. A un nivel de significación del α = 10%, el valor crítico es 1.2210pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffff= 0.3858. La hipótesis

nula es aceptada y por lo tanto no hay evidencia para rechazarla a partir de los datos del modelo

de Pareto de un solo parámetro. Y a pesar de ello, el diagrama “qq plot” que construimos con

anterioridad nos había hecho poner en duda el mismo modelo. Un mayor tamaño muestral se

necesita para resolver este inconveniente.

El mayor problema con el test de Kolmogorov- Smirnov es su falta de poder. En consecuencia,

resulta que para muestras grandes, el test χ2 de bondad de ajuste está disponible, y es preferible.

2.9.2 Ordenamiento y Selección de modelos

Recordar que nuestro objetivo es seleccionar UN solo modelo del que podamos decir que representa

adecuadamente a la población. La forma más fácil de hacer esto sería asignar un valor numérico a

cada uno de los modelos propuestos y seleccionar a aquel con el mejor puntaje. Ya nos hemos

encontrado con un número considerable de formas de asignar un puntaje.

Una lista parcial es la siguiente:

1. Valor de la función de verosimilitud en su máximo (mientras más grande mejor)

2. Valor del estadístico Q del test χ de bondad de ajuste (mientras menor sea mejor) 2

3. Valor del estadístico D del test Kolmogorov- Smirnov (mientras menor sea mejor)

4. pvalue del test χ de bondad de ajuste (mientras más grande mejor) 2

5. El valor proveniente de cualquiera de los métodos de estimación basados en optimización, como

ser el de mínima fdd (Crámer von Mises), mínimo MSE (error medio cuadrático), mínimo LAS

(intensidad media de tramo) (mientras más bajo sea mejor)

En general es razonable realizar un ordenamiento usando el mismo método que fue utilizado para

la estimación de los parámetros. Sin embargo, esto no es del todo necesario.

Todas a excepto de una de las recomendaciones, tienen un problema que debe ser resuelto. Cuando

un modelo es un caso especial de otro (por ejemplo, Pareto y Burr) y el criterio concuerda con el

método de estimación, el modelo más complejo siempre resulta ser al menos tan bueno como el

más simple. Esto sucede porque el caso especial está siempre disponible como el posible candidato

a mínimo (o máximo) del modelo más complejo. Este es el mismo fenómeno que aparece en la

agregación de variables adicionales en regresión múltiple. El coeficiente de determinación ( R ) no 2

Página 55 de 60

puede decrecer, incluso si la nueva variable no está relacionada con la variable dependiente. En

regresión se requiere una mejora significativa antes de poder aceptar una nueva variable. Lo

mismo se aplica aquí. En líneas generales, existen dos maneras de resolver el problema.

Antes de discutir tal solución, notaremos que la excepción es el pvalue del test χ de bondad de 2

ajuste. Éste automáticamente corrige el incremento en el nivel de complejidad reduciendo los

grados de libertad, y por lo tanto, un modelo más complejo necesita una reducción importante en

el valor del estadístico del test para que el pvalue se haga más grande. También debería notarse

que usando el estadístico en sí (Q) causa problemas adicionales cuando los grupos se combinaron

de modo tal que se cumpla la condición de un mínimo de cinco observaciones esperadas. Entonces,

aún con el mismo número de parámetros, dos modelos pueden implicar la aplicación de un número

distinto de grados de libertad. En base a esto es que nosotros preferimos la utilización de pvalues

por sobre los estadísticos de los tests a efectos de ordenar y elegir entre varios modelos.

Ejemplos 2.65 En la tabla 2.18 se encuentran los pagos generales por responsabilidad civil. Un

gran número de modelos han sido ajustados mediante el método de Máxima Verosimilitud. Los

modelos, el NLL (Negative Loglikelihood: logaritmo de la verosimilitud negativo), el estadístico Q

del test χ , los grados de libertad y el pvalue aparecen en la tabla 2.19. Usando esta información,

seleccionar el mejor moleo de acuerdo con el criterio del pvalue.

2

Debido a que “el logaritmo de la función de verosimilitud negativo”, suena extraño, preferiremos

escribir NLL.

Tabla 2.18 (Pagos Generales por Responsabilidad Civil)26

Pago Número Promedio

0-2500 41 1389

2500-7500 48 4661

7500-12500 24 9991

12500-17500 18 15482

17500-22500 15 20232

22500-32500 14 26616

32500-47500 16 40278

47500-67500 12 56414

67500-87500 6 74985

87500-125000 11 106851

125000-225000 5 184735

225000-300000 4 264025

300000- 3 300000

Tabla 2.19 Valores MV ajustados a los datos de responsabilidad civil

Modelo nro parámetros NLL χ2 grs de lib. pvalue

26 General Liability Payments

Página 56 de 60

Exponencial 1 548.72 81.02 8 <0.0001

Exp. Inversa 1 520.27 49.06 8 <0.0001

Lognormal 2 498.29 4.51 9 0.8744

Gaussiana Inversa 2 502.26 12.95 9 0.1648

Pareto 2 499.31 6.37 9 0.7028

Pareto Inversa 2 500.09 7.52 9 0.5831

Loglogística 2 499.93 7.51 9 0.5847

Gamma 2 507.84 16.38 8 0.0372

Gamma inversa 2 509.80 26.77 8 0.0008

Weibull 2 501.63 8.16 8 0.4183

Weibull inversa 2 506.72 20.27 9 0.0163

Paralogística 2 499.79 7.30 9 0.6055

Paralogística Inversa 2 500.01 7.58 9 0.5767

Burr 3 498.41 4.79 8 0.7793

Burr Inversa 3 499.01 5.33 8 0.7220

Pareto Generalizado 3 498.62 5.00 8 0.7580

En la construcción de la tabla 2.19 no hay convergencia en alguna de las distribuciones

pretendidas. Por ejemplo, al iterar con el fin de maximizar la función de verosimilitud de la

distribución Gamma transformada, se volvió evidente que luego de 100 iteraciones del método

simples, que α se estaba acercando a 1 mientras que θ y τ se estaban aproximando a cero.

Esto nos indica que algunas distribuciones de dos parámetros, que son un caso especial, se

desempeñan de una manera similar que aquel de 3 parámetros. Si bien este caso límite no está en

nuestro inventario, esto nos indica que 3 parámetros son más que los que se están necesitando.

De la tabla 2.19 queda claro que en base al pvalue, el modelo lognormal es el mejor. La segunda

mejor alternativa resulta ser la distribución Burr, pero sería difícil justificar la utilización de tres

parámetros cuando como resultado tendríamos un pvalue menor y un mayor valor del estadístico

del test (Q).

2.9.2.1 Test del Cociente de Verosimilitudes (pág. 126)

Cuando un modelo es un caso especial de otro, podemos utilizar el test de cociente de

verosimilitudes introducido en la sección 2.6.4. La hipótesis nula es que el modelo más simple es el

apropiado, contra la alternativa de que el modelo más complejo es el apropiado. El estadístico del

test es dos veces la diferencia entre los logaritmos de las verosimilitudes. Este va a ser comparado

con el valor crítico de un χ2 con grados de libertad equivalentes a la diferencia entre el números

de parámetros.

En el ejemplo 2.51 se hizo nota que para un conjunto de datos particular, la distribución Burr no

implicaba una mejora importante respecto a la Pareto.

Página 57 de 60

Una segunda posibilidad es que un modelo sea un caso límite de otro. Por ejemplo, en la sección

2.7.4 se mostró que la distribución Gamma transformada de 3 parámetros es un caso límite del de

la distribución Beta transformada. Otro ejemplo aparece en el capítulo 3, donde se observa que la

distribución de Poisson es un caso límite de la distribución Binomial Negativa. En estos caso, el

test de cociente de verosimilitudes puede ser aplicado, pero el estadístico del test no

necesariamente tiene que tener una distribución aproximada χ2. Self y Liang [10] muestran que la

distribución aproximada correcta es una mezcla de distribuciones χ2.

En este libro usaremos la distribución χ2 con grados de libertad iguales a la diferencia en el

número de parámetros, incluso en los caso límite. Reconocemos que esta es todavía una mayor

aproximación, pero simplifica el proceso de decisión.

Cuando dos modelos están incorrelacionados, pero tienen un número diferente de parámetros (por

ejemplo, exponencial vs Pareto), el test de cociente de verosimilitudes puede seguir siendo

aplicado, pero debemos entender que ya no se trata de un test de hipótesis en el sentido formal,

sino simplemente de una regla de decisión razonable.

Una forma de ver que el test ya no es más preciso, es que el estadístico del test podría ser negativo

(esto es, puede suceder que el modelo no relacionado con más parámetros produzca un menor

valor de la función de verosimilitud en su máximo). Por lo tanto, el estadístico no puede tener una

distribución de χ . 2

Finalmente, hacemos notar que no existen métodos similares para medir el efecto de la inclusión

de un parámetro extra cuando usamos otras variables de decisión tales como el mínimo fdd

(Cramer von Mises).

Ejemplo 2.66 Usar la información de la tabla 2.19 para determinar el mejor modelo usando el valor

de verosimilitud como criterio a un nivel del 5% de significación para todos los tests

Dentro de un grupo con la misma cantidad de parámetros, la elección es el modelo con el menor

NLL. Para un parámetro el ganador es la exponencial inversa con 520.27, para dos parámetros es

la lognormal con 498.29 y para tres parámetros es la Burr con 498.41.

Primero vamos a comparar la exponencial inversa vs la lognormal. Este no es un test formal, en la

medida que la exponencial inversa no es un caso especial de la lognormal. El estadístico del test es

2(520.27-498.29)=43.96. Hay UN grado de libertad, con lo que el valor crítico es 3.84. La hipótesis

nula es rechazada y entonces se selecciona a la distribución lognormal. Una vez más, notar que NO

Página 58 de 60

ES UN TEST FORMAL, y por ello el 5% de significancia no es la probabilidad de cometer un

error de tipo I para el procedimiento recién utilizado.

Luego hacemos el test para la lognormal vs la Burr.

El estadístico del test es 2(498.29.498.41)=-0.24 que claramente favorece a la aceptación de la

hipótesis nula (al ser negativo) y entonces elegimos otra vez a la lognormal

2.9.2.2 Valores de Verosimilitud Penalizados

Hay una alternativa a un test formal que elimine la distinción entre casos especiales y no casos

especiales. Existe una variedad de métodos como tales, que han sido sugeridos.

Presentamos uno aquí, el llamado Schwartz Bayesian Criterion (SBC) introducido por

Schwartz[111] (Existen otros criterios de información como por ejemplo el Akaike Information

Criterion, AIC). Estos métodos toman el valor de la verosimilitud y luego lo ajustan de modo tal

que refleje el tamaño de la muestra y el número de parámetros. El SB le aplica logaritmo a la

función de verosimilitud y le sustrae rlogn2πffffffffd e

, donde r es el número de parámetros estimados y n

es el tamaño de la muestra. Notar que a medida que se incrementa el tamaño de la muestra, la

penalidad por la inclusión de un parámetro extra crece. Esta es una diferencia respecto al test de

cociente de verosimilitudes. No queda claro cuál es el mejor.

Por un lado, con un tamaño de muestra grande, deberíamos poder estimar satisfactoriamente unos

pocos parámetros y podríamos justificar un modelo más complejo. Pero por otro lado, los tests de

hipótesis se vuelven más potentes a medida que crece el tamaño de la muestra y la hipótesis

alternativa tiende a ser seleccionada si los modelos estos no son más que una descripción apenas

un poco más precisa de la población.

Ejemplo 2.67 Usando la información de la tabla 2.19, seleccionar el mejor modelo de acuerdo con

el SBC.

Para modelos con el mismo número de parámetros el ganador sigue siendo aquel con el NLL más

pequeño. Aplicando el término de penalidad, produce los siguientes tres puntajes, siendo la

penalidad r log2172πffffffffffff g

= 3.542 r

Modelo NLL Penalidad Puntaje

Exponencial Inversa 520.27 3.54 523.81

Lognormal 498.29 7.08 505.37

Burr 498.41 10.63 509.04

Página 59 de 60

de 60

La penalidad se suma aquí porque estamos trabajando con los NLL. Una vez más, la distribución

lognormal es su elección. Recordamos que, antes, los chequeos visuales y tabulares de este modelo

también eran aceptable, y por ello ésta debería ser su elección para la población