Página 1 de 60
Loss Models Capítulo 2
Modelos para el Monto de un Único Pago
Traducción por: Manuel Ignacio Fernández Orellana
2.1 INTRODUCCIÓN
El propósito del seguro es indemnizar a los tenedores de pólizas en el caso de ocurrencia de
eventos adversos imprevistos. Hay una gran variedad de eventos que son objeto de cobertura por
parte de los seguros, como bien lo indica la tabla 2.1
(Tabla 2.1) Beneficios de Seguros
Evento Nombre del Seguro Beneficio
Muerte Vida Pago fijo al beneficiario
Vida Continua Anualidad (Renta Vitalicia) Pago fijo, periódico al tenedor de póliza
Acto Ilícito Culposo Responsabilidad Civil Pago de cargos legales y daños
Daño a la Propiedad Propiedad Pago relacionado con el monto del daño
Inhabilidad para trabajar Invalidez Reemplazo del salario
Enfermedad Salud Pago de gastos médicos
Existen algunas características comunes a cualquier sistema de seguros. Estos son:
1. Debe haber riesgo – una condición que exige la posibilidad de un desvío adverso respecto
del resultado esperado.
2. La pérdida debe ser financiera – es decir, implica que el valor de la pérdida puede medirse
en dólares.
3. Algo o la totalidad del riesgo se transfiere del asegurado al asegurador
4. Existe la expectativa de que mediante la formación de una cartera de riesgos (pooling), el
asegurador logre mejorar la estimación del total de siniestros.
Lo expresado arriba fue extraído de un texto de introducción al seguro de Vaughan [121].
Afirmaciones similares pueden encontrarse en otros textos. Pueden hallarse definiciones de interés
adicionales en “Principios de la Ciencia Actuarial” de la Sociedad de Actuarios [113]. Algunas de
ellas, junto con un principio (el número del principio fue tomado del documento citado) se repiten
aquí.
Página 2 de 60
Definición 2.1 Regularidad Estadística
Una regularidad estadística describe un fenómeno tal que, si se realiza una sucesión de
experimentos independientes bajo las mismas condiciones específicas, la proporción de ocurrencias
de un evento dado se estabiliza a medida que el número de experimentos realizados aumenta.
Definición 2.2 Modelo Matemático
Un modelo matemático es una representación abstracta y simplificada de un fenómeno dado, que
puede expresarse en términos matemáticos.
Definición 2.3 Modelo Estocástico
Un modelo estocástico es un modelo matemático aplicado a un fenómeno que presenta regularidad
estadística y que puede describir con precisión las probabilidades de aparición de los eventos de los
eventos en cuestión.
Definición 2.4 Riesgo Actuarial
Un riesgo actuarial es un fenómeno que tiene un impacto económico y que está sujeto a la
incertidumbre respecto a una o más de las variables de riesgo: ocurrencia e intensidad (monto)
Principio 3.1 Los riesgos actuariales pueden ser modelados estocásticamente
Una característica importante del sistema de seguros es que toda cantidad puede ser medida en
unidades monetarias. Esto significa que el conjunto de números reales será suficiente a nuestros
propósitos y que, específicamente, se podrán usar variables aleatorias para la construcción de
modelos actuariales.
Otra característica distintiva de todos los sistemas de seguros es el elemento de aleatoriedad.
Como bien lo notamos en la Definición 2.4, cada flujo de beneficios pagados a un tenedor de póliza
tiene tres componentes: el número de pagos a los beneficiarios (si los hay), el plazo de dichos pagos
y el monto de cada pago. Por ejemplo, un seguro de vida básico hace exactamente un solo pago,
en concepto de un monto fijo, pero en un momento aleatorio. En el caso de los seguros de
automóviles, cada uno de los tres componentes es aleatorio.
Así como lo indicamos en la Definición 1.9, las distribuciones de siniestros se refieren a la
asignación de probabilidades a cada uno de estos procesos.
En este capítulo, nos dedicaremos específicamente a determinar la distribución de siniestros o de
los montos a pagar. La determinación de los modelos probabilísticas que se refieren al componente
que mide el número de pagos será abordará en el Capítulo 3.
La explicación de las distribuciones de siniestros empezará con la descripción de dos métodos
alternativos para la obtención de una distribución de siniestros. El método empírico es fácil de
implementar, si bien no siempre esté disponible. El enfoque paramétrico posee muchas
características atractivas, a pesar de ser más difícil. El resto del capítulo está dedicado a una
Página 3 de 60
explicación detallada del enfoque paramétrico. En particular, se tratan los varios tipos de
problemas que surgen debido a la naturaleza de los datos relacionados con el negocio de los
seguros. Estos incluyen la gran variedad de métodos de estimación, datos de pólizas con
modificaciones en la cobertura, datos de múltiples fuentes, tests de hipótesis, y situaciones más
complejas (por ejemplo, distribuciones bivariadas).
A lo largo del capítulo usaremos dos ejemplos para ejemplificar los métodos utilizados. El primero
es el ejemplo 1.4. Como recordatorio, los datos son siniestros dentales básicos en una póliza con un
deducible de 50. Los diez pagos observados fueron
141 16 46 40 351 259 317 1511 107 567
Nos vamos a referir a este ejemplo como “ejemplo de datos dentales agrupados”.
El segundo ejemplo es el siguiente.
Ejemplo 2.1 Considerar el mismo contexto, esto es, pagos dentales, solo que ahora suponga que
somos capaces de recolectar más datos de montos. En particular, los datos se encuentran
resumidos en la Tabla 2.2
Tabla 2.2 Datos dentales agrupados
Monto Pagado Número de Pagos
0-25 30
25-10 31
50-100 57
100-150 42
150-250 65
250-500 84
500-1000 45
1000-1500 10
1500-2500 11
2500-4000 3
Nos vamos a referir a este ejemplo como “ejemplo de datos agrupados”
2 ESTIMACIÓN EMPÍRICA
De los dos métodos de estimación más comunes, la estimación empírica es por lejos la más simple.
Y como tal, no deberíamos olvidar que cuando tenemos a disposición una gran cantidad de
observaciones, este método bien puede ser el más preciso.
En esta sección se introduce una definición formal y unos cuantos estimadores empíricos
específicos.
Dado que habremos de contar con más de una forma de resolver un problema en particular, es
imperativo que tengamos algún método para evaluar a un estimador.
Un punto importante es que la “calidad” es una propiedad de un estimador y no del estimado.
Estamos interesados en la calidad del método, no en la calidad de un resultado particular que
pudiera surgir de su aplicación.
2.2.1 Definición
El propósito de cualquier proceso de estimación es utilizar los resultados o realizaciones de una
muestra para inferir sobre la población de la cual fue extraída. Asumiremos de ahora en más que
trabajamos con muestras aleatorias.
Definición 2.5 (Muestra Aleatoria)
Sean VAIID (variables aleatorias independientes e idénticamente distribuidas).
Entonces, esta colección de variables aleatorias es lo que se denomina muestra aleatoria. n
X , , X1 …
x )
Una consecuencia inmediata es que la función de distribución conjunta de una muestra aleatoria se
obtiene haciendo el producto de las funciones de distribución marginales.
( )n
n
X , , X n X ii
F x , , x F (1
11=
=∏… …
siendo la función de distribución común a toda la muestra aleatoria X
F (x)
La definición es válida solo si, dada una población a la cual se le extrae una muestra, cada
miembro de la población tiene iguales posibilidades (o igual probabilidad) de ser extraído y la
identidad de cada uno de los miembros extraídos es irrelevante, de modo que no influye en la
identidad de otro miembro extraído,
El enfoque empírico estima a a partir de la distribución empírica. X
F (x)
Definición 2.6 La distribución empírica se obtiene de una muestra, asignando una probabilidad de
n1 a cada observación. Más formalmente, la función de distribución acumulada (cdf)1 es:
( ) jn
número de x xF x
n
≤= (datos individuales)
La función de distribución acumulada es una función “escalera” que se incrementa en n1 en cada
punto que es dato. Es una distribución discreta que asigna una probabilidad a lo sumo a n valores.
La función de probabilidad (pf)2 es
( ) jn
número de x xf x
n
== (datos individuales)
1 “cumulative distribution function” 2 “probability function”
Página 4 de 60
Siempre que tengamos una función de distribución acumulada (cdf) o una función de probabilidad
(pf), hay asociada una variable aleatoria. Por razones de notación, es conveniente definir a una
variable aleatoria para la cual su cdf3 coincide con su cdf empírica.
Definición 2.7 (Variable Aleatoria Empírica)
La Variable Aleatoria Empírica es una VA que tiene a ( )nF x como su función de
distribución acumulada, y se denota . X
Para datos agrupados resulta imposible determinar la función de distribución acumulada, porque
los datos individuales no están disponibles. Sin embargo, es posible aproximarla con la siguiente
definición. La definición además provee una notación estándar para conjuntos de datos agrupados
(Gráfico 2.1) Función de Distribución Empírica para montos individuales de planes dentales
Definición 2.8 Sean los límites para un conjunto de datos agrupados. Sea el
número de observaciones en el intervalo , j=1,…, r. Es posible que .
rc c c0 1< < <
jn
j-1 j(c ,c ]
rc = ∞
La función de distribución empírica se obtiene en los límites de cada intervalo como
( )j
iin j
nF c
n1==
∑
El gráfico que surge de conectar los valores de la función de distribución acumulada empírica, en
cada uno de estos puntos , por segmentos de líneas rectas, se denomina ojiva y es una
aproximación de la función de distribución acumulada empírica. La definición formal es r
c ,c ,c1 2
( ) j n j j n jn j
j j
r
0
j
x c
(c x)F (c ) ( x c )F (c )F x c x c
c c
x c
0
1 11
1
1
− −−
−
⎧⎪ ≤⎪⎪⎪ − + −⎪⎪= ≤⎨⎪ −⎪⎪>⎩
⎪⎪⎪
≤
Como
j j
probabilidad asociada al intervalo (c ,c ]
j n j j n j n j n jn j
j j función de distribuciónacumulada hasta cj(asociada a la probabilidad deque x x )j
(c x )F (c ) ( x c )F (c ) F (c ) F (c )F (c )
c c
1
1 1 11
1
1
−
− − −−
−
−≤
− + − −= +
−
longitud del subintervaloque va desde el límite inferiorhasta el punto donde quieroaproximar la función de distribución acumulada
jj j
longitud del intervalo
( x c )c c 1
1−
−
−−
3 En este texto los términos “función de probabilidad” y “función de densidad de probabilidad” y las abreviaciones
“pf” y “pdf” serán usadas indistintamente. El contexto debería dejar claro si la VA en cuestión es discreta, continua o
en parte continua y en parte discreta. La pdf será denotada como una función f(x) y en el caso especial en el que la
VA asuma solo valores enteros, la pf puede ser escrita como n
p
Página 5 de 60
Entonces
( )
int ervalo genérico(grupo j-ésimo)
n j n jn n j j j-1 j
j j
0 x c
F (c ) F (c )F x F (c ) ( x c ) x (c ,c ] j=1,2,..,r
c c
0
11 1
1
1
−− −
−
≤
−= + − ∈
−
r x c
⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪ >⎪⎪⎪⎪⎪⎩
(r es la cantidad de intervalos utilizados en la agrupación de datos)
Aclaraciones
(1) La ojiva, en principio, no está definida para en el caso en el que .
SALVO, que , la cantidad de observaciones en sea cero, es decir, r
x c 1−>r
c = ∞
rn
r(c , )1− ∞
rn 0=
(2) La ojiva debe ser una función lineal a trozos. Como tal, la derivada existe en todos los
puntos excepto en los límites superior e inferior de cada intervalo (en los ). Y donde
existe, es tan solo la pendiente del segmento de recta que los une.
jc
Definición 2.9 (Histograma)
Se denomina histograma a la derivada (donde exista) de la ojiva, es decir, a la aproximación
empírica de la función de densidad
// En el campo continuo, se cumple la relación, dada una variable aleatoria X con sus respectivas
función de densidad y su función de distribución acumulada Xf (x)
XF (x)
X Xf (x) dx= dF (x)
Una aproximación sería siendo X Xf (x) x F (x)Δ Δ≈
j j
x c c 1Δ −= −
X X j X j
F (x) F (c ) F (c )1Δ −= −
Definición formal de histograma:
( ) n j n j jn j-1 j
j j j j
0 x c
F (c ) F (c ) nf x x (c ,c ] j=1,2,..,r
c c n(c c )
0
1
1 1
0
−
− −
≤−
= = ∈− −
r x c
⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪ >⎪⎪⎩
// Notar que
n j n j n j n jj-1 j n n j j n
j j j j
F (c ) F (c ) F (c ) F (c )d dx (c ,c ): F (x)= F (c ) ( x c ) f (x)
dx dx c c c c1 1
1 11 1
− −− −
− −
⎡ ⎤− −⎢ ⎥∀ ∈ + − = =⎢ ⎥− −⎢ ⎥⎣ ⎦
Así como en el campo continuo las condiciones para que una función de la variable aleatoria x sea
considerada función de densidad de probabilidad eran:
(1) (no negatividad) Xf (x) x0≥ ∀ ∈ ℜ
(2) Xf (x) dx =1
+∞
−∞∫ (ley de cierre)
Página 6 de 60
Por ser el histograma una aproximación de la función de densidad de probabilidad, (1) El
histograma es SIEMPRE no negativo, y (2) tiene un área de uno, salvo que , en tal caso
no hay manera de representar la probabilidad del último grupo r
c = ∞
r(c , )1− ∞
Es importante notar que es el área y no la altura de las barras del histograma la que es
proporcional al número correspondiente a un grupo.
2.2.2 Estimadores empíricos (pág. 29)
A partir de la distribución empírica u ojiva, podemos obtener estimadores de cualquier
característica de la distribución poblacional. A lo largo del libro, asumimos que una muestra
aleatoria extraída de una población, resultó en las observaciones x ,.1 ualquier inferencia que
hagamos será de la población que produjo estos valores. n
..,x . C
Lo más importante de la “estimación empírica” es hallar para la distribución empírica la medida o
cantidad que nos interesa de la población de la cual extrajimos la muestra.
2.2.2.1 Estimador empírico de la media (pág 30)
Para datos individuales, la media de la distribución empírica se obtiene como n
jj
ˆ x xn
1
1μ
=
= = ∑
Esta es la familiar media muestral que ejemplifica la base de la estimación empírica: para
determinar cierto aspecto o característica de la población, se determina la misma característica a
partir de la muestra. A lo largo del libro se indicará a un estimado o a un estimador con un
circunflejo (o “sombrero”).
2.2.2.2 Estimador empírico de otros momentos
Los momentos poblacionales, si existe, se definen como
Definición 2.10
El k-ésimo momento absoluto (o simple) es (momento en torno al origen) kk' E[ x ]μ =
El k-ésimo momento central es kk
E[( x ) ]μ μ= −
Es común denotar a como μ '1μ
No podemos estar seguros de que las sumas o integrales que definen a estos momentos convergen.
Cuando la suma o la integral no converge decimos que ese momento no existe.
El momento se dice que es “infinito” si la suma o la integral se aproxima al infinito.
Aparte de la media, ciertos momentos han adquirido nombres específicos y símbolos adicionales
Página 7 de 60
Página 8 de 60
efinición 2.11 D (pág. 31)
( k )
Varianza : '22 2σ μ μ= = −
Desvío Estándar: =
Coeficiente de Variación:
Coeficiente de Asimetría:
Kurtosis:
Momento Factorial de orden k: E[ ]=E[x(x 1) (x-k+1)] , k
2
2
31 3
42 4
μ
σ σσμ
μγ
σμ
γσ
μ −
=
=
∀ ∈
Para cualquier distribución simétrica el coeficiente de Asimetría ( es el coeficiente de
l histograma de la figura 2.3 es un ejemplo de distribución de simetría positiva
a kurtosis mide la naturaleza del apartamiento de los valores en torno a la media. Una pequeña
ientras que la kurtosis es similar a la varianza, en el sentido de que mide apartamiento, es más
os centrales y absolutos son
2 44 4 3 2μ μ 4μ μ 6μ μ 3μ= − + −
os estimadores empíricos
1γ 0= 1γ
asimetría). Las distribuciones de simetría positiva tienden a tener la mayor masa de probabilidad
en valores pequeños, pero el resto de la probabilidad se extiende a lo largo de un gran rango de
valores más grandes
E
L
kurtosis (es SIEMPRE NO NEGATIVA) indica la existencia de un pico agudo en el medio. Una
kurtosis grande indica un descenso más lento.
M
efectivo para distinguir a aquellas distribuciones que colocan probabilidad adicional en los valores
más grandes. Una variable aleatoria con distribución normal tiene una kurtosis de 3, sin importar
el valor de sus parámetros.
Las relaciones entre moment
' ' 33 3 2μ μ 3μ μ 2μ= − +
' ' '
L para datos individuales son
( )
nk kˆ 1
k jj
nk
kk j
j
ˆ ' E(X ) xn
ˆˆ E((X ) ) x xn
1
1
μ
1μ μ
=
=
= =
= − = −
∑
∑
Notar que la varianza muestral se define dividiendo la suma de cuadrados por el tamaño de la
muestra. Es un poco diferente respecto de la usual división por n-1. Una explicación de por qué
dicha diferencia, se encuentra en la siguiente subsección.
Para datos agrupados, y suponiendo que , el histograma puede ser integrado para obtener
los momentos. Los momentos absolutos son r
c < ∞
j
nj j jj j
j j j
j
j
nf ( x )c c
n(c c )r r rj jk k
k nj j j jj j jc c
x c k kr rkj j j j
kj j j jj jx c
n nˆ ' x f ( x )dx x dx x dx
n(c c ) n(c c )
n n (c c )xˆ '
n(c c ) k n (k )(c c )
1
1 1 1
1
1 11 1 1
1 111
1 11 1
μ
1μ
1 1
−
− − −
−
=−
− −= = =
= + ++−
− −= ==
= = =− −
⎡ ⎤ −⎢ ⎥= =⎢ ⎥− + + −⎢ ⎥⎣ ⎦
∑ ∑ ∑∫ ∫
∑ ∑
c
k
c
∫
k krj j
k jj jj
c cˆ ' n
n(k ) c c
1 11
11
1μ
1
+ +−
−=
−=
+ −∑
Otro grupo de momentos es extremadamente útil en los cálculos de seguros. Como bien se indicó
en la Definición 1.7, es común limitar el monto que va a ser pagado por la compañía aseguradora.
Si Y es la variable aleatoria monto pagado, está , donde u es el límite de
la póliza y el símbolo “ ” es interpretado como “el mínimo entre”. Esto lleva a la siguiente
definición.
(Y min(X,u)= X u= )∧
∧
Definición 2.12 El momento limitado de orden k de X es
{ }kk kE[(X ) ] E[Y ] E min(X,u)μ ⎡ ⎤− = = ⎢ ⎥⎣ ⎦
El primer momento limitado se denomina valor esperado limitado (o esperanza limitada) y se
denota LEV4.
Si X asume solo valores no negativos todos los momentos limitados con k deben existir. 0≥
Más aún, , si existe. nLim E(X u)=E(X)→∞
∧
Las fórmulas para el cálculo de los momentos limitados son
CASO DISCRETO:
j j
k k kj j j
x u x u
E (X u) = x f( x ) u f( x )< ≥
⎡ ⎤∧ +⎢ ⎥⎣ ⎦ ∑ ∑
CASO CONTINUO: u
k k k
uE (X u) = x f( x) dx + u f( x ) dx
0
∞⎡ ⎤∧⎢ ⎥⎣ ⎦ ∫ ∫
En ambos casos el segundo término puede ser reemplazado por ku F(u1 )⎡ ⎤−⎢ ⎥⎣ ⎦
Se puede al igual que antes, obtener estimadores empíricos.
Para datos individuales, la fórmula es
j j
k kj
x <u x ³u
ˆE (X u) = x + un1⎛ ⎞⎟⎜ ⎟⎜⎡ ⎤ ⎟⎜∧ ⎟⎜⎢ ⎥ ⎟⎣ ⎦ ⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠∑ ∑ k (2.4)
Para datos agrupados, el histograma puede ser utilizado si , la fórmula es j j
u [c ,c ]1−∈
4 Limited Expected Value
Página 9 de 60
( )j ji i
i j i
c cc cj rk j jk k k ki i
i i j j j j i ii i jc c u c
n nn nˆE X u x dx x dx u dx u dxn(c c ) n(c c ) n(c c ) n(c c )
1 1 1
1
1 1 11 1− − −
−
− − −= = +
⎡ ⎤⎢ ⎥∧ = + + +⎢ ⎥ − − −⎣ ⎦
∑ ∑∫ ∫ ∫ ∫1−−
( )k k kj rk k
k j j j ji i i i
i i j j j ji i j
n (u c ) n u (c u)n (c c ) n uˆE X un(k )(c c ) n(k )(c c ) n(c c ) n
1 11 1 111
1 1 11 11 1
+ +− + +−−
− − −= = +
− −−⎡ ⎤⎢ ⎥∧ = + + +⎢ ⎥ + − + − −⎣ ⎦
∑ ∑
Para el caso especial en el que k=1, la fórmula se simplifica
( )kj r
j j ji i i i
j ji i
n ( uc c u u )n (c c ) n uˆE X un n(c c )
2 1 2111
11 1
2
2 2
+−−+
−= =
− −+∧ = + +
−∑ ∑j
n+
i]
(2.5)
En los informes que hacen uso de datos agrupados, es muy común incluir la media muestral de las
observaciones en cada grupo. Sea la media muestral para el i-ésimo grupo, con lo que
. Entonces el valor esperado limitado puede ser calculado en i
a
i ia (c ,c1−∈ forma exacta en los
límites del intervalo como
( )
Página 10 de 60
j ri ji i
i i j
n cn aˆE X un n
1 1= = +
∧ = +∑ ∑
( )j r
ji i i
i i
cˆE X u n a n
n n1 1
1
= =
∧ = +∑ ∑j+
jlímite c número de siniestrosnúmero de siniestros del grupo monto de grupo
LEV=del grupo j+1 en adelantenúmero total de siniestros número total de siniestros
⎛ ⎞∑ × ⎟⎜ ⎟⎜+ × ⎟⎜ ⎟⎜ ⎟⎜⎝ ⎠
No queda claro cuál es la mejor manera de interpolar entre los límites de cada grupo. Una idea se
sugiere en el ejercicio 2.3
Ejemplo 2.4
Determinar la media empírica, el desvío estándar, el coeficiente de asimetría y kurtosis de las dos
muestras. Además, estimar la esperanza limitada a 400 para cada muestra
Para el ejemplo de datos individuales tenemos
'
'
'
'
ˆ =(141+...+567)/10=335.5
ˆ =(141 +...+567 )/10=2.9307 10
ˆ =(141 +...+567 )/10=3.7287 10
ˆ =(141 +...+567 )/10=5.3463 10
12 2
23 3
34 4
4
μ
μ
μ
μ
×
×
×
5
8
11
ˆ=335.5
ˆ= 2.9307 10 335.5 .
ˆ =(1.5343 10 )/(7.6691 10 )=2.0006
ˆ =(5.3463 10 )/(3.2583 10 )=5.9586
5 2
8 71
11 102
μ
σ 42486
γ
γ
× − =
× ×
× ×
De (2.4) la esperanza limitada a 400 es
ˆE(X ) ( ) / .400 141 16 46 40 351 259 317 400 107 400 10 207 7∧ = + + + + + + + + + =
Para los datos agrupados tenemos
'
'
'
( ) ( )ˆ = ... =353.34
( )
( ) ( )ˆ = ... =3.5768 10
( )
( ) ( )ˆ = ...
( )
2 2 2 2
1
3 3 3 35
2
4 4 4 4
3
30 25 0 3 4000 25001μ
378 2 25 0 4000 2500
30 25 0 3 4000 25001μ
378 3 25 0 4000 2500
30 25 0 3 4000 25001μ
378 4 25 0 4000 2500
⎡ ⎤− −⎢ ⎥+ +⎢ ⎥− −⎢ ⎥⎣ ⎦⎡ ⎤− −⎢ ⎥+ + ×⎢ ⎥− −⎢ ⎥⎣ ⎦
− −+ +
− −
'
=6.5863 10
( ) ( )ˆ = ... =1.6261 10
( )
ˆ=353.34
ˆ= 3.5768 10 353.34 .
ˆ =(6.5863 10 )/(1.1235 10 )=3.2730
ˆ =(1.6261 10 )/(5.4210 10
8
5 5 5 512
4
5 2
8 81
12 102
30 25 0 3 4000 25001μ
378 5 25 0 4000 2500μ
σ 48253
γ
γ
⎡ ⎤⎢ ⎥ ×⎢ ⎥⎢ ⎥⎣ ⎦⎡ ⎤− −⎢ ⎥+ + ×⎢ ⎥− −⎢ ⎥⎣ ⎦
× − =
× ×
× × )=16.904
De (2.5) la esperanza limitada a 400 es ˆE(X ) { ( . ) ( . ) ( ) ( ) ( ) [ ( )( ) ] / ( )
+(45+10+11+3)(400)}/378 =215.56
2 2400 30 125 31 37 5 57 75 42 125 65 200 84 2 400 500 250 400 2 250∧ = + + + + + − − +
Definición 2.2.2.3 (Percentiles)
Saber todos los percentiles es equivalente a saber la función de distribución acumulada. La
definición formal de percentil es la siguiente
Definición 2.13 El (100p) percentil de una distribución F(x) es cualquier número , tal que p
π
pF( ) p F( )π− ≤ ≤
pπ , donde
p phF( ) Lim F( h)
0π π
+
−
→= −
Si la función de distribución acumulada es una función monótona estrictamente creciente, entonces
la solución va a ser única. // p
F ( p)1π −=
Pero si la función de distribución acumulada es constante en algún intervalo, como es el caso de
toda distribución discreta y toda distribución empírica, los valores en los que ésta es constante se
aceptan como un percentil específico.
El estimador empírico de un percentil es simplemente el correspondiente percentil de la
distribución empírica.
Ejemplo 2.5 (ejemplo dental)
Determinar los estimadores empíricos de los percentiles 45 y 80 a partir de las dos muestras.
Datos Individuales
• .
F ( ) .ˆ
F ( ) .10
0 4510
141 05π 141
141 0 4−
⎫⎪= ⎪⎪ ⇒ =⎬⎪= ⎪⎪⎭
)• .
F ( ) .ˆ ( ,
F ( ) .10
0 810
351 0 8π 351 567
567 0 8−
⎫⎪= ⎪⎪ ⇒ ∈⎬⎪= ⎪⎪⎭
Página 11 de 60
Datos Agrupados
Página 12 de 60
• 0.45 =Fc378 π0.45
b c
=1
378fffffffffff160 + 225@ 160
250@ 150ffffffffffffffffffffffffffffffffπ0.45@ 150
b c
F G
[ π0.45 = 165.5384615
378 = n
378B0.45 = 170.1 [c j@ 1 = 150 F cj@ 1
b c
= 160
c j = 250 F cj
b c
= 225
X
^
^
^
\
^
^
^
Z
π0.45 = 378B0.45@ 160` a250@ 150
225@ 160ffffffffffffffffffffffffffffffff+ 150
• 0.45 =Fc378 π0.8
b c
=1
378fffffffffff225 + 309@ 225
500@ 250ffffffffffffffffffffffffffffffffπ0.8@ 250
b c
F G
378B0.8 = 3024
302.42 250,500b C
c j@ 1 = 250 , F c j@ 1
b c
= 225
c j = 500 , F c j
b c
= 309
π0.8 = 0.8B378@ 225` a500@ 250
309@ 225ffffffffffffffffffffffffffffffff+ 250 = 480.3571429
En ambos casos, el percentil puede ser encontrado gráficamente localizando el porcentaje (0.45 y
0.80 en el ejemplo de arriba) por sobre el eje vertical del gráfico adecuado (función de distribución
acumulada u ojiva) y luego encontrando el percentil en el eje horizontal.
En el caso de datos individuales el método descrito arriba es insatisfactorio porque no provee
una única respuesta en algunos caso, y para otros existen varios percentiles con el mismo valor hay
varias maneras de suavizar el proceso. Nosotros preferimos el siguiente
Definición 2.14 El estimador empírico suavizado de un percentil se obtiene haciendo
(Datos Individuales)
πp = 1@ h` a
x g` a + hx
g + 1b c
g = n + 1` a
pB C
parte entera del número n + 1` a
p
h = n + 1` a
p@ g parte fraccionaria del número n + 1` a
p
indica la función de mayor valor entero, y además, A@ A
x 1` a ≤ x 2
` a ≤…≤ x n` a son los estadísticos de
orden de la muestra.
Salvo que haya dos o más datos con el mismo valor, los percentiles serán únicos.
Una característica de este procedimiento es que πp no puede obtenerse como p<1
n + 1ffffffffffffffff, o
p>1
n + 1ffffffffffffffff. Parece razonable en la medida que no deberíamos ser capaces de inferir el valor de los
percentiles muy bajos o muy altos a partir de muestras pequeñas. Usaremos la versión suavizada
cada vez que se pida o se requiera el percentil empírico.
Ejemplo 2.6 Determinar, para los datos individuales del ejemplo dental, los estimados suavizados
de los percentiles 45 y 80
π0.45eeeeeeeeeeeee:g = 10 + 1` a
B0.45B C
= 4.95@ A
= 4 [ h = 0.95
π0.45 = 1@ 0.95` a
x 4` a + 0.95x 5
` a = 1@ 0.95` a
B107 + 0.95B141 = 139.3
π0.8eeeeeeeeee:
g = 10 + 1` a
B0.8B C
= 8.8@ A
= 8 [ h = 0.8
x 8` a = 351 , x 9
` a = 567
π0.8 = 1@ 0.8` a
B351 + 0.8B567 = 523.8
2.2.3 Estimación por Intervalo
Todos los estimadores discutidos hasta el momento han sido estimadores puntuales. Es decir
que el proceso de estimación produce un único valor que representa nuestro mejor intento de
determinar el valor del parámetro poblacional. Si bien aquel valor puede ser bueno, no
esperamos que coincida exactamente con el verdadero valor. Un resultado todavía más útil
surge a partir de un estimador por intervalo. En lugar de arrojar un único valor, el resultado
del proceso de estimación es un rango de números posibles, cada uno con la misma
probabilidad o chance de ser el verdadero valor. Un tipo específico de estimador por intervalo
es el intervalo de confianza.
Definición de Intervalo de Confianza
Un intervalo de confianza al para el parámetro 1@α` a
100% θ es un par de valores L(“lower”
inferior) y U(“upper” superior) que surgen de una muestra aleatoria tales que
Pr L ≤ θ ≤ U` a
≥ 1@α 8θ L, U son variables aleatoriasb c
Notar que esta definición no define unívocamente al intervalo. Como la definición es una
afirmación probabilística y debe cumplirse para todo valor de θ , no dice nada acerca de si un
determinado intervalo incluye al verdadero valor de θ de una población en particular.
Más aún, el nivel de confianza (level of confidence), 1@α , no es una propiedad de los valores
obtenidos específicamente.5
La interpretación correcta es que si usamos un determinado estimador por intervalo una y otra
vez, en una gran cantidad de muestras, aproximadamente el 1@α` a
100% de las veces nuestro
intervalo va a incluir al verdadero valor.
Construir intervalos de confianza puede resultar bastante difícil. Por ejemplo, sabemos que si una
población se comporta según una distribución Normal con media y varianza desconocidas, un
intervalo de confianza al para la media es: 1@α` a
100%
5 and not of the particular values obtained
Página 13 de 60
L =X
fffff@ t α
2fffffff,n@ 1
snpwwwwwwwwwwwwwwwwwwwffffffffffff
U =Xfffff+ t α
2fffffff,n@ 1
snpwwwwwwwwwwwwwwwwwwwffffffffffff
donde s = Xi = 1
n xi@xfffb c2
n@ 1fffffffffffffffffffffffffff
vuuuut
wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
y t es el percentil α,b 1@α` a
100% de la distribución “t” con b
grados de libertad. Pero requiere un gran esfuerzo verificar que esto efectivamente es correcto. Sin
embargo, existe un método de construir intervalos de confianza aproximados, de forma
relativamente sencilla. Suponer que tenemos un estimador puntual θ^ de un parámetro θ tal que
y que θ se comporta aproximadamente como una distribución normal.
Con todos estos supuestos tenemos que aproximadamente
E θ^b c
= θ ; Var θ^b c
= v θ` a ^
1@α =Pr @z1@
α2fffffff≤
θ^ @ θv θ` a
≤ z1@ α
2fffffr
wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffffffffffffffffffffffffffH
L
L
L
J
(2.7)
Al despejar θ se obtiene el intervalo deseado. A veces es bastante difícil de hacer, debido a la
aparición de θ en el denominador). Por ello, se reemplaza a v θ` a
por v para obtener la
fórmula todavía más aproximada
θ^b c
1@α =Pr @z1@
α2fffffff≤
θ^ @ θ
v θ^b c
rwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffff≤ z
1@α2fffffff
H
L
L
L
J
I
M
M
M
K
(2.8)
donde z1@ α es el percentil de la distribución normal estándar. 1@α` a
100%
// Por simetría de la distribución Normal, z α2fffffff
L
L
L
L
M
M
M
M
= z1@
α2fffffff
L
L
L
L
M
M
M
M
// 8α 2R:z1@
α2fffffff=@z α
2fffffff
// IC 1@ α :θ^ F z1@
α2fffffff v θ^
b c
rwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
Ejemplo 2.7 (pág 37)
Usar la ecuación (2.8) para construir un intervalo de confianza aproximado al 95%, para la media
de una población normal y varianza desconocida.
Usar θ^ = xfff y notar que E , θ^
B C
= θ Var θ^b c
=σnpwwwwwwwwwwwwwwwwwwwffffffffffff y θ^ tiene una distribución normal. El intervalo
de confianza es entonces xfffF 1.96
snpwwwwwwwwwwwwwwwwwwwffffffffffff. Puesto que t , el intervalo de confianza
aproximado debe ser más angosto que el intervalo exacto dado por (2.6)
0.025,n@ 1 >1.96
L = x
fff@t α
2fffffff,n@ 1
snpwwwwwwwwwwwwwwwwwwwffffffffffff
U = xfff+ t α
2fffffff,n@ 1
snpwwwwwwwwwwwwwwwwwwwffffffffffff
Eso significa que nuestro nivel de confianza es algo menor al 95%.
Ejemplo 2.8 Usar (2.7) y (2.8) para construir un intervalo de confianza al 95% para la media de
una distribución de Poisson. Obtener intervalos para el caso particular en el que n=25 y xfff= 0.12
Página 14 de 60
Para el primer intervalo planteamos
0.95 =Pr @ 1.96 ≤Xfffff@ θθnfffffrwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffff≤ 1.96
h
l
l
j
i
m
m
k
// Si Y ~ Poisson, entonces E Y@ A
=Var Y@ A
= θ
// E XfffffB C
= θ ; Var XfffffB C
=θ2
nffffff
Xfffff@θθnfffffrwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffff
L
L
L
L
L
L
L
L
L
M
M
M
M
M
M
M
M
M
≤ 1.96 ^ Xfffff@ θ
L
L
L
M
M
M≤ 1.96θnffffswwwwwwwwwwwwwwwwwwwwwwwwwww^ X
fffff@ θ
b c2
=1.962 θnfffff g
^θ2@θ 2 X
fffff+
1.962
nfffffffffffffffff g
+Xfffff≤ 0
Resolviendo la ecuación cuadrática produce el intervalo
Xfffff+
1.9208n
ffffffffffffffffffffff g
F12fff 15.3664 X
fffff+ 3.84162
nffffffffffffffffffffffffffffff
nfffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff
vuuut
wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
Si n=25 y xfff= 0.12, el intervalo es IC: 0. 197F 0.156
Para la segunda aproximación, el intervalo es
XfffffF 1.96
Xfffff
nffffffswwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
Si n=25 y xfff= 0.12, el intervalo es IC: 0. 12F 0.136
Este intervalo se extiende por debajo del cero, lo cual no es cierto para le verdadero valor de θ .
Es por esto que (2.8) no es más que una pésima aproximación en este caso.
Los intervalos creados hasta el momento han sido paramétricos, en el sentido de que se ha
utilizado a la distribución normal como una aproximación. Pero hay una situación en la que
podemos formar un intervalo de confianza que sea verdaderamente no-paramétrico. Es decir, el
nivel de confianza elegido es correcto más allá de la distribución de la población.
La situación es la construcción de un intervalo de confianza para el percentil de una población. El
siguiente teorema provee el resultado requerido.
Teorema (pág. 38)
2 ,…,Sea X1 ,X Xn una muestra aleatoria de tamaño n donde cada X j tiene una distribución
continua. Sean X 1` a ,X 2
` a ,…,X n` a los estadísticos de orden de la muestra. Sean 1 ≤ a<b ≤ n dos
números enteros. Entonces el intervalo es un intervalo de confianza al X a` a ,X b
` a
b c
1@α` a
100%
para π (el percentil p de la población), donde p
1@α =Pr a ≤ B ≤ b@ A
y donde B es una variable aleatoria con distribución Binomial con parámetros n y p
Notar que como a y b deben ser enteros, existe un límite a los posibles valores que puede tomar
. Esto se evidencia en el siguiente ejemplo. 1@α
Página 15 de 60
Ejemplo 2.9 (datos individuales) Construir un intervalo de confianza de por lo menos el 90% para
el percentil 70.
La respuesta NO ES ÚNICA, pero tiene sentido construir el intervalo usando la menor cantidad
posible de estadísticos. Las probabilidades asociadas a la distribución binomial con n=10 y p=0.7
están dadas en la tabla 2.3
Tabla 2.3
i Pr(B=i) i Pr(B=i)
0 0.00001 6 0.20012
1 0.00014 7 0.26683
2 0.00145 8 0.23347
3 0.00900 9 0.12106
4 0.03676 10 0.02825
5 0.10292
La forma más rápida de llegar a la probabilidad de 0.9 es sumando
0.26683+.23347+0.20012+0.12106+0.10292=0.92440
Esta es la Pr 5 ≤ B ≤ 10` a
c
, y justamente el intervalo general para una muestra de tamaño 10 es
. Para este conjunto de datos el intervalo es (141,1511) y el nivel de confianza es en
realidad 92.44%.
X 5` a ,X 10
` a
b
Notar que de haber utilizado Pr(B=10) para obtener la probabilidad deseada, el valor de b sería
infinito y el límite superior del intervalo de confianza hubiera sido el valor más grande que puede
tomar la variable aleatoria. Similarmente, resulta que si α = 0, entonces el límite inferior es el
valor mínimo que puede tomar la variable aleatoria.
Para tamaños de muestras mayores este proceso se vuelve engorroso, en la medida en que las
probabilidades asociadas a la Binomial se tornan numerosas y difíciles de calcular. En este
contexto, podemos recurrir a la distribución normal para una aproximación eficiente de la
binomial. El siguiente ejemplo ilustra el proceso.
Ejemplo 2.10 Determinar qué estadísticos de orden son los que forman parte de los límites de un
intervalo de confianza al 90% correspondiente al percentil 70 proveniente de una muestra aleatoria
de tamaño 750.
La variable B tiene una distribución binomial con parámetros 750 y 0.70. Ésta puede aproximarse
mediante una distribución normal con media 750(0.7)=525 y varianza 750(0.7)(0.3)=157.5 y con
un desvío estándar de 12.55. Entonces tenemos que
0.9 =Pr a ≤ B ≤ b` a
=Pra@ 0.5@ 525
12.55fffffffffffffffffffffffffffffffffffffffffff<z<
b@ 0.5@ 52512.55
fffffffffffffffffffffffffffffffffffffffffff g
donde z tiene una distribución normal estándar y donde se aplicó una corrección por continuidad
(se resta 0.5). Un intervalo simétrico al 90% se obtiene planteando
Página 16 de 60
a@ 0.5@ 52512.55
fffffffffffffffffffffffffffffffffffffffffff=@ 1.645 [ a = 504.86
b@ 0.5@ 52512.55
ffffffffffffffffffffffffffffffffffffffffff= 1.645 [ b = 546.14
X
^
^
^
^
^
\
^
^
^
^
^
Z
Para garantizar por lo menos un 90% de confianza, el intervalo X 504` a ,X 547
` a
b c
En el ejercicio 2.16 se le pide hallar la fórmula general para a y b cuando n,p y 1@α son
arbitrarios. Un uso particular de dicho resultado es en estudios de simulación donde el objetivo es
estimar un cierto percentil de una población. El resultado permite determinar el número de
simulaciones necesarias para obtener cierto nivel de precisión (Cáp. 4)
2.3 Evaluación de un Estimador (pág 39)
Ahora que tenemos la habilidad de estimar cantidades en base a la información muestral, es
esencial que seamos capaces de evaluar la calidad de nuestro trabajo. En general, existen cuatro
tipos de errores que podemos cometer
1. Hemos extraído una muestra proveniente de una población diferente de la que pretendíamos
2. Hemos seleccionado un modelo para una población que no es verdadero, o hicimos
suposiciones acerca de la población que no son ciertas.
3. Nuestra muestra no es representativa de la población, debido a que la posibilidad de
elección de los miembros de la muestra no es la misma para todos (no es una muestra
aleatoria)
4. El método de estimación en sí es imperfecto
El primer tipo de error ocurre cuando el muestreo se prolonga a lo largo de un período de tiempo
extenso, Por ejemplo, los datos sobre montos de siniestros para automóviles serían imprecisos si
incluyeran información de un período anterior a un cambio en las condiciones de manejo (como ser
un cambio en el límite de la velocidad máxima permitida). Otra posibilidad es la existencia de un
esquema de muestreo defectuoso. Por ejemplo, los datos de los siniestros pueden no incluir una
provisión para aquellos que han ocurrido pero que aún no han sido informados (por ejemplo, la
experiencia en mortalidad, de un año calendario, recolectada desde el 1/Enero podría omitir
algunas muertes ocurridas en Diciembre).
El segundo tipo de error no es posible con estimadores empíricos, ya que no se realiza ningún tipo
de suposición acerca de la aleatoriedad de la muestra. Veremos cómo este error puede acrecentarse
en la siguiente sección.
El tercer tipo de error puede minimizarse, pero no eliminarse. Cada vez que hacemos un análisis
en base a la muestra en lugar de la población, la posibilidad de error se incrementa. No hay
Página 17 de 60
ninguna seguridad de que los miembros de la muestra reflejarán fielmente a la población y no hay
siquiera la más remota idea de darnos cuenta que hemos elegido una muestra de esa índole una
vez que, en ese momento, la hemos tomado.
El cuarto tipo de error se evalúa simultáneamente con el tercero. La idea acá es que para algunos
estimadores, aún si extrajéramos una muestra de la totalidad de la población, estaríamos todavía
cometiendo un error. Un ejemplo de tal estimador podría ser uno que requiera que los datos estén
agrupados y que la media de la población se estime por medio de (2.2)
μk . =Xj = 1
r
nj
c jk + 1@c j@ 1
k + 1
n k + 1` a
c j@c j@ 1
b c
fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffh
l
j
i
m
k
En esta sección estaremos trabajando con el efecto combinado del tercer y cuarto tipos de error,
denominados errores de muestreo o errores de estimación.
Definición 2.16 Un estimador puntual es una función de los valores obtenidos a partir de una
muestra aleatoria. Como tal, un estimador es en sí mismo una variable aleatoria, con su propia
distribución, denominada distribución de muestreo (o muestral)
Definición 2.17 Un estimado puntual (valor estimado) es la realización numérica de un estimador
basado en una muestra aleatoria en particular.
Dejaremos de lado el denominativo “puntual” siempre que esté claro que no nos estamos refiriendo
a un estimador por intervalo. A pesar de no ser parte del eje de discusión aquí, deberíamos notar
que los límites de un intervalo de confianza como lo hemos descrito en la sección 2.2.3 son también
variables aleatorias.
Asumimos que el propósito de construir el estimador y posteriormente utilizar el estimado, es para
producir una buena conjetura acerca de algunos aspectos importantes de la población.
Por una cuestión de notación, usaremos típicamente las letras del alfabeto griego para referirnos a
medidas o cantidades poblacionales y podremos circunflejos sobre ellas para denotar estimadores.
Al ser una variable aleatoria, también es muy común denotar a su correspondiente estimador con
una letra romana minúscula. El siguiente ejemplo aclara estos conceptos.
Ejemplo 2.11 Considerar la media y la varianza. Son claramente características poblacionales.
Estos son posibles estimadores
μ =Xfffff=X
j = 1
n X j
nffffffff σ2
=Sn2 =
1nffffX
j = 1
n
X j@Xfffff
b c2
y sus correspondientes estimadores son
Página 18 de 60
μ = xfff=X
j = 1
n x j
nffffff σ2
= sn2 =
1nffffX
j = 1
n
x j@xfffb c2
Otros estimadores podrían haber sido
σμ = Π^ 0.5^ 2=Sn@ 1
2 =1
n@ 1fffffffffffffffffX
j = 1
n
X j@Xfffff
b c2
Con esta notación, como la definida arriba, no hay manera alguna de distinguir al estimador de su
estimado, utilizando letras griegas.
El primer conjunto de estimadores son los estimadores empíricos. El segundo miembro, utiliza el
estimador empírico de la mediana para estimar la media y usa el más comúnmente elegido
denominador, n-1, para la estimación de la varianza.
Debemos dejar nuevamente bien claro que la única cantidad que puede ser evaluada respecto de su
calidad, es el estimador, no el estimado. Todas las medidas utilizadas aquí se aplican a la variable
aleatoria, e intentan indicar cuán bien nos iría si adoptáramos un determinado procedimiento. En
cualquier caso particular de aplicación, el estimado en sí puede resultar tanto bueno como malo,
algo que podrá verificarse en el futuro pero que no se puede evidenciar de antemano o al momento
en el que se efectúa el proceso de estimación.
Las medidas de calidad de una estimador introducidas aquí son las estándar incluidas en la
mayoría de los libros de Estadística Matemática.
Para todas las definiciones que siguen, θ (posiblemente un vector) indicará el parámetro y θ^ el
estimador.
La primera medida indica cuán bien el estimador resulta en promedio. Si un buen estimador se
utiliza repetidamente, en muchas situaciones similares, los errores deberían cancelarse de modo que
no debería haber un comportamiento tendencial por sobre o por debajo del parámetro. (Concepto
de insesgadez)
Definición 2.18 El sesgo (en inglés, “bias”) de un estimador θ^ es b θ θ^b c
=E θ^b c
@ θ
Un estimador para el que el sesgo es idénticamente cero se le da el nombre de insesgado
( b ) θ θ^b c
= 0 8θ
Notar que el sesgo es una función del valor del parámetro. El grado en el que un estimador se aleja
o aparta, en promedio, podría depender de un valor particular del parámetro. Todo lo demás
igual, preferiremos que un estimador sea insesgado.
Ejemplo 2,12 Determinar el sesgo de cada uno de los siguientes estimadores. Hágalo primero sin
hacer suposiciones sobre la población, y luego bajo el supuesto de que la población tiene una
función de distribución F X x` a
= x 0<x<1. Notar que en este ejemplo artificial, hemos asumido la
distribución de la población (y que por lo tanto, por ser distribución uniforme, su media es 12fff y la
Página 19 de 60
varianza es 112fffffff) es conocida. Sin algún tupo de suposición los siguientes cálculos pueden
efectuarse.
E Xfffffb c
= E1nffffX
j = 1
n
X j
h
j
i
k=1nffffX
j = 1
n
E xj
b c
= μ b μ Xfffffb c
= 0
E Sn2
b c
=E1nffffX
j = 1
n
X j@Xfffff
b c2h
j
i
k=1nffffE X
j = 1
n
X j2
h
j
i
k@E nXfffff
2b c
H
L
J
I
M
K= σ2 + μ2b c
@1n2fffffffX
i = 1
n
Xj = 1
n
E Xi X j
b c
E Sn2
b c
= σ2 + μ2b c
@1n2fffffffn n@ 1
` a
μ2 + n σ2 + μ2b c
D E
=n@ 1
nfffffffffffffffffσ2
bσ2 Sn
2b c
=@σ 2
nfffffff
E Sn@ 12
b c
= En
n@ 1fffffffffffffffffsn
2d e
=σ2 , b σ2 sn@ 1
2b c
= 0
Entonces, independientemente de la distribución de la población, Xfffff y Sn@ 1
2 son insesgados y Sn2
tiene un sesgo negativo. El valor esperado de la mediana muestral depende de la distribución
poblacional. Si n es impar podemos escribir n=2m+1 y la mediana de la función de densidad de
probabilidad, haciendo que p es = Π^ 0.5
fΠ^ 0.5
p` a
=n!
m!` a2fffffffffffffffff X p
` a
F X p` a
B Cm
1@F X p` a
B Cm
Para la distribución en cuestión f X p` a
= 1, por lo tanto
E Π^ 0.5
b c
= Z0
1
pn!
m!` a2ffffffffffffffffpm 1@ p
b cm
dp =n!
m!` a2ffffffffffffffffZ
0
1
pm + 1 1@ pb cm
dp =n!
m!` a2ffffffffffffffffB m + 2,m + 1
b c
=n!
m!` a2ffffffffffffffffΓ m + 2
` a
Γ m + 1` a
Γ 2m + 3` a
ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff= n!
m!` a2ffffffffffffffffm + 1
` a
!m!2m + 2` a
!ffffffffffffffffffffffffffffffffffff= 1
2fff= π0.5
y vemos que es insesgado. Este resultado no es frecuente para la mediana muestral, se debe a
la simetría de la densidad.
Π^ 0.5
A pesar de que Sn2 es sesgado, vemos que a medida que crece el tamaño de la muestra, el sesgo
decrece y en el límite es cero. Esto induce la siguiente definición.
Definición 2.19 Sea θ un estimador basado en una muestra de tamaño n. Un estimador es
asintóticamente insesgado
^n
si el limnQ1
bθ θ^n
b c
= 0 8 θ` a
Para que un estimador sea útil, no solo debería ser preciso en promedio, sino que además debería
acercarse al verdadero valor del parámetro, al menos la mayoría de las veces.
La precisión debería mejorar con el tamaño muestral. En particular, si el tamaño de la muestra es
infinito (así que de hecho estaríamos muestreando a la población) deberíamos esperar que nuestro
estimador fuera perfecto. (Concepto de consistencia)
La afirmación más débil al respecto, es decir, aquella que es más fácil de satisfacer, está dada por
la siguiente definición
Página 20 de 60
Definición 2.20 Un estimador es consistente (llamado a veces, en este contexto, débilmente
consistente) si 8 δ>0,8θ: limnQ1
Pr θ^n@θL
L
L
L
M
M
M
M
<δF G
= 1
Una condición suficiente pero no necesaria para la consistencia débil es que 1) el estimador sea
insesgado y que 2) limnQ1
Var θ^n
b c
= 0
1` a
bθ θ^b c
= 0^E θ^b c
= θ
2` a
limnQ1
Var θ^n
b c
= 0 [ 8δ>0,8θ: lim
nQ1Pr θ^n@θL
L
L
L
M
M
M
M
<δF G
= 1
Ejemplo 2.13 (Continuación Ejemplo 2.11)
Determinar cuál de los estimadores de la media es consistente. Hágalo bajo la suposición de que la
población tiene distribución uniforme F(x)=x , 0<x<1
Está claro del desarrollo anterior que tanto la media como la mediana muestrales son insesgados,
Con respecto a la varianza, tenemos que limnQ1
Var Xfffffb c
= limnQ1
σ2
nfffffff= 0
Siempre y cuando exista la varianza, la media muestral va a ser consistente para la media
poblacional. Con respecto a la mediana,
Var Π^ 0.5
b c
= Z0
1
p2 n!
m!` a2ffffffffffffffffpm 1@ p
b cm
dp@14ffff= m + 2
2 2m + 3` a
fffffffffffffffffffffffffffffffff@
14ffff
limnQ1
Var Π^ 0.5
b c
= limnQ1
m + 22 2m + 3` a
fffffffffffffffffffffffffffffffff@
14ffffF G
= 0
La mayoría de los estimadores son consistentes. Lo que nos importa, en realidad, es que un
estimador no solo sea correcto en promedio, sino que se acerque la mayor parte de las veces, y en
particular, que se acerque más al verdadero valor del parámetro más que otros estimadores rivales.
Una medida, para muestras finitas, surge de la definición de consistencia. La calidad de un
estimador podría ser medido por la probabilidad de que se acerquen dentro de un δ al verdadero
valor, es decir midiendo P . Pero la elección de θ^ @ θL
L
L
M
M
M<δd e
δ es arbitrario y preferimos medidas
que no se puedan alterar según las preferencias del investigador.
Por ello, podríamos considerar E , el error absoluto promedioθ^n@θL
L
L
L
M
M
M
M
F G
. Pero sabemos que trabajar
con valores absolutos, presenta retos matemáticos indeseados, y por ello la siguiente se ha
convertido en la medida de precisión generalmente aceptada.
Definición 2.21 El error medio cuadrático (MSE: mean squared error) de un estimador es
MS E θ^b c
=E θ^ @ θb c2F G
Notar que el MSE es una función del verdadero valor del parámetro. Un estimador puede ser
extremadamente bueno para algunos valores del parámetro pero muy malo o pobre para otros.
Página 21 de 60
Ejemplo 2.14 Considerar el estimador θ^ = 5 de un parámetro desconocido θ . El MSE es ,
que es muy pequeño cuando θ es cercano a 5, pero se vuelve malo para otros valores. Por
supuesto que este estimador es tanto sesgado como inconsistente.
5@ θ` a2
Un resultado que surge directamente de las varias definiciones es
MS E θ θ^b c
= E θ^ @E θ^b c
+ E θ^b c
@ θD E2X
\
Z
Y
]
[
MS E θ θ^b c
=Var θ^b c
+ bθ θ^b c
D E2
Si restringimos nuestra atención solamente a los estimadores insesgados, el mejor de ellos puede
definirse de la siguiente manera.
Definición 2.22 Un estimador θ^ se denomina estimador insesgado de varianza mínima uniforme6
si es 1) insesgado y 2) para todo valor de θ no existe otro estimador insesgado que tenga menor
varianza.
Es por el hecho de que estamos buscando solo estimadores insesgados, que hubiera sido igualmente
efectivo haber hecho la definición en términos del Error Cuadrático Medio (MSE). Podríamos
también generalizar la definición, buscando estimadores que sean los uniformemente mejores7
respecto del MSE, pero el ejemplo anterior indica por qué esto no es posible.
Existen algunos teoremas que son de utilidad para determinar los UMVUEs (estimadores
insesgados de mínima varianza). Sin embargo, dichos estimadores son difíciles de obtener. Por otro
lado, todavía sigue siendo útil el criterio a los efectos de comparar dos estimadores alternativos.
Ejemplo 2.15
En el ejemplo 2.12 se demostró que tanto la media como la mediana muestrales eran insesgadas
para una distribución uniforme. ¿Cuál tiene el error cuadrático medio más chico para un tamaño
de muestra de 11?
Para la media muestral, el MSE es la varianza, que es
112fffffffff
nffffffff= 1
12 A 11fffffffffffffffffff= 1
132fffffffffff .
Para la mediana muestral, el MSE= 726fffffff@
14ffff= 1
52fffffff
(usando los cálculos del ejemplo 2.13 con m=5) y por lo tanto la media muestral es preferible (en
este caso)
6 UMVUE: uniformly minimum variance unbiased estimator 7 uniformly best
Página 22 de 60
Todo el material discutido hasta este punto entra dentro del título de lo conocido como estadística
“clásica” o “frecuencialista”. Algunas de las suposiciones de este enfoque son que 1) la población
existe, 2) el parámetro es un valor fijo que resulta ser desconocido y 3) que el analista no conoce
más que lo que le es revelado a través de una muestra de números extraídos de la población. Las
inferencias se realizan haciendo más supuestos entorno a la naturaleza del proceso de muestreo y/o
la población, y luego las leyes de probabilidad son aplicadas.
Existe un enfoque alternativo del proceso de estimación conocido como “Bayesiano”. Este enfoque
asume que tenemos ya una idea de cómo podría ser el parámetro y que esta idea puede expresarse
como una distribución de probabilidad, y que los datos son fijos sin números adicionales que valga
la pena considerar.8 De nuevo, se pueden aplicar las leyes de probabilidad. Los detalles de este
proceso se retoman en la Sección 2.8.
2.4 Estimación Paramétrica (pág. 45)
Hasta el momento la estimación empírica parece ser bastante buena. Sin embargo, tiene un
número importante de desventajas, que van a ser ejemplificadas luego en este capítulo. Eso
significa que necesitamos algo mejor.
Tal aproximación es la que se conoce como estimación paramétrica. Existen otras, pero salvo una
breve introducción en la sección 2.11 no serán presentadas.
2.4.1 Definición
Antes habíamos obtenido cantidades de una población (o su distribución) que describía varias de
sus características. Existen ciertos casos en los que el proceso puede revertirse.
Definición 2.23 Una familia paramétrica de distribuciones es una colección de funciones donde la
identidad de un determinado miembro está indexado por un número finito de variables llamadas
parámetros ( θ ). Más formalmente, la familia es 1 ,θ2 ,…,θk
F x ;θb c
;θ2ΘT U
donde θ es un escalar o un vector y Θ es el conjunto de todos los posibles valores de θ .
Además, la variable aleatoria X puede ser multivariada y por lo tanto x puede ser también un
vector.
Si es verdad que la distribución poblacional es un miembro de la familia paramétrica, es
suficiente con ser capaces de obtener el valor de θ para determinar la distribución. Luego de ello,
cualquier cantidad de interés puede ser determinada.
La estimación paramétrica puede ser reducida a cuatro pasos:
1. Determinar la familia paramétrica que describe a la población
2. Determinar el valor de los parámetros
3. Determinar el valor de la cantidad que nos es de interés
8 “the data are fixed with no further numbers worthy of consideration”
Página 23 de 60
4. Evaluar la precisión del valor hallado en (3)
2.4.2 Métodos basados en la igualación de cantidades poblacionales y muestrales
Los métodos de estimación de parámetros caen dentro de dos categorías. Una es encontrar un
sistema de ecuaciones donde el número de ecuaciones iguale al número de parámetros. Esperamos
que entonces exista exactamente una solución posible a las ecuaciones, la cual se convierte en el
estimador. Las ecuaciones se eligen de modo que ciertas características que deseamos que sean
ciertas efectivamente lo sean. El otro conjunto de métodos optimiza cierto criterio relevante, según
nuestros propósitos.
Hay dos métodos populares en la primera categoría: 1) el método de los momentos e 2) igualación
de percentiles. El método de momentos se basa en asegurarnos de que el modelo paramétrico tenga
los mismos momentos que el modelo empírico.
Definición 2.24 Si una familia paramétrica tiene r parámetros, las ecuaciones de momentos son:
Página 24 de 60
μj . =1nffffX
=
n
xij j = 1,…,,r (Igualación de momentos absolutos entorno al origen)
i 1
donde μj . =E X j |θB C
es una función del vector de parámetros desconocido θ . El estimador por el
método de los momentos es la solución a estas ecuaciones.
Ejemplo 2.16 (datos individuales)
Determinar los valores estimados por el método de los momentos para las distribuciones
Exponencial, Gamma y Pareto. Para cada caso, estimar la media, el desvío estándar y la
probabilidad de que el monto de un siniestro individual supere los $500.
Exponencial
Para la distribución exponencial, la ecuación es θ=335.5 entonces θ^ = 335.5. La media es θ que
es estimada por medio de 335.5, el desvío estándar es también θ y el estimado es 335.5.
Pr X>500` a
=e@500θfffffffffffffff
=e@500
335.5fffffffffffffffffffffff
= 0.22530
Gamma
Para la distribución Gamma
αθ = 335.5α α + 1` a
θ2 = 293068.3
Las soluciones son α , θ=538.03 ^ = 0.62357 ^
La media es αθ que se estima con (0.62357)(538.03)=335.5
El desvío estándar es α12fffffθ que se estima con 424.86
Pr X>500` a
= 1@Γ α,500θffffffffffff g
que se estima con 0.22593
Pareto
Para la distribución de Pareto
θα @ 1ffffffffffffffffff= 335.5
2θ2
α @ 1` a
α @ 2` a
fffffffffffffffffffffffffffffffffffffffffffffff= 293068.3
X
^
^
^
^
^
^
\
^
^
^
^
^
^
Z
Las soluciones son α y θ ^ = 5.3131 ^ = 1447.1
La media es θ
α @ 1ffffffffffffffffff, que se estima con 335.5
El desvío estándar es θ α
12ffff
α @ 1` a
α @ 2` a
12ffff
ffffffffffffffffffffffffffffffffffffffffffffffffff que se estima con 424.88
Pr X>500` a
=θ
500 + θ` aαfffffffffffffffffffffffffffffffff que se estima con 0.20663
Debería notarse que para los ejemplos de las distribuciones Gamma y Pareto, el método de
momentos arroja estimadores que coinciden con los estimadores empíricos.
Esto debería quedar claro de la definición del método de momentos. Para el caso de la
exponencial, con un solo parámetro, solo la media coincide. Como recordatorio, el estimador
empírico de Pr(X>500)=0.2
El segundo método conocido es el denominado Igualación de Percentiles. Acá los percentiles de
una muestra y los del modelo son forzados a ser iguales en r puntos seleccionados arbitrariamente.
Las ecuaciones son: p j = F πp j;θ
d e
j = 1,…, r
Ejemplo 2.17 Estimar los parámetros utilizando igualación de percentiles para las distribuciones
exponencial y Pareto. Usar el percentil 70 para la exponencial y los percentiles 40 y 70 para la
distribución de Pareto.
Los percentiles son π0.7 = 0.3 317
` a
+ 0.7 351` a
= 340.8
π0.4 = 0.6 107` a
+ 0.4 141` a
= 120.6
Para la distribución exponencial
Página 25 de 60
0.7 = 1@ exp @340,8θ
f fffffffffffffffffg[θ^ = 283.06
Para la distribución Pareto
^
^
^
\
0.7 = 1@θ
θ + 340.8ffffffffffffffffffffffffffffffF G
α
1` a
0.4 = 1@θ
θ + 120.6ffffffffffffffffffffffffffffffF G
α
2` a
X
^
^
^
^
^
^
^
^
^
^
^
^
^
^
^
Z
de (2): α =ln 0.6` a
ln θθ + 120.6fffffffffffffffffffffffffffffffffff
d e
fffffffffffffffffffffffffffffffffffffffffff
en (1): ln 0.3` a
=ln 0.6` a
ln θθ + 120.6fffffffffffffffffffffffffffffffffff
d e
fffffffffffffffffffffffffffffffffffffffffffln θθ + 340.8fffffffffffffffffffffffffffffff g
Se usa un método iterativo como ser bisección o Newton Raspón para obtener la solución
, α θ^ = 424.5 ^ = 2.0428
2.4.4 Estimadores basados en optimización
El mayor problema de los estimadores basados en ecuaciones es su incapacidad de ajustar bien en
TODO el rango de valores observados, concentrándose en cambio en coincidir en unas pocas
características elegidas. Para poder ajustar bien a lo largo, debemos dejar de insistir en hacer que
el modelo empírico y teórico, es decir, sus distribuciones, coincidan exactamente en algún aspecto.
En cambio, pedimos que estén “cerca” de alguna manera medible. Veremos tres formas de hacerlo.
Uno de ellos entra dentro de la categoría que lleva el nombre de mínima distancia y relaciona a los
datos y al modelo en lugares específicos. El segundo método no tiene un nombre reconocido, y
requiere el agrupamiento de los datos en intervalos, y luego compara determinada característica
del modelo con los datos en cada intervalo. El tercer método es máxima verosimilitud.
Todos estos métodos requieren la habilidad para maximizar o minimizar funciones de una o más
variables. En la mayoría de las aplicaciones, la técnica de cálculo de igualar todas las derivadas a
cero y resolver el sistema de ecuaciones, va a ser bastante difícil de aplicar.
Muchos algoritmos numéricos han sido diseñados para hallar el óptimo de funciones. La mayoría
de los textos de análisis numérico provee una introducción. Y numerosos algoritmos para
implementarlos se pueden encontrar en el “Numerical Recipes Series” (serie de recetas numéricas).
Asimismo, los programas de planilla de cálculo (spreadsheet programs) incluyen una herramienta
de optimización.
Finalmente, como una herramienta multiuso recomendamos el método simples. Una explicación
detallada de algoritmos puede encontrarse en “Sequential Simples Optimization” [123], y se
facilitan programas en [103]. El algoritmo es descrito en al Apéndice C. La mayor ventaja es que
no se requiere el cálculo de las derivadas. Sin embargo, la convergencia es lenta.
Independientemente del método usado, recomendamos fuertemente que se verifique la solución
propuesta, evaluando a la función en puntos cercanos y constatar que se trata de un máximo o de
un mínimo.
Muchos programas anuncian “éxito” cuando en realidad no se llegó al punto óptimo. Finalmente,
advertimos que cualquier rutina numérica es capaz de determinar óptimos locales. Es imposible
saber con certeza si no existe un valor superior, a una distancia alejada de la solución propuesta.
La siguiente definición del estimador general de distancia mínima fue sacado de Klugman y Parsa
[77].
Página 26 de 60
Definición 2.25 Para cierta familia paramétrica, sea F(x; θ) la función de distribución acumulada
y sea G(x; θ ) una función de x unívocamente relacionada con F. Esto es, si conocemos F y θ
podemos obtener G, y si conocemos G y θ podemos obtener F. Sea Gn x` a
la obtenida a partir de
la función de distribución acumulada empírica, de la misma manera. Entonces, si existe el valor de
que minimiza Qθ θ` a
=Xj = 1
k
wj G c j ;θb c
@Gn c j
b c
D E2
se denomina estimador de mínima distancia de θ .
Los valores de c y w son elegidos arbitrariamente1 <c 2 <…<ck 1 ,…,wk ≥ 0 9.
Si se usan datos agrupados, los cj serán los límites de clase (del intervalo). Los valores de los
límites se fijan a propósitos de la estimación. Dos ejemplos específicos de este tipo de estimador
son:
1. Mínima cdf10 (función de distribución acumulada): G x ;θb c
=F x ;θb c
conocido también como el estimador Crámer- von Mises
2. Mínima LEV11 (esperanza límitada): G x ;θb c
=E XV x ;θb c
Este segundo estimador, limita cada término de la suma (2.11) a observaciones en un determinado
intervalo.
Definición 2.26 Sea la partición del rango de posibles valores c donde 0 <c1 <…<ck c 0 es el
mínimo valor posible en el modelo y ck es el máximo valor posible. Sea Gj θ` a
cualquier función
que dependa solo de θ , F c , y para j@ 1 ;θb c
F cj ;θb c c
f x ;θb
cj@ 1 <x<c j . Sea Gj la misma
cantidad asociada a la distribución empírica. Entonces, si existe, el valor de θ que minimiza
Q θ` a
=Xj = 1
k
wj Gj θ` a
@Gj
B C2
se denomina estimador de distancia mínima por intervalo de θ . Los pesos w son 1 ,…,wk ≥ 0
arbitrarios.
Dos ejemplos específicos de este tipo de estimador son los siguientes (pág 54)
1. Mínimo chi cuadrado modificado: G , j θ` a
= n F cj ;θb c
@F cj@ 1 ;θb
D E
c
wj =1
Gj
ffffffff
2. Mínimo LAS12 (Intensidad Media de Tramo): G j θ` a
=E XVcj ;θB C
@E XVc j@ 1 ;θB C
Se le pide en el ejercicio 2.24 verificar que la especificación de mínimo LAS cumple con las
condiciones de la definición.
9 No es obligatorio que el criterio involucre cuadrados. Podríamos haber utilizado el valor absoluto y otra función de
pérdida. Elevar al cuadrado tiene la conocida ventaja de ser matemáticamente maleable. 10 Cumulative distribution function 11 Limited Expected Value (LEV) 12 Layer Average Severity (LAS)
Página 27 de 60
La principal ventaja de estos dos estimadores por sobre sus contrapartes de mínima distancia, es
que los errores son de alguna más independientes. Es decir, si es difícil hacer coincidir a la función
de distribución acumulada en un punto, esa dificultad va a perpetuarse en los argumentos
siguientes al usar el método de mínima distancia.
(Responde a la pregunta: ¿por qué es superior el método de χ2 modificado y mínimo LAS
respecto al estimador Crámer von Mises y mínimo LAS? )
La modificación en el procedimiento basado en el chi cuadrado se refiere al uso del valor empírico
como peso en vez del valor del modelo. (en vez de dividir por el número esperado teórico)
Estos estimadores son especialmente útiles para datos agrupados porque requieren solo de
información empírica en los valores elegidos.
El siguiente ejemplo muestra cómo estos problemas pueden sobrellevarse mediante una planilla de
cálculo.
Ejemplo 2.21 (ejemplo dental, datos agrupados)
Determinar los estimadores de mínima cdf y mínimo chi cuadrado modificado para el parámetro
de una distribución exponencial. Para el mínimo cdf usar pesos de 1. θ
Para el caso de mínimo cdf, la expresión a minimizar es
Q θ` a
= 1@e@25θffffffffff@
30378ffffffffffff g
2
+…+ 1@e@400θfffffffffffffff@
378378ffffffffffff g
2
Usando una rutina de optimización de una planilla de cálculo, produce un estimado θ^ =281.5852.
El resultado está en la tabla 2.6
Para el mínimo chi cuadrado modificado, la cantidad a minimizar es ç
Q θ` a
=378 1@e@
25θffffffff@ 30
b c
D E2
30fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff+…+
378 e@1500θffffffffffffffff@e@
2500θffffffffffffffffb c
@ 11D E2
11fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff+
378e@2500θffffffffffffffff@ 3
B C2
3ffffffffffffffffffffffffffffffffffffffffffffffff
Notar que combinamos los últimos dos grupos (2500 a 4000 y 4000 a 1), porque sin
observaciones por encima de 4000, la contribución del último intervalo a Q estaría indefinida. De
nuevo, usando una planilla de cálculo obtenemos el valor estimado θ^ = 274.7305. El resultado está
en la tabla 2.7.
Los métodos descritos hasta el momento tienen una característica que es tanto una ventaja como
una desventaja. Estos métodos le confieren al analista un amplio margen de libertad, permitiendo
una gran flexibilidad respecto a la función a comparar. Si el analista tiene un avezado
conocimiento del ejercicio de estimación, puede adoptar cierto criterio que le permita a los datos
ajustarse de la manera que más sea conveniente.
Por ejemplo, si el objetivo es cotizar (poner un precio) a un contrato de reaseguro en el que
seremos responsables por el pago de siniestros en el rango de 1 a 5 millones de dólares, entonces el
método de mínimo LAS con la mayor parte del peso en los intervalos que se extienden en el rango
Página 28 de 60
clave, parecería ser la mejor opción. Por otro lado, tal flexibilidad permite al inescrupuloso o tal
vez mal informado analista, obtener resultados que no son apropiados.
El último método que va a ser presentado en esta sección no deja lugar a decisiones arbitrarias.
Más aún, es el mejor método, desde el punto de vista de sus propiedades estadísticas. Es la
llamada Estimación Máximo Verosímil (MV)13; el proceso, el estimador, y el estimado están todos
identificados por la abreviatura MLE. La filosofía es bien simple. Sea la función de verosimilitud la
probabilidad de haber observado lo que se observó, dado un valor hipotético del parámetro. El
estimador más razonable del verdadero parámetro es aquel le corresponde la más alta probabilidad
de haber obtenido lo que efectivamente se obtuvo. Suponiendo independencia de las observaciones
tenemos la siguiente definición.
Definición 2.27
La función de verosimilitud para un conjunto n de observaciones independientes es
L θ` a
=Yj = 1
n
Lj θ` a
donde Lj θ` a
es la contribución de la j-ésima observación a la verosimilitud. Si la j-ésima
observación es un evento con probabilidad positiva (tal como la de una distribución discreta o de
un intervalo), entonces la contribución es esa probabilidad. Si la j-ésima observación es un valor
que proviene de una distribución continua, la contribución es la función de densidad de
probabilidad en ese valor.
Dos casos en donde es fácil escribir la función de verosimilitud
1. Datos Individuales: L θ` a
=Yj = 1
n
f x j ;θb c
2. Datos Agrupados: L θ` a
=Yj = 1
k
F c j ;θb c
@F cj@ 1 ;θb c
D En j
Notar que si existe un límite de la póliza de u, la contribución de un siniestro que excede al límite
(tal que el monto pagado asciende a u) es 1 y no . Esto es porque la distribución
subyacente es de siniestros, y no de montos pagados. Cuando se paga u, todo lo que se sabe del
siniestro es que estuvo por encima del límite.
@F u ;θb c c
f u ;θb
No hay garantía de que la función de verosimilitud tenga un máximo. Es decir, L θ` a
podría
crecer a medida que θ se acerca a un límite como ser cero o infinito. Además, existe la posibilidad
de máximos locales. Para la mayoría de los casos no será posible realizar la maximización a través
de herramientas analíticas, y en tal caso se usarán métodos numéricos.
Los estimadores máximo verosímiles poseen un número de propiedades que en conjunto no las
comparte con ningún otro estimador paramétrico. Entre ellas están las siguientes:
13 Maximum Likelihood Estimation (MLE)
Página 29 de 60
1. Son asintóticamente insesgados limnQ1
bθ θ^n
b c
= 0
2. De entre los estimadores que tienen distribución normal, son los que tienen menor varianza
asintótica
3. El estimador MV de una función de un parámetro es la misma función del estimador MV del
parámetro. Es decir, el estimador MV es invariante frente a la transformación de un parámetro
g θ` a
= g θ^b c
4. Se puede obtener la expresión explícita de la varianza asintótica.
El tercer punto significa que de cualquier forma en la que parametricemos a la función, siempre
obtendremos la misma respuesta a la hora de estimar una cantidad de interés.
El punto 4 significa que siempre podremos aproximar la varianza del estimador (bajo la condición
de que la verdadera distribución sea un miembro de la familia paramétrica elegida)
Ejemplo 2.22 (Ejemplo dental, datos individuales)
Hallar los estimadores por el método de los momentos y por Máxima Verosimilitud de los
parámetros de una distribución Lognormal. Úselos para estimar la media de la población
lognormal. Realice un estudio de simulación para ver cuál estimador es superior cuando la
población es lognormal con μ = y σ=1 5
Por método de los momentos
Si la meta u objetivo fuera simplemente estimar la media, sabríamos si las fórmulas que el
estimador por momentos es la media muestral. Con respecto a los estimados de los parámetros, las
ecuaciones de momentos son:
335.5 = exp μ +
12fffσ2
f g
293068.3 = exp 2μ + 2σ2b c
μ +
12fffσ2 = ln335.5
μ + σ 2 =12fffln293068.3
[ σ2 = 2
12fffln293068.3@ ln335.5F G
= 0.956917053
μ =12fffln293068.3@ 0.956917053
μ=5.33716 y σ=0.97822 , ^ ^
con lo que el valor estimado de la media es exp 5.33716 +12fff0.97822` a2
f g
= 335.5
Por método de MV
La función de verosimilitud de la función es:
L μ,σ` a
=Yj = 1
10 1x j σ 2πpwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffffffffffffffffffffexp @
logx j@μb c2
2σ2fffffffffffffffffffffffffffffffffffff
H
L
J
I
M
K
El logaritmo de la función de verosimilitud y sus derivadas parciales son
l μ,σ` a
=@Xj = 1
10
logx j@ 10logσ@102ffffffff g
log2π @Xj = 1
10 logx j@μb c2
2σ2fffffffffffffffffffffffffffffffffffff
Página 30 de 60
∂l∂μfffffffff=X
j = 1
10 logx j@μ
σ2ffffffffffffffffffffffffffff
∂l∂σfffffffff=@ 10
σfffffff+X
j = 1
10 logx j@μb c2
σ3fffffffffffffffffffffffffffffffffffff
Igualando las derivadas parciales a cero se obtienen los valores estimados MV
μ =110fffffffX
j = 1
10
logx j
σ =110fffffffX
j = 1
10
logxj@ μ
d e2vuutwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
En este ejemplo los valores estimados son μ=5.07491 y σ=1.30055. Usted debería notar que
estos números difieren de los presentados en el ejemplo 1.4
Los diez números eran los montos pagados con un deducible de 50. El modelo encontrado en ese
ejemplo anterior era para el siniestro en sí. En este ejemplo, estamos encontrando un modelo para
el monto pagado. El valor estimado de la media es exp 5.07491 +12fff1.30055` a2
f g
= 372.65
Los resultados de la simulación se presentan en la tabla 2.8 basada en 1000 muestras de tamaño
10. Mientras que por un lado, existe cierto sesgo para este tamaño muestral (el verdadero valor de
la media es ex , el estimador de máxima verosimilitud es claramente superior con
respecto a la varianza y al error medio cuadrático.)
p 5.5` a
= 244.69
Tabla 2.8
Método media varianza MSE
Momentos 245.14 10430.45 10430.65
MV 248.85 8849.95 8867.21
2.5.1 Varianza de los estimadores MV (pág. 62)
La clave es un teorema presente en la mayoría de los libros de estadística matemática. La versión
particular citada aquí y su generalización multiparamétrica está sacada de Rohatgi [109,p.384] y se
enuncia sin demostración.
Recordar que L θ` a
es la función de verosimilitud y que l θ` a
es su logaritmo. Todos los resultados
asumen que la población tiene una distribución que es un miembro de la familia paramétrica
elegida.
Teorema 2.2
Asumir que la función de probabilidad satisface lo siguiente (para θ en un intervalo
conteniendo el verdadero valor, y reemplace a las integrales por sumas para variables discretas).
f x ;θb c
c
1. lo es tres veces diferenciable respecto a g f x ;θb
θ
2. Z ∂∂θfffffffff x ;θb c
dx = 0 Esto permite poder sacar la derivada afuera de la integral y por eso
estamos derivando a la constante 1
Página 31 de 60
// Z ∂∂θfffffffff x ;θb c
dx =ddθfffffffZ f x ;θ
b c
dxV W
=ddθfffffff1` a= 0
3. Z ∂ 2
∂θ2fffffffffff x ;θ
b c
dx = 0 Es el mismo concepto para la derivada segunda
//Z ∂ 2
∂θ2fffffffffff x ;θ
b c
dx =ddθfffffff Z ∂
∂θfffffffff x ;θb c
dx{~~~~~~~~~~~ }~~~~~~~~~~~y
constante
X
^
^
\
^
^
Z
Y
^
^
]
^
^
[
= 0
4. @1<Z f x ;θb c ∂ 2
∂θ2fffffffffflog f x ;θ
b c
dx<0
Esto indica que la integral indicada existe y que en el punto donde la derivada se hace cero, se
obtiene un máximo
5. Existe una función H(x) tal que Z con H x` a
f x ;θb c
dx<1∂ 3
∂θ3fffffffffflog f x ;θ
b c
L
L
L
L
L
L
M
M
M
M
M
M
<H x` a
. Esto asegura
que la población no sea demasiado extraña con respecto a los valores extremos.
Entonces se cumplen los siguientes resultados
(A) A medida que nQ1, la probabilidad de que la ecuación de verosimilitud ( L. θ` a
= 0 )
tenga solución se acerca a uno
(B) A medida que nQ1, la distribución del estimador por máxima verosimilitud θ^n
converge a una distribución normal con media θ y varianza tal que I θ` a
Var θ^n
b c
Q 1
Donde
I θ` a
=@nE∂ 2
∂θ2fffffffffflog f x ;θ
b c
H
J
I
K=@nZ f x ;θb c ∂ 2
∂θ2fffffffffflog f x ;θ
b c
dx
= n E∂∂θfffffffflog f x ;θ
b c
f g
2H
L
J
I
M
K= nZ f x ;θb c ∂
∂θfffffffflog f x ;θ
b c
f g
2
dx
Para cualquier z, lo último puede interpretarse como que
limnQ1
Prθ^ @ θ
I θ` a
B C@12ffff
fffffffffffffffffffffffff<z
X
^
^
^
\
^
^
^
Z
Y
^
^
^
]
^
^
^
[
= Φ z` a
y por lo tanto I θ` a
B C@12fffff
es una aproximación útil de Var θ^n
b c
A la cantidad I θ` a
se le da el nombre de información (a veces más específicamente, información
de Fisher).
De este resultado surge inmediatamente que el estimador máximo verosímil (MV) es
asintóticamente insesgado y consistente.
Página 32 de 60
Las condiciones (i) a (iv) suelen ser consideradas como condiciones de regularidad. Un escéptico
podría traducir esta afirmación como “condiciones que casi siempre son verdaderas pero de difícil
comprobación, así que asumamos que se cumplen en nuestro caso”.
El propósito de las condiciones es garantizar que la función de densidad es lo suficientemente
suave respecto a cambios en el parámetro y que no existe nada inusual acerca de la densidad en sí
misma.
Los enunciados arriba asumen que la muestra consiste en observaciones independientes e
idénticamente distribuidas.
Una versión más general del resultado, utiliza el logaritmo de la función de verosimilitud
I θ` a
=@E∂ 2
∂θ2ffffffffffl θ` aH
J
I
K=E∂∂θffffffffl θ` a
f g
2H
L
J
I
M
K
Un caso intermedio es aquel en el que si bien las observaciones son independientes, no son
idénticas. En este caso, sea Lj θ` a
la contribución de la j-ésima observación a la función de
verosimilitud y sea l j θ` a
=Xj = 1
n
l j θ` a
el logaritmo de la función de verosimilitud, entonces
I θ` a
=@E∂ 2
∂θ2ffffffffffl θ` aH
J
I
K=E∂∂θffffffffX
j = 1
n
l j θ` a
h
j
i
k
2H
L
L
J
I
M
M
K
Si hay más de un parámetro, el único cambio es que el vector de estimadores máximo verosímiles
(MV) ahora tiene una distribución asintótica normal multivariada. La matriz de covarianza de
esta distribución se obtiene de la inversa de la matriz de rs elementos.
Para cualquier variable aleatoria multidimensional o multivariada, con respecto a la matriz de
covarianza, la varianza de cada variable aleatoria individual se ubica en los elementos de la
diagonal principal, y las covarianzas por afuera de la diagonal.
I θ` a
rs=@E
∂ 2
∂θs ∂θr
ffffffffffffffffffffffl θ` aH
J
I
K=@n E∂ 2
∂θs ∂θr
fffffffffffffffffffffflog f x ;θb c
H
J
I
K
I θ` a
rs= E
∂∂θr
ffffffffffl θ` a ∂∂θs
ffffffffffl θ` aF G
= nE∂∂θr
fffffffffflog f x ;θb c ∂
∂θs
fffffffffflog f x ;θb c
F G
La primera expresión en cada línea es siempre correcta. La segunda expresión asume que la
verosimilitud es el producto de las n funciones de probabilidad idénticas
Cuando las observaciones son independientes pero no tienen distribuciones idénticas
I θ` a
rs=@X
j = 1
n
E∂ 2
∂θs ∂θr
ffffffffffffffffffffffl j θ` a
H
J
I
K
A esta matriz generalmente se la denomina matriz de información.
Página 33 de 60
Ésta debería parecer familiar en la medida en que es la misma matriz que fue utilizada para el
método de scoring (recordar que (2.13) está basada en E∂ 2
∂θs ∂θr
ffffffffffffffffffffffl θ` aH
J
I
K ). La única diferencia es
que el verdadero valor de la varianza asintótica requiere de los verdaderos valores de los
parámetros, mientras que el método scoring los reemplaza por los estimadores MV. Como nunca
sabremos los verdaderos valores, esto es lo más cercano a lo que haremos para evaluar la varianza
de nuestro estimador.
La matriz de información también constituye la cota inferior de Rao- Crámer (ver por ejemplo,
Hogg y Craig [65, pp. 370-373]). Esto es, bajo las condiciones usuales, ningún estimador insesgado
tiene una varianza más chica que la del correspondiente elemento en la diagonal principal de la
inversa de la matriz de información. Por lo tanto, al menos asintóticamente, ningún estimador
insesgado es más preciso que el estimador MV.
Ejemplo 2.24 (ejemplo dental, datos individuales)
Estimar la matriz de covarianza del estimador de máxima verosimilitud para una distribución
lognormal.
Las primeras derivadas parciales fueron obtenidas en el ejemplo 2.22
∂l∂μfffffffff=X
j = 1
10 logx j@μ
σ2ffffffffffffffffffffffffffff ; ∂l
∂σfffffffff=@ 10
σfffffff+X
j = 1
10 logxj@μ
b c2
σ 3fffffffffffffffffffffffffffffffffffff
Las derivadas parciales segundas son:
∂ 2 l∂μ2fffffffffff=@ 10
σ 2fffffff ; ∂ 2 l
∂σ∂μffffffffffffffffff=@ 2X
j = 1
10 logx j@μb c
σ3ffffffffffffffffffffffffffffffffff ; ∂
2 l∂σ2fffffffffff= 10
σ2fffffff@ 3X
j = 1
10 logx j@μb c2
σ4fffffffffffffffffffffffffffffffffffff
Los valores esperados son, teniendo en cuenta que logX se distribuye como una normal con
parámetros μ (media) y σ (desvío estándar)
E∂ 2 l∂μ2fffffffffffH
J
I
K=@10σ2fffffff ; E ∂ 2 l
∂σ∂μffffffffffffffffffH
J
I
K= 0 ; E∂ 2 l∂σ2fffffffffffF G
=@20σ2fffffff
Cambiando los signos e invirtiendo, obtenemos la matriz de covarianza. En realidad, este es un
estimado, porque el teorema 2.22 solo provee la expresión de la matriz de covarianza en el límite.
En este caso es
σ2
10fffffff 0
0σ2
20fffffff
H
L
L
L
L
L
J
I
M
M
M
M
M
K
Ahora aproximaremos la matriz de covarianza reemplazando por el valor estimado de σmediante
el método MV, calculado en el ejemplo 2.22
0.16914 00 0.084572
F G
Página 34 de 60
Los ceros afuera de la diagonal indican que los valores estimados de los dos parámetros están
asintóticamente incorrelacionados. Para el caso particular de la distribución lognormal, esto
también es cierto para cualquier tamaño de la muestra.
Algo que podríamos hacer con esta información es construir un intervalo de confianza aproximado
al 95% para el verdadero valor de los parámetros. Esto sería aplicando 1.96 desvíos estándar a
ambos lados del valor estimado.
μ ; 5.07491F 1.96 0.16914` a
12fffff= 5.07491F 0.80608
σ : 1.30055F 1.96 0.084572` a
12fffff= 1.30055F 0.56999
Si hubiésemos sido capaces de obtener los valores esperados necesarios para obtener la matriz de
información, ya sea por nuestra falta de destreza integrando o por la inexistencia de una
antiderivada analítica, se puede construir una aproximación colocando las derivadas segundas del
logaritmo de la función de verosimilitud directamente adentro de la matriz. Para la distribución
lognormal, usando los valores estimados de los parámetros, resulta ser que los números no
cambian. (A ud. se le pide probar que esto es así en el ejercicio 51). Esto es probable que no se
cumpla en futuros ejemplos y ejercicios (un ejemplo aparece en el ejercicio 2.52). Como última
aproximación, si ni siquiera contamos con las derivadas, podemos aproximar con una fórmula
aproximada de derivación.
Ejemplo 2.25 (continuación del ejemplo 2.24) Aproximar la matriz de covarianza por cada uno de
los métodos menos refinados sugeridos arriba,
Anteriormente a sacar los valores esperados, los elementos de la matriz de información son:
∂ 2 l∂μ2fffffffffff=@ 10
σ2fffffff=@ 5.91216
∂ 2 l∂σ∂μffffffffffffffffff=@ 2X
j = 1
10 logx j@ μd e
σ3
ffffffffffffffffffffffffffffffffffff= 0
∂ 2 l∂σ2fffffffffff= 10
σ2fffffff@ 3X
j = 1
10 logx j@ μd e2
σ4
fffffffffffffffffffffffffffffffffffffff=@ 11.82431
Cambiando el signo e invirtiendo la matriz dan los mismos valores que los obtenidos usando el
valor esperado.
2.5.2 Funciones de Estimadores MV (pág 67)
Sin el siguiente teorema, todo este trabajo habría sido de poco valor. Esto es porque no estamos
típicamente interesados en los parámetros en sí mismos, más bien, estamos interesados en una
función de los parámetros. El siguiente teorema está sacado de Rao [104, p.321]
Página 35 de 60
Teorema 2.3
Sea X una variable aleatoria multidimensional de dimensión k basado en una n = X1n ,…,Xkn
b
.c
muestra de tamaño n. Suponiendo que Xn es asintóticamente normal con media θ y matriz de
covarianza Σ/n, donde ni θ ni Σ dependen de n. Sea g una función de k variables totalmente
diferenciable. Sea G . Entonces n = g X1n ,…b c
,Xkn Gn es asintóticamente normal con media g θ` a
y
matriz de covarianza , donde ∂gb c
. Σ ∂gb c
∂g es el vector de derivadas parciales primeras
(gradiente), es decir, ∂gb c
. =∂g∂θ1
ffffffffff,…,∂g∂θk
fffffffffff g
y evaluada en θ , el verdadero valor del parámetro de
la variable aleatoria original.
Este es un caso específico de aproximación de los momentos de funciones de variables aleatorias.
El método general se denomina Método Delta (Delta Method). Para nuestros propósitos, Xn es el
vector de estimadores máximo verosímiles de los parámetros y θ es el verdadero valor. Como de
costumbre, aproximamos el resultado reemplazando con los valores estimados de los parámetros.
Ejemplo 2.26 (Ejemplo dental, datos individuales)
Aproxime la varianza de un estimador MV de la media, usando la distribución lognormal.
Compare esto con la varianza del método de los momentos.
La función en cuestión es g μ,σ` a
= exp μ +12fffσ2
f g
∂g∂μfffffffff= exp μ +
12fffσ2
f g
H
J
I
K
μ = 5.07491
σ = 1.30055
= 372.64
∂g∂σfffffffff= σexp μ +
12fffσ2
f g
H
J
I
K
μ = 5.07491
σ = 1.30055
= 484.64
La varianza aproximada del estimador es
371.64 484.64@ A 0.16914 0
0 0.084572
F G 371.64484.64
F G
= 43351
Un intervalo al 95% de confianza es 372.64F 1.96 43351pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
IC: 372.64F 408.09
El estimador del método de momentos es la media muestral, que tiene varianza Var X
fffffb c
nffffffffffffffffffffffffff. Esta
puede ser estimada como 200564.5
10fffffffffffffffffffffffffffff= 20056.45 usando el estimador insesgado de la varianza.
¿Por qué el estimador del método de los momentos parece ser tan superior?
La respuesta yace en los valores estimados mismos.
El valor estimado de σ por momentos fue 0.97822, mientras que por MV fue de 1.30055. El
estimador MV indica que se trata de una población con una mayor varianza y por lo tanto
cualquier valor estimado sacado de esa población, sería de esperar que tuviera una mayor varianza
Página 36 de 60
muestral. Un test más apropiado consiste en usar a los estimadores MV para evaluar a los
estimadores por momentos. Con esos parámetros la varianza de la población es 614784 y la
varianza de la muestra es 61478.4. De manera similar, si la varianza aproximada de los
estimadores MV fuese evaluada utilizando los estimadores por momentos, la varianza estimada
sería mucho menor.
El intervalo de arriba es un intervalo de confianza para la media de la población. Sería de mayor
interés el valor real o efectivo14 resultante de los siniestros el año próximo.
Ejemplo 2.27 (continuación ejemplo 2.26)
Suponer que conocemos que habrá 100 siniestros el año que viene. Determinar un intervalo de
predicción al 95% para el pago total.
Sea S , donde X es el monto del i-ésimo siniestro. Entonces E(S)=100E(X) es
estimada por 100(372.64)=37264.
=X1 +…+X100 i
El error cuadrático de este estimado está dado por
E S @ 100exp μ +12fffσ 2
f g
h
j
i
k
2H
L
L
J
I
M
M
K
=E S@ 100e μ +12fffffσ2
d e
+ 100eμ +12fffffσ2
@e μ +12fffffσ2
d e
F G
2X
^
\
^
Z
Y
^
]
^
[
= E S @ 100eμ +12fffffσ2
d e2H
J
I
K+ 10000 E eμ +12fffffσ2
@e μ +12fffffσ2
d e2H
J
I
K+ 200E S@ 100eμ +12fffffσ2
d e
e μ +12fffffσ2
@e μ +12fffffσ2
d e
F G
= Var S` a
+ 10000Var e μ +12fffffσ2
d e
=100Var(X)+10000(43351)
= 100 e 2μ + 2σ2
@e 2μ + σ2b c
+ 10000 43351` a
= 61478393 + 433510000 = 494988393
La tercera línea se deduce que se trata del producto de variables independientes, cada una con
valor esperado nulo. Son independientes porque S depende únicamente de las futuras
observaciones, mientras que μ y σ dependen solo de las observaciones pasadas. Con el fin de
evaluar Var(X), se reemplazó por los estimados de los parámetros.
^ ^
Un intervalo al 95% es 37264F 1.96 494988393pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww, es decir IC : 37264F 43607 15
Debemos poner énfasis de nuevo en que si la población es lognormal, el estimador MV de la media
tendrá menor varianza que el estimador por momentos. Las verdaderas varianzas de estos
14 actual value 15 (es una mala “aproximación” o estimación)
Página 37 de 60
estimadores dependen de los verdaderos valores de los parámetros y serían evaluados en
justamente ese conjunto común de valores.16
Ejemplo 2.28 (datos agrupados) Estimar los parámetros para una distribución de Pareto, la matriz
de covarianza aproximada, y construir un intervalo de confianza al 95% para la media de la
población.
Utilizando el método de scoring, los parámetros estimados son α=3.8275 y θ . La matriz
de covarianza aproximada es
^ = 948.52
0.97058 290.01290.01 90384
F G
El valor estimado de la media es θ^
α @ 1ffffffffffffffffff= 948.52
2.8275fffffffffffffffffffff= 335.46
Las derivadas con respecto a α y a θ respectivamente son
g α,θb c
=θ
α @ 1ffffffffffffffffff
[5 g α,θb c
=∂g α,θb c
∂αfffffffffffffffffffffffffff,
∂g α,θb c
∂θfffffffffffffffffffffffffff
h
j
i
k
= @θ
α @ 1` a2ffffffffffffffffffffffffff, 1
α @ 1ffffffffffffffffff
h
j
i
k
∂g∂αffffffffffα,θb c
=@θ
α @ 1` a2ffffffffffffffffffffffffff
∂g∂θffffffffα,θb c
=1
α @ 1ffffffffffffffffff
X
^
^
^
^
^
^
\
^
^
^
^
^
^
Z
Al ser evaluadas en los valores estimados estimados de los parámetros se obtiene
∂g∂αffffffffffα,θ^b c
=@ 118.64 ; ∂g∂θffffffffα,θ^b c
= 0.35367
La varianza aproximada del estimador MV de la media es
Varθ
α @ 1ffffffffffffffffff^
h
j
i
kt∂g α,θ^b c
∂αfffffffffffffffffffffffffff ∂g α,θ^
b c
∂θfffffffffffffffffffffffffff
H
J
I
K
I α,θ^b c
D E@ 1
∂g α,θ^b c
∂αfffffffffffffffffffffffffff
∂g α,θ^b c
∂θfffffffffffffffffffffffffff
H
L
L
L
L
L
L
L
J
I
M
M
M
M
M
M
M
K
Varθ
α @ 1ffffffffffffffffff^
h
j
i
kt @ 118.64 0.35367@ A 0.97058 290.01
290.01 90.384F G @ 118.64
0.35367
F G
= 629.51
y un intervalo de confianza aproximado al 95% es:
IC: 335.46F 1.96 629.51` a
12fffff= 335.46F 49.18
2.6 Ventajas de la estimación paramétrica
Hemos dedicado un gran esfuerzo en descubrir la mecánica de la estimación paramétrica, así como
en determinar métodos para la evaluación de los estimadores. Mientras que por un lado muchos de
los conceptos involucrados en la realización de comparaciones ya ha sido discutida, utilizamos esta
sección para organizar y expandir esas ideas.
2.6.1 Precisión
16 “The true variances of these estimators depend on the true values of the parameters and would be evaluated at the
common set of values” Página 38 de 60
Ya se ha establecido que cuando la población sigue la familia paramétrica elegida, los estimadores
MV son superiores a otros competidores. Es posible que aún cuando la población sea levemente
distinta de la familia elegida, los estimadores MV sigan funcionando bien. Sin embargo, es un gran
riesgo. Si esta fuera la única ventaja de la estimación paramétrica, solo valdría la pena en el caso
en el que tengamos un grado de confianza acerca de la naturaleza de la población. Pero hay
muchas otras razones para elegir estimadores paramétricos. Éstas serán resaltadas en las siguientes
subsecciones.
2.6.2 Se pueden hacer inferencias más allá de la población que generó los datos
El propósito de un modelo actuarial no es solamente representar al pasado, sino también
representar el futuro. El futuro va a diferir del pasado de maneras que no son predecibles (por
ejemplo variables aleatorias del ámbito en donde se producen los siniestros17) y en manera
predecible (por ejemplo, cambios planeados en la estructura de beneficios o en las características
de esos asegurados). Incluso cambios aleatorios pueden ser estimados, como ser la utilización de
una tasa de inflación prevista o pronosticada. Una vez que se estableció la tasa, el cambio ya es
planeado, no aleatorio. Es esencial que nosotros seamos capaces de usar nuestro modelo para
investigar el impacto de cambios planeados, así como efectuar un análisis del tipo “¿qué pasaría
si..?” sobre los posibles cambios aleatorios.
Ejemplo 2.29 (datos individuales)
El conjunto de datos consiste en momentos pagados (por el asegurador) con un deducible de 50.
Estimar el monto pagado esperado por pago18, luego de imponer un 10% de inflación en todos los
siniestros. Intente hacerlo empírica y paramétricamente.
Empíricamente, podemos obtener el nuevo monto pagado a partir de los diez montos pagados
anteriores:
141 [
1.1 141 + 50` a
{~~~~~~ }~~~~~~y
monto total del siniestroes elmonto del siniestroSIN aplicar el deducible
f g
{~~~~~~~~~~~~~~~~~ }~~~~~~~~~~~~~~~~~y
Se ajusta elmonto del stro A por inflación r = 10%
@ 50
{~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ }~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~y
Se aplica el deducible al valor ajustado por inflación
= 160.1
16 1.1(16+50)-50=22.6 [
46 [ 1.1(46+50)-50=55.6
40 [ 1.1(40+50)-50=49.0
351 [ 1.1(351+50)-50=391.1
259 [ 1.1(259+50)-50=289.9
317 [ 1.1(317+50)-50=353.7
1511 [ 1.1(1511+50)-50=1667.1
107 [ 1.1(107+50)-50=122.7
17 “loss producing environment” 18 “Expected amount paid payment per payment”
Página 39 de 60
567[ 1.1(567+50)-50=628.7
Estos números representan lo que se debería pagar luego de aplicada la inflación del 10% sobre los
siniestros.
Podríamos usar la media muestral de 374.05 como nuestro estimador, pero estaríamos
sobreestimando el verdadero valor.
374.05 =160.1 + 22.6 + 55.6 + 49 + 391.1 + 289.9 + 353.7 + 1667.1 + 122.7 + 628.7
10fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff
El valor más bajo posible que podríamos haber registrado por este análisis empírico es
1.1(0+50)-50=5=5
Montos pagados por debajo de 5 provienen de siniestros de entre 45.45-50 (un siniestro de 45.45 al
ser inflada un 10% está justo en el deducible de 50)
Estos datos no aparecen y no pueden aparecer en nuestro de datos. Además la inflación afecta la
frecuencia en este caso; habrá más pagos al ser ahora más fácil exceder el deducible. Es imposible
obtener un estimador empírico.
Estimación paramétrica
Para una solución paramétrica, considerar una distribución exponencial con el parámetro estimado
por el método de los momentos. Para resolver este problema necesitamos que la distribución
exponencial modele el monto del siniestro, no el monto del pago. Si X es la variable aleatoria
monto del siniestro e Y la variable aleatoria monto pagado, entonces para el modelo obtenemos.
E Y` a
= E X@ 50|X>50b c
=Z50
+1
x@ 50` a
f x | X>50b c
dx =Z50
+1
x@ 50` a f x
` a
1@F 50` a
fffffffffffffffffffffffffffffffdx
=Z50
+1
x@ 50` aθ@ 1 e@
xθfffff
e@50θffffffff
fffffffffffffffffffffffffdx =Z50
+1 x@ 50` a
θ@ 1 exp @ x@50θffffffffffffffffffffff
d e
@50θfffffffff
exp @ 50θfffffffff
d e
ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffd x@ 50θfffffffffffffffffffff g
θ =θexp @ 50
θfffffffff
d e
exp @ 50θfffffffff
d e
ffffffffffffffffffffffffffffffffffffffffΓ 2` a
= θ
= θ =Yfffff= 355.5
Con inflación, el monto pagado es 1. y el pago esperado es 1X@ 50|1.1X>50
E 1.1X@ 50|1.1X>50b c
=Z501.1ffffffffffff
+1
1.1x@ 50` a335.5@ 1e
@x
335.5ffffffffffffffffff
d e
d e
335.5ffffffffffffffffff
ffffffffffffffffffffffffffffffffffffffffffffffffffdx
También notar que previamente a la inflación, la probabilidad de que un siniestro produzca un
desembolso de dinero (pago) era
Pr X>50` a
= exp @50
335.5ffffffffffffffffff g
= 0.86154
Luego de la inflación es
Pr 1.1X>50` a
= exp @
501.1fffffffffff
335.5fffffffffffffffff
h
j
i
k
= 0.87329
Página 40 de 60
En la solución paramétrica seguimos una cantidad de pasos determinados. Primero postulamos un
modelo para los siniestros incluyendo a aquellos por debajo de 50. Sin embargo los únicos datos
disponibles eran los montos pagados, Luego usamos el modelo para estudiar el monto pagado bajo
el nuevo escenario. Este será in enfoque estándar y será desarrollado en la sección 2.9
Ejemplo 2.30
Los datos de la Tabla 2.10 representan 217 pagos de responsabilidad civil19 de pólizas con un
límite de 300000. Estimar el cambio porcentual del pago promedio que resulta de (a) un 10% de
inflación y (b) imposición de un deducible de 1000. En ambos casos el límite se mantiene en
300000.
Tabla 2.10 Pago número Promedio Fn x
` a
0-2500 41 1389 0.188940092
2500-7500 48 4661 0.410138248
7500-12500 24 9991 0.520737327
12500-17500 18 15482 0.603686635
17500-22500 15 20232 0.672811059
22500-32500 14 26616 0.737327188
32500-47500 16 40278 0.811059907
47500-67500 12 56414 0.866359447
67500-87500 6 74985 0.894009216
87500-125000 11 106851 0.94470046
125000-225000 5 184735 0.967741935
225000-300000 4 264025 0.986175115
300000- 3 300000 1.000000000
Total 217
Empíricamente, tenemos suficiente información para calcular la media previa a las modificaciones.
Esto es,
X ni ai = 41B1389 + 48B4661 + 24B9991 + 18B15482 + 15B20232 + 14B26616 + 16B40278 +
+ 12B56414 + 6B74985 + 11B106851 + 5B184735 + 4B264025 + 3B300000 = 7301703
xfff=
7301703217fffffffffffffffffffffffffff= 33648
Sin embargo, con un 10% de inflación, es imposible determinar el efecto sobre los 4 pagos que
estaban entre 225000-300000. Algunos de ellos pueden toparse con el límite al ser inflados. Con
respecto al deducible, no sabemos cuántos de los 41 pagos del primer grupo será afectada o la
magnitud del efecto. De nuevo, los métodos empíricos fallan, no se aplican. Sin embargo,
deberíamos darnos cuenta de que si utilizamos al histograma como la función de densidad, los
cálculos se vuelven posibles. (ver ejercicio 2.53)
19 Liability Payments
Página 41 de 60
Para una solución paramétrica consideremos la distribución lognormal con los parámetros
estimados a partir de la igualación de los percentiles 30 y 70. Los percentiles son:
¿ Π ? Tabla: 0.30
Pago número Promedio Fn x` a
0-2500 41 1389 0.188940092
2500-7500 48 4661 0.410138248
Π 0.30 = 2500 +0.3@ 0.188940092
0.410138248@ 0.188940092ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff7500@ 2500
` a
= 5010.416678t 5010
¿ ? Tabla: Π 0.70
Pago número Promedio Fn x` a
17500-22500 15 20232 0.672811059
22500-32500 14 26616 0.737327188
Π 0.70 = 22500 +0.70@ 0.672811059
0.737327188@ 0.672811059ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff32500@ 22500
` a
= 26714.28586t 26714
Las ecuaciones resultan
0.3 = Φlog2010@μ
σffffffffffffffffffffffffffffffffffffffff g
0.7 = Φlog26714@μ
σffffffffffffffffffffffffffffffffffffffffffff g
X
^
^
^
^
^
^
^
^
\
^
^
^
^
^
^
^
^
Z
[ (Tabla ó Excel) @ 0.52440 =
log5010@μσ
fffffffffffffffffffffffffffffffffffffff
0.52440 =log26714@μ
σfffffffffffffffffffffffffffffffffffffffffff
X
^
^
^
^
^
\
^
^
^
^
^
Z
[ σ = 1.595871μ = 9.356065
Hacemos notar que el pago esperado es E X , con un 10% de inflación la
cantidad deseada es
V 300000b c
= 33960.11
E min 1.1X, 300000b c
D E
= E 1.1XV 300000B C
=300000
1.1ffffffffffffffffffffffffffffff= 272727.2727 A A
E 1.1 XV 272727b c
D E
= 1.1 E XV 272727B C
{~~~~~~~~~~~~ }~~~~~~~~~~~~y
33354.59
= 36690.05
El incremento debido a la inflación es 36690.0533960.11fffffffffffffffffffffffffffff
@ 1 = 0.0804 , es decir, un 8.04% de aumento.
Imponer un deducible de 1000 cambia la variable PAGO. Si queremos obtener un pago esperado
por siniestro, la variable aleatoria de interés es:
Y =0 X ≤ 1000X@ 1000 1000<X<300000299000 X ≥ 300000
X
^
\
^
Z
y el valor esperado es
E Y` a
= Z1000
300000
x@ 1000` a
f x` a
dx + 299000 1@F 300000` a
B C
= Z0
300000
x f x` a
dx@ Z0
1000
x f x` a
dx @ 1000 F 300000` a
@F 1000` a
B C
+ 299000 1@F 300000` a
B C
= Z0
300000
x f x` a
dx + 300000 1@F 300000` a
B C
X
^
^
\
^
^
Z
Y
^
^
]
^
^
[
@ Z0
1000
x f x` a
dx + 1000 1@F 1000` a
B C
X
^
^
\
^
^
Z
Y
^
^
]
^
^
[
=E XV 300000B C
@E XV 1000B C
= [email protected] = 32986.48
Página 42 de 60
La reducción debido al deducible es [email protected]= 0.0287, o el 2.87%
Estos ejemplos nos dejan claro que los modelos paramétricos proveen una flexibilidad no presente
en su contraparte empírica. Vemos que el agrupamiento no representa un obstáculo ni tampoco la
imposición de la inflación. El segundo de los ejemplos resalta la utilidad del valor esperado
limitado. El siguiente teorema confirma dicha afirmación.
Teorema 2.5 (pág. 74)
Sea X la variable aleatoria “monto del siniestro”. Con una tasa de inflación “r”, un deducible de
“d”, un límite de “u”, un coaseguro de α , la variable aleatoria “monto pagado (por siniestro)” es:
Y =
0 si X ≤d
1 + rffffffffffffffff
α 1 + r` a
X@ dB C
sid
1 + rffffffffffffffff<X<
u1 + rffffffffffffffff
α u@ d` a
si X ≥u
1 + rffffffffffffffff
X
^
^
^
^
^
^
^
^
^
^
^
\
^
^
^
^
^
^
^
^
^
^
^
Z
Entonces, el monto pagado por siniestro esperado es
E Y` a
= α 1 + r` a
E XV u1 + rffffffffffffffffD E
@E XV d1 + rffffffffffffffffF G
X
\
Z
Y
]
[
Demostración (no es la del libro)
Página 43 de 60
E Y` a
= Z@1
+1
y x` a
f x` a
dx = Z@1
d1 + rffffffffffffffffff
0 A f x` a
dx + Zd
1 + rffffffffffffffffff
u1 + rffffffffffffffffff
α 1 + r` a
x@ dB C
f x` a
dx + Zu
1 + rffffffffffffffffff
+1
α u@ d` a
f x` a
dx
1 + r` a Z
d+
= α
1 rffffffffffffffffff
u1 + rffffffffffffffffff
x f x` a
dx@ α d Zd+1 rffffffffffffffffff
u1 + rffffffffffffffffff
f x` a
dx + α u@ d` a Z
u1 + rffffffffffffffffff
+1
f x` a
dx
1 + r` a Z
0
u1 + rffffffffffffffffff
x f x` a
dx@ Z0
d1 + rffffffffffffffffff
x f x` a
dx
H
L
L
L
J
I
M
M
M
K
@αd Zd
1 + rffffffffffffffffff
u1 + rffffffffffffffffff
f x` a
dx + Zu
1 + rffffffffffffffffff
+1
f x` a
dx
H
L
L
L
L
L
J
I
M
M
M
M
M
K
+ αu Zu
1 + rffffffffffffffffff
+1
f x` a
dx
= α
= α 1 + r` a Z
0
u1 + rffffffffffffffffff
x f x` a
dx@ Z0
d1 + rffffffffffffffffff
x f x` a
dx
H
L
L
L
J
I
M
M
M
K
@αd Zd
1 + rffffffffffffffffff
+1
f x` a
dx + αu Zu
1 + rffffffffffffffffff
+1
f x` a
dx
= α 1 + r` a Z
0
u1 + rffffffffffffffffff
x f x` a
dx@u
1 + rffffffffffffffffZ
u1 + rffffffffffffffffff
+1
f x` a
dx
H
L
L
J
I
M
M
K
@ Z0
d1 + rffffffffffffffffff
x f x` a
dx@d
1 + rffffffffffffffffZ
d1 + rffffffffffffffffff
+1
f x` a
dx
H
L
L
J
I
M
M
K
X
^
^
^
^
\
^
^
^
^
Z
Y
^
^
^
^
]
^
^
^
^
[
= α 1 + r` a
E XV u1 + rffffffffffffffffD E
@E XV d1 + rffffffffffffffffF G
X
\
Z
Y
]
[
Si queríamos el valor esperado del pago por cada pago, necesitamos solo entender que ahora la
variable aleatoria en cuestión es Y / X>d
1 + rffffffffffffffff
Corolario 2.6
Página 44 de 60
El valor esperado del pago por pago es
E Y / X>d
1 + rffffffffffffffffF G
= α 1 + r` a
E XV u1 + rffffffffffffffffff
D E
@E XV d1 + rffffffffffffffffff
D E
1@F d1 + rffffffffffffffffff
d e
fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff ff
Del Teorema 2.5 vemos que la diferencia de LEVs es a veces una cantidad útil. El siguiente
resultado provee de un método alternativo para el cálculo de los LEV del modelo, que puede ser
especialmente útil para obtener diferencias.
Teorema 2.7
si Pr X<0` a
= 0 [ E XV xb c
= Z 0
x
1@F y` a
B C
dy
Demostración (no es la del libro)
E X Integrando por partes V xB C
= Z0
x
u f u` a
du + x 1@F x` a
B C
= uF u` a
B C
u = 0
u = x
@ Z0
x
F u` a
du
X
^
\
^
Z
Y
^
]
^
[
+ x 1@F x` a
B C
= xF x` a
@ 0b c
@ Z0
x
F u` a
du + x@ x F x` a
= x@ Z0
x
F u` a
du = Z0
x
1 du@ Z0
x
F u` a
du = Z0
x
1@F u` a
B C
du
El mismo resultado se cumple para distribuciones discretas y mixtas
Corolario 2.8 E XV ub c
@E XV db c
=Zd
u
1@F y` a
B C
dy
E XV ub c
= Z0
u
1@F t` a
B C
dt ; E XV db c
= Z0
d
1@F t` a
B C
dt
[
E XV ub c
@E XV db c
= Z0
u
1@F t` a
B C
dt@ Z0
d
1@F t` a
B C
dt = Zd
0
1@F t` a
B C
dt + Z0
u
1@F t` a
B C
dt = Zd
u
1@F t` a
B C
dt
El teorema 2.5 nos dice que para la mayoría de las modificaciones el valor esperado limitado es
suficiente. Sin embargo, en la literatura encontrarán que otras dos cantidades se usan a menudo.
Estos son: cociente de eliminación de siniestros (LER20) y el siniestro medio excedente21.
Definición (LER)
El cociente de eliminación de siniestros (LER) para un deducible de d, es la reducción relativa en
el pago esperado dada una imposición de un deducible.
Formalmente, LERX d` a
=E min X,d
b c
D E
E X` a
fffffffffffffffffffffffffffffffffffffffffffff=E XV db c
E X` a
ffffffffffffffffffffffffffffffff
20 Loss Elimination Ratio (LER) 21 Mean Excess Loss
Suponiendo que E(X) y E(X^d) existen
En general, el término “cociente de eliminación de siniestros” (LER) puede referirse a la reducción
en el pago esperado ante cualquier combinación o conjunto de modificaciones.
Una propiedad, si bien interesante, pero que no es necesariamente útil es que el LERX d` a
satisface todas las propiedades de una función de distribución
• LERX d` a
=E XV dB C
z~~~~~ |~~~~~x≥0
E X` a
{~ }~y
>0
ffffffffffffffffffffffffffffffffffffff≥ 0
• LERX 0` a
=E XV 0B C
E X` a
fffffffffffffffffffffffffffff=E min X,0
b c
D E
E X` a
ffffffffffffffffffffffffffffffffffffffffffff= E 0` a
E X` a
ffffffffffffffffff= 0
• limdQ1
LERX d` a
= limdQ1
E XV dB C
E X` a
ffffffffffffffffffffffffffffff=limdQ1
E XV dB C
E X` a
ffffffffffffffffffffffffffffffffffffffffffffff=E X` a
E X` a
ffffffffffffffffff= 1
• dduffffffffLERX u
` a
=dduffffffffE XV u
b c
E X` a
ffffffffffffffffffffffffffffffff= 1E X` a
ffffffffffffffffffdduffffffffZ
0
u
1@F t` a
B C
dt
X
^
\
^
Z
Y
^
]
^
[
=1@F u
` a
z~~~~~ |~~~~~x≥0
E X` a
{~ }~y
>0
ffffffffffffffffffffffffffffffffffffff≥ 0 (Función no decreciente)
En la definición, se notó que los momentos deben existir antes de definir el LER. Es hora de
hablar acerca de la existencia de los momentos cuando E(X) no existe, es porque o bien
limuQ1Z
d
u
x f x` a
dx no converge, o bien porque limdQ 0Z
d
u
x f x` a
dx no converge. Si el segundo límite
existe, todavía E X va a seguir existiendo, aún para las distribuciones de colas pesadas. Pero
si el primer límite existe y el segundo no, tanto E(x) como E(X^x) no va a existir, pero sí sus
diferencias. El concepto de “cola pesada” será discutido o abordado en la siguiente sección.
V xb c
La segunda cantidad que es útil en la descripción del comportamiento de la variable aleatoria
siniestro, respecto a grandes siniestros22. Esto será ampliado en la siguiente sección.
Definición El siniestro medio excedente23 para un deducible de “d” es el valor esperado del
siniestro por encima del deducible, condicionado a que el monto del siniestro superó el deducible.
De lo contrario 2.6 es:
eX d` a
= e d` a
=E X@ d | X>db c
=E X` a
@E XV db c
1@Fx d` a
ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff
Por supuesto que si E(X) es 1 debido a que X tiene una cola pesada, el siniestro medio
excedente también será 1. Si existe algún problema cerca del origen, el numerador puede ser
evaluado como Zd
1
x@ d` a
f x` a
dx
22 “The second quantity is useful in describing the behavior of the loss random variable with regard to large losses”. 23 Mean Excess Loss
Página 45 de 60
Ejemplo 2.31 Determinar el siniestro medio excedente de una distribución de Pareto
Página 46 de 60
f x` a
=αθα
x + θ α + 1ffffffffffffffffffffffffffffff
E X kB C
=θk
` a
ff
k !α @ 1 α @ 2 … α @` a` a
ffffffffffffffffffffffffffffffffffffffffffffffffffk
` a
ffffffffffffffffffffffffffffff
E XV xB C
=
θα @ 1ffffffffffffffffff1@ θ
x + θfffffffffffffffff g
α@ 1H
L
J
I
M
K α ≠ 1
@ θ logθ
x + θfffffffffffffffff g
α = 1
X
^
^
^
^
^
^
^
^
^
^
\
^
^
^
^
^
^
^
^
^
X x` a
= 1@θ
^
Z
Fx + θfffffffffffffffff g
α
[ 1@F X x` a
=θ
x + θfffffffffffffffff g
α
eX d` a
=
θα@1ffffffffffffffffffff@
θα@affffffffffffffffffff1@ θ
d + θffffffffffffffffff
d eα@ 1H
J
I
K
θd + θffffffffffffffffff
d eαffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff=
θα@1ffffffffffffffffffff
d e
θd + θffffffffffffffffff
d eα@ 1
θd + θffffffffffffffffff
d eαfffffffffffffffffffffffffffffffffffffffffffffffffffffffffff=
θα@1ffffffffffffffffffff
θd + θffffffffffffffffffffffffffffffffff= d + θ
α @ 1ffffffffffffffffff
(Suponiendo α ) >1
Notar que la función es una línea recta. El resultado final de la explicación que sigue indica cómo
el momento segundo limitado puede utilizarse para calcular la varianza de un monto de siniestro
modificado.
Teorema 2.9
Sea X una variable aleatoria para el monto del siniestro. Con un deducible de “d”, un límite de
“u”, un coaseguro de α . Si Y representa el monto pagado (por siniestro) entonces
Y =0 X ≤ dα X@ d` a
d<X<u
α u@ d` a
X ≥ u
X
^
^
^
\
^
^
^
Z
Entonces la varianza del monto pagado por siniestro es
Var Y` a
= E Y 2b c
@ E Y` a
B C2
= α 2 E XV ub c2D E
@E XV db c2D E
@ 2d E XV uB C
+ 2d E XV dB C
@ E XV ub c
@E XV db c
D E2X
\
Z
Y
]
[
La varianza del monto pagado pago por pago se obtiene dividiendo el primer término de (2.15) por
1@F X d` a
y el segundo por . Es decir, 1@F X d` a
B 2C
Var Y / X>db c
=E Y 2b c
1@F X d` a
ffffffffffffffffffffffffffffffff@
E Y` a
b c2
1@F X d` a
B C2fffffffffffffffffffffffffffffffffffffff
Ejemplo 2.32 (Continuación, ejemplo 2.30) Estimar la varianza del monto del siniestro con un
deducible de 1000 y un límite de 300000.
Página 47 de 60
c
E
Los dos números que se piden son E X y E X . Para la distribución
lognormal, en general tenemos
V10002B C
V 130000b 2D
E X V xb c2D E
= Z0
xt 2
2πpwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwσtffffffffffffffffffffffffffexp @ 1
2ffflogt@μ
σffffffffffffffffffffffffff g
2H
L
J
I
M
Kdt + x 2 1@Φlogx@μ
σfffffffffffffffffffffffffff g
H
J
I
K
= Z@1
logx@ μσ
ffffffffffffffffffffffffffffffffexp yσ + μ` a
2πpwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwffffffffffffffffffffffffffffffffffffffffexp @ 1
2fffy2
f g
σexp yσ + μ` a
dy + x 2 1@Φlogx@μ
σfffffffffffffffffffffffffff g
H
J
I
K
= exp 2μ + 2σ2b c
Φlogx@μ@ 2σ2
σffffffffffffffffffffffffffffffffffffffffffffffF G
+ x 2 1@Φlogx@μ
σfffffffffffffffffffffffffff g
H
J
I
K
Entonces usando los valores estimados de los parámetros
μ=9.356065 y σ=1.595871 tenemos ^ ^
E X y E X V 1000b c2D E
= 962490 V 300000b c2D E
= 4581050352
Finalmente,
Var Y` a
= 4581050352@ 962490@ 2000 33960.11` a
+ 2000 973.63` a
@ 33960.11@ 973.63` a2 = 3426007039
El cálculo de la función de distribución acumulada o del LEV para muchas distribuciones
involucra integrales que deben ser evaluadas numéricamente. Dos ejemplos específicos surgidos con
anterioridad fueron la beta incompleta, denotada en este texto como β y la gamma,
denotada como integrales Γ α
a ; b ; xb c
; x` a
. Están definidas formalmente en la subsección 2.7.3 y se
discuten con detalle al comienzo del Apéndice A. Estas funciones están disponibles en la mayoría
de las planillas de cálculo y programas estadísticos.
2.6.4 Tests de Hipótesis (pág. 81; ver pág. 126)
Algunas veces nuestras preguntas son del tipo “sí o no” más que la búsqueda de un valor
numérico. Si la pregunta se refiere a los parámetros, podemos plantear un test de hipótesis
estadístico. El test se lleva a cabo obteniendo un estadístico del test y una región crítica. Una de
las grandes ventajas de los estimadores MV es que tenemos acceso al test de cociente de
verosimilitudes. El siguiente teorema está sacado de Rao[104,p.350] y describe el Test.
Teorema 2.10
Sea θ = una variable aleatoria de dimensión r que representa a los parámetros de la
distribución de la población. La hipótesis es que k restricciones de la forma R
θ1 ,…,θr
b c
.
j θ` a
tiene primeras
derivadas parciales continuas. Sea la hipótesis alternativa, que no hay restricciones en los valores
de los parámetros. Sea L la función de verosimilitud, donde x representa a todos los datos
de la muestra aleatoria (
θ; xb c
x = x1 ,…,xn`
.a
) . Los estimadores MV restringidos de θ son aquellos
que maximizan a la función de verosimilitud con k restricciones, los cuales se denotan con θ*.
Sean θ los estimadores MV no restringidos. Finalmente, el estadístico del test de cociente de
verosimilitudes se define como
^
LRT = 2 logL θ^; xb c
@ logL θ* ; xb c
D E
~χk2
Entonces, suponiendo que se cumplen las condiciones (i) a (iv) del Teorema 2.2, a medida que el
tamaño de la muestra se acerca a infinito, el estadístico del test, bajo el supuesto de que la
hipótesis nula es verdadera, se comporta como una distribución χ2 con k grados de libertad.
2.9 Selección y Validación de Modelos (pág. 115)
Hasta este momento nuestra búsqueda de un modelo paramétrico nos ha permitido postular
demasiados modelos. Disponemos de una gran cantidad de distribuciones de las cuales elegir, y
una variedad enorme de maneras de estimar los parámetros. Lo que necesitamos ahora es un
método para acotar y seleccionar un único modelo y un solo valor estimado del parámetro(s). Con
respecto a la selección del modelo, existen dos enfoques. El primero es un enfoque mecánico del
tipo “sí o no”. Para cada modelo propuesto, la decisión a tomar consiste en aceptar o no aceptar el
modelo. Cualquier modelo aceptable, luego puede ser usado, con algún otro criterio no estadístico
para guiar la decisión. La Principal desventaja es que existen demasiados modelos no aceptables, o
demasiados modelos aceptables, algunos de los cuales puede violar la buscada parsimonia.
El segundo enfoque consiste en ordenar de mejor a peor los modelos y elegir el que aparezca
primero en la lista. Esto parece tener más sentido, aún así, veremos de todas maneras el enfoque
de sí/no, en parte porque eventualmente lleva al desarrollo de un criterio de comparación de
modelos.
Independientemente del enfoque utilizado, tenga en cuenta que no debería ignorar su propia
experiencia. Aún si no está basándose en un enfoque Bayesiano, sus opiniones acerca de qué
modelo posiblemente sea el mejor es interesante. Por ejemplo, si en el pasado la distribución
Weibull ha resultado ser un modelo consistente, pero esta vez los datos sugieren que se trata de
una distribución Gamma transformada, sería aconsejable que siga utilizando la Weibull de todas
maneras. O suponer que un cliente necesita ayuda para el proceso de estimación, pero cree que la
distribución a utilizar es la lognormal. Si existe una leve diferencia entre la lognormal y otra
distribución, hay muy pocas razones para volcarse a favor de la alternativa. Por supuesto, si los
datos indican que la distribución generalizada de Pareto es por lejos la mejor, deberá explicar su
elección y describir a su cliente el nuevo modelo.
Con respecto a la estimación de parámetros, preferiremos la estimación de máxima
verosimilitud a menos que exista alguna buena razón para no hacerlo. Alguno de esos argumentos
fueron desarrollados a lo largo del capítulo. También deberíamos resaltar que estamos
recomendando un enfoque genérico de estimación. Esto es, ya sea que esté a favor del método de
MV, mínimo χ modificado, u otro método, ese método será usado independientemente del
modelo considerado.
2
Página 48 de 60
Los estadígrafos le han dedicado una gran cantidad de energía al estudio de distribuciones
específicas en un intento de aprender cómo deberían manejarse (por ejemplo, hay un libro entero
[4] dedicado a la distribución de Pareto), y es ciertamente verdadero que uno podría confrontar o
comparar la estimación y la estrategia de prueba con el modelo.24 Con nuestro gran número de
modelos, preferiríamos adoptar una estrategia consistente.
2.9.1 Probando la aceptabilidad de un modelo
El asunto podría ser toma como test de hipótesis. La hipótesis nula es que el modelo es aceptable,
mientras que la alternativa es que no lo es. En el caso paramétrico, esto puede ser expresado
formalmente como
H 0 :F X x
` a
= F x ; θb c
para algún θ 2 Θ
H 1 : F X x` a
≠ F x ; θb c
8θ2Θ
Acá, F X x` a
es la función de distribución acumulada y F x es la función de distribución para
algún miembro de la familia paramétrica elegida. Esta es una situación en la que la hipótesis
clásica es menos que ideal. En la mayoría de las situaciones el propósito de tomar muestras y
hacer tests para convencer a otros de que la hipótesis alternativa es verdadera. Para ser
convincente, controlamos la probabilidad de tipo I, esto es, seleccionar H cuando H es falsa.
Acá estamos esperando elegir la hipótesis nula y por lo tanto convencer a otros de que el modelo
es un “buen modelo”, pero no podemos controlar la probabilidad de que nuestra decisión fue
equivocada.
; θb c
1 0
Más aún, estamos en serios problemas cuando el tamaño de la muestra es grande. Nosotros
sabemos que de hecho la hipótesis nula es FALSA!! Es extremadamente improbable o poco posible
que un proceso tan complejo como lo es el que produce los montos de siniestros de la compañía de
seguros provenga de una población que pueda describirse con tan pocos parámetros. Lo que sí
esperamos es que seamos capaces de encontrar un modelo sencillo que sea útil para los cálculos que
subsecuentemente pretendemos efectuar. En la medida en que tengamos un gran tamaño muestral,
nuestro test va a ser tan poderoso que la naturaleza falsa de la hipótesis nula se vuelve detectable.
Como resultado, hay una gran posibilidad de que TODOS LOS MODELOS SEAN
RECHAZADOS!
2.9.1.1 Tests Informales (pág. 118)
Lo expresado anteriormente (arriba) nos indica que en realidad podríamos preferir un test
informal, uno que haga uso de juicios de valor más que estadísticos. Existen dos procedimientos
que son de utilidad. Nuestro favorito es sobrescribir el histograma de los datos por sobre el de la
función de distribución acumulada del modelo. Un buen modelo debería tener una función de
densidad que se parezca al histograma. Si los datos no estuvieran agrupados, deben agruparse a los
fines de construir el histograma.
24 “It is certainly true that one could match the estimation and testing strategy to the model”
Página 49 de 60
El otro gráfico comúnmente usado, es el Q.Q plot. Este REQUIERE DE DATOS
INDIVIDUALES. Las observaciones tienen que estar ordenadas de modo tal que x1 ≤…≤ xn . Los
n puntos a ser graficados son j
n + 1ffffffffffffffff, F x j ;θ
b c
f g
. Si el modelo fuera bueno, los puntos estos
deberían yacer en las cercanías de la línea que une al punto (0,0) con el punto (1,1).
El segundo enfoque informal consiste en anotar algunos números relevantes de la muestra y
compararlos con los mismos números del modelo. Estos “números” pueden ser probabilidades
acumuladas, esperanzas limitadas, LAS (intensidades medias de tramo) o cualquier otra cosa que
pueda ser considera importante.
Ejemplo 2.6.1
En el ejemplo 2.36 se ajustó una distribución lognormal a los datos de la tabla 2.10. Los
estimadores MV resultaron ser μ=9.29376 y ^ σ=1.62713. Evaluar la calidad del modelo
comparando el histograma con la función de densidad de probabilidad y anotando las intensidades
medias de tramo (LAS) para cada clase.
Debido a la asimetría en los datos, es mejor presentar el gráfico en dos partes Fig.2.11 y Fig.2.12.
El primero abarca el rango 0-32500 mientras que el segundo cubre el rango 32500-300000. Vemos
que el ajuste es bastante bueno a lo largo. En particular, la función de densidad tiende a atravesar
a ambas porciones vertical y horizontal del histograma, en las cercanías de la mitad de cada
segmento.
(ver Fi. 2.11, pág 119) función de densidad de la lognormal e histograma para bajos siniestros
Las intensidades medias de tramo aparecen en la Tabla 2.14. Las intensidades medias de tramo
empíricas se encuentran 1) tomando las entradas de la tercera columna de la tabla 2.10,
sustrayendo el límite inferior del intervalo y luego multiplicando dicha diferencia por la entrada en
la segunda columna, luego 2) tomando el ancho de los intervalos tantas veces como la suma de las
entradas en la segunda columna para todas las filas subsecuentes, y luego 3) dividiendo la suma de
los dos primeros elementos por 217, el tamaño de la muestra.
Las intensidades medias de tramo del modelo se encuentran utilizando la fórmula de esperanza
limitada del Apéndice A. Parece ser que se encuentran bastante cercanas entre sí, de nuevo,
indicando el buen ajuste del modelo lognormal.
(Fig 2.12, ver pág. 120)
Función de densidad de probabilidad de la lognormal y el hisgtograma para grandes siniestros
Tabla 2.14
LAS de la distribución Lognormal
Página 50 de 60
Pagos LAS empírica LAS lognormal
0-2500 2290 2275
2500-7500 3427 3450
7500-12500 2672 2615
12500-17500 2229 2114
17500-22500 1825 1773
22500-32500 2892 2858
32500-47500 3408 3198
47500-67500 3166 3084
67500-87500 2327 2285
87500-125000 3055 3056
125000-225000 4602 4550
225000-300000 1756 1909
300000- - 7679
Ejemplo 2.62 En el ejemplo 2.56 el estimador Bayesiano de la distribución de Pareto de un solo
parámetro α para los datos del ejemplo 2.55, era 2.499416. Evaluar la calidad de este modelo
construyendo un “QQ-plot”
El diagrama se encuentra en la Figura 2.13 (pág 122) (Leyenda: qq plot para una distribución
Pareto de un único parámetro)
Del gráfico, parecería que existe un alejamiento sistemático respecto a la línea recta, y por lo tanto
la elección de una distribución de Pareto con un único parámetro es cuestionable para este
conjunto de datos. Sin embargo, con tan pocos puntos de datos, es difícil estar seguros de esta
conclusión.
Debería notarse que las comparaciones entre el modelo y los datos, solo funciona, como lo hemos
descrito aquí, cuando los datos son completos, en el sentido de que ningún deducible, límite o
modificaciones similares nos han impedido recuperar la totalidad de los siniestros. Los métodos que
cubren o tratan con este problema se desarrollan en a sección 2.10.
2.9.1.2 Tests Formales (pág. 119)
Si bien estos criterios son ciertamente útiles, un test formal puede ser más persuasivo. También es
verdad que para modelos específicos se han desarrollado tests especiales, pero a pesar de ello, el
test genérico más comúnmente utilizado es el test χ2 de bondad de ajuste. Este test requiere de
datos agrupados, pero así como en la comparación de histogramas, eso significa que los parámetros
hayan tenido que haber sido estimados a partir de esa versión agrupada de datos. Para el grupo j
el test se basa en nj , la cantidad de observaciones en ese grupo y
Ej = n Pr X 2 grupo j ;θb c
Página 51 de 60
donde n es el tamaño de la muestra y la probabilidad es para una única observación cayendo en el
grupo j, dado que θ equivale a su valor estimado. El estadístico del test es
Q =Xj = 1
k nj@E j
b c2
E j
ffffffffffffffffffffffffffffffff
y la hipótesis nula es rechazada si Q supera a χd,α2 donde d=k-r-1 es el número de grados de
libertad (recordar que r es el número de parámetros estimados) y α es el nivel de significación.
Entonces el valor crítico es el número que hace que Pr , donde χ tiene distribución
chi cuadrado con d grados de libertad. El pvalue del test es
χ2 >χd,α2
b c
= α 2
pvalue =Pr χ2 >Qb c
Una convención común para la validez del test, es decir, que la probabilidad de cometer error tipo
I sea realmente α , es que E j ≥ 5 para todos los grupos25. Si eso no ocurre, deben expandirse los
límites y rehacer el test, o combinar grupos adyacentes. La teoría en la que se basa el test insiste
en que los parámetros sean estimados con el mismo método. De acuerdo con Moore [91], la
estimación por el método de Máxima Verosimilitud o el Mínimo χ2 modificado son satisfactorias.
(pie de página, ref. 17, pág. 121)
Moore cita un cierto número de reglas. Entre ellas se encuentran:
(1) Todos los grupos con al menos una frecuencia esperada de al menos 1, y el 80% de los grupos
con una frecuencia esperada de al menos 5
(2) Un total promedio por grupo de por lo menos 4 cuando se hace el test al 1% de significación,
y un total promedio de 2 cuando el test es al 5% de significación
(3) En al menos 3 grupos, un tamaño muestral de por lo menos 10, y el cociente entre el
cuadrado de la muestra ( n2 ) con el número de grupos (k) debe ser por lo menos de 10
Resumen de las condiciones de validez del test chi cuadrado
• E para el 80% de los grupos j = nPr x2 c j@ 1 ,c j
b C
;θT U
≥ 5
• 8Gj : E j ≥ 1 j=1,2,…,k (k:cantidad de grupos o intervalos)
• α = 0.01 [ nj ≥ 4
• α = 0.05[ nj ≥ 2
• 9 3 grupos / nj ≥ 10
• n2
kfffffff≥ 10 ; k ≤
n2
10fffffff (relación que limita la cantidad de intervalos o grupos a construir!!)
Ejemplo 2.63 (continuación, ejemplo 2.61)
Realice el test χ de bondad de ajuste para ver si el modelo lognormal es apropiado. Los
resultados del test aparecen en la tabla 2.15
2
Tabla 2.15
Intervalo Observaciones Esperados ChiCuadrado
25 cells
Página 52 de 60
0-2500 41 39.75 0.04
2500-7500 48 49.17 0.03
7500-12500 24 27.00 0.33
12500-17500 18 17.55 0.01
17500-22500 15 12.48 0.51
22500-32500 14 16.70 0.44
32500-47500 16 14.77 0.10
47500-67500 12 11.18 0.06
67500-87500 6 6.71 0.07
87500-125000 11 7.22 1.98
125000-225000 5 7.68 0.94
225000- 7 6.79 0.01
Notar que los últimos dos grupos se combinaron a los efectos de hacer que el valor esperado del
total supere 5. El típico cálculo es
E 4 = 217 Φlog17500@ 9.29376
1.62713fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff g
@Φlog12500@ 9.29376
1.62713fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff g
X
\
Z
Y
]
[
= 217 0.615109@ 0.534216` a
= 17.55
El estadístico del test es 4.51. Hay 9 grados de libertad (12 grupos, menos 2 parámetros estimados,
menos 1) y el valor crítico para un nivel de significación del 5% es 16.92 con lo que no se rechaza
la hipótesis nula. Es decir, no existe evidencia en esta muestra de tamaño 217 para rechazar a la
distribución lognormal como un modelo. El pvalue es 0.8748 y entonces también este modelo sería
aceptado para cualquier nivel de significación común. (Recordar que la hipótesis nula se acepta
para cualquiera cuyo nivel de significancia sea menor que el pvalue).
Los resultados del test de bondad de ajuste concuerdan con la evidencia visual presentada
anteriormente. La distribución lognormal cumple y es útil para estos datos.
La única vez en la que el test es impráctico es cuando hay demasiadas pocas observaciones. En ese
caso no es posible tener grupos suficientes para captar la forma de los datos y el modelo, y en ese
extremo no será posible tener un número positivo de grados de libertad. Por ejemplo, con 10
observaciones, un agrupamiento cuidadoso podría crear 2 grupos con nuestro mínimo total
esperado de 5. Pero incluso con un solo parámetro a estimar, habrá 0 grados de libertad, y por lo
tanto ningún test χ puede ser utilizado. Un test alternativo funciona especialmente con datos
individuales. Es el test Kolmogorov- Smirnov
2
. El estadístico del test es fácil de calcular, es el
máximo valor absoluto de la diferencia entre la función de distribución acumulada del modelo y la
función de distribución acumulada empírica. Es decir,
D = supx
Fn x` a
@F x ;θ^b c
L
L
L
L
M
M
M
M
Debido a que la función de distribución acumulada empírica es discontinua, necesitamos un
supremo (mínimo límite superior). Esto tan solo significa que en uno de los puntos de los datos, la
función de distribución del modelo debe ser comparada con la función de distribución empírica
justo antes y justo después del salto.
Página 53 de 60
Una propiedad agradable del test es que el máximo debe ocurrir en alguno de los puntos “dato”.
Si bien existen tablas detalladas para los valores aproximados de los valores críticos (buenos para
n ≥ 15) y expuestos en la tabla 2.16, es importante reconocer que los valores críticos en esta tabla
solo se aplican cuando los parámetros de la distribución hipotética se especifican en la hipótesis
nula. Cuando los parámetros son estimados a partir de la muestra, los valores críticos pueden ser
disminuidos. No hay ninguna manera fácil de hacer el ajuste (como reducir los grados de libertad
como en el test χ ). Stephens [116] provee tablas para testear un número de distribuciones en
particular. Él también sugiere un enfoque general; usar solo la mitad de los datos para estimar los
parámetros, pero luego usar la totalidad de los datos para la realización del test. En este caso, los
valores críticos en la tabla 2.16 pueden ser aplicados, al menos, asintóticamente. Para los ejemplos
y ejercicios en este texto vamos a utilizar los valores tabulados, pues no contamos con otra cosa a
mano.
2
Ejemplo 2.64 Haga un test de la adecuacidad del modelo Pareto de un solo parámetro del ejemplo
2.62 usando el test Kolmogorov- Smirnov.
Un gráfica comparativo entre la función de distribución empírica y del modelo aparecen en la
Figura 2.14. Debería ser fácil ver que la mayor diferencia ocurre justo antes del tercer salto. La
manera más fácil de calcular el valor del estadístico del test es con una tabla como 2.17.
Tabla 2.16: valores críticos de Kolmogorov- Smirnov
Nivel de Significancia Valor Crítico
0.20 1.07
npwwwwwwwwwwwwwwwwwwwfffffffffffff
0.10 1.22
npwwwwwwwwwwwwwwwwwwwfffffffffffff
0.05 1.36
npwwwwwwwwwwwwwwwwwwwfffffffffffff
0.01 1.63
npwwwwwwwwwwwwwwwwwwwfffffffffffff
Tabla 2.17 Estadístico del Test Kolmogorov- Smirnov
Observación fdd empírica- fdd empírica+ fdd modelo Máxima Diferencia
104 0.0 0.1 0.0934 0.0934
107 0.1 0.2 0.1556 0.0556
125 0.2 0.3 0.4275 0.2275
126 0.3 0.4 0.4388 0.1388
132 0.4 0.5 0.5004 0.1004
133 0.5 0.6 0.5097 0.0903
141 0.6 0.7 0.5763 0.1237
145 0.7 0.8 0.6049 0.1951
223 0.8 0.9 0.8653 0.0653
Página 54 de 60
319 0.9 1.0 0.9449 0.0551
Acá la fdd empírica simplemente crece en 1nffff en cada punto de la muestra. Entonces la fdd del
modelo se calcula en cada punto dato. Por ejemplo, en la tercera fila el valor de la fdd del modelo
de 0.4275 se compara con el valor empírico antes (0.2) y luego (0.3) del salto. La mayor diferencia
ocurre antes del salto y es 0.2275. Este es el máximo entre todos y se convierte en el estadístico
del test. A un nivel de significación del α = 10%, el valor crítico es 1.2210pwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwfffffffffffffff= 0.3858. La hipótesis
nula es aceptada y por lo tanto no hay evidencia para rechazarla a partir de los datos del modelo
de Pareto de un solo parámetro. Y a pesar de ello, el diagrama “qq plot” que construimos con
anterioridad nos había hecho poner en duda el mismo modelo. Un mayor tamaño muestral se
necesita para resolver este inconveniente.
El mayor problema con el test de Kolmogorov- Smirnov es su falta de poder. En consecuencia,
resulta que para muestras grandes, el test χ2 de bondad de ajuste está disponible, y es preferible.
2.9.2 Ordenamiento y Selección de modelos
Recordar que nuestro objetivo es seleccionar UN solo modelo del que podamos decir que representa
adecuadamente a la población. La forma más fácil de hacer esto sería asignar un valor numérico a
cada uno de los modelos propuestos y seleccionar a aquel con el mejor puntaje. Ya nos hemos
encontrado con un número considerable de formas de asignar un puntaje.
Una lista parcial es la siguiente:
1. Valor de la función de verosimilitud en su máximo (mientras más grande mejor)
2. Valor del estadístico Q del test χ de bondad de ajuste (mientras menor sea mejor) 2
3. Valor del estadístico D del test Kolmogorov- Smirnov (mientras menor sea mejor)
4. pvalue del test χ de bondad de ajuste (mientras más grande mejor) 2
5. El valor proveniente de cualquiera de los métodos de estimación basados en optimización, como
ser el de mínima fdd (Crámer von Mises), mínimo MSE (error medio cuadrático), mínimo LAS
(intensidad media de tramo) (mientras más bajo sea mejor)
En general es razonable realizar un ordenamiento usando el mismo método que fue utilizado para
la estimación de los parámetros. Sin embargo, esto no es del todo necesario.
Todas a excepto de una de las recomendaciones, tienen un problema que debe ser resuelto. Cuando
un modelo es un caso especial de otro (por ejemplo, Pareto y Burr) y el criterio concuerda con el
método de estimación, el modelo más complejo siempre resulta ser al menos tan bueno como el
más simple. Esto sucede porque el caso especial está siempre disponible como el posible candidato
a mínimo (o máximo) del modelo más complejo. Este es el mismo fenómeno que aparece en la
agregación de variables adicionales en regresión múltiple. El coeficiente de determinación ( R ) no 2
Página 55 de 60
puede decrecer, incluso si la nueva variable no está relacionada con la variable dependiente. En
regresión se requiere una mejora significativa antes de poder aceptar una nueva variable. Lo
mismo se aplica aquí. En líneas generales, existen dos maneras de resolver el problema.
Antes de discutir tal solución, notaremos que la excepción es el pvalue del test χ de bondad de 2
ajuste. Éste automáticamente corrige el incremento en el nivel de complejidad reduciendo los
grados de libertad, y por lo tanto, un modelo más complejo necesita una reducción importante en
el valor del estadístico del test para que el pvalue se haga más grande. También debería notarse
que usando el estadístico en sí (Q) causa problemas adicionales cuando los grupos se combinaron
de modo tal que se cumpla la condición de un mínimo de cinco observaciones esperadas. Entonces,
aún con el mismo número de parámetros, dos modelos pueden implicar la aplicación de un número
distinto de grados de libertad. En base a esto es que nosotros preferimos la utilización de pvalues
por sobre los estadísticos de los tests a efectos de ordenar y elegir entre varios modelos.
Ejemplos 2.65 En la tabla 2.18 se encuentran los pagos generales por responsabilidad civil. Un
gran número de modelos han sido ajustados mediante el método de Máxima Verosimilitud. Los
modelos, el NLL (Negative Loglikelihood: logaritmo de la verosimilitud negativo), el estadístico Q
del test χ , los grados de libertad y el pvalue aparecen en la tabla 2.19. Usando esta información,
seleccionar el mejor moleo de acuerdo con el criterio del pvalue.
2
Debido a que “el logaritmo de la función de verosimilitud negativo”, suena extraño, preferiremos
escribir NLL.
Tabla 2.18 (Pagos Generales por Responsabilidad Civil)26
Pago Número Promedio
0-2500 41 1389
2500-7500 48 4661
7500-12500 24 9991
12500-17500 18 15482
17500-22500 15 20232
22500-32500 14 26616
32500-47500 16 40278
47500-67500 12 56414
67500-87500 6 74985
87500-125000 11 106851
125000-225000 5 184735
225000-300000 4 264025
300000- 3 300000
Tabla 2.19 Valores MV ajustados a los datos de responsabilidad civil
Modelo nro parámetros NLL χ2 grs de lib. pvalue
26 General Liability Payments
Página 56 de 60
Exponencial 1 548.72 81.02 8 <0.0001
Exp. Inversa 1 520.27 49.06 8 <0.0001
Lognormal 2 498.29 4.51 9 0.8744
Gaussiana Inversa 2 502.26 12.95 9 0.1648
Pareto 2 499.31 6.37 9 0.7028
Pareto Inversa 2 500.09 7.52 9 0.5831
Loglogística 2 499.93 7.51 9 0.5847
Gamma 2 507.84 16.38 8 0.0372
Gamma inversa 2 509.80 26.77 8 0.0008
Weibull 2 501.63 8.16 8 0.4183
Weibull inversa 2 506.72 20.27 9 0.0163
Paralogística 2 499.79 7.30 9 0.6055
Paralogística Inversa 2 500.01 7.58 9 0.5767
Burr 3 498.41 4.79 8 0.7793
Burr Inversa 3 499.01 5.33 8 0.7220
Pareto Generalizado 3 498.62 5.00 8 0.7580
En la construcción de la tabla 2.19 no hay convergencia en alguna de las distribuciones
pretendidas. Por ejemplo, al iterar con el fin de maximizar la función de verosimilitud de la
distribución Gamma transformada, se volvió evidente que luego de 100 iteraciones del método
simples, que α se estaba acercando a 1 mientras que θ y τ se estaban aproximando a cero.
Esto nos indica que algunas distribuciones de dos parámetros, que son un caso especial, se
desempeñan de una manera similar que aquel de 3 parámetros. Si bien este caso límite no está en
nuestro inventario, esto nos indica que 3 parámetros son más que los que se están necesitando.
De la tabla 2.19 queda claro que en base al pvalue, el modelo lognormal es el mejor. La segunda
mejor alternativa resulta ser la distribución Burr, pero sería difícil justificar la utilización de tres
parámetros cuando como resultado tendríamos un pvalue menor y un mayor valor del estadístico
del test (Q).
2.9.2.1 Test del Cociente de Verosimilitudes (pág. 126)
Cuando un modelo es un caso especial de otro, podemos utilizar el test de cociente de
verosimilitudes introducido en la sección 2.6.4. La hipótesis nula es que el modelo más simple es el
apropiado, contra la alternativa de que el modelo más complejo es el apropiado. El estadístico del
test es dos veces la diferencia entre los logaritmos de las verosimilitudes. Este va a ser comparado
con el valor crítico de un χ2 con grados de libertad equivalentes a la diferencia entre el números
de parámetros.
En el ejemplo 2.51 se hizo nota que para un conjunto de datos particular, la distribución Burr no
implicaba una mejora importante respecto a la Pareto.
Página 57 de 60
Una segunda posibilidad es que un modelo sea un caso límite de otro. Por ejemplo, en la sección
2.7.4 se mostró que la distribución Gamma transformada de 3 parámetros es un caso límite del de
la distribución Beta transformada. Otro ejemplo aparece en el capítulo 3, donde se observa que la
distribución de Poisson es un caso límite de la distribución Binomial Negativa. En estos caso, el
test de cociente de verosimilitudes puede ser aplicado, pero el estadístico del test no
necesariamente tiene que tener una distribución aproximada χ2. Self y Liang [10] muestran que la
distribución aproximada correcta es una mezcla de distribuciones χ2.
En este libro usaremos la distribución χ2 con grados de libertad iguales a la diferencia en el
número de parámetros, incluso en los caso límite. Reconocemos que esta es todavía una mayor
aproximación, pero simplifica el proceso de decisión.
Cuando dos modelos están incorrelacionados, pero tienen un número diferente de parámetros (por
ejemplo, exponencial vs Pareto), el test de cociente de verosimilitudes puede seguir siendo
aplicado, pero debemos entender que ya no se trata de un test de hipótesis en el sentido formal,
sino simplemente de una regla de decisión razonable.
Una forma de ver que el test ya no es más preciso, es que el estadístico del test podría ser negativo
(esto es, puede suceder que el modelo no relacionado con más parámetros produzca un menor
valor de la función de verosimilitud en su máximo). Por lo tanto, el estadístico no puede tener una
distribución de χ . 2
Finalmente, hacemos notar que no existen métodos similares para medir el efecto de la inclusión
de un parámetro extra cuando usamos otras variables de decisión tales como el mínimo fdd
(Cramer von Mises).
Ejemplo 2.66 Usar la información de la tabla 2.19 para determinar el mejor modelo usando el valor
de verosimilitud como criterio a un nivel del 5% de significación para todos los tests
Dentro de un grupo con la misma cantidad de parámetros, la elección es el modelo con el menor
NLL. Para un parámetro el ganador es la exponencial inversa con 520.27, para dos parámetros es
la lognormal con 498.29 y para tres parámetros es la Burr con 498.41.
Primero vamos a comparar la exponencial inversa vs la lognormal. Este no es un test formal, en la
medida que la exponencial inversa no es un caso especial de la lognormal. El estadístico del test es
2(520.27-498.29)=43.96. Hay UN grado de libertad, con lo que el valor crítico es 3.84. La hipótesis
nula es rechazada y entonces se selecciona a la distribución lognormal. Una vez más, notar que NO
Página 58 de 60
ES UN TEST FORMAL, y por ello el 5% de significancia no es la probabilidad de cometer un
error de tipo I para el procedimiento recién utilizado.
Luego hacemos el test para la lognormal vs la Burr.
El estadístico del test es 2(498.29.498.41)=-0.24 que claramente favorece a la aceptación de la
hipótesis nula (al ser negativo) y entonces elegimos otra vez a la lognormal
2.9.2.2 Valores de Verosimilitud Penalizados
Hay una alternativa a un test formal que elimine la distinción entre casos especiales y no casos
especiales. Existe una variedad de métodos como tales, que han sido sugeridos.
Presentamos uno aquí, el llamado Schwartz Bayesian Criterion (SBC) introducido por
Schwartz[111] (Existen otros criterios de información como por ejemplo el Akaike Information
Criterion, AIC). Estos métodos toman el valor de la verosimilitud y luego lo ajustan de modo tal
que refleje el tamaño de la muestra y el número de parámetros. El SB le aplica logaritmo a la
función de verosimilitud y le sustrae rlogn2πffffffffd e
, donde r es el número de parámetros estimados y n
es el tamaño de la muestra. Notar que a medida que se incrementa el tamaño de la muestra, la
penalidad por la inclusión de un parámetro extra crece. Esta es una diferencia respecto al test de
cociente de verosimilitudes. No queda claro cuál es el mejor.
Por un lado, con un tamaño de muestra grande, deberíamos poder estimar satisfactoriamente unos
pocos parámetros y podríamos justificar un modelo más complejo. Pero por otro lado, los tests de
hipótesis se vuelven más potentes a medida que crece el tamaño de la muestra y la hipótesis
alternativa tiende a ser seleccionada si los modelos estos no son más que una descripción apenas
un poco más precisa de la población.
Ejemplo 2.67 Usando la información de la tabla 2.19, seleccionar el mejor modelo de acuerdo con
el SBC.
Para modelos con el mismo número de parámetros el ganador sigue siendo aquel con el NLL más
pequeño. Aplicando el término de penalidad, produce los siguientes tres puntajes, siendo la
penalidad r log2172πffffffffffff g
= 3.542 r
Modelo NLL Penalidad Puntaje
Exponencial Inversa 520.27 3.54 523.81
Lognormal 498.29 7.08 505.37
Burr 498.41 10.63 509.04
Página 59 de 60
Página 60 de 60
La penalidad se suma aquí porque estamos trabajando con los NLL. Una vez más, la distribución
lognormal es su elección. Recordamos que, antes, los chequeos visuales y tabulares de este modelo
también eran aceptable, y por ello ésta debería ser su elección para la población
Top Related