4. Inferencia no paramétrica - ITAM

27
PROFESOR:LUIS E. NIETO BARAJAS 60 Análisis de Supervivencia 4. Inferencia no paramétrica 4.1 Estimadores puntuales y por intervalo de la funciones de supervivencia y de riesgo acumulado para datos con censura a la derecha Algunas representaciones gráficas de datos en estadística son: tablas de frecuencias, histogramas, funciones de distribución empíricas, etc. En análisis de supervivencia estas representaciones tabulares y gráficas tienen que ser modificadas debido a la presencia de observaciones censuradas. En ausencia de observaciones censuradas, un estimador no paramétrico de la función de supervivencia, basado en una muestra observada t 1 ,…,t n , es la función de supervivencia empírica definida como n t t # t T P ˆ t S ˆ i Esta es una función escalonada con decrementos 1/n si todas las observaciones son distintas y con decrementos d/n si hay d tiempos de fallo iguales a t. TABLA DE VIDA. o Suponga que el eje del tiempo es divido en k+1 intervalos ] a , a ( I j 1 j j , j1,…,k+1, donde 1 k k 1 0 a a a a 0 , con a k el límite superior de las observaciones. Para cada elemento de una muestra aleatoria de

Transcript of 4. Inferencia no paramétrica - ITAM

Page 1: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

60 Análisis de Supervivencia 

4. Inferencia no paramétrica 

 

4.1 Estimadores puntuales y por intervalo de la funciones de supervivencia 

y de riesgo acumulado para datos con censura a la derecha  

 

Algunas  representaciones gráficas de datos en estadística  son:  tablas de 

frecuencias,  histogramas,  funciones  de  distribución  empíricas,  etc.  En 

análisis  de  supervivencia  estas  representaciones  tabulares  y  gráficas 

tienen  que  ser  modificadas  debido  a  la  presencia  de  observaciones 

censuradas.  

 

En ausencia de observaciones  censuradas, un estimador no paramétrico 

de la función de supervivencia, basado en una muestra observada t1,…,tn, 

es la función de supervivencia empírica definida como  

n

tt#tTPtS i  

Esta  es  una  función  escalonada  con  decrementos  1/n  si  todas  las 

observaciones  son distintas y  con decrementos d/n  si hay d  tiempos de 

fallo iguales a t.  

 

TABLA DE VIDA.  

 

o Suponga  que  el  eje  del  tiempo  es  divido  en  k+1  intervalos  ]a,a(I j1jj , 

j1,…,k+1, donde  1kk10 aaaa0 , con ak el  límite superior 

de  las  observaciones.  Para  cada  elemento  de  una muestra  aleatoria  de 

Page 2: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

61 Análisis de Supervivencia 

tamaño  n,  suponga  que  uno  observa  un  tiempo  de  fallo  T  o  un  valor 

censurado por la derecha C.  

 

o Definimos las siguientes cantidades:  

nj  número de individuos en riesgo (vivos o no censurados) al tiempo aj1.  

dj  número de fallas en el intervalo Ij.  

cj  número de individuos que se censuran en el intervalo Ij.  

El número de individuos sin falla al inicio de Ij es nj, por lo tanto n1  n, y  

1j1j1jj cdnn , j  2, …, k+1 

 

o Suponga  que  la  función  de  supervivencia  para  los  tiempos  de  falla  es 

tTPtS  y notemos que  

1jj010jj aTaTPaTaTPaTPaTPaS  

Definimos las siguientes cantidades:  

jj aSS  

1j

j1jjj

S

SaTaTPp

 

1j

j1j

1j

j1jjjj

S

SS

aTP

ITPaTaTPp1q

 

para j1,…,k+1, con S01, Sk+10, qk+11. Por lo tanto  

j21j pppS  

 

o El objetivo de la tabla de vida es estimar Sj a través del a estimación de pj. 

El razonamiento es el siguiente:  

Page 3: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

62 Análisis de Supervivencia 

 

Si en Ij no hay observaciones censuradas, entonces  

j

jj

n

dq  

Si  en  Ij  sí  hay  observaciones  censuradas,  podemos  suponer  que  las 

censuras se distribuyen uniformes en el  intervalo  Ij y por  lo tanto,  los 

individuos censurados estuvieron expuestos la mitad del intervalo, por 

lo tanto  

2cn

dq

jj

jj  

Finalmente podemos estimar  jj q1p  y  j21j pppS , i.e,  

j

1i ii

ij

2cn

d1S  

 

o La  tabla  de  vida  es  una  tabulación  que  proporciona  estimadores  de  la 

función de supervivencia. Otros resúmenes que se presentan en una tabla 

de vida son: nj, dj, cj,  jq  y  jS .  

 

o Estos  estimadores  están  sujetos  a  variación  muestral.  Bajo  ciertos 

supuestos, es posible obtener estimadores de sus varianzas:  

2cnpqqarV jjjjj  

Usando en hecho de que  los  jq  son asintóticamente no correlacionados, 

un estimador de la varianza de  jS  es 

Page 4: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

63 Análisis de Supervivencia 

j

1i iii

i2jj

2cnp

qSSarV .  

La distribución asintótica de  jS  es  

jjj SarV,SNS  

Con esta distribución asintótica es posible obtener intervalos de confianza 

para Sj y hacer pruebas de hipótesis.  

 

EJEMPLO:  A  continuación  se  presenta  la  tabla  de  vida  de  unos  datos  de 

supervivencia  de  374  pacientes  que  recibieron  una  operación  como 

tratamiento de una enfermedad maligna.  

 

 

Observaciones:  La  tabla  de  vida  es  un  estimador  útil  de  la  función  de 

supervivencia, sin embargo presenta algunos problemas.  

o No es claro el número de intervalos a elegir. Lawless (1982) sugiere de 

8 a 10 intervalos.  

Page 5: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

64 Análisis de Supervivencia 

o No  es  claro  como  escoger  las  divisiones  aj.  Lawless  (1982)  sugiere 

tomar  intervalos  del  mismo  tamaño,  tomando  en  cuenta  que  ak 

corresponde con el tiempo máximo observado.  

o Distintas elecciones de las aj, tanto en valor como en número, da lugar 

a estimadores diferentes de la función de supervivencia.  

 

ESTIMADOR PRODUCTO LÍMITE (KAPLAN MEIER).  

 

o El  estimador  producto  límite  fue  propuesto  por  Kaplan & Meier  (1958) 

como el estimador máximo verosímil de la función de supervivencia S(t).  

 

o Para  exponer  las  ideas  consideremos  un  escenario  discreto.  Sean 

n1 T,,T  una muestra aleatoria de una población discreta  con  soporte 

en  ,u,u 21 . Recordemos que  

jk

kjj h1huf       y    

tu:k

k

k

h1tS  

Son  las  funciones  de  densidad  y  de  supervivencia,  respectivamente  en 

función de los riesgos hk.  

 

o Si consideramos a  las  tasas de  riesgo hk como parámetros desconocidos 

del modelo, podemos usar técnicas de estimación máximo verosímil para 

estimar hk.  

 

o La  muestra  observada  se  puede  representar  como  ii ,t ,  i1,…,n, 

entonces la función de verosimilitud es de la forma  

Page 6: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

65 Análisis de Supervivencia 

ii 1i

n

1ii tStfL

 

    ii 1ijk

n

1iki1kk tu:)jmax(kIuSutIuSuh

 

la cual se puede re‐escribir en términos de las hk’s como  

k

dnk

dk

kkk h1hL , 

donde  

n

1i ikik 1,utId  es el número de tiempos de fallo iguales a uk.  

n

1i kik utIn  es el número de  individuos en  riesgo.  Incluye a  todos 

los tiempos de fallo, o de censura, mayores o iguales a uk.  

 

o Una vez definida la función de verosimilitud procedemos a maximizarla en 

función de hk. Obtenemos primero la log‐verosimilitud  

k

kkkkk h1logdnhlogdLlog . 

Luego derivamos con respecto a hk e igualamos a cero,   

0h1

dn

h

dLlog

dh

d

k

kk

k

k

k

Al despejar obtenemos que el EMV de hk es  

k

kk

n

dh  

y se puede demostrar que  kh  es un estimador insesgado de hk.  

 

o Finalmente, usando el principio de invarianza de los EMV’s, el EMV de S(t) 

es  

Page 7: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

66 Análisis de Supervivencia 

tu:k k

k

kn

d1tS  

 

o El  estimador  producto  límite  es  válido  también  en  el  caso  continuo.  Es 

decir, el estimador de la función de supervivencia continua S(t) es discreto 

con puntos de salto t1,t2,…,tk,  los tiempos de fallo observados de manera 

exacta, con kn. En este caso  

tt:j j

j

jn

d1tS  

donde 

n

1i ijij 1,ttId  es el número de tiempos de fallo iguales a tj.  

n

1i jij ttIn  es el número de individuos en riesgo al tiempo tj. Incluye 

a todos los tiempos de fallo, o de censura, mayores o iguales a tj. 

 

o Nótese que a diferencia de la función de supervivencia empírica, en donde 

el  denominador  es  siempre  constante  (igual    a  n),  en  el  estimador 

producto  límite  el  denominador  va  cambiando  reconociendo  a  los 

individuos que están en riesgo en cada tiempo.  

 

VARIANZA DEL ESTIMADOR PRODUCTO LÍMITE 

 

o Para poder hacer  inferencia más allá de estimación puntual, es necesario 

tener una idea de la varianza de los estimadores.  

 

Page 8: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

67 Análisis de Supervivencia 

o Primero notemos que 

k

kkk

n

h1hharV

 

Como  

kh1tS  

Tomando logaritmo de ambos lados,  

kh1logtSlog  

Tomando  varianza  de  ambos  lados  y  suponiendo  independencia 

(asintótica) entre  kh  y  jh  

kh1logVartSlogVar  

Para  aproximar  la  varianza desarrollemos  kh1log  en  series de  Taylor 

alrededor de  kk hhE ,  

1k

kkkk nO

h1

hhh1logh1log

 

Despejando y elevando al cuadrado tenemos  

2k

2

kk2

kkh1

hhh1logh1log

 

Tomando esperanza de ambos lados nos queda que  

2k

kk

h1

hVarh1logVar

 

Por lo tanto, un estimador de la varianza de  tSlog  es  

k2k

hVarh1

1tSlogVar  

Page 9: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

68 Análisis de Supervivencia 

Pero no queremos  la varianza del  logaritmo de S(t), sino varianza de S(t). 

Expandiendo  nuevamente  en  series  de  Taylor  tSlog   alrededor  de  su 

media  tSlog  tenemos 

1nOtS

tStStSlogtSlog

 

Entonces despejando, elevando al cuadrado y calculando esperanza,  

tS

tSVartSlogVar

2  

Por lo tanto  

tSlogVartStSVar 2  

Finalmente,  

tt:k2

k

k2

kh1

hVartStSVar  

 

o Al  sustituir  tS   por  S(t),  kharV   por  khVar   y  kh   por  kh   tenemos  el 

estimador  de  la  varianza  de  S(t),  comúnmente  llamado  estimador  de 

Greenwood 

tt:j jjj

j2

jdnn

dtStSarV  

 

o Finalmente, el error estándar del estimador producto límite es  tSarV

.  

 

INTERVALOS DE CONFIANZA PARA S(t) 

 

Page 10: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

69 Análisis de Supervivencia 

o El  estimador  puntual  de  S(t)  junto  con  su  error  estándar  pueden  ser 

usados  para  obtener  intervalos  de  confianza  para  la  función  de 

supervivencia S(t0) en un punto del tiempo particular t0. 

 

o Se  puede  demostrar  que  asintóticamente  (i.e,  cuando  n)  tS   tiene 

una distribución normal. Es decir,  

tSarV,tSNtS  

 

o Usando este  resultado asintótico, un  intervalo de  confianza para S(t0) al 

(1)100% de confianza es 

0s02/0 ttSZtS , 

donde 

tt:j jjj

j0

2s

jdnn

dt  

 

o Al  intervalo de confianza anterior se  le conoce como  intervalo  lineal. Ese 

intervalo  tiene  a  desventaja  de  que  no  hay  garantía  que  los  límites  de 

confianza (superior e inferior) tomen valores dentro del (0,1).  

 

o Intervalos  de  confianza  alternativos  se  basan  en  transformar  primero  a 

0tS  en una escala real, construir el IC en la escala transformada y luego 

re‐transformar. Por ejemplo, Borgan & Liestol (1990) propusieron  

W0

W10 tS,tS  

con 

0

0s2

tSlog

tZexpW . 

Page 11: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

70 Análisis de Supervivencia 

 

A continuación se presenta un ejemplo de cómo se construye el estimador 

producto límite.  

 

 

 

o Ver  ejemplos  de  estimadores  producto  límite  en  R  usando  la  librería 

“survival”:  

Surv: crea un objeto de supervivencia a partir de dos variables, tiempos 

de fallo o censura t e indicador de censura .  

Page 12: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

71 Análisis de Supervivencia 

survfit: calcula el estimador Kaplan‐Meier 

print,  summary  &  plot:  comandos  adicionales  para  presentación  de 

resultados.  

 

ESTIMADORES DE LA FUNCIÓN DE RIESGO ACUMULADO.  

 

o Existen  dos  estimadores  de  la  función  de  riesgo  acumulado.  Estos 

corresponden a las dos definiciones de la función de riesgo acumulado en 

el caso discreto.  

 

o La primera estimación  se basa en  la  relación  tSlogtH . Usando  el 

estimador producto límite para S(t), el estimador resultante para H(t) es  

tSlogtH1 . 

 

o La segunda estimación se basa en la relación 

tu:j

j

j

htH  como en el caso 

discreto.  Nelson  (1972)  y  posteriormente  Aalen  (1978)  propusieron  el 

siguiente estimador llamado estimador Nelson‐Aalen  

tt:j j

j2

jn

dtH  

con t1,t2,…,tk, los tiempos de fallo observados, kn. 

 

o De manera  análoga,  el  estimador  Nelson‐Aalen  puede  ser  usado  como 

estimador  de  la  función  de  supervivencia  mediante  la  transformación 

tHexptS 22 .  

Page 13: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

72 Análisis de Supervivencia 

o En  la  siguiente  gráfica  se  muestra  una  comparación  de  los  dos 

estimadores de H(t).  

 

 

o Un estimador de la varianza de  tH2  es  

tt:j

2j

j2

jn

dtHarV  

 

Page 14: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

73 Análisis de Supervivencia 

o Nuevamente es posible obtener  intervalos de confianza para H(t) al usar 

la normalidad asintótica del estimador  tH2  y la expresión de la varianza 

anterior.  

 

A continuación presentamos gráficas de estimadores producto límite y de 

estimadores Nelson‐Aalen. 

 

 

Page 15: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

74 Análisis de Supervivencia 

 

 

 

ESTIMADOR DE LA FUNCIÓN DE SUPERVIVENCIA CON DATOS TRUNCADOS POR LA IZQUIERDA 

Y CENSURADOS POR LA DERECHA.  

 

o Los  datos  consisten  en  observaciones  (Ui,Ti,i),  i=1,…,n,  donde  Ui  es  el 

tiempo de truncamiento por la izquierda, Ti es el tiempo exacto de fallo, si 

i=1, o el momento de censura por la derecha, si i=0.  

Page 16: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

75 Análisis de Supervivencia 

o Identificamos  los  tiempos de  fallo exactos  t1,t2,…,tk,  y para  cada uno de 

ellos definimos dj como el número de individuos que experimentan la falla 

en  el  tiempo  tj.  Redefinimos  a  los  individuos  en  riesgo  nj  como  todos 

aquellos  individuos  cuyo  tiempo  de  truncamiento  es  menor  a  tj  y  su 

tiempo de fallo/censura es mayor o  igual a tj,  i.e., nj contiene a todos  los 

individuos i=1,..,n tales que ui < tj  ti. 

 

o El estimador producto límite construido con estos elementos tj, dj y nj para 

j=1,..,k  es  un  estimador  de  la  función  de  supervivencia  condicional  al 

mínimo tiempo de truncamiento, i.e. P(T > t | T > min(ui) )=S(t)/S(min(ui)).  

 

 

4.2 Estimación  puntual  de  la  media  y  la  mediana  del  tiempo  de 

supervivencia 

 

Como vimos anteriormente, algunos parámetros poblacionales de interés 

en datos de tiempos de falla, son función de  la función de supervivencia. 

Por  ejemplo  la  media,  la  mediana  y  en  general  cualquier  cuantil  o 

percentil.  

 

ESTIMACIÓN  DE  LA  MEDIA.  El  tiempo medio  a  la  ocurrencia  del  evento  de 

interés se puede obtener como 

0

dttS . Por  lo que si se  reemplaza 

S(t) por su correspondiente estimador producto límite se obtiene  

0

dttSˆ  

Page 17: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

76 Análisis de Supervivencia 

 

El  estimador  anterior  sólo  es  apropiado  cuando  la  observación  más 

grande  de  un  conjunto  de  datos  es  un  tiempo  de  falla  y  no  una 

observación censurada, porque en otro caso el estimador producto límite 

no está definido más allá de la observación más grande.  

 

Una  solución  al  problema  es  “corregir”  el  estimador  producto  límite  al 

convertir  la  observación  más  grande  en  una  observación  exacta.  Sin 

embargo esta solución sesgaría la estimación de la media.  

 

Otra solución es estimar la media restringida al intervalo [0,], donde  es 

un valor pre‐especificado que determina el  tiempo más grande a  la que 

una persona puede sobrevivir. En este caso  

0

dttSˆ  

 

La varianza de este estimador es 

k

1i iii

i2

t dnn

ddttSˆarV

i

 

 

Un intervalo de confianza al (1)100% para   está dado por 

ˆarVZˆ 2  

 

Nota: La mayoría de los paquetes computacionales obtienen un estimador 

puntual  de  la media.  En  todo  caso  es  importante  verificar  si  la  última 

Page 18: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

77 Análisis de Supervivencia 

observación es exacta o censurada. Si es censurada tenemos que revisar 

el rango en donde la media es obtenida.  

 

ESTIMACIÓN  DE  CUANTILES.  Recordemos  que  el  cuantil  de  orden  p,  tp,  es  el 

mínimo  valor  de  t  tal  que  p1tS .  Usando  el  estimador  producto 

límite, definimos un estimador  pt  como  

p1tS:tinftp  

 

Encontrar la varianza de  pt  es bastante complicado porque requiere de la 

estimación de  la densidad de T en  pt . Es posible obtener un  intervalo de 

confianza para tp usando el  intervalo de confianza para S(t). Un  intervalo 

al (1)100% para tp es  

2ZtSarV

p1tS:t  

 

Usando  la misma  idea  del  intervalo,  un  estimador  puntual  alternativo 

sería el punto medio del intervalo de confianza anterior.  

 

Ejemplo: Estimación puntual y por intervalo para el tiempo mediano para 

un estudio de pacientes con cáncer.  

Page 19: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

78 Análisis de Supervivencia 

 

 

 

4.3 Gráficas de diagnóstico 

 

Una forma rápida de darnos una idea del comportamiento de un conjunto 

de  datos  de  tiempo  de  falla  es  mediante  las  gráficas  del  estimador 

producto límite y del estimador Nelson‐Aalen.  

Estas gráficas también pueden ser usadas para verificar el uso apropiado 

de ciertos modelos paramétricos.  

Page 20: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

79 Análisis de Supervivencia 

 

GRÁFICAS  DE  LA  FUNCIÓN  DE  SUPERVIVENCIA.  Suponga  que  un  modelo 

paramétrico  tiene  función de supervivencia  tS  y sea   un estimador 

del parámetro. Si el modelo paramétrico es adecuado para el conjunto de 

datos particular,  entonces  tS   y  tS   (el  estimador KM) deben de  ser 

muy  parecidos.  La  forma más  simple  de  verificar  el  ajuste  del modelo 

paramétrico  es  graficar  tS   y  tS   en  la  misma  gráfica.  Graficar  los 

intervalos de confianza para S(t) ayuda a interpretar la gráfica.  

 

 

GRÁFICA P‐P  (PROBABILIDAD‐PROBABILIDAD). Esta gráfica compara  las  funciones 

de  supervivencia  estimadas  por  un modelo  paramétrico  y  es  estimador 

empírico KM. Consiste esencialmente en graficar  los puntos  jj tS,ˆtS , 

donde t1,t2,…,tk son los distintos tiempos de fallo exactos observados. Si el 

modelo paramétrico es adecuado, los puntos deben de caer cerca de una 

Page 21: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

80 Análisis de Supervivencia 

línea recta con pendiente uno. Alternativamente, si  tS  es continua en t, 

se puede reemplazar  jtS  por  

jj*j tS5.0tS5.0S . 

Esto se puede interpretar como una corrección por continuidad.  

 

GRÁFICA Q‐Q (CUANTIL‐CUANTIL). Esta gráfica consiste en graficar los cuantiles 

del modelo paramétrico ajustado versus los cuantiles empíricos obtenidos 

con el estimador KM. Por ejemplo, para el caso Weibull los cuantiles son  

1

p p1log1

t  

Una  gráfica  de  los  puntos  )j(p t,tj

,  j1,…,k,  donde  *jj Sp   y 

)k()2()1( ttt   son  los  valores  ordenados  de  los  tiempos  de  fallo 

exactos observados, debe de ser aproximadamente lineal para verificar el 

supuesto Weibull en los datos.  

 

LINEARIZACIÓN DE  LA FUNCIÓN DE  SUPERVIVENCIA. Si  tS  puede ser  linearizada 

mediante alguna transformación, es decir, si existen funciones g1 y g2 tales 

que  tSg1  sea una función lineal de  tg2 . La idea es entonces graficar 

tSg1   vs.  tg2 ,  si  la  familia  paramétrica  es  adecuada  entonces  la 

gráfica debe de ser aproximadamente una línea recta. Este procedimiento 

tiene la ventaja de que no requiere la estimación de los parámetros  del 

modelo.  

 

Page 22: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

81 Análisis de Supervivencia 

o Caso Exponencial: Supongamos que se está considerando la opción de 

que un modelo exponencial puede ser adecuado para un conjunto de 

datos. La función de supervivencia exponencial satisface  

ttSlog  

Entonces una gráfica de  tSlog  vs. t debe de ser cercana a una  línea 

recta con pendiente negativa que pasa por el origen. Nótese que no es 

necesario un estimador de .  

 

o Caso Weibull: La función de supervivencia Weibull satisface 

tloglogtSloglog . 

Entonces,  una  gráfica  de  tSloglog   vs.  logt  debe  de  ser 

aproximadamente  lineal  si  el modelo Weibull  es  adecuado  para  los 

datos.  La  ordenada  al  origen  puede  ser  positiva  o  negativa 

dependiendo  del  valor  de  .  La  pendiente  siempre  debe  de  ser 

positiva.  

 

o Caso Log‐normal: Aunque la función de supervivencia log‐normal no es 

precisamente  linealizable,  es  posible  verificar  el  ajuste  de  esta 

distribución considerando que si TLog‐normal entonces logTNormal. 

Por  lo  tanto  una  gráfica  de  cuantil‐cuantil  normal  para  logt  que 

presente  un  comportamiento  aproximadamente  lineal  apoya  el 

supuesto log‐normal de los datos.  

Page 23: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

82 Análisis de Supervivencia 

 

 

Las gráficas de diagnóstico que acabamos de describir son en términos de 

la función de supervicencia y por lo tanto en los saltos del estimador KM. 

Alternativamente, es posible obtener gráficas de diagnóstico a partir de la 

función de riesgo acumulado y usar los satos del estimador Nelson‐Aalen.  

 

 

4.4 Métodos Bayesianos no paramétricos 

 

Una forma alternativa a la estimación no paramétrica frecuentista es usar 

los métodos de estimación Bayesianos no paramétricos.  

 

La idea general de los métodos de estimación Bayesianos es incorporara al 

proceso de  inferencia  cualquier  tipo de  información adicional que  junto 

con  la  información  muestral  producen  una  estimación  que  combina 

ambas fuentes de información. La combinación de información (o proceso 

Page 24: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

83 Análisis de Supervivencia 

de aprendizaje) se hace a través del Teorema de Bayes y las inferencias se 

hacen dentro de un contexto de toma de decisión.  

  El conocimiento inicial del tomador de decisiones debe de representarse a 

través de una distribución de probabilidades que refleje  la  incertidumbre 

en sus creencias. Este conocimiento  inicial se debe de proporcionar para 

todas las cantidades desconocidas del modelo y puede estar basado en la 

experiencia previa o en opinión de expertos.  

  En  el  problema  de  inferencia  Bayesiano  no  paramétrico,  las  cantidades 

desconocidas son  funciones,  las cuales se pueden ver como un conjunto 

muy  grande,  incluso  infinito,  de  parámetros.  En  este  caso,  la 

representación  del  conocimiento  inicial  incierto  se  hace  a  través  de 

procesos estocásticos.  

  INICIAL PROCESO DE DIRICHLET. Hay varias definiciones y caracterizaciones de 

un  proceso  de  Dirichlet.  En  particular,  para  una  variable  aleatoria  no 

negativa  T,  sea  A1,  A2,…,Ak  una  partición  de  los  reales  positivos.  La 

distribución  conjunta de  k1 W,W ,  con  jj ATPW ,  j=1,…,k,  es una 

distribución Dirichlet con parámetros  k010 AcP,,AcP , donde c es el 

parámetro de precisión del proceso y P0 es una medida de probabilidad y 

se  le  conoce  como medida  de  centralidad.  Esta  propiedad  se  debe  de 

satisfacer para cualquier partición de los reales positivos y para cualquier 

valor de k.  

 

Page 25: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

84 Análisis de Supervivencia 

Propiedades: Sea P la medida de probabilidad para la v.a. T con función de 

supervivencia  S(t).  Sea  P0  una medida  de  probabilidad  con  función  de 

supervivencia S0(t).  

o Si PDP(c,P0) o equivalentemente SDP(c,S0), entonces 

tStSE 0  

1c

tS1tStSVar 00

 

o El procesode Dirichlet es casi seguramente discreto, es decir, asigna 

probabilidad uno al espacio de medidas de probabilidad (funciones de 

supervivencia) discretas.  

 

Page 26: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

85 Análisis de Supervivencia 

Distribución final. Dada una muestra T1,…,Tn de observaciones exactas tal 

que Ti|SS, i1,…,n y SDP(c,S0) entonces la distribución final de S, dados 

los  datos  n1 t,tt ,  es  otro  proceso  de  Dirichlet  con  parámetro  de 

precisión c1c+n y medida de centralidad S1(t) igual a  

tSnc

ntS

nc

ctS 01

 

con  ntt#tS i . En notación,  11 S,cDPtS .  

 

o El estimador Bayesiano, suponiendo una función de pérdida cuadrática 

es la media del proceso final, es este caso, S1(t).  

 

o Si  la  muestra  observada  contiene  observaciones  censuradas  por  la 

derecha,  la distribución  final de  S es un proceso  llamado Beta‐Stacy, 

cuyo valor esperado final es:  

t,0 0

0

sMscS

sdNscdS1ttSE  

con  n

1i ii 1,ttItN  el proceso de conteo para observaciones 

exactas y  n

1i i ttItM  el proceso para los individuos en riesgo.  

 

Ejemplo: Datos KM: 0.8, 1.0+, 2.7+, 3.1, 5.4, 7.0+, 9.2, 12.1+. Estimación 

de  1S0S1,0TP   usando  una  inicial  proceso  de  Dirichlet  vs. 

Modelo  paramétrico  exponencial  con  inicial  gamma  para  la  tasa 

constante.  

 

Page 27: 4. Inferencia no paramétrica - ITAM

PROFESOR: LUIS E. NIETO BARAJAS 

86 Análisis de Supervivencia