Predicciones bayesianas de probabilidad en pre s encia de ...

26
ESTADiSTICA ESPAÑOLA Vol. 37, Núm. 138, 1995, págs. 75 a 100 Predicciones bayesianas de probabilidad en pre s encia de umbrales en un modelo lineal (*) por JOSE LUIS ROJO GARCIA Catedrático de Economía Aplicada Facultad de CC.EE. y EE. de Valladolid JOSE ANTONIO SANZ GOMEZ Profesor Titular interino de Economía Aplicada Facultad de CC.EE. y EE. de Valladolid RESUMEN En este trabajo construimos un predictor ó ptimo de la probabili- dad de que la variable endógena en un Modeio Lineal Clásico (MLC) rebase un umbral, con técnicas bayesianas. Además, se obtiene de forma explícita una predicción de la variable endógena cuando la va- rianza de la perturbación es conocida, y una cierta tipificación de la misma cuando ésta es desconocida. Asimismo, si dicha varianza es conocida se estudia la semejanza de la predicción obtenida con la que resulta de la estimación de los parámetros por Mínimos Cuadrados Ordinarios (MCO). Se ilustra fi- nalmente la técnica desarrollada con una aplicación al estudio del turismo balear. Palabras clave: análisis bayesiano, econometría, teoría de la decisión. C/asificación AMS: Principal 62H12. Secundaria 62P20. (') Los autores agradecen las sugerencias de dos evaluadores anónimos que han contribuido a mejorar notablemente este trabajo.

Transcript of Predicciones bayesianas de probabilidad en pre s encia de ...

Page 1: Predicciones bayesianas de probabilidad en pre s encia de ...

ESTADiSTICA ESPAÑOLAVol. 37, Núm. 138, 1995, págs. 75 a 100

Predicciones bayesianas de probabilidaden presencia de umbrales

en un modelo lineal (*)

por

JOSE LUIS ROJO GARCIACatedrático de Economía Aplicada

Facultad de CC.EE. y EE. de Valladolid

JOSE ANTONIO SANZ GOMEZProfesor Titular interino de Economía Aplicada

Facultad de CC.EE. y EE. de Valladolid

RESUMEN

En este trabajo construimos un predictor ó ptimo de la probabili-dad de que la variable endógena en un Modeio Lineal Clásico (MLC)rebase un umbral, con técnicas bayesianas. Además, se obtiene deforma explícita una predicción de la variable endógena cuando la va-rianza de la perturbación es conocida, y una cierta tipificación de lamisma cuando ésta es desconocida.

Asimismo, si dicha varianza es conocida se estudia la semejanzade la predicción obtenida con la que resulta de la estimación de losparámetros por Mínimos Cuadrados Ordinarios (MCO). Se ilustra fi-nalmente la técnica desarrollada con una aplicación al estudio delturismo balear.

Palabras clave: análisis bayesiano, econometría, teoría de la decisión.

C/asificación AMS: Principal 62H12. Secundaria 62P20.

(') Los autores agradecen las sugerencias de dos evaluadores anónimos que han contribuidoa mejorar notablemente este trabajo.

Page 2: Predicciones bayesianas de probabilidad en pre s encia de ...

ESTAUISTICA E:SPAÑ(7LA

1. INTRODUCClON

En el análísis econométrico, en ocasiones, se plantean estudios en fos que

están implicados umbra/es, esto es, valores cuya superación por una variable

provoca determinados efectos sobre otra u otras variables. EI umbral, por tanto,

será un nivel que implicará la presencia, o ausencia, de un suceso en un cíerto

período de tiempo.

EI problema general parte de que se dispone de una variable económica,Y, para la que se presupone un comportamiento estocástico. Dicha variable ten-drá una distribución de probabilidad que dependerá de uno o varios parámetros,F(y; e1, ..., Hk), y su estimación suele ser objeto de estudio.

Supondremos que io que proporciona efectos significativos, o al menos lo

que tiene un especial interés, es que !a variable Y rebase un umbral a. Puesto

que Y es aleatoria, la posibilidad de que supere el umbral viene dada en térmi-

nos probabilísticos. Nos interesará, por tanto, estimar la probabilidad de que di-

cha variable rebase, o no, dicho umbral, es decir, estimar

P (Yza,Q},

donde Q denota, genéricamente, la familia de parámetros presentes en la distri-

bución de probabilidad de Y.

En numerosos trabajos [Heckman y Macurdy {1980), Fase (1971), Ashford y

Sowden (1970), por ejempio] puede verse una situación en la que el investiga-

dor se propone predecir, no ya los valores futuros de una cierta variable endó-

gena del rnodelo, sino si dicha variable rebasará o no el umbral prefijado. En di-

chos trabajos, la variable endógena no es observable y, a veces, tampoco se

conoce el umbral, imposibilitándose así 1a estimación dei modelo. Los autores

realizan entonces la estimación mediante su transformación en modeios de res-

puesta cualitativa.

En otros trabajos [Rojo t1990), Zellner et a1. {1990}, etc.], la variable endóge-

na es observable, pero el objetivo no consiste en predecir sus valores, sino si

dicha variable superará, o no, cierto umbral prefijado.

Las soluciones clásicas a este problema se engloban, básicamente, en dos,

aunque cada una de ellas admite posibilidades muy diferentes:

1. Estimar los parámetros por ciertas técnicas (MC^ u otras) para, poste-riormente, estimar o contrastar probabilísticamente la hipótesis de supe-

Page 3: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICCIONES BAYESIANAS DE PRC}BABILIDAD EN PRESENCfA UE UMBRALES Í%

ración del umbral. Esta opción, bajo las hipótesis adecuadas, usa esti-madores eficientes, pero no sensibles a la existencia de umbrales, sinoque sólo tienen en cuenta la distancia entre la estimación del parámetroy su «verdadero» valor.

2. Construir una variable dicotómica con valores conocidos para el períodomuestral, según la variable supere o no el umbral, y sustituir la variableendógena por esa variable dicotómica, con el adecuado carnbio de mo-delo (logit o probit, usualmente}; pero este método provoca una pérdidade información muestral importante al trabajar con variables de este tipocuando la variable endógena es observable.

En este trabajo se adopta una perspectiva bayesiana, estableciendo unafunción de pérdida cuadrática. Adicionalmente, se obtienen los valores de losparámetros que minimizan el riesgo esperado a posteriori y se deducen distintaspropiedades que relacionan, por un lado, la probabilidad estimada en el trabajocon su estimación clásica y, por otro, la predicción clásica de la variable con !abayesiana obtenida.

En el apartado 2 se obtiene la estimación óptima de la probabilidad y delpredictar, cuando la varianza de la perturbación es conocida. En el tercero seamplía el estudio al caso en que dicha varianza es desconocida, obteniendo,asimisrno, la probabilidad óptima, aunque ahora no se obtiene una expresiónanalitica del predictor de la variable endógena.

En el apartado 4 se comparan, cuando la varianza es conocida, y para mo-delos con términ0 constante, tanto las probabilidades clásica y bayesiana cornolos correspondientes predictores obtenidos en el apartado segundo, desde elpunto de vista de su proximidad numérica relativa.

Finalmente, en el apartado 5 se desarrolla una aplicación de la técnica ante-rior al estudio de los niveles de gasto de los turistas que visitan el archipiélagobalear, aplicación que ilustra la viabilidad de la implementación de la soluciónobtenida en este trabajo.

2. PLANTEAMIENTO DEL PROBLEMA

Consideremos el MLC

Y-x^+^ ^1^

donde

• Y es el vector T x 1 de valores de la variable endógena.

Page 4: Predicciones bayesianas de probabilidad en pre s encia de ...

% ^Ŝ E^STAUCSTI('A ESPAÑO[.A

• X una matriz T x k no aleatoría de rango k de los valores de las variablesexógenas (1 }, de forma que existe el límite

,lim - Q

r-.^ T

siendo C? una matriz finita y no singular.

• ^ _ (^^, ..., ^k }' es un vector paramétrico aleatorio.

• E es un vector T x 1 de perturbaciones aleatorias, et, con

E--► Nr(o, a2/r)

siendo 0 la matriz columna formada por T valores iguales a cero, con Eindependiente de ^ y a2 conocido (0 < Q2 <^}.

Supondremos que ^ tiene una distribución a priori no informativa (esto es,neutral en el sentido de Jeffreys),

P (^) ^ K [2]

Denotemos por X°_(x °, ..., x k } el vector fila de los valores de las variablesexógenas en el período de predicción. EI modelo, entonces, en el períado deprediccíón será Y° = X°^+ :r°, donde se supone que el vector ampiiado de lasperturbaciones aleatorias, e={E^, ..., Er, E°}' verifica E -► Nr +^ (o, a2 I r+ ^}, conE°, asímismo, independiente de ^.

Llamemos a a un cierto umbral para la variable endógena del modelo [1 ].Pretendemos estimar la probabilidad de que la variable endógena en el períodode predicción, Y°, rebase el umbral, a, bajo cualquier valor paramétrico ^, estoes, estimar la probabilidad

^P= P{ Y° z a I R) = 1 eXP - {Y °- X°^)2 dY ° [8]^ Ja 2^ a 2a

Consideremos, de acuerdo con Rojo (1987), la función de pérdida cuadrática,L(p , p^) _ [p - p^]2, donde p es una elección de p^. Como es conocido [véa-se, por ejemplo, Ferguson (1967), pág. 46], el riesgo a posteriori se minimizaráestimando p como la esperanza de p^ a posteriori dados los datas, esto es,

^A =E (P^I Y^x)=E [p {Y°za l ^.x°)) Y^xl [4]

(^ ) Aunque en e! apartado 4 supondremos que la primera columna de X es el vector1=(1, ..., 1}', en los apartados 2 y 3 no se impondrá esta condición.

Page 5: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICCIONF,S BAYESIANAS DE PRC)BABILIDAD EN PRESENC[A DE UMBRALES ^y

Ahora bien, la definición de densidad predictiva implica que

E [P (Y°za I ^^X°)IY,XJ=P (y°za I X°^Y^X)

Pero la distribución de Y° condicionada por ^ es

(Y°IX°,^.y.X)--N (X°^^Q2)

y la de ^ dados los datos

. ^(^Iy^X,X°)--^N (^^^2(X'X)-')

[5]

[6]

[7l

Multiplicando ambas densidades e integrando en ^ se obtiene la densidad deY°, dados los datos,

^(Y°) X°, y,X)-► N (X°^,Q2(1 +X°(X'X)-^ X°')) [8]

En consecuencia, Ilamando e al escalar

e=1

[9]1+X°(X'X)-'X°'

se obtiene la estimación óptima de p,

^^ _ o^P=P (Y°^a IX°^y^X)=p N(^^1)z^ a x =

a

^0

=1-^`^ a-X ^^

[10]a

Comparemos esta solución con la clásica, en la que el parámetro ^ se con-sidera no aleatorio y se estima por MCO. En esta última se estima p por p^,esto es, se asigna a Y° la distribución N(X° ^, Q2); en definitiva, si Ilamamosp= p^ a fa estimación obtenida

^0

P =P (Y°za (^,X°,y,X)=1 -^ a -X ^ [11]a

Page 6: Predicciones bayesianas de probabilidad en pre s encia de ...

FSTAb1STlCA FSPANOL.A

Corno de la definición de e se deduce que 0< e< t, entonces,

^ ^e <^-- a - X ° ^ a -- X ° ^

^ Q

N

y, por tanto, p estará siernpre m^s próxima a 0.5 que p, esto es, se cumple

[ 12]

^ ^0. 5< p < p o bien p< p < 0.5 [ 13)

según que el umbral sea menor o mayor, respectivamente, que la predicciónMCO.

Obsérvese que la estimación óptima de la probabilidad puede reinterpretarseen términos de una estimación «óptima» de X°^. En dos trabajos anteriores[véase Rojo y N"lartín (1988) y Sanz (t 994)], se planteaba buscar la estimaciónóptima de la esperanza de Y°, esto es, de X°^i, que condujera a la probabilidadestimada óptima anterior. La construcción que se hacía en dicho trabajo era di-recta, minimizando la función de riesgo que^se obtiene a partir de la función depérdida cuadrática anterior con respecto a R, donde p= p^. Se obtenía, en el^último de los dos trabajos, no sólo fa probabiiidad estimada anterior, p, sino fa^expresión de X°^, dande ^ sería, como hemos indicado, !a estimación óptimade ^

Dicho resultado puede obtenerse ahora como un corolario de la anterior esti-macián óptima de p. Así, como la aplicación

^

^^p^`=P (Y°^a ! ^^x°)=1 --^, a -x°^^ ^

es una transformación suprayectiva de I^$ en (o, 1), la minimización de la funciónde riesgo como función de ^ se obtiene para el valor ta! que

^ ^o a _Xo^

1 -- ^ a - X ^ -- 1 - ^ñ ^ea a

La ecuación anterior conduce a la solución

[14)

^ ^X° ^--a i1-^^ )+^e X°^ [15^

Page 7: Predicciones bayesianas de probabilidad en pre s encia de ...

PRED[CCIONES BAYESIANAS DE PROBABILIDAD EN PRESENCtA DE UMBRALES ó 1

Esta expresión tiene una interpretación analítica. Como puede observarse, la^estimación óptima, X ° ^3, de la esperanza X°^, resulta ser una combinacián li-neal convexa de la estimación MCO, X°^3, y del umbral a, esto es, un punto enel segmento que une ambas cantidades. En otras palabras, supone un ace^ca-

miento al umbral desde la estimación MCO, siendo este acercamiento tanto ma-yor cuanto menor sea e.

EI rnotivo de este acercamiento puede verse comparando la distribucióna posterio^i de ( Y° ^ X°, y, X } (véase la expresión [8]) con la distribución quese deriva de la estimación clásica, que sería una I'V (X °^, Q2). Nótese la ma-yor dispersión de aquélla, consecuencia del incremento de su varianza ena2 (X° (X' X)-' X°' ), que es la varianza de X°^S, dados los datos y, X y X°.

En definitiva, esta mayor dispersión deriva de la naturaleza aleatoria de ^, yobliga a trasladar hacia el umbral la estimación de X°^.

Obsérvese también que, cuando el tamaño de la muestra tiende a infinito,

lim e = 1r-^^

En efecto,

[ 16]

,lim X°(X'X)-^ X°'=1im ^ Xo -^ X°'=1im 1 X°G?X°'=0

T--^ T--^ T T r-.^ T

de donde se deduce el resultado. Ello implica que, para muestras grandes, la di-ferencia entre la probabilidad óptima [10] y la clásica [11 ] tiende a cero. Asimis-

^mo, la estimación óptima de X°^ [15] tiende a la clásica X°^i.

Similares cálculos pueden hacerse si la probabiiidad a estimar de forma ópti-ma es p ( Y° s a ^(3, X°), esto es, si el suceso en que estamos interesados con-siste en la no superación de un umbral. En este caso, y nuevamente a partir dela distribución de Y°, dados los datos, el áptimo sería

~^

a _ ,x o RP =P (Y°sa IX°,Y^X)=P ^(0,1)5^ -

a

^_^^,ra-x^R^a

La comparación con la estimación clásica de dicha probabilidad,^

^ _^ a --X°(iP

a

Page 8: Predicciones bayesianas de probabilidad en pre s encia de ...

82 ESTADlSTI(`A ^SPAÑOLA

nos conduce, si el umbral es mayor o menor que la predicción minimo cuadráti-ca, respectivamente, a

p <p <0.5 obien 0.5<p <p

t`inalmente, obsérvese, en este caso, que la transfarmación de II^ en (o, 1)

^

^-'p" =p {y°sa ! ^, X°}^^ a -X° ^^ a

es también suprayectivá, Qor lo que puede deducirse dei resuitado anterior unaestirnación bptima del X°^, que coincide con la expresión [15].

Por último, si el suceso en estudio fuese de ta forma [c < Y° < d], un trabajoanálogo at anterior perrnite obtener la estimación óptirt^a de ta probabilidad dedicho suceso, p ^ p(c < Y° < d ^^, X°), que ahora seria

~ c ^X°^ d -X°^p = p ^ < N (o, 1) < ^Q Q

^ ^_^(,r- d- x^^ ^-^(,r ^- x ^s ^

a a

^ _

No existe ahora una relación entre esta estimacíón y la clásíca, pudíendo en-contrarse una cuatquiera de ambas por debajo de la otra.

En este caso, la minimización del riesgo en p no equivale, en principio, a^la minimización en ^. Nótese que los valores posibles de p son un subinter-valo contenido estrictamente en el (0, 1) (de hecho, se trata del subintervalo

_(o, p c < N{0, ^)^ d- c ), por lo que parecería necesario reatizar

2a 2a

una minimización con restricciones.^

Ahora bien, como el óptimo en p no restringido, p, es la esperanza a poste-riorí

^p=ECP tc<Y°<d ^^ ,X°)^y,X]

verifica 1as restricciones, por lo que es también el óptimo restringido.

Page 9: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICCIUNES BAYESIANAS DE PROBABILIDAD EN PRESENCIA DE UMBRALES 83

Ejemplo 1. Consideremos el rnodelo más sencillo,

que, en expresión matricial, podemos escribir como Y= X ^+ E, donde

Y = (y^, ..., y T)' , E _ (^^, ..., ET)' ,

X=(1,...,1)'=1, X°=1

con E --^ N (o, a2 I) e independiente de ^. La endógena en el periodo de predic-ción es, para este modelo, Y° _^+ E°. Sea a un umbral; se trataría de obtenerla predicción de la probabilidad de que Y° io rebase.

Supongamos una distribución neutral a priori para ^,

En este caso, X°(X' X )-' X°' _^ y, por tanto, e= TT T+1

Además, como es conocido,

x°^=^-Y1

donde y= •^ r s 1 y t, es decir, la media muestral.T

En definitiva, la probabilidad óptima sería

P=1-^^1 a-ylT+1 a

y el estimador óptimo de ^ resultaría

^ = a • ^1 - I T + 1 ^ + 1 T + 1

La probabilidad clásica es, en este caso,

P=1-^^aQy)

Page 10: Predicciones bayesianas de probabilidad en pre s encia de ...

ESTAI^ISTICA ESPAÑOLA

Como puede verse, la diferencia entre ambas estimaciones de probabilidad,y entre ambas estimaciones de ^, dependen de e, que, en este caso, dependeúnicamente del tamaño de !a rnuestra. Así, si T= 1, e toma su menor valor,

e= 1, lueg© podemos afirmar que, en general, e z 0.5, con !o cual su raíz2

cuadrada como mínimo valdrá 0 5= 0.707, es decir, ^ue ^ pondera en lacombinación lineal convexa, como mínimo, un 70% de Y y, como máximo, un30% del umbral, para obtener el predictor bayesiano.

Es por esto !a justificación de la fuerte tendencia a aproximarse ambas solu-ciones ^ y^ en este caso particular.

En concreto, para T= 20, ^= 0.9759. Esto es, el predictor bayesiano in-corpora, aproximadamente, un 97.6% del predictor MCO y un 2.4% del umbral.

3. CASO EN QUE LA VARIANZA DE LA PERTURBACIONSEA DESCONOCIDA

En este apartado estudiaremos la estimación óptima de la probabilidad desuperar un umbral a, por parte de la variable endágena en un MLC, pero supo-niendo ahora desconocida y aleatoria !a varianza, Q 2, de las perturbaciones.

Supondremos, además, que la matriz E de perturbaciones es índependentede ^ y de Q, que son a su vez independientes a priori, y que la distribución apriori sobre ambos parámetros es la no informativa en e! sentido de Jeffreys,

[ 17]p (^^ Q) a ^a

Como es conocido [véase, por ejemplo, Zeilner (1973), págs. 66 y 67], dadosIos datos, la distribución a posteriori de (^, Q) cumple que la condicionada de ^por a y los datos es

n(^Ia^Y,X)--^N (^^a2(X'X}-')

y la marginal de a,

T--k T-k(aly,x)--^i, 2 , 2 s2

[18]

[1 g]

donde con / G denotamos la distribución gamma invertida, y s 2 es el estimador

Page 11: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICCI(7NES BAYESIANAS DE PROBABILIDAD EN PRESENCIA DE UMBRALES 85

insesgado de a2 utilizado habitualmente en relación con la estimacián I^IICO,

esto es,

S 2 _ {Y - X ^ )' {Y - X R )

T-k

Dicho de otro modo, Ilamando ^ a la precisión, z= 1, la distribucián a paste-2

riori de (^i, ^) es la denominada normal-gamma.^

Sea (^, á 2} una elección de (^, a 2). Consideraremos, nuevamente, la funciónde riesgo asociada a una pérdida cuadrática, que ahora será

^ _F(^^U2) fo[P^,a2- P^,Q2]2'l^ (^^a^Y,X}d ^da2 [20]

donde D= I^. k x I^ + es el campo de variación de los parámetros, y donde laprobabilidad, p^ Q2 , que aparece en la función integrando representa la probabi-lidad de superación del umbral por la variable endógena en el periodo de pre-diccián para valores genéricos de los parámetros,

p^,az=p ( Y°za ^^,a,y,X}

^y p^ ^a tiene análoga interpretación para una especificación, (^, á 2), de los mis-

mos.^

(^, Q2) en D, p^ Q2 varia en (0, 1), podemos plantearnos mi-Como, al variar "nimizar en p dicho riesgo, donde p= p^, ^2 .

La solución óptima consiste en tomar p igual a la esperanza de p^ a2 a pos-teriori, dados los datos, esto es,

^p =E (p^^21Y^X)=E [p {Y°aa ( ^^a^X°)IY^X]=

=p [Y°z a I X°,Y^ X] [21 l

Obtengamos la distribucián de Y° dados los datos. La expresión [18] nosproporciona

n Q2

(Y°I Q,Y^X^X°)^N (X°^^ )e

[22]

que conjuntamente con la expresión [19] indica que la distribución conjunta de( Y°, a ^ y, X, X°) es normal-I G[esto es, una normal-gamma en ( Y°, z), donde

z^= 1 con arámetros

T- k T- k s2 ara la amma X° n ^ araQ2], P 2 Y 2 P 9 Y ^Y e P

Page 12: Predicciones bayesianas de probabilidad en pre s encia de ...

86 ESTADISTICA ESPAIVOI,.A

la normal. Entonces [véase, por ejernplo, Broerneling {1985), págs. 66 y 67], iadistribución marginal de Y°, dados y, X y X °, resulta ser una t de Student,

2

con T-- k grados de libertad, moda X° ^, y escala e. En consecuencia, laprobabilidad óptima estimada resulta

^ o ° a _X°^p =p ^Y aa ^X ,y,X]=p tT_kafe [23]

s

4bsbrvese que, en este caso, no se obtiene una predicción óptima de la es-peranza X° ^3, sino una cierta «tipificación» de la diferencia entre ella y el um-bral.

Comparemos esta solución óptima obtenida con la clásica. En esta última,^

se estimaría ^ por MC^, ^_(X' X)!' X'y, y á 2 = s 2 es el valor del estimadorinsesgado clásico de a2 obtenido a partir de los residuos mínimo cuadráticos.La probabiiidad de superación del umbral sería

^0^^ = Y°za ^, ĉr,X°]= N (o,1)z a ^X--^ (24]P^,o2 P ^ I R P s

La diferencia entre ambas probabilidades vale

a -X°^ a -X°^p^ 0 2-- p "^ 2= Ft v^e - ci^^• ^ s s

[25]

^En ambas, al umbral, a, se le somete al mismo «cambio de origen», Xo ^,

pero el «cambio de escala» es distinto, s en el primer caso y s en el segundo.^

Por otra parte, y debido a que e es un númera menor que la unidad, se tiene

siempre que s> s, con lo que podemos, al igual que en e! caso en el que la^

varianza es conocida (v^ase el apartado anterior), comparar las probabilidades^p y p^,Q2, dependiendo de si el umbral (que viene dado) supera, o no, la predic-

^ ^^ a -X°^ a -X°^oAsí se tiene quesi a > X ^ción mínimo cuadrática <, ,.^

^.

scon lo ue ^^ 2< < 0.5.q P ^, o P s/

Por el contrario, si a < X° ^ se tendrá que 0.5 < p < p^ á2 , por motivos aná-logos a los reseñados en el párrafo anterior.

Page 13: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICCIUNES BAYES[ANAS DE F'ROBABILIDAD EN PRESENCIA DE UMBRALES $7

La diferencia entre ambas probabilidades estimadas reside ahora en doshechos:

a) En primer lugar, una dispersión extra de la estimación bayesiana dada

2

por S - s 2= s 2 X°{X ' X)-' X°', que es !a varianza estimada dee

X° ^ dados los datos y proviene de la naturaleza aleatoria de ^.

b) En segundo lugar, la distribución marginal de Y° es una t de Student yno una normal, debido a la aleatoriedad supuesta para a 2.

. , a --X°^Ambos factores actuan en el rnismo sentldo. Asi, si es posit^vo,s

a -X°^ a -X°^p N(0, 1) z s p N (0, 1) z^%e

s s

^0sp t_ a1^e a ~x ^ s0.5 26T k S [ ^

La prirr^era desigualdad proviene de que 0 c^< 1, es decir, es una conse-cuencia del primero de Ios factores, y la segunda se deduce del hecho conocido[véase, por ejemplo, Sanz (1994), pág. 105] que garantiza que la función de dis-tribución de la N (0, 1) es superior a la de la t de Student para valores positivos(e inferior para los negativos). Es, por tanto, una consecuencia del segundo de

N

los factares anteriores. En definitiva, si p^ ^2 < 0.5, entonces p^ ^2 < p< 0.5.N

De la misma forma se comprueba que si p^ Q2 > 0.5, entonces 0.5 < p< p^, á2 .

Para tamaños muestrales grandes debe esperarse que las diferencias entreambas probabilidades se reduzcan; por un lado, las diferencias entre !as funcio-nes de distribución normal y de Student son despreciables para más de 30 gra-dos de libertad, y por otro, como vimos en [16], ^e tiende a la unidad cuando Ttiende a infinito. De hecho, es un principio general del análisis bayesiano que,para muestras grandes, la información a priori es irrelevante en relación con laque suministra la verosimilitud.

Conocida la distribución marginal de Y°, dados y, X y X°, se obtienen tam-bién sin dificultad estimaciones óptimas de las probabilidades

P^ = p[Y° s a I^^ al

0p2=p [c sY°sd ^^,a]

Page 14: Predicciones bayesianas de probabilidad en pre s encia de ...

xx

resultando como soluciones

FS^T^AUIS'^T1C`A F^.SPANOL_A

^ c --X°^ d ^X°^p2-p ^ str-ks^

s s

Sus relaciones con las estimaciones clásicas correspondientes se obtienen^de forma análoga a la que acabamos de describir para p.

4. APROXIMACION DE LOS PREDICTORES MAXIMO VEROSIMILY BAYESIANO CUANDO LA VARIANZA DE LA PERTURBACIONES CONOCIDA Y EL MODELO TIENE TERMINO CONSTANTE

^En el apartado segundo hemos estudiado ía estimación óptima, p, de la pro-

babilidad de que !a variable endógena de un MLG rebase un umbral cuando lavarianza de la perturbación es conocida. Como hemos visto, esta estimación di-fiere de la mínimo cuadrática en virtud de !a diferencia entre las distribucionespredictivas empleadas en cada caso.

Resulta entonces natural estudiar el tamaño de las discrepancias entre am-bas estirnaciones de la probabilidad, discrepancias que tendrían que ver, comoantes dijimos, con el íncremento de la incertidumbre asociada a la estimación deX° ^, esto es, con a^ X°(X' X)-' X°'.

C^tro enfoque del problema consiste en recordar que la estimación óptima de^p, p, puede verse cvmo la probabilidad de superar el umbral cuando la espe-^ranza de Y°, X° ^3, se obtiene mediante una estimación óptima suya, X° ^i, deacuerdo con 1a expresión [15]. Este planteamiento traslada la comparación de ladispersión de probabilidades normales a la de sus esperanzas, con un enfoquemás evidente.

^De acuerdo con esta idea, nos plantearíamos evaluar la diferencia entre X° ^i

y X° ^. Pero

IX°^-x°^1=(^-^)•la-X°^I [27]

por lo que, si a = X° ^[es decir, si (X°, a) está en la recta de regresión mínimocuadráticaj, ambas estimaciones de la esperanza coinciden y, por tanto, lo ha-^rán las dos probabiiidades estimadas, p= p^ (este último resultado se podría

Page 15: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDIC_'CInIYES BAYESIANAS DE PROBABti..IDAD EN PRESEIV(^EA DE UMIBRALES $^

deducir directamente de las desigualdades [13], y del hecho de que, en esecaso, p ^ = 0. 5 } .

^Si a ^ X° ^, la diferencia entre ambos estimadores de la esperanza puede

evaluarse también en términos de su distancia relativa,

f X° ^-X° ^ I1 - ^e =

!a-X°^I

En definitiva, ambos enfoques conducen a una idea común. En el primero,cuanto mayor sea la forma cuadrática X°(X' X)^ ^ X°', mayor incertidumbre in-troduce en la estimación de X° ^, por lo que las dos probabilidades estimadasserían más diferentes. En el segundo, el incremento de dicha forma cuadráticase traduce en una disminución de e, y, por tanto, en un incremento de la dife-rencia relativa entre ambas esperanzas estimadas (que a su vez hace más dife-rentes las probabilidades estimadas}.

^De qué depende el valor de la forma cuadrática? En primer lugar, de la in-formación muestral, esto es, de la matriz (X' X)-' . En particular, obsérvese queel incrernento del tamaño de la muestra, como antes dijimos, disminuye su va-lor, ya que Iim T^^ X°(X' X}-' X°' = 0.

Además, depende de X°, esto es, de los valores de las variables predetermi-nadas. Veamos la siguiente proposición.

Proposición 4.1

Sea el modelo [1 ] con término constante. La mínima distancia relativa entrelos predictores bayesiano y máximo verosímil, X° ^ y X° ^i, y, por tanto, ia míni-^ma distancia entre p y p^ , dados a, y y X, se obtiene para

X° _ (1 j x2 , ..., Xk )

donde x; es la media aritmética de los valores de X; . Además, el m í nimo de di-cha distancia relativa entre los predictores va(e

min(1-^)=1-^ [29]Xo T+1

Page 16: Predicciones bayesianas de probabilidad en pre s encia de ...

90 ESTADISTICA ESPAÑOLA

Demostración: Sea X la matriz T x k de valores de las variables exógenas.

Escribamos X=(1 ^ Z), donde 1 es la matriz columna formada por T valoresiguales a la unidad. Entonces

^[I + 1' Z(Z' M Z)-^ Z^ 1 ^]_ 1 ^^ Z(Z ^ M1 Z}-^.,^ 1 T T

{ x' x )-1 -

--Z'M,Z-'Z'1 1 Z'MZ( 1 } T l 1

conM1=/- 1 ^1' .PeroT

Z'M Z=Z'Z- ^ Z'11'Z =Z'Z-Tz' z' T

donde i es la matriz (fila) de medias muestrales de Z, z= ^' z

En consecuencia, Z' M^ Z= T Cov ( Z ), donde Cov (Z ) es ia matriz de co-varianzas muestrales de las variables de Z, lo que permite escribir !a inversa(X' X )-' como

^ [I + z (Cov (Z ))a' z '] - 1 z (Cov (Z ))-

(x' x}-' _11

^ COV ^Z ^ ^-^ Z 1(Cov (Z ))-' z 1 {Cov (Z })-'TT

y si premultiplicarnos por X° _(1 ^ x° ) y postmultiplicamos por su traspuesta ob-tenemos

X ° (X' X )- 1 X °' _ ^ + 1 (x° - z ) (Cov (Z ))-' (x° - z )'T T

EI mínimo de dicha forma cuadrática se obtiene, en consecuencia, para x° = z,y sólo para ese valor, ya que la matriz (Cov (Z ))^' es definida positiva. EI mini-

mo resulta, además, igual a 1, y de la expresión [9], ei máximo valor de e esT

1 Te - 1 - . {c.q.d.}

1+ T+1T

Page 17: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICCIUNES BAYESIANAS DE PRUBABILIDAD EN PRESENCIA DE UMBRALES 9I

Este resultado admite una interpretación geomótrica. Transformemos el mo-delo [1 ^ original, sustituyendo las variables prapiamente explicativas (todas me-nos el término constante) por sus componentes principales, y reparametricemosel modelo. Sea A' la matriz de vectores propios de ^C'ov (Z ), es decir,

A • Cov (Z ) • A' = diag (^.^, -^ ^k -,}

reordenados de forma que ^.^ ^ . . . z ^.k _ , .

Transformemos las variables explicativas centradas mediante A' en sus com-ponentes principales, U=(Z - 1 z } A'. Podemos entonces jsiendo ^_^ _(^^,^k }' ] transformar el modelo,

Y=1 ^^+Z^_^+^=1 S^+Uá_^+^

donde 81 =^^ + z^_1 y 8_, = A ^_1 , ya que Z= 1 z+ U A.

Entonces, para el modelo transformado, si Ilamamos U° _(1, u° ) la matrizfila de valores de las variables predeterminadas en el periodo de predicción, lamedida de la incertidumbre vendrá ahora dada por la forma cuadrática

1'1'(1, u°) U,

resultando

1'1'

(> > ^°) V,

1

u°.

T -1 0' i

^ ^ o^0 T-' diag ( , I u•-•:1^^ ,^k

^ 1 1

i^' T 7

-

u ° • diag 1 , . . . , ^ • u ° ' [30]^ ^^1 ^k -1

Como ya sabíamos, el mínimo se obtiene para u° = 0, pero el resultado [30]nos permite interpretar para qué valores de u° se obtendr^n pequeños valoresde la forma cuadr^tica. Para ^ u° ^ fijo, por ejemplo, igual a la unidad, el menor

valor se obtiene ara U° = 1, 0, ..., 0, a ue ^ s ^ s... s 1 , esto es,p ( } y q ^. ^. ^. _,1 2 k

en la dirección de la primera componente principal. EI valor de la forma cuadráti-ca, en esta situación, será tanto menor cuanto mayor sea ^., , es decir, cuantamayor variabilidad de X2 , ..., Xk recoja la primera componente principal.

Page 18: Predicciones bayesianas de probabilidad en pre s encia de ...

92 ESTADISTICA F:tiF^ANt)LA

5, UNA APLICACION A LA PREDICCION DEL GASTO TURISTICO

Por encarga del Gobierno autónomo balear se elabora anualmente la «En-cuesta sobre el Gasto Turístico» en las Islas Baleares. Dicha encuesta, provi-niente de un muestreo por conglomerados según la importancia de cada nacio-nalidad y de cada isla en la actividad turística, proporciona un conocimiento de-tallado sobre el gasto de los turistas que visítan el archipiélago, apareciendodich0 gast0 dividido en diferentes partidas y diferenciando, asimismo, el gastoen e! país de origen y el gasto efectuado propiamente en las islas, La encuestatambién proporciona otros aspectos relevantes de este colectivo de visitantes(características generales de los individuas y de la visita, grado de satisfac-ción} que, en conjunto, !a convierten en un material estadístico de enorme im-por^tancia para el conocimiento y la determinación de las características bási-cas de la demanda turística hacia Baleares. Se pretende, por parte de dichoGobierno autánomo, estudiar la probabilidad de retorno, esto es, de volver a vi-sitar la isla (2).

Nuestro objetivo no es estudiar la probabilidad de retorno a las islas, sinoevaluar fas probabilidades con que distintos grupos de individuos son gastado-res, cansiderando gastadores a los que gastan, por persona y día, más que lamedia. Como aproximación de esta media (desconocida) utilizaremos la mediamuestral que, dado ei tamaño de la muestra, puede considerarse una es#ima-ción aceptable. Esta media muestral será considerada como el umbral a efectosde nuestro trabajo. Trabajaremos con la encuesta realizada en 1992 y efectua-remos los cálculos para el gasto en las islas, ISLAS, según que supere, o no, encada grupo el gasto medio correspondiente para el conjunto de la población en-cuestada. Esto es, para el año 1992, de 3.809 pesetas por persona y día (3}.

La varianza es desconocida, por lo cual deberíamos utilizar el procedimientodesarrollado en el tercer apartado (ecuación [23]). No obstante, dado el tamañode la muestra (4.345 individuos) y dado que una distribución t„ es casr una nor-mal estándar en cuanto los grados de libertad superan !a treintena, la probabili-dad será, en la práctica, la misma que la obtenida en el caso de varianza cono-cida y que recoge la ecuación [y 0]. Esta aceptación del conocimiento para Q2nos permite identificar el predictor {ecuación [15]), con lo cual podrán hacersecomparaciones no sólo entre las probabilidades, sino entre las predicciones delgasto.

(2) Puede verse, en este sentido, Juaneda t 1993).(3) Evidentemente, puede elevarse la categoría de los gastadores a los que gastan, por ejem-

plo, al menos lo que el 75% de los individuos, esto es, el umbral será el tercer cuartil, 4.522 pese-tas por persona y dfa; o bien, plantearnos la probabilidad de que los gastos en las islas superenlas 10.000 pesetas o cualquier otro umbral deseable.

En un trabajo anterior [véase Sanz ( 1994), págs. 187-219j se reaiiza este estudio de forma máscompleta, y se amplía el análisis a los gastos en origen y al gasto total.

Page 19: Predicciones bayesianas de probabilidad en pre s encia de ...

PREUICC'IC)NT^S BAYESIANAS UE PRC)BABILIUAD FN PRESENC.'lA UE l'MBRALES y^

La encuesta considera 11 factores, conteniendo cada factar varias madalida-des. Para cada modalidad tendremos una variable dicotómica que la describe yque vale la unidad en la modalidad pedida y cero en el resto; los 11 factoresconsiderados (con mayúsculas se indica cómo denominaremas a las variablesexógenas pasteriormente) se recogen en el anexo 1.

Además de estos 1 1 factores, la encuesta proporciona el gasto turístico pa-gado en el país de origen, ORI, y el efectuado durante su estancia en las islas,ISLAS, para cada encuestado. Su suma, TOTA^, es el gasto turístico totaf. To-dos estos gastos aparecen medidos en pesetas por persona y día.

Juaneda (1993) plantea varios modelos de regresión con las anteriores va-riables independientes, actuando coma dependiente ORI, ISLAS o TOTAL. Paraestos análisis considera un grupo de referencia (el grupo más frecuente dentrode su categoría), en relación con el cual interpretar y comparar los parámetrosde cada modela. Este está formado por /os a/emanes, menores de 30 años, deprofesión emp/eados, que se a/ojan en un hote/ de la zona 6(costa de Levante),que trajeron pagado sólo transpvrte y habitación, que es su primera visita y,además, que opinan del precio que es caro, con una buena impresión sobre elviaĵe.

La necesidad teórica de la introducción de dicho grupo de referencia es evi-dente, pues con él evitamos la existencia de multicolinealidad perfecta al supri-mir la variable dicotómica correspondiente a una de las rnodalidades de cadafactor.

Nuestro objetivo es estimar la probabilidad de superación de un umbral,siendo éste el gasto medio muestral en las islas. Nuestras predicciones evalúanel gasto por persona y día de un individuo con ciertas características. Juaneda(1993), en el estudio de las probabilidades de retarno a las islas, se centra enciertos grupos de turistas (328 grupos); nosotros, en este trabajo, nos ocupare-mos, para el análisis predictivo, de 80 de ellos que recogemos en el anexo 2,correspondiéndose con las descripciones que se encuentran a su derecha; así,por ejemplo, el grupo número 9 tratará del grupo de turistas británicos, menoresde 30 años y que se han alojado en la zona 8.

De este modo, tendrernos una matriz de dirnensión 80 x 37, que contendrálas variables exógenas en el período de predicción y cuya construcción, paracada fila (centrémonos, por concretar el comentario, en la fila número 9), es lasiguiente: para !os factores que caracterizan al grupo, un 1 en la columna co-rrespondiente a la modalidad que aparece y ceros para los restantes (es decir,un 1 en británico y un 0 en el resto de nacionalidades, un 1 en ED030 y 0 en elresto de los grupos de edad y un 1 en Zana 8 y un 0 en el resto de las zonas).Para los otros factores (esto es, para las variables dicotómicas correspondien-tes a Profesión, tipo de alojamiento, opinión sobre el viaje, impresión de su es-

Page 20: Predicciones bayesianas de probabilidad en pre s encia de ...

94 FSTADISTICA ESPAfVOL.A

tancia y número de veces que ha visitado la isla) tomaremos los valores rnediosde las modalidades, es decir, la frecuencia con la que se presenta la modalidadcorrespondiente (nótese que ello es razonable pues tratamos de predecir la pro-babilidad de superación del gasto media por el gasto efectuado en las islas).

Esta matriz, por tanto, contendré los valores de las variables exógenas enlos períodos considerados de predicción, esto es, !os 80 grupos reseñados.Para cada uno de ellos, calcularemos (4) las probabílidades p^ y p^, que se re-cogen en la tabla 1. Esta, muestra, para cuatro nacionalidades (alemana, britá-nica, española e italiana} y para los distintos grupos de edad, su probabílidad^(bayesiana, p, y mínimo cuadrática, p) de que ei gasto turístico rebase el gastomedio, efectuado el estudio en cinco zonas de las islas. Se presentan, asimis-mo, los errores estándar de la estimación de ambas probabifidades. Para p seutiliza el método s[véase, por ejemplo, Rao (1973}, pégs. 385-389j, que condu-

^0ce a un error estándar X ° X' X^' X°' • a- x ^ ue denominaremos( ) ^ ( ,^ ), qep en la tabla 1, y para el bayesiana se utiliza ia desviación típica a posterioride p^ , obtenida mediante una simulación de Montecarlo de la distribución aposteriori de R. Este error estimado del estimador bayesiano aparece con la no-tación ep en la tabla 1.

Puede apreciarse que ambas probabilidades son muy similares y sus erroresestándar indican que, estadísticamente, no hay diferencias significativas entreellas. Esto es debído a la conjunción de tres factores: en primer lugar, al ser elumbral la med'+a observada del gasto por persona y día, la predicción mínimocuadrática estará, usualmente, cerca del umbral; en segundo lugar, al ser p y pvalores de una misma distribución (una normal estándar), sus diferencias de-penderán del valor para el que se calculan y, por tanto, de e, pero al tomarselos valores de las variables que no intervienen en la caracterizacíón del indivi-duo iguales a sus valores medios, esto hace que e esté próximo a la unidad,por lo que ambas probabilidades son muy similares; por último, en tercer lugar,el elevado tamaño de la muestra (4.345 individuos}.

^Por otra parte, como indicamos en e! apartado 2, la predicción bayesiana, p,

se encuentra entre la mínimo cuadrática, p, y 0.5, y se comprueba que, en efec-to, la predicción de la probabilidad para el predictor mí nimo cuadrático se alejamás de 0.5 que la bayesiana obtenida.

E1 objetivo de este apartado es mostrar la viabilidad de nuestra técnica des-de el punto de vista de su implementación, por lo que no nos detendremos encamentar los resultados de las tablas. Puede observarse, no obstante, que sonlos italianos los que tíenen las mayores probabilídades de superación del gasto

(4) Los cálculos se realizaron utilizando el programa TSP 4.2A.

Page 21: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICC[C)NES BAYESIANAS DE PROBABiL1DAU EN PRESENC[A DE UMBRALES gS

Tabla 1

PROBABILIDADES DE QUE EL GASTO EN LAS ISLAS SUPEREEL GASTO MEDIO ( POR PERSONA Y DIA) Y ERR^ORES ESTANDAR

^P eP

^p e`p

^p e Ĝ

^^ 8P

1 0.65943 0.041076 0.65849 0.042283 41 0.62938 0.042993 0.62858 0.044796

2 0.51561 0.018289 0.5 i 559 0.018971 42 0.48343 0.020043 0.48345 0.020488

3 0.54097 0.026635 0.54088 0.025553 43 0.50885 0.028048 0.50883 0.027738

4 0.53495 0.026927 0.53487 0.025691 44 0.50280 0.028166 0.50280 0.026788

5 0.55179 0.020403 0.55172 0.020024 45 0.51974 0.022210 0.51971 0.022929

6 0.61035 0.041844 0.60971 0.043261 46 0.57907 0.042924 0.57861 0.044301

7 0.46353 0.019076 0.46357 0.019689 47 0.43162 0.019555 0.43171 0.018437

8 0.48891 0.026783 0.48893 0.025262 48 0.45680 0.0271$1 0.45690 0.025268

9 0.48287 0.024911 0.48290 0.023622 49 0.45079 0.025183 0.45089 0.022415

10 0.49980 0.018948 0.49980 0.020029 50 0.46765 0.019675 0.46769 0.020438

11 0.71887 0.037823 0.71765 0.037395 51 0.69103 0.040102 0.68991 0.039171

12 0.58227 0.029426 0.58204 0.029050 52 0.55054 0.030872 0.55039 0.028600

13 0.60698 0.029752 0.60667 0.030603 53 0.57564 0.031363 0.57540 0.031171

14 0.60114 0.032222 0.60080 0.031246 54 0.56970 0.033662 0.56944 0.030961

15 0.61744 0.027351 0.61715 0.026372 55 0.58631 0.029068 0.58608 0.027070

16 0.79662 0.036596 0.79467 0.038000 56 0.77304 0.039667 0.77111 0.041006

17 0.67647 0.032709 0.67579 0.031977 57 0.64697 0.035030 0.64635 0.033243

18 0.69902 0.036205 0.69804 0.035067 58 0.67035 0.038695 0.66944 0.037190

19 0.69372 0.034512 0.69287 0.036551 59 0.66485 0.036874 0.66406 0.038151

20 0.70846 0.030673 0.70771 0.031663 60 0.68018 0.033178 0.67946 0.033829

21 0.58866 0.043238 0.58813 0.043336 61 0.64311 0.051789 0.64181 0.054013

22 0.44130 0.017492 0.44136 0.017227 62 0.49801 0.038291 0.49802 0.037891

23 0.46656 0.026549 0.46663 0.025402 63 0.52343 0.043335 0.52329 0.042435

24 0.46054 0.026395 0.46062 0.024298 64 0.51739 0.042359 0.51729 0.042530

25 0.47743 0.020228 0.47746 0.019318 65 0.53429 0.039238 0.53413 0.040141

26 0.53722 0.042684 0.53700 0.043104 66 0.59332 0.052437 0.59250 0.054485

27 0.39037 0.017218 0.39048 0.017317 67 0.44604 0.037608 0.44629 0.036437

28 0.41504 0.025604 0.41522 0.024267 68 0.47133 0.042643 0.47149 0.040783

29 0.40914 0.023260 0.40930 0.021293 69 0.46530 0.040237 0.46548 0.039738

30 0.42572 0.017626 0.42579 0.018592 70 0.48221 0.037767 0.48229 0.038742

31 0.65272 0.040950 0.65184 0.039000 71 0.70380 0.047882 0.70205 0.046802

32 0.50834 0.029464 0.50832 0.028196 72 0.56498 0.044310 0.56457 0.040094

33 0.53373 0.03042$ 0.53363 0.031047 73 0.58992 0.044675 0.58934 0.041886

34 0.52770 0.032609 0.52761 0.030746 74 0.58402 0.045412 0.58346 0.042457

35 0.54457 0.027962 0.54446 0.026266 75 0.60050 0.042497 0.59991 0.039667

36 0.73982 0.041899 0.73810 0.042102 76 0.78392 0.045185 0.78122 0.047899

37 0.60682 0.034985 0.60639 0.033338 77 0.66046 0.045884 0.65928 0.045732

38 0.63110 0.039368 0.63042 0.037801 78 0.68348 0.04$346 0.68193 0.047855

39 0.62537 0.037196 0.62479 0.038640 79 0.67807 0.046297 0.67670 0.049263

40 0.64136 0.033491 0.64082 0.033919 80 0.69314 0.043551 0.69179 0.045754

Page 22: Predicciones bayesianas de probabilidad en pre s encia de ...

9fi ESTADISTCCa FSPaNC)!_A

medio, encontrándose en el polo opuesto los británicos. Asimismo, las catego-rías correspondientes al grupo de edad más joven, ED030, tienen mayor proba-bilidad de superar el gasto medio que las categorías que contienen a otro grupode edad.

Los autores han efectuado este mismo estudio para los gastos en origen ypara el gasto total, determinando las probabilidades de superar su gasto mediocorrespondiente (5.370 y 9.179 pesetas, respectivamente, por persona y d í a},así como los correspondientes errores estándar en cada caso. No se acompa-han para no abultar el trabajo en demasía.

fi. CONCLUSIONES

En este trabajo se estudia, bajo una óptica bayesiana, la predicción de laprobabilidad de que la variable endógena de un MLC rebase un umbral. Hemosmejorado el resultado dado por Rajo y Martín ( i 988), simplificando notablemen-te la obtención de la predicción óptima de la probabilidad de superación del um-brai, y obteniendo una expresión explícita del predictor cuando la varianza deias perturbaciones es conocida (resulta ser una combinación lineal convexa delpredictor MCO y del umbral}.

Cuando la varianza de las perturbaciones es desconocida, hemos obtenidouna predicción óptima de la probabifidad buscada, pero el predictor no resultaidentificable.

Hemos estudiado, también, tanto la diferencia entre las estimacio^nes baye-siana y clásica de superación del umbral, como la existente entre los predictoresde la variable endógena asociados a ambas técnicas. EI objetivo consistía en lo-calizar situaciones en las que ambos sean similares, con lo que la complicaciónque supone nuestra técnica no se vería compensada por una mejora apreciablede los resultados. Hemos demostrado que la distancia relativa entre ambos pre-dictores se hace mínima cuando las variables exógenas en el período de predic-ción toman sus valores medios correspondientes al período muestral. Evaiua-mos también de qué dependen sus diferencias cuando no nos encantramos enel mínimo.

Finalmente, se aplican los resultados obtenidos para estimar la probabilidadde que los turistas qúe arriban al archipiélago balear gasten más que la media;ello permite evaluar qué grupos de turistas son más o menos gastadores. Losresultados no son muy diferentes a los obtenidos por MCO, y los errores están-dar indican la no existencia de diferencias significativas, debido a la naturalezadel problema y al tamaño de la muestra. En cualquier casa, permite ilustrar latécnica empleada, y mostrar su factibilidad en las aplicaciones prácticas.

Page 23: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICC'IONES BAYESIANAS DE PRC)BAB[L1DAD EN PRESENC[A DE t_lMBRALES

Anexo 1

Nacionalidad:• ALEMANA: de nacionalidad alemana.• BRITAN: de nacionalidad brit^nica.• ESPA: de nacionalidad española.• FRANBE: de nacionalidad francesa o belga.• NORDICS: de nacionalidad holandesa, danesa, noruega o sueca.• ITA^IA: de nacianalidad italiana.• OTRAS: resto de nacionalidades.

Edad:• ED030: población de edad menor que 30 años.• ED3045: población de edad entre 30 y 45 años.• ED4560: pobiación de edad entre 45 y 60 años.• ED6090: población de edad mayor que 60 años.

Profesián:

• PFLIB: Profesión liberal.• TSUPGE: Técnico superior, jefe de empresa, gerente.• INTFUN: Cuadro intermedio, funcionario.• EMPL: Empleados.• OBR:Obreros.• JUBI: Jubilados.• ESTU: Estudiantes.

97

Lugar de alojamiento dei turista:• HOTEL: se alo^jó en hotel.• APAR: se alo^o en apartamento.• CHAL: se alojó en chalet.• AMIOTR: se alojó con amigos y familiares.

Zona en que se alojan. Para ello, se dividió el archipiélago en nueve zonas.

• ZONA1: los que se alojaron en la zona 1.• ZONA2: los que se alo^aron en la zona 2.• ZONA3: los que se alo^aron en la zona 3.• ZONAS: los que se alojaron en la zona 4 y 5.• ZONA6: los que se alojaron en la zona 6.• ZONA7: los que se alojaron en la zona 7.• ZONA8: los que se alojaron en la zona 8.• ZONA9: los que se alojaron en la zona 9.

Lo que ha pagado el turista en origen i ncluye:• TRA: Sólo el transporte.• TRAHAD: En esta modalidad se incluyen los que han pagado el transporte y habita-

ción, asi como los que han pagado e! transporte, habitac[bn y desayuno.• TRAHAMP: Transporte, habitación y media pensión.• TRAHAPC: Transporte, habitación y pensión cornpleta.

EXCUR: si en el precio pagado están incluidas ias excursiones.Opinián sobre el precio:

• CARO: opinan que el precio es caro o bastante caro.• NORMAL: opinan que el precio es normal.• BARATO: opinan que el precio es barato o bastante barato.

Impresión sobre el viaje:• BUENA: la impresión sobre el viaje ha sido buena.• MBUENA: la impresión sobre el viaje ha sido muy buena.• IMNOR: la impresión sobre el viaje ha sido normal.• MALA: la impresión sobre el viaje ha sido mala.

Número de veces que ha pasado sus vacaciones en las islas:• VEZ1 : ha pasado sus vacaciones una vez.• VEZ2: ha pasado sus vacaciones dos veces.• VEZ3: ha pasado sus vacaciones 3 veces o mós.

S1RET; si piensa volver a pasar sus vacaciones en la isla.

Page 24: Predicciones bayesianas de probabilidad en pre s encia de ...

yx F.STADISTIC: A ESPAÑOLA

Anexo 2

1 ALEMANA=1, E D030= i, ZONA 1=1 41 ALEMANA=1, ED4560=1, ZONA1=12 ALEMANA=1, ED030=1, ZONA6=1 42 ALEMANA=1, ED4560=1, ZONA6=13 ALEMANA=1, ED030=1, ZONA7=1 43 ALEMANA= i, E D4560=1, ZONA7= i4 ALEMANA=1, ED030=i , ZONA$=1 44 ALEMANA=1, ED4560=1, ZONA8=15 ALEMANA=1, ED030=i , ZONA9=1 45 ALEMANA=1, ED4560=1, ZONA9=16 BRITAN=1, ED030=i , ZC1NA1=1 46 BRITAN=^ , ED456o=1, ZONA1=i7 BRITAN=1, ED030=1, ZONA6=1 47 BRITAN=1, ED4560=i , ZONA6=18 BRITAN=1, ED030=1, ZONA7=1 48 BR ITAN=1, E D4560=1, ZONA7=19 BRITAN=1, ED030=1, ZONAB=1 49 BRITAN=1, ED4560=1, ZONA8=1

10 BRITAN=1, ED030=1, ZONA9=1 50 BRITAN=1, ED4560=1, ZONA9=111 ESPA=1, ED030=i, ZONA1=1 51 ES PA= i, E D4560=1, ZONA 1=112 ESPA=1, ED030=1, ZONA6=1 52 ESPA=1, ED4560=1, ZONA6=113 ESPA=i, ED030=1, ZONA7=1 53 ESPA=1, ED4560=1, ZONA7=114 ESPA=1, ED030= i, ZONAS=1 54 ESPA= i, E D4560=1, ZONA8=115 ESPA=1, ED030=1, ZONA9=1 55 ESPA=1, ED4560=1, ZONA9=116 ITALIA=1, ED030=1, ZONA1=i 56 ITALIA=1, ED4560=1, ZONA1=117 ITALIA=1, ED030=1, ZONA6=1 57 ITALIA=1, ED4560=1, ZONA6=118 ITALIA=1, ED030=1, ZONA7=1 58 ITALIA=1, ED4560=1, ZONA7=119 ITALIA=1, ED030=1, ZONA8=1 59 ITALIA=1, ED4560=1, ZONA8=120 ITALIA=1, ED030=1, ZONA9=1 60 ITALIA=1, E D4560=1, ZONA9=12i ALEMANA=1, E03045=1, ZONA1=1 61 ALEMANA=1, ED6090=1, ZONA1=122 ALEMANA=1, ED3045=1, ZONA6=1 62 ALEMANA=1, ED6090=1, ZONA6=123 ALEMANA=1, E03045=1, ZONA7 63 ALEMANA=1, ED6090=1, ZONA7=124 ALEMANA=1, ED3045=1, ZONA8=1 64 ALEMANA= t, ED6090=1, ZONA8=125 ALEMANA=1, ED3045=1, ZONA9=1 65 ALEMANA=1, ED6090=1, ZONA9=126 BRITAN=1, ED3045=1, ZONA1=1 66 BRITAN=1, ED6090=1, ZONAi =127 B R ITAN=1, E D3045=1, ZONA6= i 67 BRITAN=1, ED6090=1, ZONA6=128 BRITAN=1, ED3045=1, ZONA7=i 68 BRITAN=1, ED6090=1, ZONA7=129 BRITAN=1, ED3045=1, ZONA8=1 69 BRITAN=1, ED6090=i , 20NA8=130 BRITAN=1, ED3045=1, ZONA9=1 70 BRITAN=1, ED6090=1, ZONA9=131 ESPA=1, ED3045=1, ZONA1=1 71 ESPA=1, ED6090=1, ZONA1=132 ESPA=1, ED3045=1, ZONA6=1 72 ESPA=1, E D6090=1, ZONA6=133 ESPA=1, ED3045=1, ZONA7=1 73 ESPA=1, E D6090= i, ZONA7=134 ESPA=1, ED3045=1, ZONA8=1 74 ESPA=1, E D6090=1, ZONA8=135 ESPA=1, ED3045=1, ZONA9=1 75 ESPA=1, ED6090=i, ZONA9=136 ITALIA=1, ED3045=1, ZONA1=1 76 ITALIA=1, ED6090=1, ZONA1=137 ITALIA=1, ED3045=1, ZONA6=1 77 ITALIA=1, ED6090=i, ZONA6=i38 ITALIA=1, ED3045=1, ZONA7=1 78 ITALIA=1, ED6090=i , ZONA7=139 ITALIA=1, ED3045=1, ZONA8=1 79 ITALIA=1, ED6090=1, ZONAB=140 ITALIA=i , ED3045=1, ZONA9=1 80 ITAL IA= i, E D6090= i, ZONA9=1

Page 25: Predicciones bayesianas de probabilidad en pre s encia de ...

PREDICCIONES BAYESIANAS DE PROBABILIDAU EN PRESENC'IA DE UMBRALES 99

REFERENCIAS

ASHFORD, J. R., y SowDEN, R. R. (1970): «Multivariante Probit Analysis», Biome-trics, 26, 535-546.

BROEMELING, L. D. (1985) : Bayesian Ana/ysis of Linear Models, New York: Dek-ker.

FASE, M. M. G. (1971): «On the estimation of lifetime income», JASA, vol. 66,366, 686-692.

FERGUSON, T. S. (1967}: Mathematica/ Statistics: a Decision Theoretic Approach,New York & London: Academic Press.

HECKMAN, J. J., y MACURDY, T. E. {1980): «A Life Cycie Model of Female LabourSupply», Review of Economic Studies, 47, 47-74.

JUANEDA, C. N. (1993): «Un análisis de la encuesta de gasta turistico ( Compara-ción temporal 1989-1992)». Trabajo de investigación (no publicado), para elconcurso al Cuerpo de Catedráticos de Universidad.

RAO, C. R. (1965) : Linear Statistical lnference and its Applications, New York:John Wiley & Sons.

Ro^o GARCíA, J. L. (1987) : Estimación Bayesiana con funciones de pérdida liga-das a /a cola de una distribución. Homenaje a! Profesor G. Arnaiz Vellando,I N E, 599-610.

(1990): Trabajo de Investigación (no publicado}, para el concursa al Cuerpode Catedráticos de Universidad (Area de Economia Aplicada).

Ro^o, J. L., y MARTÍN, I. (1988): «Predicciones de variables endógenas en pro-

blemas ligados a la existencia de umbrales», Estadistica Española, INE,

1 16, 45-53.

SAN2, J. A. (1994): «Predicciones bayesianas de probabilidad en presencia deumbrales en un modelo lineal. Una aplicación a la predicción del gasta turís-tico». Tesis doctoral, Departamento de Economia Aplicada (Estadística yEconometría), Universidad de Valladolid.

ZELLNER, A. (1971) : An /ntroduction to Bayesian Inference in Econometrics, NewYork: Wiley.

ZELLNER, A.; HONG, C., y MITU GU^ATI, G. (1990): «Turning points in Econamic

Time Series, Loss structure and Bayesian forecasting», en Bayesian and Li-

kelihood Methods in Statistics and Econometrics. Essays in Honor of George

A. Barnard, S, Geisser, J. S. Hodges, S. James Press y A. Zellner (eds.),

Amsterdam: North-Holland, pp. 371-393.

Page 26: Predicciones bayesianas de probabilidad en pre s encia de ...

ESTAD[STICA ESPANO[_A

BAYESIAN PREDICTIONS OF PROBABILITIES RELATEDTO TNRESHOi.DS FOR A GENERAL L11`IEAL MODEL

SUMMARY

In this paper we obtain an optimal predictor for the probability ofsurpassing a threshold in a General Línear Model (GLM}, applyingBayes+an Analysis. We explicitly Obtain a pred'+ctor for the endoge-nous variable when the variance of errors is known and a certainstandardization of it otherwise.

Also the numerical difference between our prediction and the{^LS one is analyied, and finally, our method is expiained through acase concerning the tourist trade of the Balearic Islands.

Key Words: Bayesían A►nalysis, Ecanometrics, Decision Theory.

AMS C/assífication: Primary 62H 12. Secondary 62P20.