TURISMO Í A

106
Estadística Aplicada rismo PEARSON Prentice Hall TURISMO Y HOSTELER Í A I ^ rt José María Raya

Transcript of TURISMO Í A

Page 1: TURISMO Í A

Estadística Aplicadarismo

PEARSON

PrenticeHall

TURISMO Y HOSTELER Í A

I ^ rtJosé María Raya

Page 2: TURISMO Í A

Estadística RpIicaøa

al Turismo

Page 3: TURISMO Í A

PEARSON\

Prenticeall

Madrid • México • Santafé de Bogotá • Buenos Aires • Caracas • Lima • Montevideo •

San Juan • San José • San tiago • Sao Paulo • White Plains

Es!aaTsríca aplicadaal Turismo

José María Raya VílchezEscuela Universitaria del Maresme (EUM)Adscrita a la Universidad Pompeu Fabra

Page 4: TURISMO Í A

K AYA VÍLCHEZ, J. M.'L OTADÍ.STICA APLICADA AL TURISMO

PEARSON EDUCACIÓN. S.A.. Madrid. 2004

ISBN: 84-205-4092-7Materia: Estadística. teoría. procedimientos y métodos 311

Formato: 195 / 250 mm Páginas: 112

/Dato. de catalogación bibliográfica

Todos los derechos reservados. Queda prohibida, salvo excepción prevista en la ley,cualquier forma de reproducción, distribución, comunicación pública y transformaciónde esta obra sin contar con autorización de los titulares de propiedad intelectual.La infracción de los derechos mencionados puede ser constitutiva de delito contrala propiedad intelectual (arts. 270 y sgts. Código Penal).

DERECHOS RESERVADOS2004 por PEARSON EDUCACIÓN, S.A.

Ribera del Loira, 2828042 Madrid (España)

RAYA VÍLCHEZ, J. M.°ESTADÍSTICA APLICADA AL TURISMO

ISBN: 84-205-4092-7Depósito Legal: M-14986-2004PEARSON PRENTICE HALL es un sello editorial de PEARSON EDUCACIÓN, S.A.

Equipo editorial:Editor: David Fayerman AragónTécnico editorial: Ana Isabel García Borro

Equipo de producción:Director: José Antonio CiaresTécnico: José Antonio Hernán

Diseño de cubierta: Equipo de diseño de PEARSON EDUCACIÓN, S.A.

Composición y diseño: JOSUR, TRATAMIENTO DE TEXTOS, S.L.

Impreso por: Top Printer Plus

IMPRESO EN ESPAÑA - PRINTED IN SPAIN

Este libro ha sido impreso con papel y tintas ecológicos

Page 5: TURISMO Í A

A los que me acompañan en esta «canción»

A Mar, Manel y en especial a Unís (¡som un equip.!) de la

EUM. por su confianza. A Jaume, por ser el origen de

estas oportunidades. A mis .er. por todo lo que han

aportado a este libro, especialmente, a Tania y Elisabet. A

Ana por estas «pequeñas cosas.. A mis amigos y amigas,

sobre todo a David y a Xevi por su aguante. Mención

honorífica para mis padres y a Abel (mi rockerfavorito) por... ¡todo! Por último, a Ángel

y David de Pearsón Educación y a la

comprensión de .quien pudo haber

sido. y .donde quiera

que estés..

Page 6: TURISMO Í A

ix

2

3

4

7

9

Priílogo

Ljaseatacióo

1.1. La Estadística: sentido y significado

1.2. El nuevo profesional turístico

1.3. El programa SPSS: breve introducción a su funcionamiento

1.4. La agencia EN ALGÚN LUGAR. S A

Z. Riiálisis exploratorio de variables unidimerisionales

2.1. Población y muestra. Tipos de muestreo 10

2.2. Variables estadísticas. Tipos 11

2.3. Tabulación: frecuencias 12

2.4. Representaciones gráficas 15

2.5. Reducción de datos I: medidas de tendencia central 16

2.6. Reducción de datos H: medidas de posición 23

2.7. Reducción de datos III: medidas de dispersión 25

2.8. Reducción de datos IV: medidas de simetría, apuntamiento y concentración 29

2.9. Ejemplos de estudio 33

2.10. Ejemplo de resolución a partir de SPSS 38

2.11. Ejercicios propuestos 48

Hnálisis exploratorio dc variables bidimensianales 53

3.1. Diagramas } tabulaciones bivariantes 54

3.2. Dependencia funcional y estadística. Covarianza y correlación 55

3.3. La regresión lineal simple 57

3.4. Cálculo de coeficientes e interpretación 58

Page 7: TURISMO Í A

üi Estadística aplicada al turismo

3.5. Medidas de calidad del ajuste 60

3.6. Introducción a la inferencia estadística 61

3.7. Hipótesis del modelo lineal. Consecuencias 62

3.8. Introducción a la regresión lineal múltiple 63

3.9. Estadística de atributos. Independencia y asociación 64

3.10. Ejemplos de estudio 66

3.11 Ejemplo de resolución a partir de SPSS 68

3.12. Ejercicios propuestos 79

4. Introducción al análisis de series temporales 83

4.1. Series temporales. Componentes de una serie temporal 84

4.2. Desagregación de los componentes de una serie temporal 85

4.3. Autocorrelación 87

4.4. Ejemplos de estudio 87

4.5. Ejemplos de resolución a partir de SPSS 89

4.6. Ejercicios propuestos 94

Bibliografía

Índice analítico

97

99

Page 8: TURISMO Í A

Prãl000

C

on toda seguridad la mayoría del conocimiento que adquirimos, tanto de índole teóricacomo práctica, presenta como objetivo esencial la ayuda a la hora de tomar decisiones.Esta finalidad es especialmente evidente cuando tomamos en consideración cualquier

técnica cuantitativa, en particular la Estadística descriptiva. Y si la Estadística descriptivaresulta tremendamente útil para científicos, ingenieros o economistas. i, por qué no para losprofesionales del sector turístico?

El presente libro trata a nivel intermedio la mayoría de tópicos que gran parte de tex-tos de dicha temática suelen presentar. A pesar de ello, pretende cuidar especialmente diver-sos aspectos que ala vez le permiten obtener una entidad diferencial. En primer lugar, inten-ta ofrecer una exposición clara y sencilla de los principales conceptos estadísticos sinmenoscabar el rigor matemático propio de la materia. Dicha exposición intentamos sea intui-tiva y persuasiva para el lector, de forma que la utilidad y la intuición que da origen a cadaconcepto anteceda la definición formal del mismo.

En segundo lugar, se pretende orientar el texto al sector turístico por varias razones.Resulta especialmente motivadora la escasa presencia de textos de índole cuantitativa real-mente orientados al sector tratando de forma directa la utilidad que confieren los instrumentosestadísticos a la gestión hotelera, a las agencias de viajes o. evidentemente, a las consulto-ras turísticas entre otros profesionales del sector. Este hecho se mitiga durante el texto, inclu-so en forma de casuística real debidamente disfrazada.

Por último, y relacionado con los puntos anteriores, el texto se hace acompañar de laimplementación y solución de diversos problemas a partir de, probablemente. el paqueteestadístico de mayor generalización, utilizado tanto en la esfera pública como en la priva-da, en la académica y en la empresarial: el programa SPSS. Así, cada capítulo viene acom-pañado de una sección en la que se practica la obtención de todas las tablas, gráficos y esta-dísticos vistos en el mismo, a partir de una base de datos con evidente orientación turística,de forma que el lector aprenda a utilizar el paquete en dicho entorno, a interpretar sus sali-das y sea capaz. por tanto, de tomar decisiones.

Como texto de iniciación a la Estadística es válido en cualquier entorno, pero resultaeminentemente dirigido a estudiantes del campo turístico, ya sean de diplomatura o de ciclosformativos. En particular, la gran mayoría de ejercicios y problemas presentados son frutode diversos años de docencia de la asignatura Estadística de turismo (o técnicas cuantitati-vas aplicadas al sector turístico, según el plan) en una escuela universitaria. En el autocon-vencimiento de cualquier docente figura que la mejor exposición procede de aquélla expe-rimentada y aprendida de nuestros alumnos, a quienes mostramos nuestro agradecimientodesde este momento. Por supuesto, figura en nuestro deseo que este material sirva de ayu-da a futuras promociones de estudiantes. No obstante, no quisiera dejar pasar la oportuni-dad de recomendar el mismo a los profesionales del sector que puedan encontrarlo de vali-dez para sus tareas.

De los lectores del texto esperamos perdonen las deficiencias del mismo a la par queencuentren en él un camino hacia su éxito.

Page 9: TURISMO Í A

CRPTTULO 1

Presentación

Sumario

1.1. La Estadística: sentido y significado1.2. El nuevo profesional turístico1.3. El programa SPSS: breve introducción

a su funcionamiento1.4. La agencia EN ALGÚN LUGAR, S.A.

Page 10: TURISMO Í A

En este capítulo se pretende presentar la Estadística

como una de las ciencias de mayor longevidad, como la

mayoría de las instrumentales, y cuya vocación desde elprincipio es la ayuda en la toma de decisiones. Asimismo, se presentará la

concepción turística que esconde el libro, el programa informático que

aprenderemos a utilizar en las funciones relacionadas con el objetivo del presente

libro y la empresa que iremos conociendo a través del análisis estadístico.0

• • 1.1. La Estadística: sentido o significado

Nos rodea la Estadística. La política, la economía, el mundo del turismo, la publicidad. lasempresas, los países..., todos se sirven de ella, en ocasiones con el fin de distorsionar la rea-lidad para sus propios fines. Con un ejemplo sencillo y parafraseando a Bernard Shaw seobserva cómo se puede producir esta distorsión:. si un hombre tiene la cabeza en un hor-no y los pies en la nevera la estadística reflejaría que su cuerpo está a una temperatura mediaideal.. El único medicamento que nos salva de esta posible manipulación y nos ayuda aparticipar en la argumentación pública basada en cifras y datos, así como en las decisionesturísticas que realice una agencia. un departamento de gobierno o una cadena hotelera, esel conocimiento de los métodos estadísticos y. en particular, de los más básicos presenta-dos en este libro. Pero, ¡,de dónde procede esta ciencia?

Muchos de los conceptos que incluimos hoy día dentro de ese amplio término que cono-cemos como Estadística son tan antiguos como el mismo hombre. Todo lo que hace refe-rencia a la recopilación, recuento, organización y censo de datos se conoce como parte de laactividad humana desde hace más de 5.000 años. No obstante, se trata de una palabra in-troducida por Achenwall. profesor de la Universidad de Gottingen. en 1748. El términoestadística tiene su raíz en la palabra estado. Surge cuando se hace necesario cuantificar con-ceptos para sus intereses. En la mayoría de los casos esta cuantificación se hará en funciónde unos fines económicos o militares. El estado quiere conocer el censo de personas, de infraes-tructuras, de recursos en general, para poder obtener conclusiones de esta información.

Durante el siglo xix se desarrolló una ciencia que se limitó a cuestiones más bien des-criptivas como el cálculo de medias y medidas de dispersión y no es hasta el siglo xx cuan-do se produce el gran salto de la misma con la introducción del cálculo de probabilidadesque permite realizar el difícil tránsito de la simple descripción de una o varias característi-cas de un colectivo de individuos a la predicción del comportamiento de ese colectivo encuanto a esas características.

Resulta siempre complicado definir con precisión y claridad el objeto de cualquier cien-cia y más en una ciencia que ya no es una cuestión reservada al estado. sino que está pre-sente en prácticamente cualquier otra ciencia al proponer técnicas para la recogida y el aná-lisis de cualquier tipo de datos. Por otra parte, la definición del objeto de cualquier cienciasiempre está ligada al problema que resuelve. Así, podemos definir el término Estadísticade la siguiente forma: es la ciencia que trata, por una parte, de la recogida. organización,resumen. presentación, análisis, generalización y contraste de los resultados de las obser-

Page 11: TURISMO Í A

Capítulo I Plesenlaoióo 3

vaciones de los fenómenos reales y por otra de estudiar las leyes del comportamiento de losfenómenos' que no están sometidos a leyes rígidas (dependen del azar) mediante la Teoríade la Probabilidad con el fin de inferir o inducir leyes generales de comportamiento parauna población a partir de una muestra.

La primera parte de la definición anterior corresponde a la Estadística descriptiva quees el objeto de este libro. la segunda parte corresponde a la Estadística inductiva o inferen-cia estadística.

• • 1.2. El nuevo pofesional turístico'

La importancia del sector tunstico en nuestra economía es bien es ider te .-U und, de las

cifras más conocidas del mismo nos ayudan a constatar este hecho. Se trata de un sectorque aglutina el I I% del PIB español y el 139 de los puestos de trabajo. No obstante, qui-zá el aspecto más destacable del sector es el de equilibrador de la balanza de pagos. La eco-nomía española, debido a algunas dependencias bien conocidas, presenta tradicionalmenteuna balanza comercial deficitaria que se compensa algunos años total y otros parcialmen-te gracias a una actividad turística constantemente superavitaria.

No obstante, en los últimos años, el sector, entendido desde un punto de vista tradicio-nal, presenta un claro estancamiento más conceptual y cualitativo que cuantitativo que ame-naza principalmente al diplomado en Turismo. El diplomado en Turismo observa cómo, apesar de ser uno de los titulados con una inserción laboral mayor y más inmediata, lo es aunos sueldos relativamente reducidos y en un entorno de difícil progresión profesional. Adi-cionalmente, este profesional observa cómo unos perfiles profesionales que de forma natu-ral le corresponderían, como la consultoría en el sector turístico han sido apropiados pordiplomados y licenciados en otras especialidades.

Todos sabemos que de las crisis se sale reforzado. Resulta evidente que es necesariauna redefinición del concepto de turismo. Es necesario un concepto mucho más amplio yes necesaria una redefinición del profesional que necesita este sector y que, por tanto, espreciso formar. Por lo que respecta a la redefinición del concepto de turismo se hace nece-saria una redefinición del término cercana al concepto de ocio. A medida que nos aproxi-mamos a este concepto se nos abre un abanico de actividades de enormes posibilidades quese puede ilustrar con la emergente relevancia que está adquiriendo el turismo residencial yel gran interés mostrado por importantes grupos internacionales por esta actividad en todala costa mediterránea.

En este contexto, desde las principales escuelas de Turismo estamos formando a nue-vos profesionales adecuados a estas necesidades. La declaración de Bolonia y el EspacioEuropeo de Educación Superior suponen. de hecho, una bonita oportunidad para caminaren este sentido. Se trata de un profesional con una visión más amplia del sector, con la inquie-tud necesaria para detectar nuevas oportunidades de negocio, con la capacidad de comuni-cación que se le supone para comercializar productos turísticos y, finalmente, con los cono-cimientos cuantitativos y de gestión empresarial necesarios para ocupar los perfiles laboralesnaturalmente suyos y los cargos directivos que le corresponden. Es éste y no cualquier otroel profesional competitivo en dicho sector.

En la vida ordinaria de un hombre coexisten dos tipos de fenómenos: unos son los llamados deter-ministas. que son aquellos en los que las mismas condiciones producen idénticos resultados como lahora en la que sale o se pone el sol cada día (si alguno tiene dudas sólo necesita ver una bella puestade sol en el café del mar de Ibiza y observar los horarios expuestos) y otros son los llamados aleato-rios o debidos al azar. que aunque nos parezcan realizados en idénticas condiciones. producen resul-tados distintos como el número premiado en la lotería de Navidad cada año.

= Extraído del artículo publicado por el autor en el Dossier económico de Catalumn el 25 de mar-zo de 2003.

Page 12: TURISMO Í A

® - uo,......

— w...,,e.....a,........^

- ...,...m...,.e....

`^ r•'^ Una

Vozores air como., r.

^

r ^......rna^

4 9 Estadística aplicada al Mismo

Aunque este nuevo perfil se está dando a conocer y cumerctalizando a consultoras, agen-cias de viajes, hoteles y todo el amplio abanico de posibilidades ya expresado con anterio-ridad y aunque las instituciones públicas y educativas todavía tienen que recorrer un ampliocamino con el objetivo de facilitar el acceso a estas nuevas actividades, este libro pretendesentar un precedente en este sentido. En primer lugar, porque se trata de ofrecer esa com-petencia cuantitativa que creemos necesita el nuevo profesional de turismo y. en segundolugar, porque el concepto de turismo que se baraja a lo largo del mismo. fácilmente identi-ficable a través de los ejemplos abordados, corresponde a esa nueva concepción entorno alconcepto de ocio y tiempo libre.

Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadís-ticos en la actualidad, el libro se acompaña en todo momento de ejemplos solucionadosmediante el paquete estadístico SPSS. Aunque la mayoría de cálculos estadísticos presen-tados en el libro se pueden solucionar mediante un software de mayor difusión como es lahoja de cálculo Excel. SPSS presenta varias ventajas. En primer lugar. se trata de un soft-ware especialmente diseñado para los cálculos estadísticos. En segundo lugar, su utiliza-ción es sumamente sencilla y fácilmente asimilable por el lector al encontrarse en su entor-no habitual, por cuanto se trata de un programa de entorno Windows, que funciona a basede un cuadro de diálogos. Por último. se trata de un programa con más posibilidades esta-dísticas. al que el individuo ya estará más que introducido después de la lectura del libro.

• • 1.3. El programa SPSS: breve introducción a su funcionamiento

En la, ,i gwe•nte, línea, eie tuarcmu, una breve descripción de su funcionamiento bási-co para adentramos en los siguientes capítulos en algunas de sus posibilidades estadísticas.La entrada en el programa se efectúa de la forma usual. Si hemos creado un icono directose realiza un doble clic en el mismo y, en caso contrario. desde el menú inicio como se obser-va en la Figura 1.1.

Una vez en el programa. la primera pantalla que aparece es la que se refleja en la Figu-ra 1.2. En ella se nos pregunta qué deseamos hacer y se nos ofrecen varias opciones: eje-cutar el tuto rial (la ayuda del programa). introducir datos a mano. ejecutar o crear una con-

Page 13: TURISMO Í A

Caoba 1 Presentación 5

Arckwo Edición Ver Datos Trara*arma^

Nuevo

AbnAbri base de datosLea datos de teto

Datos Transformar Ansia

Guardar Defre fechas..Guardar caro_. Insertar venable

Insertar caroMwóa i sfons anión de datos... Edición Ver Datos Transformar Anda Ira casoApicar diccionario de datos...

Deshaces Modificar venables CtrI.ZHaca caché de datos-.. Ordenar cams.

Imgtn... QdsP CM.X Ves Datos Transforma Analizar e Transpones_

Presentación mima LtrI C e' Barra de estadoReesouctuar

Bans de henane.•das...Red. acMos

Cambia servidor... &ega-.

Dabs usados recientemente ► Einmar Sip Fuentes_e' Cuadrarle

Diseño ortogonal e

Busca... Ud.F Segmentar archivaArduos usados recientemente ► v Etiquetas de velos

_.. Variables Cb1.T

S elecaonar _casos...

Pondefer casosSafi Opoones...

Hm 14.

culta, abrir una base de datos existente (en el recuadro blanco inferior se nos informa dealgunas posibilidades) o abrir otro tipo de archivo, normalmente un visor de resultados. Setrata de marcar una de estas posibilidades. En nuestro caso hemos marcado abrir una fuen-te de datos existente. Obsérvese que tenemos la posibilidad de prohibir que vuelva a apa-recer ese cuadro de diálogo.

Una vez cargados los datos con los que vamos a trabajar, revisemos la barra de menúsbásicos del programa que aparecen en la parte superior de la pantalla, justo encima de labarra de herramientas y debajo del título del archivo. En primer lugar. tenemos el menú«Archivo... Este menú nos ofrece la posibilidad de crear un nuevo archivo de datos o deresultados, abrir un fichero de resultados, una base de datos, leer una base de datos en for-mato «texto... guardar archivos, imprimir. observar una presentación preliminar o salir delprograma. además de otras funciones menos utilizadas normalmente. Se trata de un menúclásico de todos los programas del entorno Windows (Figura 1.3).

El segundo menú. también común de todos los programas del entorno Windows es elmenú «Edición.. En él. observamos las opciones comunes de cortar, copiar, pegar y elimi-nar variables (Figura 1.4).

El siguiente menú es el de «Ver. (Figura 1.5). En él se nos ofrecen las distintas posi-bilidades de visión que da el programa. Así, si se observa la pestaña que tenemos en la par-te inferior izquierda comprobamos que nos hallamos en la vista de datos. Con este menúpodemos cambiar a una vista de variables en la que observamos una descripción de las mis-mas. Además. el menú «Ven. nos marca las barras que tenemos activadas. En nuestro caso.tenemos activada la barra de estado, la cuadrícula y las etiquetas de valor.

Procedemos a la descripción del menú «Datos. (Figura 1.6). Dicho menú es el pri-mero verdaderamente propio de un programa de Estadística. Se trata de un menú que nosofrece distintas posibilidades de manipulación de los datos. Con él podemos insertar unavariable, insertar un dato (caso), ir a un dato existente concreto de nuestra base. Igual-mente podemos ordenar los casos, por ejemplo de menor a mayor, a partir de una varia-ble o un conjunto de ellas. También podemos transponer nuestra base datos, de forma quelas variables pasen a ser filas y las observaciones o datos columnas. Además de reorde-nar o reestructurar los datos también nos permite fundir la base de datos actual con otrabase de datos que tengamos («fundir archivos.). Eso sí. de entre las posibilidades quenos ofrece este menú, especialmente interesantes son las de «segmentar archivo.. y «selec-cionar casos.. La primera de estas opciones nos permite dividir la base de datos en la

Page 14: TURISMO Í A

Ventana 2Minimizar todas les ventanas

o 1 Sin titulo • Ed itor de datos SPSS

Resultados) Visor SPSS

UglKUr conlunroc

User Conisntos

E rer_utar proceso

Editor de menus

fMifi I li

6 Estarfishca aplicada al turismo

cual estamos en varias bases de datos separadas según los valores de una variable. Así,podemos dividir una base de datos en dos según los individuos sean mayores o menoresde 18 años. En cuanto al submenú »seleccionar casos» nos permite quedamos únicamentecon los datos que cumplan un determinado criterio. Así, si tenemos una base datos de lasventas que ha conseguido un conjunto de cantantes, podríamos decidir quedarnos única-mente con los individuos que no proceden de ninguna academia o serie de televisión, siem-pre que tengamos una variable que nos lo especifique. Obsérvese que mientras en la opciónanterior se crean dos archivos separados, en ésta los que no cumplen un determinado cri-terio quedan eliminados.

El menú »Transformar» nos vuelve a brindar la posibilidad de manipular nuestros datos.De este menú resaltamos las funciones que nos recodifican una variable, pudiendo cambiaruna variable cuantitativa a discreta, una variable numérica a variable de texto y sus contra-rias (opciones recodifrcar, categorizar variables, asignar rango a casos y recodificación auto-mática). También podemos crear series temporales y reemplazar los valores perdidos, y lasobservaciones en blanco, por algún valor adecuado.

El menú »Analizar» (Figura 1.7) será uno de los más recurrentes en el curso que lespresentamos a continuación. En él se encuentra la mayoría de los cálculos que aprendere-mos. Los estadísticos descriptivos recogen la mayoría de aspectos del Capítulo 2, mientrasque las opciones »Correlaciones» y »Regresión» recogen la mayoría de los aspectos queserán tratados en el Capítulo 3. Por último, el submenú »series temporales» será fruto deestudio en el Capítulo 4. En este menú aparece la posibilidad poner en práctica técnicas esta-dísticas más avanzadas de las que veremos en el presente libro.

De igual forma, el menú »Gráficos» (Figura 1.8) también será recurrente durante el libro.El programa presenta multitud de posibilidades gráficas. Los diagramas de barras, de líneas,sectores. caja, dispersión y el histograma serán contemplados a lo largo del curso. Tambiénse recurrirá a algún gráfico de series temporales.

El menú »Utilidades» (Figura 1.9) no ofrece aspectos de tipo descriptivo.En cambio, el menú »Ventana» (Figura 1.10) nos permite movernos de la base de datos

al visor de resultados. Dicho visor de resultados es un archivo de extensión ».spo» que vaguardando todas las ejecuciones que realizamos. Es decir, en él encontramos todos los grá-

InformesEstadísticos descriptivosTablas personalizadasComparar mediasModelo lineal generalModelos mixtos

CorrelacionesRegresiónLpglinealCla^ihcarReducción de datosE scálasPruebas no paramétricasSeries temporalessupervivenciaRespuestas múltiplesAnálisis de valores perdidos

► Galería► Interactivos ►►► Barras...

► Líneas...

► A_reas...

► Sectores...

► Máximos y mínimos...

► Paleto...o Control

Diagramas de caja...

o Barras de errgr_.

► Dispersión...Histograma...

► P.P0.0

Analizar Gráficos Utilidades Ven Gráficos Utilidades Venta

rtdrdades Ventana 2

Variable s

Intormamon del archivo

Page 15: TURISMO Í A

Capítulo I Preseolacióa

ay..a Eaaea Y.xe.i. rym.m á.e<a 1__ .

I

- -

^oI d-JJ_!^I=I^1J=J_I ^ 'd..^.

I..".n4n.

'1 1 1 . 1 -1' I 7.141 :I

7

1 Sr tmb Edito de dato, SPSS

¡New/adilt VuaSP55

J ^ <i © at ilA[< .-Mel J^+Ue ÚS^, 1 -3. =O 1e16

ticos y cálculos que le pidamos al SPSS que realice. Para verlos, únicamente hay que pul-sar en «Cuadro de diálogo» y «Visor SPSS.. En estos momentos, al no haber realizado nin-gún cálculo, se haya vacío.

En la Figura 1.1 I se observa el aspecto de dicho Visor.Por último, tenemos el tutorial o ayuda del programa que aparece en forma de interro-

gante subrayado. En él tenemos tanto ayuda estadística, como acerca del programa, ade-más del usual buscador.

• • 1.4. La agencia EN RLGÚN LUGRE, S.R.

Con el fin de adaptar al entorno turístico cada conocimiento estadístico que el lector irá adqui-riendo a lo largo del presente libro, se presenta en esta sección una agencia ficticia que for-mulará un conjunto de preguntas a lo largo del libro y que serán respondidas por su geren-cia o departamento estadístico utilizando sencillos cálculos estadísticos realizados a partirdel programa SPSS. En algunos casos se presentará un pequeño informe que sintetice lasprincipales conclusiones del estudio. siempre acompañado de las implicaciones en cuantoa la toma de decisiones para el buen funcionamiento de la misma.

La empresa EN ALGÚN LUGAR, S.A.. es una agencia de viajes emisora-receptora.minorista-mayorista con 61 trabajadores. Con una sede central en Cataluña (16 trabajado-res) y el resto de sedes repartidas por Europa (en concreto nueve oficinas con cinco traba-jadores cada una). En la sede central tenemos un/a gerente, cuatro personas en el departa-mento de promoción, cinco en el departamento de administración y finanzas. dos personasen el departamento de marketing y. finalmente. cuatro personas en contacto directo con elpúblico. En cada oficina tenemos cinco personas en contacto directo, entre ellas un/a geren-te y un/a becario/a.

Aunque orientada al turismo de negocios, nuestra agencia no deja de ofrecer otros pro-ductos como el turismo cultural. ecoturismo. turismo de nieve o turismo de sol y playa, siem-

^

Temas

Tutorial

Pagina principal de SPSS

Asesor estadísticosyntax Guide

Acerca de...Registro de productos...

Fl^ri l lZ

Page 16: TURISMO Í A

8 Estadística aplicada al turismo

pre comercializando billetes de transporte, entradas para museos y espectáculos, visitas oviajes combinados.

Tenemos varias bases de datos de la agencia que es necesario gestionar de la mejor mane-ra posible con el objetivo de conocer su funcionamiento y tomar las decisiones acertadas.Lamentablemente, también tenemos algunas deficiencias en dichas bases de datos que conla ayuda de nuestros conocimientos estadísticos solucionaremos sin problemas.

Respecto a la plantilla, tenemos datos estadísticos acerca de su edad, sexo, años de expe-riencia, nivel educativo y salario por hora. Estos datos están en el fichero salarios.xls.

Respecto a la demanda, tenemos un fichero que abarca dos años y contiene datos res-pecto al país de procedencia de la familia/individuo viajero (10 países y 38 regiones), elprecio por noche de cada uno de los viajeros, los destinos, la edad del viajero. la evalua-ción del producto realizada por esta familia una vez concluido el viaje, la duración del mis-mo, si ha sido realizado en temporada alta o baja, si ha sido realizado en condiciones depensión completa o no, el número de estrellas del hotel en el que materializó su estancia y,finalmente, si se trataba de un viaje organizado o no. Estos datos se encuentran en el fiche-ro enalgunlugarsav.

Por último, en la base de datos Grandesexitos.sav tenemos el beneficio neto mensualde un producto que la sede central de la agencia ha ofrecido durante más de 20 años. Setrata de un viaje sorteado por una famosa emisora de radio para acompañar un fin de sema-na a un grupo o solista de música español de moda del momento, en un par de conciertoseuropeos. Por este concurso han pasado: Joan Manuel Serrat, Joaquín Sabina, Los Secre-tos. Duncan Dhu. Los Rodríguez, Mikel Erentxun, Alejandro Sanz, La oreja de Van Gogho Alex Ubago. El beneficio neto del producto consiste en el pago que realiza la emisora deradio una vez descontados los costes que el mismo genera a la agencia.

Page 17: TURISMO Í A

Sumario

CAPITULO 2Rnãlisis exploratorio de

variables uniffimensionales2.1. Población y muestra. Tipos de

muestreo

2.2. Variables estadísticas. Tipos

2.3. Tabulación: frecuencias

2.4. Representaciones gráficas

2 5. Reducción de datos I: medidas de

tendencia central

2.6. Reducción de datos H: medidas de

posición

2.7. Reducción de datos III: medidas de

dispersión

2.8. Reducción de datos IV: medidas de

simetría, apuntamiento y

concentración

2.9. Ejemplos de estudio

2.10. Ejemplo de resolución a partir

de SPSS

2.11. Ejercicios propuestos

Page 18: TURISMO Í A

En el presente capítulo se expone el análisis de una

característica conocida de interés para un individuo o

colectivo. Durante el mismo se mostrará como recopilardicha información, cómo agruparla, mostrarla, resumirla y desmenuzarla. Como

ejemplo de utilidad supongamos que un hotel de un determinado lugar y número

de estrellas desea tomar una decisión acerca de su política de precios. Para ello

recoge una base de datos con los precios que ponen los hoteles similares de su

entorno. Es probable que ese hotel se haga preguntas como las siguientes: ¿cuál es

el precio más habitual fijado por mi competencia? ¿Hay más precios mayores o

menores a los míos? ¿Entre qué precios se mueve la competencia? ¿La mayoría de

precios son muy parecidos? ¿Dónde se sitúa mi precio? El siguiente capítulo da

respuesta a todas esas preguntas e incluso a muchas más.

• • 2.1. Población u muestra. Tipos de muestreo

Para introducirnos en el mundo de la Estadística descriptiva es necesario conocer un con-junto de conceptos previos que son necesarios tener presentes en todo momento.

Se entiende por población el conjunto de elementos, individuos o entes sujetos a estu-dio y de los cuales queremos obtener un resultado.

Otros conceptos son:

— Muestra: subconjunto de elementos que forman parte de población. La muestrarepresenta a esta población.

— Tamaño muestra!: número de elementos u observaciones que tomamos. Se deno-ta por a o N.

Existen diversas técnicas para elegir una muestra significativa. Para evitar la influencia defactores externos al colectivo, la selección de los elementos de la muestra en todas ellas serealiza mediante el azar. De entre estos métodos destacan los siguientes:

a) Muestreo aleatorio simple: consiste en numerar todos los elementos que compo-nen la población; a continuación mediante cualquier sistema aleatorio se extraenal azar unos números que indicarán mediante la correspondencia estableci4Ja conla numeración de los elementos de la población, los elementos que correspondena la muestra. Se trata del método más sencillo y se puede ilustrar con la «mano ino-cente» que extrae de una urna con todos los elementos de una población, la mues-tra a utilizar. En la realidad, y a título de ejemplo, supongamos que queremos realizarun estudio turístico acerca de los hábitos de los ciudadanos españoles respecto almismo. Entonces, se tratará de generar informáticamente 10.00(1 números aleato-rios (entre I y 40.000.(XK)) que seleccionen a los individuos a entrevistar en un estu-dio turístico a partir del censo de los aproximadamente 40 millones de poblaciónespañola.

r'

Page 19: TURISMO Í A

Doblo 2 Bnálisis etploralono de tanaDles unidimensmnales I I

\Juestreo aleatorio sistemático: en este caso los elementos que forman la muestrase eligen sistemáticamente de entre los que componen la población. Consiste en

ordenar mediante algún criterio el colectivo ■ después seleccionar elementos del

mismo en función de su posición en la ordenación. Es decir. tomar el elemento núme-

ro .\'. siendo .\' el cociente entre el número de elementos del colectivos el de lamuestra. Así, continuando con nuestro ejemplo. si tenemos un colectivo de 40

millones y la muestra es de 10.000. tomaríamos un elemento de cada 1.000

(10.000.000/10.000). empezando no por el primero. sino por uno al azar de entre

los 4.000 primeros. Supongamos que ese elemento fuese el 1.250: nuestra mues-

tra estaría formada por: 1_250. 5.250. 9 250. 13.250... Este sistema no debe utili-zarse en caso de datos temporales de periodicidad. va que al utilizar un sistema que

también es periódico produciría una muestra no representativa.

el Muestreo aleatorio estratificado: en este método la población se divide en clases

o categorías atendiendo a alguna característica homogénea de los elementos que la

componen. A continuación se aplica el muestreo aleatorio simple a cada una de las

categorías. Por ejemplo, imaginemos que interese que el número de mujeres y hom-bres de la muestra sea idéntico. Entonces. en primer lugar dividimos los 40.000.000

de población en dos grupos: hombres y mujeres. Dentro de cada grupo se seleccio-

narán. utilizando muestreo aleatorio. 5.000 hombres y 5.000 mujeres.

di Muestreo por conglomerados: la población en estudio se divide en grupos o

conglomerados. se selecciona al azar uno de estos grupos o conglomerados ■ seestudia ala población en base a él por cuanto se supone lose conocer que es repre-sentativo de la población. Siguiendo nuestro ejemplo se trataría de confeccionar unamuestra con los individuos pertenecientes a una ciudad o pueblo español de 10.000habitantes.

• • 2.2. Variables estadísticas. Tipos

De esa población que estamos conociendo es probable que ha■ a alguna característica quesea de nuestro interés. Entendemos por variable esta característica que estamos midiendo.

Existen dos categorías o tipo de variables:

— Variable cualitativa: aquella que expresa un atributo o característica: el color del

cabello. el estado civil. el sexo. la profesión de un individuo. el tipo de transporte

que elige en un viaje. etc.

— Variable cuantitativa: aquella que podemos expresar numéricamente: edad.

peso, número de hijos. precio. duración de un viaje. etc. Ésta a su vez se subdivide

en:

• \ ariahle discreta': aquella que entre dos valores próximos puede tomar a lo sumo

un número finito de valores: el número de hijos de una familia. los trabajadores

en una agencia, el número de alumnos de la universidad. el número de estrellas

de un hotel. etc.

' En ocasiones y con el objetivo de realizar algún tipo de análisis numérico con las variables cua-litativas se las convierte de forma ficticia en cuantitativas. asignando un número a cada una de sus cate-gorías. Así. a título ilustrativo. se puede convertir el sexo en una variable cuantitativa asi g nando un 1

a la categoría de hombre v un O a la mujer. sin que ello signifique. obviamente. que ser hombre sea

una categoría superior a ser mujer.

Page 20: TURISMO Í A

12 Estadística aplicada al turismo

• Variable continua: la que puede tomar los infinitos valores de un intervalo. Enmuchas ocasiones la diferencia es más teórica que práctica, ya que los aparatosde medida dificultan que puedan existir todos los valores del intervalo: peso, edad,distancias, precios. etc.

La variable cuantitativa se denota por las mayúsculas de letras finales del alfabeto caste-llano. A su vez, cada una de estas variables puede tomar distintos valores, colocando unsubíndice que indica el orden:

X= (Xi,X.,Xi,...,X4 - .,Xk- X4)

Si la variable es cualitativa se denota por las primeras letras del abecedario y, de nue-vo, las distintas modalidades se representan utilizando las minúsculas correspondientes.

Dato: Cada uno de los individuos, cosas, o entes abstractos que integran una poblacióno universo determinado. Dicho de otra forma, cada valor observado de la variable. El datose denota por las minúsculas de las letras finales del alfabeto castellano.

Los datos pueden clasificarse en:

a) Datos de corte transversal: se trata de una o más variables para distintos individuosen un mismo momento del tiempo. Suelen ser datos acerca de familias, empresas,etc. En este tipo de datos no hay problemas de interrelación, es decir, si tenemosdatos acerca del consumo de ocio que realizan las familias, es razonable pensar queel consumo que realice la familia i es independiente del que realice la familia j. Coneste tipo de datos trabajaremos en los tres primeros capítulos.

h) Datos temporales: observaciones de una o mas variables a intervalos regulares de tiem-po para un solo individuo. Se denominan series temporales. La información de unaserie temporal es de carácter agregado, aunque el grado de agregación dependerá delcaso específico. Por ejemplo, si la variable es la venta de productos de ocio, ésta serála agregación de las ventas para todos los clientes. En este caso sí que aparecenproblemas de interrelación, ya que es razonable que el consumo de ocio que realiza lafamilia i en el año r muestre cierta dependencia del consumo de ocio que realizó la fami-lia i en el año t — I. Este tipo de datos serán tratados en el Capítulo 4.

e) Datos de panel: se trata de una combinación de los dos anteriores. Son diferentesvariables para distintos individuos durante un cierto número de intervalos regula-res de tiempo. Su análisis supera el objetivo de este libro.

2.3. Tabulación: frecuencias

Una se, tenemos la muestra confeccionada de forma adecuada, el siguiente paso es orga-nizar y tabular los datos. Para ello es necesario definir los siguientes conceptos:

— Frecuencia absoluta: llamaremos así al número de repeticiones que presenta unaobservación. Se representa por n,.

— Frecuencia relativa: es la frecuencia absoluta dividida entre el número total de datos,y se suele expresar en tanto por uno, siendo su valor -iésimo.

11,

n

La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.

Page 21: TURISMO Í A

X, ni

Snn5 N

Nz I, F, X, N I,

[Mulo 2 Análisis etplorensionales 13

-- Frecuencia absoluta acumulada: es la suma de los distintos valores de la frecuenciaabsoluta tomando como referencia un individuo dado. La última frecuencia abso-luta acumulada es igual al número de casos:

N, = n,

N. = n,+ n_

N•= n, +n.+...+n„_,+n• =n

— Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia abso-luta acumulada entre el número total de datos, y se la suele representar con la no-tación: F,.

De igual forma, también se puede definir a partir de la frecuencia relativa, como suma delos distintos valores de la frecuencia relativa, tomando como referencia un individuo dado.La última frecuencia relativa acumulada es igual a la unidad.

Tabla de frecuencias para una variable discreta. La ordenación en la tabla, será:

En cambio, cuando nos encontramos con un conjunto de datos o distribución con ungran número de valores, se suelen agrupar las variables en intervalos para facilitar la com-prensión de los datos. Esta práctica tiene un claro inconveniente: se pierde información sobrela propia distribución. Así, formaremos intervalos donde:

IL, - L,)

Se entiende por L _ , el extremo inferior del intervalo y por L, el extremo superior. Porconvenio, cerramos el intervalo por la izquierda y abrimos por la derecha.

Para operar utilizaremos la marca de clase, el punto medio de un intervalo. Para calcu-larla, podemos definirla como el promedio de los valores extremos del intervalo; ésto essumar los extremos. ■ dividir entre 2.

La amplitud del intervalo, sería la longitud del mismo, y se representa por:

a=L,—L,_,

Pero. ¿cómo obtener, a partir de los datos continuos, una tabla de frecuencias agrupa-da? Procederemos siguiendo estos pasos:

• Decidiremos el número de intervalos: aproximadamente. entendemos la raíz cuadra-da del número de datos, redondeando. como el número de intervalos.

• Recorrido: valor mayor, menos valor menor de los datos. Re = .r — .r,.• Amplitud del intervalo: división entre el recorrido y el número de intervalos que haya-

mos decidido. Se puede redondear

Re

número de intervalos

Page 22: TURISMO Í A

14 Esladíshca aplicada al Mismo

EÍemplo 2.1

En 1999 un nuevo hotel abre sus puertas en cierta ciudad. Antes de decidir el precn , ••us habitaciones, el gerente investigalos precios por habitación y noche de 40 hoteles de la misma categoría de esa ciudad. Los datos obtenidos en miles de pesetas'

fueron:

3,9 4,7 3,7 ;o.y 5,6 4,3

,t 3,9 4,3 5,0 6,0

4,7

tt 4.3 4,1 5.8 4.4

4,8

vi ; 4 3,9 4.7 3.3

4.5

Se pide:a) ¿Cuál es la población objeto de estudio?b) ¿Qué variable estamos estudiando?c) ¿Qué tipo de variable es?d) ¿Qué problema plantea la construcción de la tabla de frecuencias?e) ¿.Cuántos hoteles tienen un precio entre 3.25 y 3,75?.f) ¿Cuántos hoteles tienen un precio superior a 4.75?g) ¿Qué porcentaje de hoteles cuestan como mucho 4,25?

* Recordar que I € = 166.386 pts.

6, 1 5, 1 4,5

5,1 4,2 4.4 5 >s

6,1 4.3 5.3 4,

4.7 4.2 4.5 4,8

Ni Ni Fi Fi

3 3 0.075 0.075

8 I1 0,2 0,275

14 25 0.35 0.625

Tabla 21

Importante !Lt-aLi)

La amplitud es de 0.46 por lo queademás de no ser muy fácil operar.puede que no cubra el rango de lavariable. Lo podemos evitartomando un valor superior, en estecaso 0.5.

13.25.3.75)

13.75.4.25)

14.25.4.751

14.75.5,25)

15.25.5.75)

15.75.6.25)

"tfl 15.

xt '= f, • 100 = 0,275 • 100 = 27,5.

SOLUCIÓN:

u) La población objeto de estudio son los hoteles de una ciudad.b) La variable que estamos estudiando es el precio.c) El tipo de variable es continua.d) El problema que plantea es que existen muchos valores diferentes dentro de esta variable y. por tanto, es bueno agrupar la

serie en intervalos.La manera de hacerlo sería la siguiente: primero, calculamos el recorrido Re = x ^ x,= 6.1 -3.3 = 2.8.

('Liando no se nos dice nada el número de intervalos se obtiene calculando la raíz cuadrada del número de datos observa-do. Veremos que la raíz cuadrada de 40 es igual a 6,32. por tanto, tomaremos 6 intervalos.Como el recorrido es 2,8 si lo dividimos entre el número de intervalos tendremos la amplitud de cada uno de ellos y así:2,8/6 = 0,46.

Page 23: TURISMO Í A

Capítulo 2. análisis exploratorio de variables umdimensionales 15•

• • 2.4. Represerficiones gráficas

Dentro de e.ta primera aproximación a los datos, se suele efectuar una representación grá-fica para apreciar a golpe de vista la magnitud o posición de las variables. Los sistemas degráficos más usuales son los que se describen a continuación.

2.4.1. Diagrama de sectores

El área de cada sector es proporcional a la frecuencia que se quiera representar. sea abso-luta o relativa.

Para calcularlo podemos decir que el área depende del ángulo central, mediante la siguien-te proporción:

n a

N 360

Como resulta que Ñ = f . tendremos que a = f • 360 (Figura 2.1). Este diagrama se

utiliza para cualquier tipo de variable

2.4.2. Pictograms

Se suele utilizar para expresar un atributo. Suelen utilizarse iconos que se identifiquen conla variable (un ejemplo sería un coche en un estudio de las marcas más utilizadas como cochesde alquiler) y su tamaño suele guardar relación con la frecuencia

2.4.3. Diagrama de barras

Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una variable discreta.

En el eje de abcisas situaremos los diferentes valores de la variable. En el eje de ordena-das, la frecuencia. Levantaremos barras o columnas separadas de altura correspondiente ala frecuencia adecuada.

2.4.4. Histograma

Igual que el anterior en cuanto al tipo de frecuencias que se pueden utilizar. La diferenciaes que ésta es para variables continuas. Elevaremos columnas unidas, a altura igual a lafrecuencia correspondiente (Figura 2.3).

Page 24: TURISMO Í A

5

r

o ^ xl .r2 x3 14 .r5

figula 2 4

3 79

4 3579

5 016

6

Fiota z.i.

16 Esladíshca aplicada dl lunsma

2.4.S. Polígono de frecuencias

De nuevo se trata de un _ratico adecuado para variables continuas. Es la recta que une losextremos de las barras de las variables de una distribución o los puntos medios de los his-togramas, según se trate de variales continuas o discretas (Figura 2.4).

2.4.6. Oiagrama de fallo n hojas

Es un método de tabulacion a la sez que un gráfico adecuado para variables continuas. Setrata de dividir cada uno de los datos en dos partes: el tallo y las hojas. Así, si tenemos elsiguiente conjunto de números que pertenece a la primera fila del Ejemplo I, su gráfico detallo y hojas será el que aparece en la Figura 2.5.

y^ Arr

3,9 4.7 3,7 5,6 4,3 4,9 5,0 6,1 5.1 4,5

A modo de resumen, si la variable es cualitativa, se suelen utilizar más los diagramasde sectores o pictogramas. Si la variable es cuantitativa, podemos tener dos casos: variablediscreta o variable continua. En el primero utilizaremos, si no piden nada concreto, el dia-grama de barras tanto para la representación de la frecuencia absoluta como la relativa. Enel caso de la variable continua, optaremos por el histograma o polígono de frecuencias.

• • 2.5, Reducción de datas I. medidas de tendencia central

En este apartado comenzaremos a resumir los datos. Para ello, utilizaremos las medidasde localización o tendencia central, y las más importantes son: media, mediana y moda.Todas estas medidas pretenden ofrecernos una idea de en torno a qué valor se mueven losdatos.

Z.S.I. Media X

a) MEDIA ARITMÉTICA

Es la suma de todos los valores de la variable dividida entre el número total de elementos.

X ^ + X2 + x, + ... + x = IX =

n nSi el valor. si de la variable X se repite n , veces, aparece en la expresión de la media arit-

mética de la forma:

—,_in

que será la expresión que consideraremos definitiva de la media aritmética.n,

Como f, = Ñ otra posible expresión será:

x;fi = I

X— n

Page 25: TURISMO Í A

Si tenernos la siguiente distribución del peso en kg del equipaje embarcado por dise - " 'unia. en un ifaje semanal. se pidehallar la media aritmética.

/♦1

♦••^ •63 4

64 1 264 ♦.•.♦. 10 601

...ei t 't 8

♦♦n 10

'lila variable está agrupada en intervalos (variable continua agrupada), se asignan i.frecuencias a las marcas de clase y se procede como si la variable fuera discreta o con-

tinua no agrupada. En el fitntro considerarenws indistintamente - ci (marca de clase) = vi.

Tabla 2.4.

xj ni 54 2 108 59 3 1 77

Nora

La media aritmética es denominadatambién centro de gras edad de ladistribución.

Ciplula 2 Ilnilisis exploratorio de variables umdimensionales

17

b) MEDIA ARITMÉTICA PONDERADA

En ocasiones, no todos los valores de la variable tienen el mismo peso. Esta importanciaque asignamos a cada valor, es independiente de la frecuencia absoluta que tenga.

De esta forma, la media aritmética ponderada es la media aritmética que se utiliza cuan-do a cada valor de la variable (x , ) se le otorga una ponderación o peso distinto de la frecuenciao repetición. Para poder calcularla se tendrán que tener en cuenta las ponderaciones de cadauno de los valores que tenga la variable.

Se la suele representar como: 1x, ",, n,

Xw =n,

siendo x , la ponderación de la variable x,, y 1w•, la suma de todas las ponderaciones.

Page 26: TURISMO Í A

=I1+2 + 3)

x, W,

5 1 1

8 1 2 16

1 3 21

1 N= 6 42

Si calculamos la media aritmética. tendremos que •

.n 5+8+7X

n 3

Ahora bien. si calculamos la media ponderada, obtendremos:

(5 I) +(8 x 2)+17x3) 5+16+21

— 6,67

18 ■ Esla gisota apli(ada al lunsmo

Ejemplo Z 4

t 'n estudiante realiza tres exámenes de Estadística de complejidad creciente. obteniend, I siguientes resultados: 5, 8 y 7.

El pnmer examen lo hizo en media hora, el segundo en una hora y el tercero en h,, media, por lo que se les atribu) e

una ponderación de 1, 2 } 3 respecusamente. Se pide calcular la nota media.

A continuación resaltaremos un conjunto de propiedades de la media aritmética que cree-mos son de utilidad.

Propiedad 1. La suma de las desviaciones de los valores de la variable con respecto a lamedia aritmética es 0.

Veamos que esta propiedad resulta al operar la siguiente expresión:

–X)

Tendremos que:

(x,–X) ^ – nx= (x,n,–Xn)^ = (^xn,–^Xn,)ñ = rl, ,X =^n, 1 ^\\

x n I `` I//

_ ^x,n,– Xnl — = r^x,n,— ^—) — = 01 = 0// n, ■ n / n, n,

Propiedad 2. Si a todos los valores de la variable se Ic suma una misma cantidad, la mediaaritmética queda aumentada en dicha cantidad.

Supongamos que tenemos una variable x de la que conocemos su media. Utilizando estavariable calculamos otra variable a partir de la anterior de la siguiente turma: y , = .r + k.

Si ahora queremos calcular la media de esta segunda variable:

yn, ^(x + k)n ^(x , n , +kn) I(x,n, +kn,)

n n n n

1 x n , + L k n Y x, n, ^ k n, ^ x, n, k n ^x n_ +—

n _ +kn n n n n

Page 27: TURISMO Í A

Corolario

La media aritmética se denomina también centro de gravedad de la distribución. Si unavariable es transformación lineal de otra variable (suma de un número y multiplicación por otro).la media aritmética de la primera variable sigue la misma transformación lineal con respecto a lamedia aritmética de la segunda variable, siendo y, = a x,+ b. donde a y b son números reales.

(ax, + b)n , ^ (aT , it + bn) a^ .T bI+ =aX +b

n n n n n

38.432

38.432

38.436

38.438

—88

o

33

168

— .43

=2y+ : 36

tones:

A + 38.436Q222 + 38.436 = 38.436,222

38.432 — 38.436 2

38.432 — 38.436 — 12

38.436 — 38.436 — o2

38.438 — 38.436 _ 12

38.440 — 38.436 22

Podemos utilizar esta metodolo g ía para calcular la media de la distribución de la Tabla 2.7.

Si calculamos la transformación de la variable

x. — 38.436

tomando como nueva variable el valor más centrado (menos su media), tendremos (Tabla 2.8):

Importante

Hay que tener en cuenta que lamedia aritmética es muy sensible alos valores extremos. es decir, avalores numéricos muy diferentes(tanto por grandes como porpequeños) al resto de la muestra.Esto puede resultar un problema.Hay formas de resolverlo como laeliminación un cierto porcentaje deobservaciones extremas a la hora desu cálculo.

n,

38.432 4

38.432 8

38.436

4

38.438 3

38.440 8

19Análisis exploratorio de variables unidimensionales

L X n, _Como — X, si sustituimos tendremos Y = X + k. que es lo que pretendíamos demos-trar.

Propiedad 3 2. Si todos los valores de la variable se multiplican por una misma constan-te la media aritmética queda multiplicada por dicha constante. La demostración se realiza-ría de manera análoga a la anterior.

'De estas dos propiedades se deduce que la resta y la división se realizarían de igual manera parala propiedad 2 y 3, respectivamente.

Page 28: TURISMO Í A

Elemplo 2.6

2.11

wt log x n, log x;

2 20

2,079 10396

2,097 8.387

2,146 6.438

n = 22 45.221

n .Ino x 45,221

r = — 2.0562,2

= anti log 2.0555 = 113,632

10 log 100 =

5 log 120 =

4 log 125 =

3 log 140 =

J

n, log x,

n

Por tanto, será cons entente ampliar fa tabla con lo que nos quedará:

20 Esraáishca aplicada al IIIhSInO

C) MEDIA GEOMETRICA

H=

Responde a la siguiente expresión:

G = sx¡ x;°x, . xt

y se la puede definir. como la raíz n-ésima del producto de todos los valores de la variable.

También la podemos representar como:

G= (G = x¡ x; x3 ... x;•)•

Suele utilizarse cuando los valores de la variable siguen una progresión geométrica Tam-

bién para promediar porcentajes. tacas, número de índices. etc., siempre que nos tengan dadosen porcentaje,

En muchas ocasiones, los calores dela distribución nos impiden poderefectuar los cálculos al exceder lacapacidad de la calculadora. Paradar solución a esta problemáticautilizaremos las propiedades de loslogaritmos.

d) MEDIA ARMÓNICA

Se representa como H. Es la inversa de la media aritmética de las inversas de los valores dela variable, y responde a la siguiente expresión:

n n^^. a, n,

.1 .2 .3

Page 29: TURISMO Í A

Ejemplo 2.1

Calcule la media armónica de la siguiente tistnbución:

100 10

120 5 ^

125 4

140 3

X ‘kPara poder hallarla. es necesario " que calculemos la, inversa de .r y la inversa de la

frecuencia. por lo que ampliaremos la tabla con 2 columnas adicionales:

^rr

100 10 10 0,1 1.000

120 5 I\120 0,042 600

125 1 \125 0.032 500

140 3 1\140 0.021 420

N=22 0,195 2.520

I11.111.1

Entre la media aritmética. la mediageométrica y la media armónica seda siempre la siguiente relación:

H <_GsX

Gllilre 2. hiiss emPoralana áe variables witassietles

Se utiliza para promediar velocidades, tiempos. rendimiento. etc.. (cuando influyen losvalores pequeños).

Su problema sume cuando algún valor de la variable es 0 o próximo a 0 no se puede calcular

21

Para concluir. la media. en particular la aritmética. presenta varias ventajas como son:su sencillez de cálculo, el hecho de incorporar todos los datos para el mismo y ser de ele-

s ada utilización. En cambio. presenta el inconveniente ya mencionado de ser sensible a loscalores extremos ■ válida para datos cualitativos.

2.S.2. Mediana: he

La mediana, o valor mediano, será el valor de la variable que ocupa el lugar central. quesepara en dos partes iguales los valores de las variables. ordenadas de menor a mayor. Portanto, es una cantidad que nos indica orden dentro de la ordenación.

El lugar que ocupa se determina dividiendo el número de valores entre 2

Cuando hay un número impar de valores de la variable. la mediana será justo el valorde orden central. aquél cuya frecuencia absoluta acumulada coincida con ^. Es decir.

N,_ t < � N an Me = s , . Por tanto, la mediana coincide con un valor de la variable.

Page 30: TURISMO Í A

EM111111=n, N,

[20,25 i100 100

(25.30 1 150 250

130 . 35, 200 450

-V'1 180 630

(40,45[ 41 671

V = 671

671= 335.5

2

Me estará en el intervalo [30-35i.Por tanto, realizamos el cálculo:

2 — N'

Me = L,- ,* a,=n;

=30 + 333.2 2505 _32,138.

2N— — N,_,

na,

,

22 Eslaáishca apl¢adc : .-o

El problema surge cuando hay un número par de valores de la variable. En este

para obtener la mediana realizaremos el siguiente cálculo:x,+x,,

Me 2

Ejemplo 2.8

Sea la siguiente distribución (Tabla 2.13). lugar qu,

se produce que:

= n

= 17,55. unnu

2 2

N, < <Na 16<17,7 26 Me =x,

por tanto, Me = 7. Valor que presenta el decimoctavo dato (ordenados), de menor a mayor.

El otro caso puede observarse en la distribución de la Tabla 2.14. lugar que ocupaL + X,

=32

=16= Me= t _ 52 7_ 62

Se trata de la media aritmética entre el valor que ocupa la posición decimosexta

decimoséptima. una vez que los datos han sido ordenados de menor a mayor.

d ^/ 1Xi Ni.:.

I

/ at

3 /\ 1 3 3

4 2 4 7

9 1 5 91

10 ' 7 1026

10 7 10 6 33

13 _ . n=32

En distrihio t nc. u Liudas. el primer pa.0 L un.r.te en determinar el intervalo media-no [L , _, L, ). La forma de hacerlo será calcular el valor de la mitad de n, y observar qué inter-

valo tiene una frecuencia absoluta acumulada que cumpla N,_, <Z < N,.Después de saberlo, haremos el siguiente cálculo:

Me= L,_,+

Siendo [L, _, L,) el intervalo que contiene ala frecuencia acumulada

2

y a = amplitud, de dicho intervalo.

Como ventajas de la mediana se observa su utilidad en presencia de valores extremosque influencien a la media y su bondad para variables cuantitativas discretas. En cambio.se trata de una medida que no utiliza todos los datos para su cálculo (aunque sí su orden)y que depende del orden y no del valor de los datos.

2.5.3. Moda: Ma

Será el valor de la variable que más veces se repite, es decir, el valor que tenga mayor fre-cuencia absoluta.

Pueden existir distribuciones con más de una moda: bimodales, trimodales. etc.En las distribuciones sin agrupar, la obtención de la moda es inmediata.

Page 31: TURISMO Í A

Ejemplo 2.10

2....

3

4 7

5 4

\luda (2, 4), en este casotenemos una distribuciónbimodal.

CODlo 2 Análisis etplaralorio de variables unidimensionales 23

En el supuesto de que la distribución venga dada en intervalos, es decir, sea agrupada.si los intervalos tienen la misma amplitud, en primer lugar tendremos que encontrar el inter-valo modal, que será aquel que tendrá mayor frecuencia absoluta lL, L. Posteriormente.realizaremos el siguiente cálculo:

n,_,a;

n,_, + n,_,

Siendo:

L, ,: extremo inferior del intervalo modal.a : amplitud de dicho intervalo.n , + n,,,: densidades de frecuencia de los inter-salos anterior y posterior al que contiene la moda.

La gran desventaja de la moda radica en que esmenos representativa que la media o la mediana yque puede ser extrema: en cambio, puede ser la úni-ca medida de centralización posible para las varia-bles cualitativas.

Mo =

Nota

1. Cuando hay una única moda, lamediana suele estarcomprendida entre y Mo.

2. Cuando la distribución essimétrica (con I moda) secumple que: 7 = Me = Mo.

• $ 2.8. Reducción de datos II: medidas de posición

Son medidas de localización similares a las anteriores. Se las denomina cuantiles (Q). Sufunción es informar del valor de la variable que ocupará la posición (en tanto por ciento)que nos interese respecto de todo el conjunto de variables. De hecho. la mediana, como sepodrá intuir más adelante, ya era una medida de posición.

Podemos decir que los cuantiles son unas medidas de posición que dividen la distribu-ción en un cierto número de partes iguales. de manera que en cada una de ellas haya el mis-mo porcentaje de valores de la variable.

Las más importantes son:

— Cuartiles: dividen la distribución en cuatro partes iguales (tres divisiones). C,. C„

C„ correspondientes a 25%, 50% y 75%.— Deciles: dividen la distribución en diez partes iguales (nueve divisiones). D,.... ,D,,,

correspondientes a 10%.... , 90%.— Percentiles: cuando dividen la distribución en cien partes (99 divisiones). P,....,Pm,

correspondientes a 1%, ...,99%.

Existe un valor en el que coinciden los cuartiles, los deciles y los percentiles. Éste surge

cuando son iguales a la mediana y así veremos:

2 _ 5 _ 504 10 100

Para su cálculo, distinguiremos entre distribuciones agrupadas. y sin agrupar.

En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa, entonces ten-

dremos que :

N;_,<(%)•n<N^Q =x;

Es decir, si el porcentaje que representa el cuartil. el decil o el percentil sobre el totalde los mismos se encuentra entre dos determinadas frecuencias absolutas acumuladas exis-

Page 32: TURISMO Í A

2

x, + x,.,Qn =N,

24 Esta ísnca aplicada al turismo

lentes, se toma como valor de ese cuartil, decil o percentil el valor que acumula la mayorde las frecuencias absolutas acumuladas anteriores.

En cambio. si el porcentaje que representa el cuartil, el decil o el percentil sobre el totalde los mismos es igual a una determinada frecuencia absoluta acumulada existente, se tomacomo valor la media aritmética del valor que acumula dicho valor de la frecuencia absolu-ta acumulada y el siguiente valor.

Ejemplo 2.11 Distribuciones no agrupadas

, N;

7 10

5 15 3 I82 20

n = 20

Primer cuartil (C, ]

Lugar que ocupa en la distribución (1-) • 20 = 19-4 = 5

Como N, ., < (25%) n < N. es decir, 3 < 5 < 10, esto implicara que C, = x, = 10

tercer cuartil [C,]

Lugar que ocupa en la distribución \ 4

t

/ • 20 = 40 =

15, que coincide con un valor de

la frecuencia absoluta acumulada. Por tanto, realizaremos el cálculo:

C, = ti +xr., 15+20 2 2 — 17,5

Cuarto decil [0,]

Lugar que ocupa en la distribución ( 10 )

- 20 = — = 8

Como N, ,<(r/)-n<N, ya que 3<8<10 por tanto D4 = 10

Nonagésimo percentil [P,J A

,

5 10

Lugar que ocupa la mediana lugar 2-1-3, = 10. 15

20Como es igual a un valor de la frecuencia 25

absoluta acumulada, realizaremos este cálculo:

En la distribución de la Tabla 2.17, calcule lamediana (Me): el primer y tercer cuartil

el 4.° devil (D,) y el 90 percentil

Mediana [Me]

x,x, 10+15

Me = — 12,52

2

Lugar que ocupa en la distribución (l ) • 20 = 11000 —

18, que coincide con un valor

de la frecuencia absoluta acumulada. Por tanto, realizaremos el cálculo:

x, +x,- 20 +25 — 22,5

2 2 l

Pw•

En el caso de distribuciones agrupadas, primero encontraremos el intervalo donde esta-rá el cuantil, decil o percentil de forma similar al caso anterior:

Lugar: N, _, < (%) n < N Intervalo (L,_„ L,)

Page 33: TURISMO Í A

Ejemplo 2.12 Distribuciones agrupadas

Halle el primer cuartil, el cuarto decd c el 90 percentil de distribución de la Tabla 2. I S

Primer cuartel [C,] /j)

[0 , 100)

100, 200)

g{l00 – 200). Aplicando la expresión '00, 300)

[300.800)

Cuarto decdd [0,]

Lugar que ocupa:

Por tanto. D„estardtuado en el 4^^t Aplicando la expresión tendremos:

.._.^__ 1 t 90 100 = 178,57

\

Nonagésimo percentil [PI] ^._...

Lugar que ocupa: jÓ0

50W=450

Por t'-estarí situado en el finten alo [31 t` : I I . .li,- do la expresión tendremos:

450 ^ t .500 = 300 — ^0ó 500 = 591.67I

3 1_0

n = 500

Lugar que ocupa el primer cuartil:

- Porfanto. C, estará situado edirect-aa te. ten

^•^^I t' .

44

w 490 90

140 230

150 380

120 500

Capadla 2 Boiles exploratorio de rin gles unidimeosianales

tina vez localizado el intervalo se aplica:

L_. -l rcl.\ –.VQ =

• • ><

2.7. Reducción de datos III: medidas de dispeísidn

Las medidas de dispersión nos sin en para cuantificar la separación de los valores de unadistribución.

Llamaremos dispersión o variabilidad a la mayor o menor separación de los valores dela muestra respecto de las medidas de centralización que ha) amos calculado.

Al calcular una medida de centralización como es la media aritmética, resulta necesa-rio acompañarla de otra medida que indique el grado de dispersión del resto de valores dela distribución. respecto de esta media. A estas cantidades o coeficientes, les llamamos: medi-

das de dispersión.

Las medidas de dispersión son un complemento necesario a las medidas de centraliza-ción por cuanto se complementa la información del valor alrededor del cual se mueven losdatos con la información de si éstos oscilan siempre cerca de dicho valor o suelen estar enposiciones alejadas a este calor, tanto mayores como menores.

25

Page 34: TURISMO Í A

Diagrama de caja de EDA

KIIKx x x x X

0 100

200

300EDA

Agurd 2.6.

26 Estadística aplicada al turismo

AMOAntes de continuar con el resto de las medidas de dispersión,veamos un gráfico que nos introduce esa idea. El diagramade caja es una representación gráfica de una distribución paramostrar sus características principales y señalar los posiblesdatos atípicos, es decir, aquellas observaciones que parecenalejadas del resto. Para construir un diagrama de caja o box-

plot se han de seguir los siguientes pasos:

a) Ordenar los datos de la muestra y obtener el valormínimo, el máximo y los tres cuartiles.

h) Dibujar un rectángulo cuyos extremos son el primer yel tercer cuartil e indicar la posición de la mediana osegundo cuartil mediante una línea.

e) Calcular unos límites superior e inferior admisibles queservirán para indicar los valores atípicos. Estos lími-tes son:

LI= Q,– 1.51Q,– Q,)

LS= Q,+ I.S(Q,– Q,)

d) Considerar como valores atípicos los situados fuera del

intervalo (LI. LS).e) Dibujar una línea que vaya desde cada extremo del rec-

tángulo hasta LI o I.S. según corresponda.

Se utiliza la mediana y el rango intercuantílico como mediasde centralización y dispersión porque son medidas que depen-den del orden de los datos, no influenciables por algunos datos

atípicos.El gráfico se interpreta comparando cada una de sus cua-

tro partes. Un primer bigote que va desde LI al cuartil prime-

ro. una primera parte de la caja que va desde el cuartil prime-ro a la mediana, una segunda parte de la caja que va desde lamediana al cuartil tercero y. por último, un segundo bigote queva desde el cuartil tercero a LS. En cada una de estas cuatropartes hay un 2590 de los datos. Por tanto, si una de estas par-tes es más ancha que otra es debido a que en esta parte los datosestán más dispersos o menos concentrados, según se mire.

El gráfico también es muy útil para comparar una mismavariable en distintas distribuciones o poblaciones (Figura 2.6).

J

Un par de sencillos ejemplos aclarará esta cuestión.

Supongamos dos alumnos, cada uno con tres notas en sus exámenes de Estadística. Elalumno I tiene tres 5 mientras que el alumno 2 un 10. un 5 y un 0. En ambos casos su mediay mediana es 5. Parece muy superior la dispersión de las notas del alumno 2 cuyas cualifi-caciones en muchos casos distan mucho de su valor central demostrando que ha realizadoesfuerzos muy distintos en cada examen. El alumno I. en cambio, se muestra muy regular.Otro caso bien distinto es el de dos hoteles de tres estrellas cada uno con tres habitaciones.En el caso del hotel 1 todas las habitaciones cuestan 30 € por noche. En el caso del hotel 2sus precios son de 18, 30 y 42 €. Nuevamente sus medias y medianas son idénticas, mien-tras que el hotel 2 muestra una mayor dispersión que el I, ofreciendo seguramente varias tipo-logías de habitaciones mientras que el hotel I ofrece siempre el mismo tipo de habitación.

Page 35: TURISMO Í A
Page 36: TURISMO Í A

28 Esladíshca apl¢a0a aI lunsmo

Si a x, le sumamos una constante x' = x, + k, tendremos (sabiendo que r' = r + k),

la siguiente ecuación:

1(x; — X')2 n, I[(x, • k) — (X' + k)1 2 n, 1(x, — X)2 n,Sz= = —S2

n n n

4. Si todos los valores de la variable se multiplican por una constante, la varianzaqueda multiplicada por el cuadrado de dicha constante.

Si a x; ' = x, • k, tendremos (sabiendo que X' = X + k):

2

1(x' — X ]r')2 n, — ^[(x, • k) — (X' + k)n, — ^[k(x, — X)12 n,S

N N N

1[k2(x, — 17)1 2 n, k21[(x, — X)]2 n,_ — = k2.S2

n n

PROPIEDADES DE LA DESVIACIÓN TIPICA

A su vez, la desviación típica también tiene una serie de propiedades que se deducen fácil-mente de las de la varianza (ya que la desviación típica es la raíz cuadrada de la varianza).

I. La desviación típica es siempre un valor no negativo. S será siempre ? O por defi-nición. Cuando S = O X = x, (para todo i).

2. Es la medida de dispersión óptima por ser la más pequeña.3. Si a todos los valores de la variable se les suma una misma constante, la desvia-

ción típica no varía.4. Si todos los valores de la variable se multiplican por una misma constante, la des-

viación típica queda multiplicada por el valor absoluto de dicha constante.

El problema de las medidas de dispersión absolutas, como son todas las anteriores, es quenormalmente son un indicador que nos da problemas a la hora de comparar muestras devariables, pues es posible que entre sí no tengan cantidades en las mismas unidades, deahí que en ocasiones se recurra a medidas de dispersión relativa. El coeficiente de varia-ción de Pearson es una de las más significativas y lo podemos definir como el cocienteentre la desviación típica y la media aritmética de una distribución.

Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades, portanto Ves adimensional.

V, = IXI

Cuando V < V, significa que X es más representativa que Y, o que la media de X repre-senta mejor a su distribución que la media de Y a la suya.

Por convención, se considera que la dispersión es óptima si V, es igual o menor que 0,3.El coeficiente de variación no se ve influido si multiplicamos todos los valores de la

variable por una constante:

_ IkIS _ IkISVIkXI IklIXI

En cambio, si a todos los valores de la variable se les suma una misma constante, elcoeficiente de variación queda alterado. Es consecuencia inmediata de las propiedades dela media.

Page 37: TURISMO Í A

Cappulo 2 Bnálisis exploratorio de ranahles unidimensionales 29

Tipificación de una variable o Teorema de Tchebochev

Antes de comentar las siguientes medidas de caracterización de una distribución, merece lapena citar en este punto un par de aspectos de interés obtenidos a partir de la informaciónproporcionada por la media y la desviación típica.

A partir de una variable X con media X y desviación estándar S. podemos calcular otravariable Z. mediante la siguiente transformación:

X—XZ

S

Esta transformación recibe el nombre de tipificación de una variable. La media arit-mética de Z y su desviación estándar son iguales a 0 y I respectivamente. Las variables tipi-ficadas son medidas abstractas pero de gran valor en la comparación de distribuciones.

La información conjunta que proporcionan la media y la desviación típica puede pre-cisarse de la siguiente forma: entre la media y ±( veces la desviación típica existe, como

mínimo, el 100 (I — 1, )cí de las observaciones. Ello nos permite concluir a título ilustra-

tivo que. para cualquier distribución, entre la media y dos veces la desviación estándar estánel 75% de las observaciones y entre la media y tres veces la desviación estándar, el 89% delas mismas. Estos porcentajes se amplían al 95 y 99% respectivamente en el caso de que ladistribución de los datos sea normal.

• • 2.8. Reducción de datos IV: medidas de simetría, apuntamiento u concentración

Hasta ahora hemos estado analizando y estudiando la centralización y dispersión de una dis-tribución. pero parece evidente que necesitamos conocer más sobre el comportamiento deuna distribución. En esta parte. analizaremos las medidas de forma. en el sentido de histo-grama o representación de datos, es decir, qué información nos aporta según la forma quetenga la disposición de datos.

Las medidas de forma de una distribución se pueden clasificar en dos grandes gruposSimétrica Asimétrica o bloques: medidas de asimetría y medidas de curtosis (Figura 2.7).

a derecha Si trazamos una línea vertical por el valor de la media en el diagrama de barras o his-tograma de una variable (según sea ésta discreta o continua), esta vertical se transforma ennuestro eje de simetría. Diremos, pues. que es simétrica, cuando a ambos lados de la mediaaritmética haya el mismo número de valores de la variable. equidistantes de dicha mediados a dos, y tales que cada par de valores equidistantes tiene la misma frecuencia absolu-ta. En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría.ya sea por la derecha o por la izquierda. En particular, una distribución presenta asimetríapor la derecha si la mayoría de sus datos están concentrados a la izquierda de la media yasimetría por la izquierda si la mayoría de sus datos están concentrados a la derecha de sumedia.

Para calcular la asimetría, una posibilidad es utilizar el llamado coeficiente de FISHER

que representaremos como g, y responderá ala siguiente expresión matemática:

1 (x;—)7)'n,

S i — ns'

AÍ I Asimetricaa izquierda

1h11Simétrica

Asimétricaa derecha

Asimétricaa izquierda

Según sea el valor de g,. diremos que la distribución es asimétrica a derechas (o posi-tiva), a izquierdas (o negativa), o simétrica, es decir:

Page 38: TURISMO Í A

30 Esladislica aplicada al lirismo

— Si g, > la distribución será asimétrica positiva o a derechas (desplazada haci

la derecha).

— Si g 1 < 0 la distribución será asimétrica negativa o a izquierdas (desplazada haci

la izquierda).

— Si g, = O la distribución será simétrica.

Otra posibilidad de calcular la asimetría, es por medio del coeficiente de Pearson (Ap), yo

responde a la siguiente expresión:

— Si Ap > O la distribución será asimétrica positiva o a derechas (desplazada haci

la derecha).

— Si Ap < O la distribución será asimétrica negativa o a izquierdas (desplazad

hacia la izquierda).

Si Ap = O la distribución será simétrica.

Le leo normal

Para la teoría que sigue se hace necesario conocer la distribución normal, ya que tiene gran importancia al querer estudiar el apuntamiento o curtosis. Se dice que unadistribución tiene un apuntamiento u otro, siempre en función de esta distribuciónormal.

La distribución llamada normal, corresponde a fenómenos muy corrientes en la naturaleza y cuya representación gráfica es una campana de Gauss. Esta campana respondeuna función matemática, de densidad de la distribución:

^ ^_ t= ^k>=

.^(x) = s\I271, e

Esta distribución presenta unos puntos de inflexión X + S y X — S y el eje OX es unasíntota horizontal, siendo el área comprendida entre la f y el eje de las X igual a I

Medidas de cirrosis o apuntamiento

Para calcularlo utilizaremos la expresión:

1 (x, —X)4n,g 2 = n.s'

3

Si g2 > O la distribución será leptocúrtica o apuntada.

Si g2 = O la distribución será mesocártica o normal.

Si g2 < O la distribución será platicúrtica o menos apuntada que lo normal.

Medidas de concentración

Las medidas de concentración tratan de poner de relieve el mayor o menor grado de igual-dad en el reparto del total de los valores de la variable. Son, por tanto, indicadores del gra-do de distribución de la variable.

Para este fin, están concebidos los estudios sobre concentración.Denominamos concentración a la mayor o menor equidad en el reparto de la suma

total de los valores de la variable considerada (renta y salarios como variables más uti-lizadas).

Las infinitas posibilidades que pueden adoptar los valores se encuentran entre los dosextremos siguientes:

Page 39: TURISMO Í A

Capitula 2 Nihil is exploratorio de variables unidimensionales 31

I. Concentración máxima, cuando uno solo percibe el total y los demás nada. En estecaso, nos encontraremos ante un reparto no equitativo:

x, = = x,= = x„_,=0 y x„

2. Concentración mínima, cuando el conjunto total de valores de la variable está repar-tido por igual. En este caso diremos que estamos ante un reparto equitativo:

x, = x, = .r, = .r„ _ = x„

De las diferentes medidas de concentración que existen vamos a centrarnos en dos:

a) Índice de Gini: se trata de un coeficiente, por tanto, será un valor numérico.b) Curva de Lorenz: se trata de un gráfico, por tanto, será una representación en ejes

de coordenadas.

Sea una distribución de rentas (x, n; ), formaremos una tabla con las siguientes columnas:

1. Los productos x, n ; , que nos indicarán la renta total percibida por los n i rentistas derenta individual x; .

2. Las frecuencias absolutas acumuladas N.

3. Los totales acumulados u que se calculan de la siguiente forma:

u, = x, n,

u_ =x ^ n, +x,n,

u, =x, n, + x, n, + x, n,

u, =X, n, + x,n. + .r, n, + x, n,

u„=x,n,+x,n,+x,n,+x,n+...+x„n„

Por tanto, podemos decir que' u, = x,n;

4. La columna total de frecuencias acumuladas relativas, que expresaremos en tanto

por ciento y que representaremos como R. vendrá dada por la siguiente notación:

N,

n

5. La renta total de todos los rentistas que será u„ y será dada en tanto por ciento; la

cual representaremos como q, y responderá a la siguiente notación:

u, 100u

Por tanto, ya podemos confeccionar la tabla que será la siguiente:

N, .r, n, N, u, P^

9 P – 91

N, x, n, N, u_ Pz 92 P_ – 9=

n, x„ n, N„ u„ P, 9, P. – 9,

9;

Page 40: TURISMO Í A

97,5s

260 100,00

.

Frecurm u r ^ Nr, n, =u1, 90 MINI p, = (—N,: )11N1 P.— 4,

a, 5

575 575

lIN) 597í

..

.._.....

u,

x 1141N) ' 1 25

I ^) 4275 2'64(X)

V ' 'iN)...

00'A6

50 • IIN1

100 I011 I '> h2

U il `1M1 17$

'_00 - 250- 225

250 - 300' 275s, ......._....

100 - 350 325 14

1511 1111) 175 7

40) 49) 1 'S

)511 • 501 475 2

I IS 8,115

76,54

60.38

78,85

16,15

89.23

94.62

97,31

0381I

Elempla 212

ia^a 2.2a.

- L,Marca

r,

n.51)

32 Estadística aplicada al Nnsme

Como pacemos ver la última columna es la diferencia entre las dos penúltimas. Este

diferencia sería O para la concentración mínima, ya que p, = q, y. por tanto, su diferencia

sería 0.Si esto lo representamos gráficamente obtendremos la curva de concentración o curve

de Laten:. La manera de representarlo será. los valores p, en % en el eje de las X, y los va-

lores de q, en % en el de las Y. Al ser un %, el gráfico siempre será un cuadrado, y la grá-

fica será una curva que se unirá al cuadrado, por los valores (0,0) y (100,100) y quedan

siempre por debajo de la diagonal.La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la diagonal.

menor concentración habrá, o más homogeneidad en la distribución. Cuanto más se acer-

que a los ejes por la parte inferior del cuadrado, mayor concentración.Analíticamente calcularemos el índice de Gini, que responde a la siguiente ecuación,

k- I(.12,-y,)

/4 = k _1P,

Este índice tomará los valores de /o, = 0, cuando p, = y, (concentración mínima) y de

= I. cuando q, = O (concentración máxima).Esto lo veremos mejor en el Ejemplo 2.12.

261) 113850

Se pide • índice de cnnventrnción y curva de Lorena correspondiente.

aj indice de concentración de 6I1I

Obsrnamos quc hay poca concentración por encontrarse cerca del O.

651,15

k -.I1R1 cid

P-1 _ 1.25,48_

1 651,15k

^ P,

Page 41: TURISMO Í A

100

90 —

80 —

70 —

60—

50 —

40 —

30 —

'Il _

IU

q, %

Ejemplo 2.12 [continuación]

bJ Curra tie Lorenz

Obtenemos la curva cerca de la diagonal, que indica que has poc cuncentracion

tA

O 10 20 30 40 50 60 70 80 90 100

^

tantito 2. Análisis exploratorio de variables unidimensionales

33

En esta sección ofreceremos tres ejemplos resumen del capítulo. Uno para datos cualitativos, otro para datos cuantitativos a g ru-

pados y un último para datos cuantitativos no agrupados.

Ejemplo de estudio 2.9.1

Una consultoría turística ha realizado una pequeña encuesta acerca del medio de transporte preferido por un colectivo no indi-

vidual de cien individuos. Sus respuestas han sido las siguientes:

Autobús: I2 Avión:30 Barco:42 Tren:16

Se pide:Comente los resultados de la encuesta utilizando las herramientas que pueda para ilustrar su respuesta.

Page 42: TURISMO Í A

2,2

4.5

7.4

5,3 /6,3 15,9 20,1 7,6 2,3

-JO.S t 1,7 5)1

Tabla 2.92

34 ^ Estadística aplicada al Nnsmo

EJEMILIS IE ES1111I • EIEMILIS IE 1511111 • EJEMILIS IE ES10111

Solución

Con datos cualitativos. cualquier aspecto o cálculo que requiere una ordenacióncarece, en principio, de sentido ya que no hay ninguna razón para sostener queel avión es un medio de transporte mejor o superior, por ejemplo, que el barco.Por tanto, la tabulación y la mayoría de medidas que hemos desarrollado en estecapítulo no son aplicables.

En cuanto a la figura, hemos visto que, por ejemplo. un pictograma o un dia-grama de sectores pueden ser apropiados para el caso. En la Figura 2.10 se pre-senta el diagrama de sectores. Para cada medio de transporte se ha realizado elsiguiente el cálculo previo:

Autobús = 360 •12 = 43.2° Barco = 360 • 42 —151,2°

100 100

Avión = 360 0

= 108° Tren = 360016 — 57,6°Alura 2.10.

En cuanto a las medidas de centralización, la mediana depende del orden, con lo que carece de sentido, y para calcular lamedia se debería asignar un valor a cada medio de transporte por el que multiplicar luego su frecuencia relativa. Dicha asigna-ción sería totalmente arbitraria y su interpretación posterior carecería de sentido, con lo que el único parámetro de centraliza-ción que merece ser tenido en cuenta es la moda. Nuestros datos proceden de una distribución unimodal donde la moda es elbarco, preferido por el 42`4 de los encuestador.

Evidentemente, las medias de posición vuelven a carecer de sentido al depender del orden, al igual que ocurre con las medi-das de dispersión. Análogamente, tampoco tiene sentido calcular unas medidas de simetría. Aduciremos dos razones: en primerlugar para todas ellas necesitábamos una media o desviación típica que no tenemos y, en segundo lugar, porque si de formaintuitiva a partir de un histograma (gráfico que recordemos, por otra parte, no seria adecuado para este tipo de datos) deducid-ramos la simetría. observaríamos que nuestra conclusión cambia dependiendo del orden en el que tomáramos cada uno de losmedios de transporte a la hora de construir el gráfico. Nuevamente, carece de sentido cualquier comentario acerca del apunta-miento o la distribución.

Ejemplo de estudio 2.9.2

Uno de los componentes del IPC (Índice de Precios al Consumo) de los países son los servicios turísticos. En la Tabla 2.21 apa-rece la tasa de incremento de este componente para un conjunto de países de la OCDE.

Se pide:

Realice una descripción lo más completa posible de la distribución de estos datos utilizando las herramientas oportunas.

Page 43: TURISMO Í A

[apilulo 2. Análisis exploratorio de variables uoidlmensmnales

EJEMILIS IE ES11111 • EJEMILIS IE ESTIIII • EJEM/LIS If E51111I

Solución

Es posible agrupar los datos en cinco clases (aplicando la regla des i ^htk:nicnll , .1,1

Intervalo 0-8 8-16 16-24 24-32 32-40

Frecuencia 18 2 0

Frecuencia relativa 0,75 0,08 0.08 0 0.08

Esta agrupación resulta útil para la realización del histo grama (Figura 2.11) y resulta muy asimétrica. Aun así. las medidascaracterísticas para estos datos se calculan utilizando los datos originales.

lo

14

12

U

6

I ^-

Desv iación típica = 9.78Media = 9.0V = 24.00

0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0

Ruin.

Medidas de centralización:

= 32,7+...+7.4 — 8,98

24

Me- 5,5+53 - :.42

Mo = 3,2

Medidas de posición:

3,2+ 3.4 =3.3(Posiciones 6 y 7) Q, =

(Posiciones 18 y 19) Q,=7.6+ 9.1

— 8,35

(Posición 3) P p = 2,9

(Posición 22) 1'90 = 20,1

La interpretación de los anteriores resultados es que un 25% de las tasas de crecimiento del índice de precios de los servi-cios turísticos es inferior 3.3%. de las que un 10% es inferior a un 2.9%. mientras que un 25% de dichas tasas de crecimientoes superior al 8.35% y de las que un 10% es superior al 20.1%.

35

/

Page 44: TURISMO Í A

a

4111212

Resumen

La variable .1PC turístico. muestra una distribución asimétrica ya que la mayoría de los datos están a la izquierda de su media (8.98%).aunque dicha media es poco representativa de la variable. ya que se trata de una variable muy dispersa, sobre todo en lo que hacereferencia a los valores mayores de su distribución. Finalmente, se trata de una distribución apuntada entorno al valor 5.

36 Eslaáishcd aplicada al IunslO

EIEMI LIS IE ES11111 • EJEMPLOS IE EST1111 • EJ

Medidas de dispersión:

Recorrido: 40.5 — 2.2 = 38,3Recorrido intercuartílico: 8.35 — 3,3 = 5,05

Varianza: (32.7 — 8,98)'- + + (7,4 — 8,98) 2 — 95,64

24

Desviación típica: s95,64 = 9,78

Coeficiente de variación: 8 .98 = 1,098,98

Con lo que podemos concluir que la media es poco represen-

tativa de los datos.Calculando los límites admisibles podemos dibujar el diagra-

ma de caja (Figura 2.12).

LI = 3.3 — 1,5(8.35 — 3,3) = —4,275LS = 3,3 + 1,5(8,35 — 3,3) = 15,92

Se advierte cómo las cuatro observaciones mayores de 15,92se consideran atípicas y que los datos parecen mucho más dispersosen el tramo que va desde la mediana al límite superior. Concreta-mente el tramo más disperso va desde el cuartil tercero al límitesuperior.

Medidas de simetría:

Coeficiente de asimetría de Fischer:

(32.7 — 8,98)' + ... + (7,4-8,98)') = 1,98

(24 9.78')

Con lo que la distribución se muestra como asimétrica por la derecha.

Medidas de apuntamiento:

Coeficiente de apuntamiento:

3 =3.10(24 - 9,78')

Se trata por tanto, de una distribución leptocúrtica o apuntada.

(32.7 — 8.98)a + ... + (7,4- 8,98)'

Page 45: TURISMO Í A

1)r

Dii111 Z Bnálisis exploratorio de variables unidimensionales

E)EMfLIS IE (Sil lll • EJEIIfLIS IE ESillll • EJEMfLIS IE ESiI111

Ejemplo de estudio 2.9.3

37

En la Tabla 2.23 aparece la información relativa a la distancia a la cual estan los principales

hoteles de San Antonio y Santa Eulalia en Ibiza (en kilómetros).

Se trata de realizar un análisis descriptivo completo de dicha variable. En primer lugar.ampliamos la tabulación presentada incorporando el resto de frecuencias (Tabla 224).

Er^Inrenalo

Frecuenciaabsoluta

(20:_5, 6

(25:3(1 4

(30:35)

(20:25) 6 0,4 6 0,4

(25:30) 4 0,26 10 0,66

(30:35) 5 0,33 15 1

Por lo que respecta a las medidas de centralización, cabe recordar que la media se calcula utilizando las marcas de clase de

cada intervalo, que el intervalo mediano es aquél que contiene la mediana (en nuestro caso, el dato central sería el 7.5 que se

encontraría en el intervalo segundo) y el intervalo modal es aquél con mayor frecuencia absoluta. es decir• el primer intervalo.

t— (22,5•6+...+32,5•5) _27,16

1515 _ 62

Me = 25+5

=254

4 'qo = 20+` =i5

t +4

Con respecto a )as medidas de posición, el cuartel primero se nallaría alrededor de una nipotetica observación 3.75

que se encuentra en el primer intervalo.

l^ —04

Q, = 220 + 5 — 23,125 6

De idéntica forma, hallamos el cuartil tercero alrededor de una hipotética observación 11.25 154

' 3, que encontramos en

el tercer intervalo.

Q,= 30+5

15.310

4= 31,125

6

Utilizando las mismas etapas calculamos. igualmente. el percentil 10 y el 90.

15 • 10 0Pm 20 + 5

100, o

= 21.25;

15 • 9010

P«,= 30+5 100 = 3355

Page 46: TURISMO Í A

Resumen

De nues o nos encontramos ante una distribución asimétrica por la derecha. debido a que la mayoría de las distancias se concentran alaizquierda de la media 1 2_7.16 km). Eso sí. en esta ocasión la media es una medida mu■ representativa de la distribución debido a la escasadispersión de los datos. Por último. nos encontramos ante una distribución con cieno apuntamiento originado por la mayor frecuenciaabsoluta del primer intervalo.

En el fichero enalgunlugar.sav tenemos datos acerca de la demanda de los productos de la agencia durante dos años. En dichofichero aparecen las siguientes variables:

— Año: I si el dato corresponde a 2001 c2 si corresponde a 2002.— País: de I a 10. Según el país del cual procede el dato.— Región: de I a 38 regiones para cada uno de los países anteriores.

38 Eslaáisfca aplicada al Nnsmo

EIEMILIS If ES111I1 • EJEMt LIS IE ESII111 • EJEMILIS If ES11111

Pasando a las medidas de dispersión:Recorrido: 35 — 20 = 15Recorrido intercuartílico: 31.125 — 23.125 = 8

(22,5 — 27,16) = 6 + ... + (32,5 — 27,16) = • 5 Varianza:

15

Desviación típica: \ 18,22 = 4,26

4,26 Coeficiente de variación: = 0,1568

27,16

con lo que podemos concluir que la media es muy representativa de los datos.Calculando los límites admisibles podríamos dibujar el diagrama de caja que dejamos para el lector.

L! = 23.125 — 1.5 (31.125 — 23,125) = 11,125

LS = 23.125 + 1,5 (31,125 — 23.125) = 35.125

Medidas de simetría:

Coeficiente de asimetría de Fischer:

(22.5- 27,16)'•6 +...+(32,5- 27.16)'•5 1,1815 • 426'

Con lo que la distribución se muestra como asimétrica por la derecha.

Medidas de apuntamiento:

Coeficiente de apuntamiento: (22.5 - 27. I6)' • 6 + ... + (22.5 -_2 7.16P • 4

3 — 1,6015.426'

Se trata• por tanto, de una distribución leptocúrtica o apuntada.

=18,22

2.10. Ejemplo de resolución a partir de SPSS

l

Page 47: TURISMO Í A

0

J

saca*son c°.

.N

ti__

aII

T edad

evat,ao- Nan6re Y nrlodo

enraye •T agarra

maroonrotaod

Metladn I ..da de b me

r

J

cer J

Capítulo 2 Bnáhsis exploratorio Ill variables umlimensmnales 39

E)EI1L1 If meterle, 1 111111 IE S1SS • (MAUI et IESILILIÍI 1 lllllt IL SISS

— Precio/noche: precio de la habitación del hotel.

— Destino: de I a 7. Los posibles destinos de los clientes.

— Edad: edad del viajero. Dividida también en 7 grupos.

— Evaluación: de I a 100. Puntuación del viajero al viaje efectuado.

— Organizado: valor I si el viaje es organizado y 2 si no lo es.

— Duración: número de días que dura el viaje. De I a 9 días.

— Hotel: número de estrellas del hotel donde se ha alojado el viajero. De I a 5 estrellas. Valor 6 para los viajes con aloja-miento en uno de los 10 mejores hoteles con quien mantiene relaciones la agencia.

— Edad: la edad del viajero. pero ahora en formato continuo.

— Pensión: 1 si se trata de pensión completa y 2 en caso contrario.

— Temporada: 1 si se trata de temporada alta y 2 en caso contrario.

La agencia mantiene a nivel interno la información de los nombres de los países. las regiones. los clientes y los hoteles.

Se pide:

1. Observe su variable <.edad».,:,Qué problema presenta?¿Qué soluciones otorga SPSS?

2. Recodifique las variables pensión, viaje organizado y temporada de tal forma que sean variables binarias 11.01.

1. A la variable EDA le faltan observaciones.Tenemos valores perdidos. pero SPSS nos per-mite reemplazar estos valores mediante variosmétodos. Nosotros vamos a escoger reempla-zarlos por la media del resto de observaciones.

Para ello, nos vamos al menú Transformar y

dentro de él al submenú Reemplazar valores

perdidos (Figura 2.13).Una vez aquí. seleccionamos en primer

lugar la variable que nos interesa. Para ello. pul-saremos sobre la variable EDA en el recuadrode la izquierda en el cual figuran todas las varia-bles y, posteriormente, en la flecha que hay entreambos recuadros blancos. Veremos cómo, des-pués de comprobar que en la pestaña del méto-do hemos seleccionado el método •.media de laserie. al realizar dicha operación, la expresiónEDA_l=\IEAN(EDA) aparece en el recuadroderecho y la flecha que hay entre ambosrecuadros ha cambiado de dirección (Figu-ra 2.14).

Si aceptamos este cuadro de diálogo tal ycomo está, observaremos cómo se nos crea unanueva serie llamada EDA_I, cuyo valor para lasobservaciones con dato es el mismo que EDApara los valores perdidos 37,38, que es la mediade la serie.

5.1 tildo - Editor de datos SPSS

a lg ldl J ^ ^...Senda de aaataaam... PA0Contar aoarooes_.edad

añoRemake,edad

^ P' CategaFa vaebMS... a pe _

evaMtan4 cegaret_z _ pao ragosatams. -. _x

^^Asolar

- 32 aeamfcaoan ertaneta.. - = T 3 0=_ 00 Ceea 'sere torpor"... 3 00 30C

300 3S5 '00 - ..,.-r-.,.s 200 30C

6 200 , 300 70Clao 1600 300 70C1 CC

8 233 100 , 00 1500 300. 70C

9 2 00 100 1 00• 1500 300 7 CC

10 200 100 I00 1200 200 3 C11 200 100 100 1dm 300 3CC

Granos txk ^,_^

^nF/lt 111.

Edioun l anaixa Gráficosver Datas Trartdansa Uüdades vavasa

Page 48: TURISMO Í A

2 UD

23

wa,,, Es:._..

1 00 1 1 00 1 14001

12 701 W I 3.00 113 001 " 001 -^. W I

'. 301 ' 001 ° 4 031

33 ., '031 Z.1W1

lad evaluaei ( ego*Restablece - 7D 7000 2

00 78 00 1

00 92 00 2

3 00 98 00300 7300 27 00,03 70.0017 1p 81.W

J-1 7 03 83.00

2.001 3 00 76.W- __ 3.00 1 59.W1 2.

- 301 140.031- 30 l 59.001 :I

7 W 70.031

70 92 001-31 70.001

31 '5001

Recodf ar en las miserias variad*. valores antiguos y nuevas

- Valor atanr. vele I

(' Pacido pa e «, eme

r Pesado pa d mteme o uuaor Rengo

r Raigo

r Rango

---^

r Todos los danós vabre-,

-vdarae.o --

r /dor I- r Paddo por rstore

Antiguo -> Nuevo

rae'ua ea ^ta ^ ^

2 02 '^ rn 12 W 2 W2W^ L00,2.00 1 W 1.00

1W' 14.00 3.01 3.00 59.03

/atables maniatar

IJ•0(4..,•®

'... I

/does amgos y romos

m Sim [irlo - Editor de datos SPSS

wchro Educo Va Datos Transformar treha Ctdkos

'.1 ^ da sordo m dedaaauor,

11 edad cata apa c,aes...

00WW00

3003 00

3 00

200303

00 3 00 72 W3 00

92 00

3003 00

7303

7 00

303 7610

Figura 2.15.

Categor¢e venables...

Apanes rangos a casos,..

aecaderlaón atandtice..,see tempord...

Remplaza /orees per

16031001 1500100 15001W 1210100 14W

1 C

40 Eslaáishca aplicada al turismo

EJEMPLO OE REMOCIÓN R PIITII IE MI • EJEMfLI IE IESILILIÍI 1111111 If SISS

2. Para convertir las variables pensión, organi-zado y temporada en variables binarias (1,0) nostrasladamos al menú «Transformar», «Recodifi-car», «En las mismas variables» (Figura 2.15).

Accedemos a un nuevo cuadro de diálogodonde. en primer lugar, seleccionamos las tresvariables que nos interesan tal y como hicimosen el ejercicio anterior (Figura 2.16).

Posteriormente, entramos en la opción «Va-lores antiguos y nuevos...» y realizamos lasiguiente operación. En la parte izquierda. la quehace referencia al valor antiguo, clicamos en laopción valor e introducimos un 2 en el recua-dro blanco que hay a su derecha. Posterior-mente, en la parte derecha, la que hace refe-rencia al valor nuevo, clicamos igualmente enla opción valor e introducimos un 0. Una vezrealizado. clicamos en la opción «Añadir.. Vere-mos cómo, en el recuadro blanco grande de laparte derecha. ha aparecido la siguiente expre-sión: 2—s0. Finalmente, repetimos la misma ope-ración con la finalidad de obtener la expresión1-sl (Figura 2.17).

Una vez aquí, clicamos en la opción «Con-tinuar», nos aparecerá el menú anterior y acep-taremos sobre él. Observaremos cómo en lascolumnas que hacían referencia a las variablespensión. organizado q temporada se han reem-plazado las observaciones con valor 2 por obser-vaciones con valor 0. mientras que las observa-ciones con valor I permanecen invariables.

Recordemos que el fichero Salarios.xlscontiene datos sobre las siguientes variables parael conjunto de individuos que pertenecen a laplantilla de nuestra agencia EN ALGÚNLUGAR. S.A.

— Salario por hora— Sexo o género (1: hombre, 0: mujer)— Edad— Años de experiencia— Nivel educativo: en orden ascendente:

0) EGB ciclo inicial.1) EGB ciclo medio o educación pri-

maria.2) EGB ciclo superior o educación

secundaria.3) BUP.4) COU o Bachillerato.

Page 49: TURISMO Í A

alal:oda

23

7

12

13

15

19

ro

:1

23

?A

6WYIIV

5-5v

A d'53:58(

32-6554X57?:55:

67:

50:

90:7 1'

7 R3 7_

99:

56:64

9 5€

11 1:

13 4F7n

edu- top

5W2W3W5W7W

W5W6W3W5W3W9W2W3W5W7W

W5W6W3W5W6W

11W

Coba 2 Análisis etploralan° de venables umd mensionales

EIEMILI Of IESILIIIÍI 1 111TI1 If SISS • ElE111,1 IE IESILI[111 1 11 1111 If SISS

5) FP de primer grado o ciclo formativo medio6) FP de segundo grado o ciclo formativo superior.7) Universitarios en escuelas de diplomatura o ingeniería técnica.8) Universitarios en licenciaturas o ingenierías superiores.9) Master o Posgrado.

10) Otros estudios.II) Doctorado.

La agencia mantiene en el anonimato los nombres de sus empleados.

Se pide:

a) Realice la tabla de frecuencias de cada una de las variables.bl Preste atención gráfica especial a las variables Educación y Salario por hora.

c) Realice la estadística descriptiva de cada una de las variables.d) Complete el análisis de dispersión para la variable Salario por hora con el diagrama de caja.e) Elabore un pequeño informe en el que se dé respuesta a las siguientes cuestiones: ¿Hay más hombres o mujeres en la

agencia? ¿Cree que EN ALGÚN LUGAR. S.A. es una empresa con plantilla joven o vieja? ¿Cuál es mayor, el salariode los hombres o el de las mujeres? ¿Cuál es más estable? Comente el valor medio y mediano de la variable Salario

por hora. ¿A qué es debida la diferencia entre ambos valores?

Solución

a) Abrimos el fichero Salarios.xls. Para realizar la tabla de frecuencias desplegamos el menú «Analizara. el submenú «Esta-dísticos descriptivos y. en él. clicamos en la opción «Frecuencias.. (Figura 2.18).

Ssn t o.do - Edits de datos Sp55

bdM Edodn V• Datos Tra,donna Melp Gdfims Ulddes Ventana '

sJslJJ.

JI

11

L

^I^JJJJ^ 1^

5

cTTebas Tas persor.sY:adas s Cesh.vs• Carp• ssned s EQber...

Modelo leed 9e^esN s Tegas de canmgeoe.

rrModelosodos Ratón-

Correaovses

veem

iedastcer

• Nxoen de datos.:alas e

- _seas ro tleb

Dar e-es tomase/es a

-,tesas s kt es

aloa de .'aloes penados

ti

40

3

15 W13 W

e 13

25

20

fl'p 211.

33 W

5_' W27 W38 W23 W53 W51 W26 W33W1

.^^a3WW _, ,

rat I ^ +v T .a,^ ^ rtr I -

Page 50: TURISMO Í A

42 Estadistica aplicada al lunS1I1

EJEIIILI if IESILIIIÍI I ISIf11 if SISS • IJEIILI if ISSILILIÍI 1 1 11II1 II SISS

Accederemos al si g uiente menú (Figu-

ra 2.10). A continuación. y dado que queremosla tabla de frecuencias para todas las variables.introducimos todas las variables en el recuadroblanco derecho. Para ello. clicamos sobre cadauna de ellas (se marcarán en azul)) posterior-mente sobre la flecha que se halla en medio delos dos recuadros ( Figura 2.2W.

Ahora accederemos a la opción „Formato"p marcaremos que queremos la tabla ordenadasegún valores ascendentes de las v ariables ori-

ginales y que suprima las tablas de frecuenciasde variables con más de 20 categorías. Este tipode instrucción suprime la tabla para las varia-bles continuas corno es el Salario por hora o la

Edad. La tabla de frecuencias de este tipo devariables sería mu y poco informativa porque lamayoría de observaciones tendrían una fre-cuencia absoluta de 1 o. a lo sumo. 2 (Figu-ra 2.21).

Clicamos "Continuar" en el submenú •,Fre-cuencias: Formato " y " Aceptar " en el menú„Frecuencias,. En este punto observamos losresultados de las Figuras 2.22 a 2.25.

La salida consta de cuatro recuadros. El pri-mero nos informa del número de datos v de queno hemos perdido ninguna información. Los tressiguientes recuadros son las tablas de frecuen-cias para las variables que no tenían excesivascategorías. En ellas se muestra la frecuenciaabsoluta (frecuencias), la frecuencia relativa

Sin titulo - t

lit SW a03 - _4.W55C 3.W —__ 303 _ 2303

12 6 70 9. 00 12860 58.0313 5031 2001 2000í cv 44.0314 9.03 1 3.03 40001 t ct: 620015 7151 5W1 5W' 1C( 27W16 7 W': 7W1 300 - 38.00

amables•

1 Mosas labias de Inciensas

Estallas :^ ^.

:F•ecutanclea

MiLple. venablesr Came.etebte.

r Oipsreat atestados y, vattam

StamleWp tat obro

Page 51: TURISMO Í A

Estadlsbms

Sa áRIOS EDUCACION! E.pe-=-:-60

Porcentaje- enrama . ', -_ 'a e estilo

=. [e^tajea -, :Trin

va,wa 5 52 82 82

'6 16 9.8

_ 6 98 98 19.7

3 14 210 210 426

4 2 33 33 459

14 23.0 23.0 68 9

6 5 8.2 52 77.0

7 5 82 82 852

8 3 4.9 49 902

9 2 13 33 934

10 1 16 1 6 95.1

11 3 49 49 1000

Tota 61 100.0 1000

Experienaa

',11,101,1 PnrnentalePorcentaje

v5MnPorcentajeanln olann

Vdltdos 3 5 82 82 82

1 1 16 16 96

2 3 4 9 4.9 14.8

3 4 66 66 21.3

4 2 3.3 3.3 24 6

5 4 9 4 9 29.5

7 16 16 31.1

8 6 98 9.8 41.0

9 1 1 6 1 6 42.6

10 7 115 115 541

12 1 16 16 557

13 4 66 6.6 623

15 2 3.3 3.3 65.6

16 16 1.6 672

18 _ 3 3 3.3 70.5

20 4 6.6 6.6 77.0

22 1 1 6 1.6 78.7

23 1 1.6 16 803

25 5 8.2 8 2 88 5

28 2 3.3 3.3 91 8

29 1 16 1.6 934

32 1 1 6 1.6 95.1

35 1 1.6 1.6 967

40 2 3 3 3.3 100.0

Tota 61 1000 __:

^ 00

00 44 00

t a 62 m

00 27 013

W 38 00

1br.1,w MalaBunsEd4in Transformar

=JJ

Vsdilc

♦a•anen

♦e• J♦ edad

F Moca

I ^^^Ceerr

Ayde

1 ar

A

rv •ea del 4Nco00 FreOaoca

12

2.111

3.m

5.96

700

13 500

14 9

15 716

16 78C

taplulo 2 Análisis etploralono de variables unidimensioneles

EJE111L1 IE 1ESILItIÍI I 111111 IE S1SS • EJE11L1 IE IESILILIi1 I 111111. IE SPEC

43

•T•2.24.

(porcentajes) y la frecuencia relativa acumulada (porcentajeacumulado).

bl Para realizar los gráficos tenemos dos opciones. La primerase halla igualmente dentro de «Analizar. Estadísticos descrip-tivos. Frecuencias... En ella, si cucamos en la opción «Gráfi-cos., podemos seleccionar la variable Educación y realizar elgráfico de sectores de la misma (Figura 2.26).

SEXO

.n.renuiePc. :-_._

eaa-_- .annValrcos _ 410 J41 0 410

590 590 t -_ _

Tota 61 100.0 100 0

Page 52: TURISMO Í A

® rums e mininos..

a161140I54 =1J _J JJ J:.yvo

Sn aula - tato. de daos 5.55

11^©11® 5 10® 7 20

1=0 5SD5]0

® 5m

11^ 00't5

Mal 7 90

^ 3 75

^ 9®=111170

Fpura 221

D'

38 W23 005300

10

fipli 2.21

x

ta 00datos 65 paco n I Deb. I(.' Revnere0p•aVWS de50000

r Res'nann pne d0W a0 vseHs

ValpeO ndvidudn de Is cmos

Flqu a 2.29.

ü

8(

3(

13'

13

25 L

70(D' _ .i00^ ^300``

1 88 00 1 21 m Im Pf) r m

44 Esladishca aplicada al luris-

ElEA1l1 If IESIt1EIil 1 111111 If SPSS • E1E111L1 If IESILIEIiI I I11111 If S1SS

El resultado se puede observar en la Figura 2.27.Notamos que los niveles de educación 3 y 5 son los que están más repre-

sentados. El mismo resultado se habría obtenido en .Gráficos» , ..Secto-res.. (Figura 2.28).

Posteriormente, marcaríamos ..Definir» después de marcar la opción-resúmenes para todos los grupos de casos. y en el siguiente menú se-leccionaríamos la variable Educación y le pediríamos que los sectoresrepresenten el número de casos. Observe que el dibujo sería idéntico sipidiéramos el % de casos (Figuras 2.29 y 2.30).

Para elaborar el histograma de la variable Salarios nuevamente tene-mos dos posibilidades. En la opción .•Analizar, estadísticos descriptivos,frecuencias y gráficos. seleccionaríamos ■■Histograma» y marcaríamos laopción de curva normal en el gráfico (Figura 2.31). El resultado es el queaparece en la Figura 2.32.

Page 53: TURISMO Í A

Histograma para la vanable Sa■anos

Voltees perca-Mes

P. Guantes

r Reo= x cane cae

P Pacaxiea (-

r Lm vetos ao n.+* vedes 0e grzos

Ds tp •a661bd.•66N•6100 Deae.mn Dotüav

IDO NDF Den Cima P Mime P Aarree

220 TO P V6.•oe P Mf.iooÑ Amad r ET. NOS.

P Cuba

S ti

Obtenemos de nuevo idéntico resultado a partir del menú «Gráficos. y el submenú «Histo gramas.. Una vez allí. selec-cionaríamos la variable Salarios y marcaríamos la opción de curva normal. Se observa con facilidad que la distribución de lavariable Salario por hora se aleja de una distribución normal y se intuye que presentará asimetría por la derecha- ya que la mayo-ría de sus datos se concentran a la izquierda de la media.

c) Para realizar la estadística descriptiva de las variables volvemos al menú “Analizar». Estadísticos descriptivos...Frecuen-cias.. } desde aquí entramos en la opción «Estadísticos>. Una vez en este menú clicamos en los estadísticos que nos interesan.En el caso de los percentiles, una vez activados tras el clic. tenemos que indicar los que nos interesan escribiendo el número enel recuadro pequeño, justo a la derecha de la opción «Percentiles. v cucando «Añadir» para que aparezcan en el recuadro gran-de. En nuestro caso. hemos añadido el 10 y el 90 (Figura 2.33). El output que nos ofrece SPSS es el de la Figura 2.34.

Sin detenernos a comentar toda la salida. únicamente hacer constar que el coeficiente de asimetría que nos ofrece SPSS esel coeficiente de Fischer. Por otra parte. notar que aunque sólo hemos pedido los percentiles 10 y 90 nos ofrece también el 25.el 50 y el 75, ya que estos percentiles coinciden. como sabemos- con el primer. segundo y tercer cuartil.

- Taderoe cara

Ñ Meso

P Matero

P Mofe

r s...6

•0 0 16060 .. 140 160

SO LA Rí05

Caballo 2 análisis exploratorio de variables unidimensioneles

45

EJEIIILI tE IESILI[IÍl 1 IIITII If MI • EJEIIILI IE IESIIItIÍI 1 111111 II SfSS

Estadistrcos

-sao EDAD

N auaos - 61 61a eraiacs _ _ 3 3

Meaja 85-`_ 164 13' 5 59 38 43Mediana 7200 5.00 10-00 100 37.00Moda 5.9 3' 10 1 23Desv tip 4.8498 2.775 10.443 .496 13488Vananza 23 5203 7.701 109-050 246 181.915Aemetna 2336 455 776 -376 201Erro r tip de asrmetna .306 306 .306 306 .306Curtosis 6.396 - 081 -.111 -1 923 -1.228Error tip de curtosss 604 604 .604 604 604Rango 23. 11 40 1 48Minimo 33 0 0 0 17Maximo 26. 11 40 1 65Percentiles 10 4.330 1.20 120 00 2200

25 5.800 300 4.50 .00 26.5050 7200 500 10.00 1.00 37.0075 9.750 600 2000 1.00 52-0090 13.570 8 BO 28 00 1.00 57 00

a Existen vanas modas Se mostrara el menor de los valores

fi^rt 134.J

Page 54: TURISMO Í A

J

46 Eslaáistica aplicada al turismo

1E1111E111 I 111111 1E SPSSEJErPLI 1E 1E5111E111 I P11111 1 E SPSS • EJEIPLI 1

1 pe°•r"1Espera m casos 'recia.

d) Para realizar el diagrama de caja de la variable Salario por hora, entramos en el menú «Gráficos, Diagrama de cajas». En

el siguiente menú pulsaremos en opción «Simple» y en la función «Resúmenes para distintas variables» (Figuras 2.35 y 2.36).

Por último, seleccionaremos la variable Salario por hora y aceptaremos (Figura 2.37). La salida de SPSS es la de la Figu-

ra 2.38.Se trata del diagrama de caja usual presentado en posición vertical. En él vemos observaciones atípicas situadas aproximada-

mente entorno a los 26/27€ la hora, que corresponderán con toda seguridad a los gerentes de cada agencia. Además. advertimosuna dispersión muy elevada en el 25% de observaciones que oscilan entreel cuartil tercero y el extremo superior. Por el contrario, entre el cuartil pri-mero y la mediana. se sitúa el 25 c%c de observaciones más concentrado.

e) Por lo que respecta a las preguntas a las que hemos de dar respuestaen el informe que se nos pide en este apartado, tenemos información sufi-ciente para todas, excepto para la que nos pide si el salario es mayor paralos hombres o para las mujeres y cuál de los dos es más estable. Para res-ponder a esta pregunta necesitamos calcular estadísticos descriptivos sepa-rados para el colectivo masculino y femenino. Para ello, nos trasladamosal menú «Datos», submenú Segmentar archivos» ( Figura 2.39).

r

°•

A__—J., ea.

.,^.

,see 0• salmo

Pa^Pqa _

Ceffas

ai.aa J __

Ira 2.31.

Agora 2_36.

adral Edddn Ve petos Trerv4amer Mahe , Gráfvn WdldK Ventana

37 W

Wdwo Edioón Ve ' patos Transformar Arare Gráficos tildadas Ventana

'.' alJ

Gafe,. fades..

inserta veverte*ffip: eda0 ,.,sede

salan

59(

saecooree casos.

Pondera casos...

E

4

51

89t

4 4'.

5T

3100

00 5+. 00 28 00

1 00 33 00

1 00

100

W

48 00'

4300

21 00

4200

2200

57 0336 r... . J

W

00!

W

m _

1 W 24

1 00 : 23 Srrele

100 58

W 44 •F a9weda

100 62

1W WI

W I

^ Defr,. IF.sTi

a..--^'N-

1

^

Los daos del atta., san

r Resúnen. pee 71003 da casca

r Resúmenes neta d3n4aa venables

Page 55: TURISMO Í A

Estadisticos descripnvos'

SALARIOS

SALARIOSNválido (según lata

a SEXO = 0

Estadisncos descriptivos'

Miromn Maims25

25

98

Minim^ Maxim265

=iv I1A _ 5010

N36

36SALAR C-

Nvándo se-_- s:a

Capíiulo 2 8nálisls erploralorm de varia bles umdimensianales 17

I I 111111 IE StSS • EJEMtLI IE IESILI[III I t11í11 II StSS

fiprE 211.

únicamente de algunas saciables extremas, ya que si calculamos

13.488 38,43 — 0.34 éste nos diría que estamos muy cerca de considerar a la media como representativa del conjunto de datos.

cosa que no ocurre con el resto de variables.

Respecto ala variable Educación, si observamos tanto la estadística descriptiva como su gráfico de sectores. se detecta que

la media y la mediana se sitúan en estudios de tipo medio como COU. Bachillerato o FP de grado medio. Las cate gorías más

representadas son estudiantes con BUP y con FP o ciclos formativos de grado medio. De todas formas, en nuestra empresa hay

tanto personal que únicamente tiene el ciclo inicial de EGB. como personal estudiante de doctorado.

Respecto a la variable Experiencia, la media de experiencia del personal de nuestra agencia es superiora los 13 años. Sin

embargo. se trata de la variable más dispersa, ya que su coeficiente de variación es el mayor de todas las variables

10.413 — 0.79. A título ilustrativo hay un 10% (percentil 10) de la población con experiencia inferior a 12 años y otro 10%13.18

(percentil 90) con experiencia superiora 28 años.

Por último, nos entretendremos al go más con la variable Salario por hora. El salario hora de la plantilla de nuestra agen-

cia se sitúa entorno a 8.5 € la hora. La dispersión es relativamente elevada, con lo que este dato no es muy ilustrativo, ya que

el coeficiente de variación es de 0.56. Así, un 10% de la plantilla trabaja por salarios hora inferiores a 4.3 € mientras que otro

10% de la plantilla lo hace por salarios superiores a 13.57 €. En particular. tenemos personal que cobra un salario por hora

superiora los 26.5 € la hora. De hecho. la dispersión más elevada, la encontramos entre el cuartil 3 (9.75) y el extremo supe-

rior de los datos. Si diferenciamos entre sexos, observamos que los hombres cobran. en promedio, cantidades superiores a las

mujeres. aunque el colectivo de mujeres presenta salarios más estables a tenor de su menor desviación típica y coeficiente de

En él cucamos las opciones ..Organizar los

resultados por grupos)) y «Ordenar el archivo segúnlas variables de agrupación». Nuestra variable deagrupación es Sexo, la seleccionamos y si acepta-

mos observaremos como nuestro archivo se ha orde-nado según ésta variable. Así. tenemos primero las

observaciones con valor O (mujeres) s después las

observaciones con valor I (hombres). Además, cual-

quier instrucción que realicemos a partir de este

momento. siempre que no desactivemos la opciónanterior, será presentada para los grupos de-muje-

res y hombres de forma separada (para desactivar

esta función: «Datos, Segmentar archivo y Analizar

todos los casos. no crear grupos» (Figura 2.40).

Así, para obtener la estadística descriptiva decada grupo, sólo tenemos que pulsar «Analizar. Esta-

dísticos descriptivos. Descriptivos. s obtenemos la

salida de SPSS de la Figura 2.41. Una vez en este

punto va podemos realizar el informe.

Nuestra plantilla consta de 25 mujeres y 36

hombres, lo que representa un 59% de hombres

(media de la variable Sexo) y un 41% de mujeres.

Por otra parte, podemos considerar que nuestra

plantilla es relativamente joven, ya que su media

de edad es de 38,43 años. No obstante. tenemosedades comprendidas entre los 17 y 65 años. Aun-

que ello. y el hecho de tener la desviación típica

mayor variable Edad. nos podría hacer pensar que

tenemos una gran dispersión de edades, se trata

el coeficiente de variación de la variable Edad

Page 56: TURISMO Í A

48 Esladíshca aplicada al MISMO

EJEMPLO RE RESOLUCIÓN R PRR11 1 RE SPSS • EJEMPLO RE RESOLUCIÓN R PRRIIR RE SPSS

variación. La distribución es asimétrica, en concreto muestra simetría por la derecha, algo que podemos observar tanto en suhistograma como en el valor positivo que muestra el coficiente de Fischer. La interpretación de dicho coeficiente es que la mayo-ría de salarios se concentran a la izquierda de la media. De hecho, todas las distribuciones a excepción de la del Sexo nos mues-

tran este tipo de asimetría. Por último, se trata de una distribución leptocúrtica, al contrario que las distribuciones del resto de

variables que son platicúricas.

2.11. Ejercicios propuestos

A

B

C

D

E

F

12

26

20

13

30

17

504)

750

700

450

900

590

2116

Ejercicios pujos

2111 Construya una lista de números tal que el valor mínimo

sea 2, el máximo 20, el primer cuartil sea 5, el tercero19 y la mediana 10.

2111 Un estudio sobre el nivel ocupacional en los hoteles reve-la que 90 millones de pernoctaciones correspondieron aviajeros extranjeros y 50 millones a viajeros nacionales.Por países, fueron los turistas de Alemania quienes reali-zaron mayor número de pernoctaciones con 35 millones,seguidos de los franceses con 20 millones y los proce-dentes del Reino Unido con 17 millones. Otras nacionesse reparten el resto.

Indique ante qué tipo de variable nos encontramos.Dibuje un gráfico adecuado para estos datos.

2113 Durante el mes de abril del año 2003 se realizó un estu-dio sobre el coste del menú en seis restaurantes de la Cos-ta Azul. Paralelamente, se analizó la demanda de los mis-mos. Los datos resultantes son:

Determine:a) La media aritmética de los precios y la demanda.

h) El coeficiente de variación de ambas variables.e) Comente los resultados.

2.11.4. El grado de ocupación de las zonas turísticas con másnúmero de turistas durante el año 2003 se prevé:

Costa de Alicante 60

Costa Brava 50

Costa del Sol 50

Palma-Calviá 57

Sur de Gran Canaria 70

Calcule:a) La Inedia de la ocupación prevista de estas zonas.h) El coeficiente de variación.

e) Comente los resultados.

2.116 Una agencia de viajes de Granada ha vendido duranteun año 50.000 billetes de avión y 90.000 de tren. Se sabeque la media aritmética de ventas de billetes de aviónde las agencias en dicha población es de 45.000 con unavarianza de 2.000 y que las ventas de billetes de trenmuestran una media de 75.000 con una desviación de1.500. Calcule en qué tipo de billetes se encuentra másaventajada dicha agencia respecto a su competencia.

Tras realizar un estudio del número de personas que acu-den los lunes al campo de golf de un hotel cercano alMontseny, se obtuvieron los siguientes resultados:inedia = 100, mediana = 95,5 y moda = 107,5.

a) Determine si es grande o pequeño el grado de asi-metría de dicha distribución.

b) ¿Cuál es el signo de la asimetría de la misma? ¿Cómosería aproximadamente su representación gráfica?

Page 57: TURISMO Í A

Cap itu lo 2 Pnálisis exploratorio de taria0les unidimensionales

49

E]EItItIOS PIOPUESTOS • E)EItItI1S PIIPUESTIS • E)EItItI1S PIIPIESIIS

F1 6 12 13 3 5 6 13 10 10 6 9 6 7

F2 2 3 I 7 0 5 2 6 8 6 10 4 5 6 2 1 6 9 3 4 5 10 3 1

F3 1 20 24 6 68 5 3 2 4 5 4 3 6 3 7 3 5 8 7 1 11 1

211.1 La media de edad de nuev e personas es de 40 años. Entrauna de 36. ¿Cuál es la nueva edad media? ¿Puede deter-minar la mediana de esas diez personas?

2.118 Dos personas diplomadas en Turismo con diferente gra-do de experiencia han recibido dos ofertas de trabajo.A la primera le han ofrecido un sueldo de 13.000 € ya la segunda le han ofrecido 20.500 €. Sabemos que ladistribución de sueldos correspondiente a la categoríade la primera persona tiene una media de 14.500 € yuna desviación típica de 1.000 €. Por otro lado, la dis-tribución correspondiente al trabajo que han ofrecido ala segunda diplomada tiene una media de 21.000 €. con

desviación típica de 1.500 €. ¿Cuál de las dos perso-nas ha recibido una mejor oferta en relación a su cate-

goría?

211.1 Para un conjunto de datos la media es 80,5, la media-na 84. la desviación típica 10.5. el cuartil primero 75,5

y el cuartil tercero 96.

a) ¿Qué porcentaje de las observaciones están porencima de 96? ¿Qué porcentaje es menor o igual

a 84?

b) ¿Qué porcentaje de datos caería dentro del interva-lo (59.5. 101.51 si aplicamos la regla de Chebychev?¿Qué porcentaje caería dentro de ese intervalo si ladistribución fuese normal? ¿Y dentro del intervalo

(49. 112)?

Ejercicios tipo

21110 Las series de datos de la Tabla 2.27 reflejan el númerode veces al año que tres familias diferentes han ido deviaje durante los últimos 24 años:

a) Tabule los datos.

b) Dibuje los diagramas de tallo y hojas para cadafamilia. Escoja diferentes agrupaciones.

c) Compare las familias. Calcule alguna medida decentralización y dispersión para ello.

Tabla 2.27.

21111 Los siguientes datos reflejan el gasto en € realizado por26 turistas en Salou durante su estancia en 2003. Losdatos no cuentan lo que forma parte del ,,pack». es decir.viaje. alojamiento y media pensión. Son: 500. 100. 750.550, 600, 900, 1.200, 750, 540. 890. 950, 900. 1.050.1.020. 670, 800, 1.300. 850, 1.050, 1.100, 1.400. 640.580, 700, 980. 570.

a) Calcule el porcentaje de valores de gasto superioresa 700 y el porcentaje de valores de gasto que se si-túen entre 650 y 990.

b) Encuentre la distribución de frecuencias relativas conclases: 500-600. 600-900.900- 1.100, 1.100-1.400 yrepreséntela en un histograma.

c) Encuentre la distribución de frecuencias relativas conclases iguales que le parezca adecuada. represente elhistograma y en base al histograma. calcule:

e.l) El porcentaje de valores de gasto superiores

a 850.c.2) El porcentaje de valores de gasto entre 550

y 900.c.3) Desde la oficina de turismo de Salou se pre-

tende incentivar al 25% de turistas que más

gastaron en sus vacaciones, ofreciéndoles undescuento de un 1O% en cualquier apack» queescojan en la temporada de 2004 (siempre que

el destino sea Salou. naturalmente). ¿Cuál ha

debido ser el gasto mínimo en 2003 realizado

por las familias premiadas?

21112 Los siguientes datos reflejan la distancia en km que diver-

sos alojamientos de la provincia de Barcelona tienen res-

pecto al centro de la capital: 38, 38. 65. 23, 23, 18, 18.

28.40.28, 65.65.72.50.40, 38 y 18. Todos estos aloja-

mientos son los que presentan un precio más ajustado den-

tro de los que posee una agencia y son utilizados en lastemporadas de otoño, invierno y primavera. Se pide:

a) Dibuje el gráfico que resulta más adecuado para este

tipo de datos.b) ¿Cuál es la distancia media de los alojamientos? ¿Y

la distancia mediana?

Page 58: TURISMO Í A

30

5

10

10

10

10

5

5

10

I0

50 Eslalishca aplicada al lulisma

ElE1tItIIS IIIIIESTIS • EJEItItI15 IIIIIESTIS • EJEItItIIS IIIIIESIIS

c) Calcule los percentiles 10 y 90. Escriba una fraseinterpretando el valor obtenido.

d) Calcule los tres cuartiles y dibuje el diagrama de cajacorrespondiente a la distribución de los datos.

Coméntelo.e) ¿Considera que la anterior media es representativa del

conjunto de datos?f) ¿Puede considerarse la distribución de datos simé-

trica? ¿Qué tipo de apuntamiento presenta?

g) Resuma en unas pocas líneas la información obteni-da a partir de los cálculos.

2.1111 La Tabla 2.28 muestra la distribución de la distancia enkm que tuvieron que recorrer los espectadores que acu-dieron a la fase final de la Euroliga de Baloncesto cele-brada en Barcelona en 2003.

[0. 250)

1250, 500)

[500, 750)

(750, 1.000)

( 1.000, 1.250)

( 1.250, 1.500)

[ 1.500. 1.750)

(1.750. 2.000)

12.000, 2.250)

(2.250, 2.5001

a) Dibuje el histograma de frecuencias y comente suforma.

b) Calcule los percentiles 10 y 90. Escriba una fraseinterpretando los valores obtenidos.

e) Tomando como marca de clase el punto medio decada intervalo, calcule la media y la mediana de losdatos.

d) ¿Qué medida de centralización encuentra más ade-cuada. dada la tipología de datos?

e) Calcule una medida de dispersión que considereadecuada.

f) Comente qué tipo de asimetría y apuntamiento pre-sentan, a su juicio, los datos.

211.14. Con el objetivo de conocer hasta qué punto aumenta elruido en su ciudad en temporada alta, el ayuntamiento

de Marbella ha recogido un conjunto de medidas delnivel de ruido del transporte. en decibelios, en un impor-tante cruce de su ciudad: 55.9. 56.4, 60.4, 63.3. 67.2.54.3, 64.0. 55.8, 60.1. 67.8. 76.3. 59.8, 66.2. 69.3. 55.2.72.7, 58.2. 61.3. 62.6, 70.0, 65.7.

a) Agrupe los datos en clases o intervalos.

b) Confeccione una tabla con las clases, las marcas de

clase y las frecuencias.e) Realice un histograma.

d) Añada al diagrama anterior el polígono de frecuen-

cias.e) ¿Cuál sería el valor que dejaría por debajo al 50'k

de la población, al 759 y al 90'k? ¿Cómo se llaman

estos valores?f) Determine el valor del percentil 10. Explique su sig-

nificado.

g) Utilice la regla de Chebychev para determinar quéporcentaje de medidas se tendrían que encontrar entrex 2s_ 3s. Compare los valores obtenidos con elnúmero de datos que se encuentran realmente endichos intervalos. Comente los resultados.

h) Utilice alguna medida de dispersión adicional paramejorar su análisis de la misma.

21111 La Tabla 2.29 muestra la distribución de la renta, en S.de los espectadores que siguieron la gira en todo el mun-do .Ziggy Stardust.. de David Bowie. en 1972. Dichagira, una de las más exitosas de todos los tiempos, sir-ve a las principales agencias mundiales como referen-cia para conocer el tipo de público que asiste a estosgrandes acontecimientos como el tour ' The rising>. deBruce Springsteen. del año 2003 y poner el precio a lospaquetes turísticos promocionales.

Porcenrajell

(1.000, 2.000) 2

[2.000, 3.000)

3

(3.000, 4.000)

4

[4.000. 5.000) 5

[5.000, 6.000) 5

[6.000, 7.000)

5

[7.000, 10.000) 15

[ 10.000, 15.000) 26

[ 15.000, 25.000)

26

[25.000. 50.000) 8

[50.000, 125.000)

2

Page 59: TURISMO Í A

Capítulo 2 Análisis exploratorio de varia0les umdlmenslonales

EJEIfI[IIS PIIPIESTIS • (HICIMOS PIIPIESTIS • (HICIMOS PIOPIESTIS

a) Dibuje el histograma de frecuencias y comente su for-ma. Constate dicha impresión con los cálculos delcoeficiente de asimetría y curtosis.

b) Calcule el percentil 10 y 90. Escriba una frase quecomente el sentido de dichos valores.

ci Calcule la media y la desviación estándar. Dibuje el dia-grama de caja. Comente la dispersión de la variable.

dl ;,Qué medida de centralización considera más ade-cuada? Justifique su respuesta.

el Dibuje la curva de Lorenz y calcule alguna medidade concentración. Comente los resultados.

Tabla 2.30.

1.200 1350 1.2r10 1.450 800 800 1100 1.500 1350 1.200

a) Calcule la media y la desviación típica.lo Si se decide un aumento lineal para todos los trabaja-

dores. ¿en cuánto aumenta la media? ¿Y la varianza?

c) Si se decide un aumento del sueldo de un 15%. ¿en

cuánto aumenta la media? ¿Y la varianza?

d) Si se aumenta el sueldo del trabajador que más cobraen 500 €. ¿cómo aumenta la media? ¿Y si se hace

esto mismo con el trabajador que menos cobra?

e) Calcule el coeficiente de variación y comente si lamedia es una medida representativa.

f) Calcule alguna medida de concentración y comentalos resultados.

Ejercicios con SPSS

21111. A partir de la base de datos enalgunlugar.sav. Se pide:

a) Realice la tabla de frecuencias de las nuevas varia-bles Edad y Hotel así como de la variable Destina-

ciones. ¿Qué pasaría si hubiera hecho la tabla de fre-cuencias de la variable Edad tal y como la tenía alprincipio? ¿O si lo hubiera hecho de la variable Pre-

cio nor-lie? ¿Qué debería hacer para solucionar dichoproblema?

b) Realice las estadísticas descriptivas de las variablesmás interesantes.

e) ¿Qué variable presenta mayor dispersión?d) Se halla la edad media en el intervalo de mayor fre-

cuencia?e) ¿Cuál es el país más representado en la muestra?

fi Califique el número de estrellas de los hoteles de su

muestra.g) Utilice el diagrama ,,bozplot» para comentar la dis-

persión de alguna variable.

21116 La Tabla 2.30 muestra los sueldos en € de los empleadosde una agencia turística:

Page 60: TURISMO Í A

X

CflPÍ1UL0 3

Análisis exploratorio de

^► variables bidimensionales

3.1. Diagramas y tabulaciones bivariantes

3.2. Dependencia funcional y estadística.

Cosarianza y correlación

3.3. La regresión lineal simple

3.4. Cálculo de coeficientes

e interpretación

3.5. Medidas de calidad del ajuste

3.6. Introducción a la inferencia

estadística

3.7. Hipótesis del modelo lineal.

Consecuencias

3.8. Introducción a la regresión

lineal simple

3.9. Estadística de atributos.

Independencia y asociación

3.10. Ejemplos de estudio

3.11. Ejemplos de resolución a partir

de SPSS

3.12. Ejercicios propuestos

Page 61: TURISMO Í A

E n el presente capítulo estudiaremos dos característicasde un mismo elemento de la población (el número dequejas y la valoración que recibe un hotel, el precio y el

número de estrellas de un mismo hotel, el gasto en publicidad y la demanda de

servicios turísticos, la longitud y la latitud). Estas características, sin estar ligadas

entre sí por una relación matemática, sí presentan una cierta dependencia

estadística.

De forma general, si una variable X y una variable Y se estudian sobre una

misma población y se miden por las mismas unidades estadísticas, se obtienen

series estadísticas de las variables X e Y.

Considerando simultáneamente las dos series, se suele decir que estamos ante

una variable estadística bidimensional.

• • 3.1. Oidgrdmds u IdbuldclafleS biVdrÍdllCeS

La información bidimensional se suele presentar en tablas de contingencia y el gráfico máscomún es el diagrama de dispersión o nube de puntos.

Tablas de doble entrada o de contingencia-

Sea una población estudiada simultáneamente según dos caracteres X e Y, que representa-remos genéricamente como (x,; y, ; n,,). donde x, e y, son dos valores cualesquiera y n „ esla frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y.

Una forma de disponer estos resultados es la conocida como tabla de doble entrada otabla de contingencia, que podemos representar tal y como se muestra en la Tabla 3.1.

En este caso, n„ nos indica el número de veces que aparece .r, conjuntamente con y,;n 12 nos indica la frecuencia conjunta de .e, con y2, etc.

Dada la distribución hidimensional (x, ; y, ; n,,), se llaman distribuciones marginales acada una de las dos distribuciones unidimensionales que se pueden obtener, de forma queen cada una de ellas no se tenga en cuenta la otra, es decir, dada la distribución bidimen-sional de la Tabla 3.2, podemos obtener las distribuciones marginales de la Tabla 3.3.

)o — Y, — Y, •

n , n„ ... n,, ... n„ n, .

I

rl

Page 62: TURISMO Í A

90

80

60

50 I I I 1150 160 170 180 190

Precio

Ceplulo 3 Análisis exploratorio de variables bidimensionales 55

Por tanto:

N

= ,=n = ni =r —

Diagrama de dispersión o nube de puntos

Representamos las variables en ejes de coordenadas, una de las dos variables en eleje X, y la otra en el eje Y. Para indicar el número de coincidencias, o bien pone-mos símbolos diferentes, o bien indicamos entre paréntesis el número n ,, . o hace-mos los puntos del tamaño de su frecuencia absoluta.

Según la forma de esta figura podemos encontrar relaciones lineales positivas,negativas, relaciones no lineales y ausencia de relación. A título ilustrativo la Figu-ra 3.1 muestra una relación lineal positiva entre las variables Valor y Precio.

•• 32.E Dependencia funcional d estadística. Couarianza u correlación

El aspecto mas interesante de estudiar conjuntamente el comportamiento de un par de \ aria-bles de una población es el de captar las posibles relaciones que se pueden dar entre ambas.

Independencia estadística

Si ponemos una restricción o condición a una de las dos variables, tenemos las distribu-ciones condicionadas.

Se las suele representar como:

X/Y , indica que el valor de X viene condicionado por Y.YIX, indica que el valor de Y viene condicionado por X.

En general se puede interpretar, por ejemplo, la distribución condicionada de y para x = x,

como la distribución de la característica y para los elementos de la población que tienencomo característica x el valor x, . y se diferencia de la distribución marginal de y en que ésta

última tiene en cuenta la distribución de y en todos los elementos con independencia del

valor de x que tengan.Se dice que dos variables X e Y son independientes estadísticamente cuando la frecuencia

relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los

casos, es decir:

n, n n,=— —, para todo i, j

n n n

Si esto no se cumple para todos los valores, se dice que hay dependencia estadística.

La dependencia estadística se contrapone a la funcional en tanto en cuanto no expone unarelación matemática que se cumple con exactitud para todos los casos. Gráficamente, si larelación fuese funcional, veríamos que las observaciones del diagrama de dispersión trazan

una recta, una curva o cualquier otra forma funcional de manera exacta.

Medidas de dependencia lineal: covarianaa u coeficiente de correlación

Como ya hemos comentado, en el estudio conjunto de dos variables, lo que nos interesaprincipalmente es saber si existe algún tipo de relación entre ellas. Esto se ve gráficamen-

te en el diagrama de dispersión.

Page 63: TURISMO Í A

Nota

Cuando las variables x e y sonindependientes, S„ = O. y por tantor„ _ O. Es decir, si dos variablesson independientes su covarianzavale O y su diagrama de dispersióntendrá forma de circunferencia. Nopodemos asegurar lo mismo ensentido contrario. Si dos variablestienen covarianza O. no podemosdecir que son independientes.Sabemos que linealmente no tienenrelación, pero podrían tener otrotipo de relación y no serindependientes.

Só ^sh ca ap6cacr

Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta retad n I.

covarianza. Su expresión es:

- .Y) lv, - rt„

Si S„ > O hay dependencia directa y positiva, es decir, a grandes valores de .r corres-

ponden grandes valores de y.

Si S„ = O las variables están incorrelacionadas, es decir, no hay relación lineal.

Si S„ < O hay dependencia inversa o negativa, es decir, a grandes valores de x corres-

ponden grandes valores de y.Gráficamente, la covarianza indicaría que los datos se ajustan' a una recta con pendiente

positiva si .S „ > O, o se ajustan a una recta con pendiente negativa si S„ < O.

Propiedades de la couariafZd

I. Si a todos los valores de la variable .r, les sumamos una constante k y a todos los valores dela variable y les sumamos una constante k', la covarianza no varía.

2. Si a todos los valores de una variable x se les multiplica por una constante k y a todos losvalores de la variable y por una constante k', su covarianza queda multiplicada por elproducto de las constantes.

3. A partir de las anteriores: si tenemos dos variables a, y con la covarianza S,,, si se realizantransformaciones lineales de las variables de la forma z = ar + b, y r = cy + d, la nuevacovarianza se relaciona con la anterior de la forma: S„ = acS„

4. Otra forma de calcular la covarianza seria:

.r, v nv XY

n

Será la que utilizaremos en la práctica al ser su cálculo más rápido. ^

El inconveniente de la covarianza, como medida de asociación es su dependencia de lasunidades. Ello hace que no sea una medida acotada y que, por tanto, no nos indique la fuer-za de la correlación en caso de existir ésta. Así pues, habrá que definir una nueva medidaque no esté afectada por los cambios en las unidades de medida. Esta medida será el coe-frcien o' de correlación lineal r con la siguiente expresión:

S„r =

S, S,

siendo S, y S, las desviaciones típicas de x e r. Este coeficiente es adimensional y siempreestará entre – l y I.

— Si hay relación lineal es positiva, r „ > O y próximo a I.— Si hay relación lineal es negativa, r„ < O y próximo a – I.— Si no hay relación lineal, r„ será próximo a O.

CORRELACIÓN Y CAUSALIDAD

Un coeficiente de correlación elevado entre dos variables indica que dichas variables tomanvalores relacionados entre sí en los elementos observados, pero no permite concluirla exis-

' Entendemos por ajustar que una recta describiría razonablemente bien la relación entre los datos,pero no describiría a la relación de forma exacta, eso seria dependencia funcional.

Page 64: TURISMO Í A

Ejemplo 3.1.

A partir de los siguientes datos que hacen referencia al precio del billete de ida y s uel-ta y la valoración del vuelo que han realizado un conjunto de pasajeros que tomaron elvuelo Barcelona-Madrid un mismo día, vamos a calcular la covarianza y el coeficientede correlación:

Precio 175 180 162 157 180 173 171 168 165 165

Valor SO 82 57 63 78 65 66 67 62 58

Lo s cálculos que necesitamos son:

x = 169,6 s, = 7,2139

= 67.8 s = 8.7567

175• 80 +180 82± 16257+... 169,6 67.8 = 52.3210

Ahora se puede calcular el coeficiente de correlación lineal r,,:

52.32 7.2139 . 8.7567 — 0.8282

que nos indica que las variables están relacionadas de forma positiva.l

57Capado 3 Análisis exploratorio de variables bidimensionales

tencia de ninguna relación de causalidad de una variable respecto a otra. Un ejemplo ilus-trativo es el siguiente: supongamos que tenemos los datos de temperatura y el número dematrimonios. Es muy probable que si calculamos el coeficiente de correlación entre estasdos variables obtengamos un valor muy elevado. Es es 'denle que las altas temperaturas nocausan matrimonios y el elevado valor del coeficiente de correlación es muy probable quesea debido a que los matrimonios tienden a producirse en verano debido a la disponibili-dad de tiempo libre. Este tipo de correlaciones se denominan espurias y su origen se tieneque buscaren otra variable (como por ejemplo las vacaciones de verano) que presenta unarelación de dependencia con las variables observadas.

• • 3.3. La regresión lineal simple

Como se ha dejado patente anteriormente, cuando se estudian dos características de unamuestra simultáneamente, se puede considerar que una de ellas influye sobre la otra dealguna manera. El objetivo principal de la regresión es descubrir el modo en que se rela-cionan.

Por ejemplo, con los datos del ejemplo anterior (Tabla 3.4), se puede suponer que lavariable Precio influye sobre la variable Valor en el sentido de que precios elevados vienenexplicados por valoraciones elevadas (en general).

De las dos variables a estudiar, que vamos a denotar con X e Y. vamos a llamar a la Xvariable independiente, exógena o explicativa, y a la otra, Y. la llamaremos variable depen-

diente. endógena o explicada.

Page 65: TURISMO Í A

Y •

0o ^O

O 00O 0

X

0O O

0 0 0 O

O O O

Y •

00

Ftqlua 3.2.

58 Estanca Wittlailixismo

En la mayoría de los casos la relación entre las variables es mutua, y es difícil sabequé variable influye sobre la otra. En el ejemplo anterior, a un viaje poco valorado le supondremos menor precio y a uno de mayor precio le supondremos un valor más bajo. Es decirse puede admitir que cada variable influye sobre la otra de forma natural y por igual. Uejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde s:

sabe cuál es la variable Causa y cuál la variable Efecto. Por ejemplo, el gasto en publici

dad que hace cada comunidad autónoma en promoción turística y la demanda turística qufinalmente tiene. En este caso, un pequeño gasto en publicidad tenderá a obtener una demanda más baja, y una demanda alta nos indicará que tal vez la comunidad se ha gastado mucho

Sin embargo, a la hora de determinar qué variable explica a la otra, está claro que e»gasto en publicidad» explica la «demanda turística» y no al contrario, pues la comunidarealiza primero un gasto en publicidad y luego obtiene una demanda turística que ya no decide arbitrariamente. Por tanto:

X = Gasto en publicidad (variable explicativa o independiente)Y = Demanda turística (variable explicada o dependiente)

El problema de encontrar una relación funcional entre dos variables es muy complejo,ya que existen infinidad de funciones de formas distintas. El caso más sencillo de relaciónentre dos variables es la relación LINEAL, es decir:

Y = a + bX

donde la relación anterior es la ecuación de una recta y donde a y b son números. Este esel caso al que nos vamos a limitar.

Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre varia-bles no es exacta (basta con que un dato de X tenga dos datos distintos de Y asociados, comoen el ejemplo de los precios y valoraciones de la Tabla 3.4 (donde al precio de 180 E lecorrespondía una valoración de 82 y otra de 78).

Recta de regresión

Un dibujo de la nube de puntos o diagrama de dispersión de la distribución nos puede indi-car si es razonable pensar que puede haber una buena correlación lineal entre las dos varia-bles (Figura 3.2).

En los diagramas de arriba se puede observar cómo en el de la izquierda, una línea rec-ta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro, cualquierrecta deja a muchos puntos alejados de ella. Así pues, hacer un análisis de regresión linealsólo estaría justificado en el ejemplo de la izquierda.

• • • 3.4. Cálculo de coeficientes e interpretación

Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los pun-tos y seguir siendo recta. De todas las rectas posibles, la recta de regresión de Y sobre X esaquella que minimiza un cierto error, considerando a X como variable explicativa o inde-pendiente y a Y como la explicada o dependiente.

Sea y = a + bx una recta arbitraria, para cada dato de X, es decir, para cada x, de latabla tenemos emparejado un dato de Y llamado y„ pero también tenemos el valor de sus-tituir la x, en la ecuación de la recta, al que llamaremos y;.

Page 66: TURISMO Í A

Capítulo 3 )nDIisis exploratorio de va ri ables bidlmensionales

xa+ bx, =y;

Cuando se toma el dato x,, el error que vamos a considerar es el que se comete al ele-gir y; en lugar del verdadero v,. Se denota con e, y vale:

e, = y, —

Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta queminimice la suma de los cuadrados de todos esos errores, que es la misma que la que mini-miza la varianza de los errores=.

Usando técnicas de optimización se llega a que, de todas las rectas y = a + bx, con ay b números arbitrarios, aquella que minimiza el error elegido al cuadrado es aquella quecumple:

sna=v—s;• x

Así pues, sustituyendo en y = a + bx. la ecuación de la recta de regresión de Y sobreX es:

y = (v— 5; xl l

y recolocando los términos se puede escribir de la forma:

y—Y=—•(x— x)

Si se hubiese tomado Y como variable independiente o explicativa, y X como depen-diente o explicada, la recta de regresión que se necesita es la que minimiza errores de la X.Se llama recta de regresión de X sobre Y y se calcula fácilmente permutando los puestos dex e tt obteniéndose':

snx —s = —• (y —v)

s;s sn

La pendiente de la recta de regresión de Y sobre X es - y la de X sobre Yes —.s s=

Dado que las varianzas son positivas por definición, el signo de las pendientes será el

mismo que el de la covarianza, y así las rectas serán ambas crecientes o decrecientes, depen-diendo de si la covarianza es positiva o negativa, respectivamente (ver Apartado anterior).

Interpretación de los coeficientes

La ordenada a se puede interpretar como un valor mínimo o inicial de la variable y. del quese parte sea cual sea el valor de x.

Se toman los errores al cuadrado para evitar obtener como óptimas rectas o estimaciones de a yb en donde la suma de los errores es O pero debido a las compensaciones de estos errores. Existen otrasmetodologías de obtención de a y b que también evitan dicha problemática como estimación por míni-mos errores absolutos, pero la presentada en este libro es la de mayor generalización. debido a la sen-cillez de su derivación.

La recta de regresión de X sobre Y no se calcula a partir de la recta de regresión de Y sobre X. yluego despejando la x.

w

b=s;

Page 67: TURISMO Í A

60 Estalfislica aplicada al turismo

En cambio, la pendiente. b, se puede interpretar como el aumento o disminución, segó

el signo, que sufrirá la variable y al aumentar la variable x en una unidad.

Propiedades de la regresión

A) b X b' = rt : es decir, el producto de las pendientes de las rectas de regresión de Y sobre X yX sobre Y es igual al coeficiente de correlación al cuadrado.

BI La recta de regresión siempre pasa por el punto (y

• • 3.5. Medidas de calidad del ajuste

Una nube de puntos que se agrupa en tomo a una recta imaginaria justifica el estudio de la'regresión lineal entre las variables. Normalmente, la variable explicativa no explica (valgala redundancia) al 100% los resultados que se observan en la variable explicada. El únicocaso en el que una variable explica al 100% a la otra variable es aquel donde los puntos dela nube formen una recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese

no es el caso general y estaríamos hablando de dependencia funcional y no estadística. Vamosa cuantificar la calidad de la explicación de Y por X mediante el coeficiente de determina-

ción o bondad del ajuste.

Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varian-

za de X (independiente), pero sí por la de Y. al estar influenciada por la otra variable. Lavarianza de Y está generada, de una parte, por los datos de X (es decir, por su varianza), yde otra parte por causas desconocidas.

El coeficiente de determinación va a ser el % de varianza de Y que se puede explicarpor X. y se le suele llamar bondad del ajuste, porque valora lo cerca que está la nube depuntos de la recta de regresión (o dicho de otro modo, lo ajustada que está la nube de pun-tos a la recta de regresión).

Como v, _ }' + e, desarrollando la expresión de la varianza de Y se puede concluir que:

s?= 2 +s

,a, por .ar

y por tanto, el % de varianza de Y explicada por X es:

s-'— X 100

s;.

que resulta ser 2 •

"s2 x 100, es decir, el coeficiente de correlación lineal, r, definido en els

capítulo anterior, elevado al cuadrado y multiplicado por 100.Es fácil notar que este coeficiente está acotado entre O y I. Por ello, al coeficiente de

determinación se le llama 12 2, es decir:

sñR' = x 100

s; •s2

Por ejemplo, si R2 = 86% para unas variables X e Y, podemos decir que la calidad delajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente o decreciente.Otro ejemplo, si conocemos el coeficiente de correlación lineal, r = —0,77, entre dos varia-bles X e Y, ya sabemos que la recta de regresión es decreciente (por el signo negativo de r),y calculando R2 = r22. 100 = 59,29% tenemos una calidad de ajuste media (no es muy pobre,pero tampoco se puede calificar de buena).

Page 68: TURISMO Í A

Capitulo 3. Análisis exploratorio de variables hidimeosiaoales 61

Análogamente, se puede definir el coeficiente de determinación de la siguienteforma:

SCNE R- =

SCE – I SCT SCT

Donde:

a) SCE: suma de cuadrados explicada. Es la parte de la variación de y que podemosexplicar con x • SCE =

b) SCT: suma de cuadrados total. Es toda la variación de y • SCT = 7(5' – i).e) SCNE: suma de cuadrados no explicada o suma residual. Es la parte de la varia-

ción de y que no podemos explicar con x, con nuestra recta. Esta es la suma de erro-res al cuadrado. SCNE = ( y – i. )' _ ^e=.

De cara ala interpretación, un modelo perfecto es un modelo sin errores (e = O). con lo queel coeficiente de determinación sería igual a la unidad, y un modelo desastroso sería unodonde los errores lo explican todo, es decir. SCT = SCNE. En este modelo la variable expli-cativa no tiene ningún poder explicativo sobre la explicada, y la recta de regresión tenderáa ser horizontal.

El primer objetivo de la regresión era poner de manifiesto una relación existente entredos variables estadísticas. Una vez se constata, por ejemplo, que hay una relación linealentre dos variables y se calcula la recta de regresión apropiada, ésta se puede usar para obte-ner valores de la variable explicada, a partir de valores de la variable explicativa. o sea, parapredecir.

Por ejemplo, si se comprueba una buena correlación lineal entre las variables X = Gas-

to en publicidad e Y = Demanda turística, con una recta de regresión (de Y sobre X) igual a:

v=0,9+ 0,6.r

se puede plantear la siguiente pregunta: ¡ ,qué demanda puede obtener (según los datos) una

comunidad autónoma que se gasta 10 millones de € en publicidad?La respuesta es tan sencilla como calcular y, sustituyendo en la ecuación de la rec-

ta x = 10, resultando y = 6.9. El coeficiente de correlación (o el de determinación) line-al es el dato que, si es grande (próximo al o-1 si es la r. o próximo a 100`I- si es R').nos indica que la predicción obtenida es fiable, lo cual es lógico pues R' indicaba la cali-

dad del ajuste de la nube de puntos a la recta. Así pues, la fiabilidad de una predicciónobtenida mediante la recta de regresión se puede medir con el coeficiente de determi-

nación R1.

En el momento de hacer predicciones hay que tener ciertas precauciones. pues es posi-

ble que se obtengan resultados absurdos. Un ejemplo podría se • obtener una demanda de

servicios turísticos negativa (imposible en este ejemplo). La limitación de la predicción estri-

ba en que sólo se puede realizar para valores de X que estén situados entre los valores de X

de la tabla de datos inicial.Se puede concluir, por tanto, que las predicciones serán mejores cuanto mayor sea el

coeficiente de determinación y el número de datos del cual se dispone.

• 3.6. Introducción a la inferencia estadística e._am.,c_+t:4e.; .2109,édiFFEM.

Aunque ya ha quedado delimitado el objeto de nuestro libro hacia la Estadística descripti-va, se va a aprovechar el modelo de regresión para introducir el contraste de hipótesis como

una breve aproximación a la inferencia estadística.

Page 69: TURISMO Í A

(

n •X' )

^e=Ss = donde la varianza residual s'

n- 2

62 Estadistica aplicada al turismo

Como se ha comentado con anterioridad. uno de los objetivos del modelo de regresión

es la predicción. A la luz de lo visto en los apartados anteriores, dicha predicción se basa

en las estimaciones de a y h lá, b).

Imaginemos ahora que teníamos una idea previa de la influencia de la variable x en y.

Pongamos. a título ilustrativo. que creíamos que al aumentar en una unidad x, y también

aumentaría en una unidad; es decir. que h = I. Pongamos que con una muestra de datos

obtenemos una estimación de h con valor 1.1 (h = 1.11. ¿Hasta qué punto podemos con-

cluir que nuestra hipótesis era falsa? ¿Podemos afirmar, como mínimo, que x influye en y,

es decir. que h m (I:'Empecemos por la primera hipótesis. El objetivo es conocer si b es estadísticamente igual

a I. Si el coeficiente estimado hubiera sido 1. no hubiera habido duda. Ahora se trata de saber

si 1.1 está muy cerca o muy lejos. En general. para conocerlo utilizamos el siguiente con-traste y estadístico que no demostraremos, pero que mostraremos su intuición.

La hipótesis a comprobar hipótesis nula) será que h es igual a un determinado valor

h . En nomenclatura:

H:h=h

Se trata de ver si la diferencia entre la estimación de h (h) y el valor de nuestra hipóte-

sis h,, , debidamente relativizado por la desviación estándar del estimador, es suficientemente)estadísticamente) grande como para rechazar dicha hipótesis. A modo de convención, sesupone que ese cociente es suficientemente grande cuando excede 1.96'. Así:

Ib b I

sh

Si t > 1,96 se rechaza H„ . en caso contrario se acepta`.

Evidentemente. nos queda conocer cómo calcular s1,:

La interpretación de la desviación estándar del estimador es sencilla. Cuanto mayoresson los errores mayor es su dispersión. su varianza y. por tanto, la varianza del estimador.Una varianza del estimador elevada implica una reducida eficiencia del estimador, es decir,que aunque el estimador calculado y promediado para muchas muestras concretas acier-te, en una muestra individual puede alejarse de su verdadero valor: el de la relación entrexev.

• • 3.7. Hipótesis del modelo lineal. Consecuencias

El modelo de regresión lineal, tal y como lo hemos presentado, se sustenta en una relaciónestadística entre dos variables. x e V. La base de esa relación estadística es la presencia tan-

Esta convención es lo que el lector que conoce Estadística inferencia) entiende como para un nivelde significación del 959. Observe igualmente la similitud del cociente inherente al contraste con laexpresión mostrada en el Apartado 2.7 del capítulo anterior que hacía referencia a la tipificación deuna variable. Evidentemente, esto no es casual.

En ocasiones se presenta en las salidas de los programas informáticos de estadística como el SPSSjunto ala columna del estadístico t otra columna que se suele denominar p-value o prob. Dicha colum-na, recoge la probabilidad de aceptación de la hipótesis nula (normalmente la hipótesis es que dichocoeficiente estimado es igual a 0). Su interpretación, de acuerdo con lo comentado para el estadísticot. es que únicamente se rechazará la hipótesis nula si dicho estadístico es inferior a 0,05. Este valor secorresponderá, obviamente, con uno del estadístico t superior a 1,96.

c,rt1■111

Page 70: TURISMO Í A

CapBWo 3 Bnálisis exploralorio de Variables bidimensionales 63

to de una parte sistemática, como de una parte no sistemática que hemos llamado error, y quees la causante de que la relación no sea funcional. Ese error, que aunque en términos mues-trales hemos llamado e pero. poblacionalmente llamaremos u, procede de diversas fuentes:

a) Variables que desconocemos e influencian también a y.b) Variables que aunque conocemos son difíciles de cuantificar: los gustos indivi-

duales.c) Variables esporádicas: guerras...

d) Especificaciones incorrectas: la relación entre x e y no tiene por qué ser lineal.e) Errores de medida.f) Comportamientos personales imprevisibles.

En general, podemos decir que no se puede prever Y con exactitud porque para cada valorde X hay una distribución de Y. Ello hace que para que podamos estimar el modelo y pre-sentarlo tal y como hemos hecho. se hayan tenido que establecer algunos supuestos implí-citos sobre este término de error poblacional. Estos son:

— La media de estos errores es igual a O. El modelo carecería de lógica si conociéra-mos que existen errores en nuestras estimaciones y que éstos van sistemáticamen-te en una dirección, y no se compensan entre ellos.

— La varianza de estos errores es constante. A este supuesto se le conoce como homo-

cedasticidad. Es decir. la dispersión de estos errores que cometemos no depende dela variable x. En términos del ejemplo intuitivo de los gastos en publicidad y la deman-da de servicios turísticos en las comunidades autónomas que hemos ido citando alo largo del capítulo. se trata de que los errores que cometamos no sean mayorespara las comunidades autónomas que más gastos realicen en publicidad. porque elloindicaría que hay algún aspecto importante que no estamos teniendo en cuenta.

— La correlación entre los errores de dos observaciones distintas es nula. A este supues-

to se le conoce como no autocorrelación. Es decir, volviendo al ejemplo. el hecho

de que en Cataluña se corneta un error positivo no implica que este error ten ga que

ser igualmente positivo para las islas Baleares (este supuesto sería de difícil cum-

plimiento en datos temporales).

• 3.8. Introducción d id 1egresión lineal múltiple

Cuando una variable estadística debe ser explicada por la acción simultánea no de una, sino

de dos o más variables, nos encontramos ante un problema de regresión múltiple.La regresión múltiple se fundamenta sobre la misma base que la regresión simple. Es

decir. los supuestos sobre el término de perturbación poblacional son los mismos y el méto-do de obtención de las estimaciones también es el de minimizar el cuadrado de los errores.

A título ilustrativo, la estimación de b para cuyo cálculo es preciso un pequeño repaso

al álgebra matricial. responde a:

b= (x' x)-'•x' v

donde (x' x)-' es la inversa del producto de la matriz n ' k correspondiente a las k variables

explicativas y las n observaciones, transpuesta por ella misma sin transponer y . donde x' y

corresponde al producto de la matriz n • k correspondiente a las k variables explicativas y

las n observaciones, transpuesta por el vector n • I. correspondiente a las observaciones de

la variable a explicar.

Page 71: TURISMO Í A

64 Estadishca aplicada al tulismo

^iguiend m el ejempli, n irn:.aivo que nos acompaña durante el capítulo, supongamos, como es lógico pensar, que la demanda de servicios turísticos que obtiene un CCAno sólo depende del gasto publicitario que hace, sino también de otras variables como la

renta per capita de sus habitantes, la situación económica del país o zona que atrae al tu-rista y otros factores como el clima para las CCAA basadas en turismo de sol y playa, denieve o de factores culturales como si ese año han declarado a una ciudad de esa CCAAcapital cultural europea. si se va a realizar un fórum importante o una exposición, etc.

Seguramente estos factores también influencian la demanda de servicios turísticos y nosólo resulta interesante conocer cuál es su influencia sobre ésta, sino también la influenciade los gastos publicitarios una vez descontado el efecto de estos factores. Esto es lo que

obtenemos con la regresión múltiple. En ella cada b, se interpreta como el aumento en la

variable a explicar al subir en una unidad la variable explicativa, una vez descontado el efec-

to de las otras variables explicativas'.

3.9. Estadística de atributos. Independencia q asociación

Antes de acabar el capítulo merece la pena detenerse en aquellos caracteres cualitativos o

no susceptibles de medida de una población. Recordemos que estos caracteres son deno-minados atributos o variables cualitativas y se representan con las primeras letras del abe-cedario. El número de veces que se repite el valor de un atributo se denomina frecuencia

absoluta y se simboliza mediante n , . La frecuencia relativa se simboliza como!. La sumatotal de frecuencias absolutas será el número total de elementos que componen la muestra.Por último, puesto que los atributos no admiten ordenación cuantitativa, no tiene sentidohablar de frecuencias acumuladas.

La estadística de dos atributos es el resultado de observar conjuntamente dos caracte-res cualitativos. Los datos se vuelven a disponer en una tabla de doble entrada, al igual queocurría con las variables cuantitativas como la presentada en el Apartado 3.1, en la que sepueden establecer las frecuencias marginales.

Independencia o asociación

Cuando estudiamos dos caracteres cualitativos, nos encontramos con la posibilidad de queexista una «asociación„ entre estos atributos o una «independencia» entre los mismos.

Para conocer la posible relación entre dos atributos, se debe emplearla siguiente expre-sión:

^=1 (VE—VO)' VE

donde VO son las frecuencias observadas o empíricas y VE los valores esperados o frecuenciasteóricas para cada celda; se obtienen multiplicando las frecuencias marginales absolutas ydividiendo entre el total de observaciones:

n,- n,VE-

N

El análisis pormenorizado de la regresión múltiple excede los objetivos del libro, pero se ha creídoconveniente su análisis intuitivo y. sobre todo, su cálculo sencillo a través del programa SPSS. tal ycomo se verá más adelante. Evidentemente. aunque la base teórica es muy similar, hay diversas pro-piedades del modelo de regresión simple que no se cumplen en el modelo de regresión múltiple. Sir-va a título ilustrativo la siguiente: en el modelo de regresión múltiple el coeficiente de determinaciónno se corresponde con el coeficiente de correlación al cuadrado.

Page 72: TURISMO Í A

Hombre Total

9 Is

20 6 26

18

3 li 13

4 I, 16

61 116

Mercedes 10

Fiat

Peugeot

Ford

BMW

Volvo

Total

Re-¡+,:.a, al

Caplolo 3 Análisis exploratorio de variables bidimensianales 65

Una vez realizada esta operación, es necesario comparar su resultado con el valor de ladistribución x de Pearson en tablas. Los grados de libertadad vienen dados por el produc-

to del número de filas menos uno, por el número de columnas menos uno. El nivel de sig-nificación suele ser del 5%. a menos que se indique lo contrario. Se rechazará la hipótesis

de independencia si el valor del estadístico supera al valor de tablas, en caso contrario no

se podrá rechazar dicha hipótesis y se supondrá independencia.Sin comparar con el valor en tablas, el estadístico ,y 2 no está acotado y es directamen-

te proporcional al número de casos. Un estadístico acotado adecuado para tablas 2 x 2 es

el coeficiente d.

N El coeficiente do está acotado entre 0 y I, tomando el valor 0 cuando no existe relación

y I cuando se establece entre las variables una relación perfecta.

Para tablas más extensas, siempre que tengan la misma dimensión (número de

filas = número de columnas) se puede utilizar el coeficiente de contingencia C. Su expre-

sión:

C yl X + N

Su valor mínimo es O mientras que el máximo depende del tamaño de la tabla (por ejem-plo, para una tabla 2 X 2 su valor máximo es de 0.707). La interpretación de sus valores es

idéntica al caso anterior. Por último, también para tablas extensas y teniendo en cuenta el

número de filas (r) y de columnas (e) es la V de Cramer.

mín { (r — 1). (e — 1 ) }

La V de Cramer vuelve a estar acotada entre O y 1 con la interpretación usual.

Ejemplo 32.

^

Una empresa de coches de alquiler de La Coruña pretende estudiarla aso-

ciación entre el sexo y la marca de coches que se alquilan con los datos

de la Tabla 3.5, correspondientes a julio de 2003.

Estadístico x2 :

Los grados de libertad: (6 — I I • (2 — I) = 5. En tablas, al 5% de sig-

nificación el valor es de 11.07. Al ser el valor del estadístico mayor que

el valor en tablas se acepta la hipótesis de asociación.

ístic, ^

^= 1^^ 61 6 =0;7 V

=^ O.I4 = 0.37

Al no tratarse de una tabla 2 X 2 Ialno es directamente interpretable y sólo nos sirve para calcular la V de Cramer, que es

la medida adecuada para la tabla de que disponemos. Como conclusión, a pesar de que aceptamos la presencia de una cierta

asociación entre el sexo y la marca de coche escogida para alquiler. dicha asociación no parece ser muy elevada. l

Page 73: TURISMO Í A

90

80

70

60

50 160 190150 170 180

Precio

Fgura 3.3.

Tabla 3.6.

175 180 173 171 168 165 165162180Precio 157

Valor 80 82 57 63 78 65 66 67 62 58

3.10. Ejemplos de estudio

Ejemplo de estudio 3.10.1

Vamos a realizar un estudio completo del ejemplo que se describe al

comienzo del capítulo a partir de la Tabla 3.6, que reproducimos a con-

tinuación.Aunque en este caso tenemos dos variables muy relacionadas. y

no está claramente definido cuál de ellas influye sobre la otra, decidi-

mos estudiar cómo el precio del viaje de los individuos influye sobre la valora-

ción del mismo. Entonces tomamos X = Precio como variable explicativa e

Y = Valor como variable explicada.Comenzamos con la nube de puntos, para que nos informe si vale la pena

iniciar el estudio de la regresión lineal o no hay motivos para ello (Figura 3.3).

Se observa que los puntos siguen una tendencia, aunque uno de ellos, el(157,63) se aleja de dicha tendencia. A este dato se le llama dato atípico. En mues-

tras numerosas un dato atípico no afecta demasiado al resultado, e incluso en oca-

siones se elimina de la tabla, aunque no lo haremos en este caso. Así pues, eldibujo revela cierta tendencia de los puntos a agruparse en torno a una recta ima-

ginaria. El coeficiente de determinación, que es el índice numérico que evalua-

rá esa tendencia, nos constatará que hay una buena relación lineal.Pasamos al cálculo de los estadísticos necesarios:

s = 169,6 s = 7,2139

= 67,8 s, = 8,7567

175= 17 80 + 180 • 82 +162 57 + ...169,6 67,8 = 52,32

0

Ahora se puede calcular el coeficiente de correlación lineal r y el de determinación lineal R2:

r = 52,32 — 0,8282 y R2 = (0,8282) 2 • 100 = 68,59

7,2139 - 8.7567

que nos indica que la variable independiente Precio explica el 68.59% de la varianza de las valoraciones. Este mismo coefi-ciente de determinación se toma como índice de fiabilidad ala hora de hacer predicciones de la variable Valor a partir de datosde la variable Precio.

Por ejemplo. según la tabla de datos, ¿qué valoración le debería corresponder a un viaje de precio 178 €? La respuesta vie-ne de la recta de regresión de Valor sobre Precio. La calculamos con los datos que ya tenemos:

52,32 y — 67,8 = (x — 169,6)

52.04

quedando:

y = —102,71 + 1,005x

Así, un viaje de 178 € (correspondiente a x = 178) tiene, en virtud de la recta de regresión, una valoración y = 76,177, quese obtiene sustituyendo el valor de x. Se toma como fiabilidad de la predicción el índice R'-, calculado con anterioridad. Es decir.se dice que la predicción tiene una fiabilidad del 68,59%.

66 Estadíshca aplicada al turismo

Page 74: TURISMO Í A

Precio 36 48 51 54 57 60

Valor 86 90 91 93 94 95

Capiulo I dn)lisis exploratorio de variables bidimensionales

67

b

EJEMPLOS 0E ES11010 • EJEMPLOS bE ES11010 • EJEMPLOS 1E ES11110

Ejemplo de estudio 3.14.2

Supongamos que tenemos la Tabla 3.7 que reproduce el precio por noche de una habi-

tación individual y la puntuación recibida por seis hoteles de Granada durante la cele-

bración de un congreso en 2003.

Se pide:

a) Los estadísticos individuales necesarios.

b) La covarianza y el coeficiente de correlación.

c) La recta de regresión de y sobre s.

d) Los errores cometidos con cada observación.

e) La varianza residual.

f) La desviación estándar del estimador.

g) El coeficiente de determinación.

h) La predicción de la puntuación para un hotel cuyo precio de una habitación individual por noche es de 42 €.i) Contraste la hipótesis de que el precio por noche no influencia a la puntuación que recibe el hotel. Es decir. contraste

que b = 0.

Solución

1 -t = 51, = 91,5, s, = 7,74. s, = 2,98

S 36 86 +fi .. 60 • 95

51 ^ 91,5 = 23 r,, = 7.7423

) =2.98

—99 0,

De lo que podemos concluir la existencia de un elevada correlación positiva. O sea, a mayor precio, mayor es la conside-ración del hotel.

I v -91,5=

-51): v=71,95+ 0,383X60

Es decir, partiendo de un mínimo de puntuación en tomo a 71,95 puntos, cada € adicional en el precio por noche de una

abituación individual del hotel, parece redundar en un aumento en la puntuación que éste recibe de 0,383.

) e, = 86 — 85,73 = 0,27 donde ^^ ^ = 71,95 + 0,383 • 36 = 85,73

e2 = —0,33 e, = —0.48 e, = 0,37 e, = 0,22 e6 = 0,07

) 5 = (0.272+... +0,072)= 0,1506

= 0.1506

S6 02040—(3 62 +...+ 60-) -6.512,

SCT= (86-91,5)2+...+(90-91,5)2=53,5

SCE = (85,73 — 91,5) 2 + ... + (94,93 — 91,5) 2 = 52,89

R2 = 52,89 _ 0,9953,5

ts uecsr, es ajuste parece ser muy oue no. ti precio ces notes es muy expucauvo ae w punwacsuu, on lo que e

mación del precio del hotel podemos ajustar de forma muy precisa el valor de la puntuación del mismo.

d

f

Page 75: TURISMO Í A

2

3

4

5

6

7

e9

10

2

3

d15

16

7

18

19

213

5 908 934455 305803256554 305 107.205 'fi

3.759 80580695

68 Estadística aplicada al turismo

EJEMPLOS lE 1511011 • EJEMPLOS OE ES11111 • EJEMPLOS IE E511111

hl 5‘.„-- 71.95 + 0.383 • 42 = 88,03

O sea, un hotel con precio por noche de 42 € recibiría una puntuación de 88,03.

i)

—0.383-0 =18,77

0.0204

Evidentemente se rechaza dicha hipótesis, ya que parece que el precio de la habitación redunda en la puntuación que reci-

be el hotel.J

3.11. Ejemplo de resolución a partir de SPSS

Ejemplo SPSS 3.11.1.

A partir de la base de datos Salarios.xls:

I. Realice la tabla de contingencia de las variables Sexo con y Nivel educativo. Comente los resultados.

2. Realice el gráfico de dispersión. el análisis de correlaciones y la regresión lineal entre las variables Salario por hora y

Años de experiencia. Comente. asimismo, los resultados.

Resolució n :

1. De cara a realizarla tabla de contingencia de las variables Sexo y Nivel educativo, entramos en el mentí «Analizara, el sub-

menú «Estadísticos descriptivos» y la opción «Tablas de contingencia» (Figura 3.4).

tar tar tar tar

5.002 003.005.00700

005.036.003.005.003.039002 003 005.007.00

00

5.00

6 003.00

r Il¡alFrecuentas

Tablee mundanas r Descreemos

Camparen pedas Erpbn...

taodeto traed generalModelos martes I azor.

Correlaciones

Redes&

tootied r

aastea.

Reducoon de datos

Escales

Pruebes no permetncasseres temporales

5upereirenoe

Pe-norestes mentes r

Antros de valores perddos...

28W iUJ 56UU

20.00 00 44.0040 001 1 00 62.005 00 1 00 27.033 00 .00 38.004 00 00 2100

15 00 00 53 031300 .00 51008 03 .00 213 .00

EtaSstxos desgarros

•=3:1=1.1ar

Page 76: TURISMO Í A

Tablas de rente-venda

s.) sabe

meren

edad 2

3

4

56

Ieeac

Calmas

sem

7 A

Cabildo 3 Ooálisis explorelono de variables bidimensiooales

69

EJEMPLO IE IEStIICIÍI I 111T11 IT SPSS • E]EMfLI IE IESILILIÍI I 111T11 IE S1SS

• _ . e .3os 'rawer ,i.aficcs aedales secta,

^ J vIo mIEI tI®1

var - I =

aCepel del

Frecuencsas --- Cagare

Observadas

r Esperadas10 Cartre

11 Ayuda

12-Paced*:

13 Residual

1 r Mosby la gokos de breas agolpadas

r Sopare tablas

ñ Fla

F Caserna

r No tyñcados

r Toreados15 r Toar r Tprcadscmagdost7 Exactas Estadisecos Cascas. Fomuto-_

1

19 580® --- 5100

Tapa oe mnngerUa EDUCACIoN' SEXO

SEXO

Trd ,____A-ON 0 Rearmo 2 3 5

% de EDl1CACOn __2% 600% 100.0%

%de SEXO 80% 83% 82%1 Recuerdo 1 1

%Oe EDUCACIÓN 100 0% 100.0%

%de SEXO 40% 16%2 Recuerdo 2 4 6

% de EDUCACION 33 3% 66.7% 100 0%

%de SEXO 80% 111% 98%3 Recuento 6 8 14

%de EDUCACION 429% 571% 1000%

%da SEXO 240% 222% 230%

- Recuento 2 2

% de EDX)CACION 100 0% 100 0%

%de SEXO 80% 33%5 Recuento B 6 14

%de EDUCACIÓN 57 1% 429% 100 0%

%deSEXO 320% 167% 230%6 Recuento 3 2 5

% de EDUCACIÓN 600% 400% 100.0%

%de SEXO 120% 56% 8.2%7 %ase no 1 4 5

% de EDl1CAC10N 200% 80.0% 1000%

%de SEXO 40% 11.1% 82%8 Recuento 3 3

% 08 EDUCACIÓN 100 0% 100 0%

%de SExO 83% 49%9 Recuerdo

% de EDUCACIOI2

100.0%

2

100 0%

%de5E80 56% 33%10 Remeto 1 1

%de EDUCAC,0N 100.0% 1000%

%deSEXO 28% 16%11 Recuento 3 3

% de EDUCACIÓN 100 0% 100 0%

%de SEXO 83% 4 9%'oai Recomo 25 36 61

%de EDUCACIÓN 410% 590% 1000%%deSEXO 1000% 1000% 1000%

Fi ora 3.1

Una vez aquí seleccionamos las variables correspondientes ■entramos en la opción «Casillas». En ella. seleccionamos el tipode frecuencias. A nosotros nos interesa, en este momento. lasfrecuencias observadas y las frecuencias relativas marginales

cuyo cálculo nos ofrece SPSS bajo el nombre de porcentajes

fila y porcentajes columna. Clicamos en ambas opciones (Figura 3.5).Una vez aquí. aceptamos nuestras selecciones en los cuadros

de diálogo «Tablas de contingencia: mostrar en las casillas y en

Tablas de contingencia>, y obtenemos la salida de resultados (Figu-

ra 3.6).

En la tabla podemos contemplar el número de casos para cada

par posible de la combinación entre la variable Sexo y Nivel educa-

tivo. La salida también nos ofrece el siguiente cuadro que, úni-camente, nos confirma que no se ha perdido ningún caso fruto de

alguna ausencia de información en cualquiera de las dos variables

(Figura 3.7).

Page 77: TURISMO Í A

Dispersion salarios experiencia

o

30

20

-^o o 10 20 30 a0 50

esperenca

flglli 3.11.

10

`ris

á

Planas

- usa les nceeneamns gar de

Telta._ 041dtrea..

Pega

^^Eei Reaeekce

r^v IEstablece ne•cc v ^.... .

^

Eeparar toe cams reó•te.

ICJ

edicaceo

> tam•, edad

IJ

ÍD

a

Ee ^r ^ J4zpra

00

1 00

119

0000000000

44 00

62 002700

380023 00

5300

5100

28 00

ala e J JJJJ^p edac

••

pepeetln

toyed

Gestas

Renacido de daos •

Escales •

aneases no pa•nensas •

saes temporales

1.ttrneme •

= repuestas mítpes •

:+ralas de valores pedalos...m UJ 1 W 5t1 LeJ

3100

DtomesEoaeovos desapwosTeases pesonahedss

coopera made:

Modelo kd general

Modelos monos

21 965 13.00 1 .00 33 W

figaa S ll

14 - 900 4000

50015 715

16 7.80 3.00

4007 3.75

150018 980

130019 580

695 8.00

U'.vat

MEREN

salarlo edut eso

1 590

2 8903 4 45

4 5335 5 806 3 37 6g8 4. S9 51 1

10 7 311 5 5_

12 6 70

13 500

70 Es lalfishca aplicada al luns mo

EJEMILI IE IESILILIÍI 1 111i11 IE SISS • EJEMILI IE IESILILIÍI 1 t11 1 11 l E SISSI

-.^ Sal tibio - Editor de datos 91•5S

Mdsvc Edam va Datos T•arctoma Miza vacos 0k9,&-v Votan

r3Ge ^JJ^ =^ Pe^^= 1,

2

3

5

6

7

8

9

10

11

12 670

13

14

15

16

2. Para obtener el gráfico de dispersión entre las variables

Salario por hora y Nivel educativo, acudimos la menú «Gra-

ficos>,, submenú «Dispersión. (Figura 3.8).Posteriormente, aceptamos la opción «Simple.. (Figura 3.9).

Por último, seleccionamos la variable Salario por hora para

el eje de ordenadas y la variable Experiencia para el eje de abci-

sas (Figura 3.10).El resultado parece mostramos una relación positiva entre

ambas variables, aunque de carácter débil (Figura 3.11).

Con respecto al cálculo del coeficiente de correlación entreambas variables. SPSS nos lo ofrece en el menú «Analizar.

Correlaciones, Bivariadas» (Figura 3.12).

En el cuadro de diálogo resultante, seleccionamos las varia-

bles para las que queremos el coeficiente de correlación y le pedi

mos que nos calcule el coeficiente de correlación de Pe arson. el

2;m

: Di,orama de a-rapessin s.tgte

athoo Edmn ve Dias Trasformar frM0os uidede5 Vetan 1

7.00

Page 78: TURISMO Í A

I salario I educ exoerien I sexo

Vanehbp

I edad I ear

xj

Acepa I

j_

—. esea se.. edad

I • U

0 Pega

Aeesra

i

ee

_JAWa

Coefiurxes de cmdeoón

Pearson r Taub de Kendal r Sean.-

-c<behvyirs="Bialea r uriaaa

arca las combase. egrik ee.m

_ Correlaciones

SALARIOS ExperienciaSALARIOS Correlación de Pearson 1 390*"

Sig (b ilatera l) 002N 61 61

Expenencia Correlación de Pearson .390^ 1Sig (bilateral) 002N 61 51

La correlación es significativa al nivel 0.01 (bilateral

_LI

oto

Traldormer Arxiza Grecos Utidatles Ventana

J=1 ^ Informes_ Estadmcosdesaptr.os

Tabas persmaizadas

arexp

Compasar medras t

Modelo Mear genera •Modelos romos

Conelaocces

LogllealEZTI

• Estrenen cdrvrnea...

Ciasta •

Redoren de datos t LogistMa Marx...

Escalas Loteara mimad...

Pruebas re paranetrxas • arana...

Sanes temporales5sperabrenoa •

= •c,muae nieves a

- • s de vaarssp>ádos...

ear

Root...

Me Meet..

Eslxeeden po dereda...

*eras c adrados en dos rata...

Escalamient

Figura JN.

adecuado siempre que hay al menos una variable cuantitatisa(Figura 3.13).

La salida de SPSS es la de la Figura 3.14.Donde se observa un coeficiente de correlación de 0,39. que

muestra una relación positiva, aunque no muy fuerte.Por último, se nos pide el análisis de regresión lineal para

las variables Salario por hora y Nivel educativo. Para ello.entramos en el menú «Analizar. Regresión. Lineal» (Figura 3.15).

Dentro del menú. seleccionamos la variable Salario por

hora como variable dependiente, ya que lo razonable es expli-car el salario que cobra una persona a partir del número de añosde experiencia que posee la misma. La variable Experiencia es.

por tanto, la variable independiente. Además, seleccionamos el

método de pasos sucesivos y dentro del submenú «Regresiónlineal: estadísticos» le pedimos las estimaciones y el coeficientede bondad de ajuste del modelo o coeficiente de determinación

(Figura 3.16).44 CO

,iejJn-_ +ratter Getm tx•dedes

J

Dederdeeie

• sabe

Blope 1 del Sip ssae

Acepa I

Pega

R^^edardec__e

el

A da I

of

- Coehcwes de repetrm- APme dar modelo

F EsMnacves r Corto m R atadedor lleves de mfi.aaa r Descipevx

I- Mao¢ de covarxrue r Cpntleaones parad y semparad Aseda Ir Diepisapm de wMeadad

- Residen

r DuenWasm

r Dxporacos pa caso

r

de rolecrsrs

Erxedas de casouEstadísticos Greecor Guarda. OpcionesMCP»

IndepmámleL

J ^♦arpeass

Hieda rx

< Cmeeua I

^

Caplulo 3. Bnálisis eJploralorio de variables bidimensiooales 71

EJEMPLO lE IESILI[111 O PIITII OE SPSS • EJEMPLO IE IES1L1[111 I Pililo SE SPSS

Page 79: TURISMO Í A

72 Esladishca dpl¢ddd dl lunsm0

EJEMPLO OE RESOLUCIÓN R PIR11R 1E SPSS • EJEMPLO II IESOLUCIÓNR PRRIIR 1E SPIS

La salida de SPSS nos muestra los cuadros de la Figu-

ra 3.17.Los primeros dos cuadros nos confirman las variables intro-

ducidas en el modelo (salario por hora y experiencia) y nos ofre-ce un resumen del ajuste del mismo. Nos indica el coeficientede correlación entre ambas variables (0,39) y el coeficiente dedeterminación (0.15). Recordemos que en un modelo de re-gresión simple el coeficiente de determinación o bondad de

ajuste del modelo coincide con el cuadrado del coeficiente

de correlación.El siguiente cuadro nos desglosa el coeficiente de deter-

minación en sus componentes. Así, en la primera columna tene-mos las sumas de cuadrados. En la primera fila (regresión) lasuma de cuadrados explicada, en la segunda fila la suma de cua-drados residual y en la tercera la suma de cuadrados total. Sepuede comprobar fácilmente cómo el coeficiente de determi-nación es igual ala suma de cuadrados explicada dividida entrela suma de cuadrados total.

El último de los cuadros nos ofrece información acerca delos coeficientes estimados. Así, observamos que, como era deesperar, partiendo de un nivel salarial de 6,188 E. un año másde experiencia hace aumentar el salario por hora de un indivi-duo en 0,181€. Además, las estimaciones de la constante y lapendiente del modelo resultan significativas. Ello se puede apreciar en la cuarta y quinta columna. En la cuarta columna se nosofrece el estadístico t para el caso en el que la hipótesis nula es que el valor de la constante y la pendiente, respectivamente, sonnulas. Recordemos que la aceptación de la hipótesis nula de que la pendiente sea O nos conduciría a determinar que no hay nin-gún tipo de relación entre el salario por hora y la experiencia del individuo. Ambos estadísticos t resultan muy superiores a 1,96y, por tanto, se rechazan claramente ambas hipótesis nulas. Este mismo hecho se puede comprobar con la última columna que nosindica la probabilidad de aceptación de las hipótesis nulas. Se observa que dichas probabilidades son claramente inferiores a 0,05.

Ejemplo SPSS 3.112

Con los datos del fichero enalgunlugar.sav se pide estimar una regresión lineal múltiple que tiene el Precio por noche comovariable dependiente y las variables Temporada, Destino, Días, Hotel, País, Pensión. Evaluación y Organizado como variablesindependientes. Recuerde que las variables Temporada, Pensión y Organizado deben especificarse como variables binarias (1,0)tal y como hicimos en el capítulo anterior.

Se pide:

a) Realice un análisis de independencia de atributos para el caso de la pensión y la temporada.b) Comente la regresión.c) ¿Qué ocurre con el coeficiente de bondad de ajuste a medida que añadimos variables? Pista: para responder a esta pre-

gunta vaya añadiendo las variables una a una comenzando por una regresión simple. El programa realiza esta funciónde forma automática si utiliza el método •pasos sucesivos» dentro del submenú •Regresión lineaba.

d) Se trata de un ejercicio de ampliación. Cree siete variables binarias (1,0) para la variable Destino que tomen el valor Isi el individuo ha viajado a ese destino y O en caso contrario. Ahora cambie la variable original por estas variables bi-narias en la regresión múltiple, dejando siempre una por incorporar de cada una de ellas. O sea, incorporará seis variablesque hacen referencia al destino. Vuelva a estimarla regresión múltiple. Ahora el coeficiente de las nuevas variables Destinose interpreta en relación a la categoría omitida.

^

Flura 317.

CoeM1oentes noarN^

Coesc,entesevamaraa,wr

Modero A FI[ fin Rela 1 Sot (Constarle) 6188 933 6631 00G

ee8e0e602 181 056 390 3253 002

MMr.ISumaae

r m AnIns NSeda

rr .aa rara6 F SnRe9re.dn 214 656 1 214 658 10 584 002'Residual 1196 560 59 20 281iota! 1411218 60

a varare aeOenaente SAURIOS

a varares peeddoras !Constante). eepenencn

b varetee aepenaletne SALARIOS

Modelo

a dar ardes pedict0rás Ieomtarlel . eepenenoa

feonan

a Todas las variare. solatadas MroducAas

p Vanade 0eperdiente SAURIOS

Vendares mtroduc,daNel,mmaaas°

390•

^ad^

e+penen0a•

Resumen del modelo

R n,anraan

ccetiaentes•

ANOVA°

152

Vanades,emanada.

R wa0,aaomrreaYla

138

MMMnIntroducir

Errd 6p le aea(manlnn

elia

Page 80: TURISMO Í A

Tablas de contngencix EstadísticosS

Datos Tra sfe ea Ara s - a - s ercav

.-s.ataos de•aobras

pas{ se!1 0

1 0

1 0 10 10 1 C

1 00 1 00 10 101 90,00

Tablas

Comp.. Red.Modelo rosal gene s

Modelos matos

CorrelacionesRegresantpgineal

Ciaste.

Redxodn de datasEscala

Pm oras ro pararbicas

Sanes tertp.drs

spevncrgaRespuestas inlwasMla$25 de valores palde»

_u 2130290 700

3 C

CYwptr.os..

• r,pora...oar

RaTm o:

Vi 3.11.

929797 :97 :

73 7070:

81

303 0060

6003133.7 007.00700

2 002 m3 00

3 002 002 002 002 00

234567

89

1011

2134

15

7

18193121

22

23

242526

27

28

29

30

Itilar Ancora

Pega

reasiem

Carilelas

AYA

r Mostm ors greco: de barras agngadoe

I- Supinas tablas

Qu

J 1 0_

03^^c="...I

=JAY^da

Caplulo 3 Análisis exploratorio de variables bidirnensianales 73

EJEMILI lE 1E5111C1 I I 111111 IE SPSS • EJEMILI IE IESILILIiI I 111E11 IE SPSS

Solución

a) Aunque en el archivo las sanables Pensión y Temporada

figuren como variables numéricas. en realidad la información

inherente a ambas es de tipo cualitativo. Así, ambas variables

binarias, cuando figuran con el valor 1. indican que nos halla-

mos ante un viaje en pensión completa y en temporada alta, res-

pectivamente. En caso contrario, cuando figuran con valor O. noshallamos ante viajes en pensión no completa y en temporada

baja. Por todo ello, resulta apropiado realizar una estadística de

atributos para estas variables. El objetivo es constatar si existe

algún tipo de asociación entre ambos atributos ose trata de varia-bles independientes. En primer lu gar, realizaremos la tabla de

contingencia. Para ello acudimos a «Analizar. Estadísticos des-criptivos» y «tablas de contingencia» (Figura 3.18).

Una vez aquí, pulsando el botón «Estadísticos» nos intro-

ducimos en el cuadro de diálogo «Tablas de contingencia: esta-

dísticos». En él seleccionamos que nos calcule el coeficiente de contingencia. la Phi y la V de Cramer. Al tratarse de una tablade contingencia cuadrada y 2 x 2, cualquiera de las medidas es adecuada (Figura 3.19).

En el cuadro de diálogo «Tablas de contingencia: Mostrar en las casillas. es aconsejable marcar las frecuencias observadasv esperadas. que recordemos son los componentes del estadístico chi (Figura 3.20).

Eie alq.NUgar - Ed itor de datos SPSS

ticas LAiiox,

^ ^ 6 ^J _L J J JJ J EL NWEI 1aip

I avaluad I osgandz I duraplon I hotel I eda pensmon t=.i

S '[ ^ 3C ' 70 3 7C :. 00

P O.aadado r eonelacv.cRoana OMnal r Coefrbie de mrbrpmoa r Gams

(3 PI. Y Vde Ciare, r ddeSomers

r Lambda r Ta.b de Kendal

r Coeficiente de icabdwbe r TaucdeKendall913

03 S

M p —em•sd a.eevab

r Eta

^ r Kappa - ^ - -

r Resgc.l

I- Malear2_

Sr Ertaditr.zadc Carlean y de Marsdllaeatzd . z

02^

J

Enastas Estadianws remato

'eS, E W111.00 5.00 20.200 1.00 7 7582 1

200 1W 2 0 70:. 7532'2W 1W 2 W 7.00 75.8212.00 20 7W 6660!200 2.01 700 86.7112W 2.W ^. 7.01 70.38¡2W 2 0 7 W 70.38 i

2W 2.0 7.01 81.272W 2.0 30C 70.38200 1.0 1.00 70.0 4.0 2.001 = - 70.382W 1 .0 1 W 70.00 5.00 2W - _

Fyn 3.13.

Page 81: TURISMO Í A

Resumen da, procesamiento de los casos

Tabla 0• contingencia PENSION' TEMPORADA

lEMP0RA0ATos00 100

PENSION

ola!

00

100

Recuerdo

esperadanD•900uem0PiatuanCia

Recuento

e1pe áe °

248

:689

507

4661

755

7550

1536

1.96 .1

2369

14009

3104

19040

1783

1)830

2816

28760

4659

46590

d• Chltal•drada

ar

SI *sin..SIñaalera,l tv40erN1itidaleragVeloi

uChacuadiada• Palalian 11 21410 1 001

mnm 0apoIe IOAI 1 .001

Fiaren d. verosimilitud 11 402 1 .001

Fedlwoo.. ateo d•

esocucwn anea, pmlme.u 7 1 1 I 001

00, 000

e casos validos 4659a Calculada 101a pare una labia de 2 • 2b 06.1110t ~llenen una.rus..nperede mrenor e 5 Le Oecuenc4minim°•aperada es 28894

VolarSp

oprimirme.

Nomina, par nominal 001

de Creme, 049 001

COe1 40>0 d•contingencia

N da (nos vados

049,

4659

001

O Empleen. el error•,p co 11asinl000a basado en la repele. nula

Hipa 331.

CS.Vedes v.aa.

eaMi 4661 100 0Y

Tal.

N I Parcenale

PENSION TEMPORADA 4659 100 0f

JJ Jadwd Edacn Var Datos irans7ornlar aletre. adlcos Lxidedes Vertalse

1 edad

Leaenca timarla...

LOOStce Inlfrm8d ..s

n^

la

^

EIME:1

a1 1=1:3•11111:1 3W 7^ 70 00 2W~El 1W'^ 22W 2W 7W, 92W 2W

sao

21702 002.002W2W2W2.002W2W2W2002002W2002W

pals Ter

1 00'ea.

1 W

1W'

1W

1W

l0paed e Estenacldrl curvabas...Clasificar

ReducCtln de dalosLudasRI Desrlo pberlNrkes e

Serles tene.desfi SwervNencla

Respuestas magiasAnilles da velases pnddos...

edad evaluacigani2a T duracionT ho-Teho-Ter oda pmaion tempolad'CC) 70 00 203 7 W 300 I uu

78 107 100 --- 3W 40Ó 100

1 00

1 WS W

2W3 00

3W3W

WW 1W

4o-ció 2W1W

Raba...

No anead...

Estmeddn ponderada...

aroma Cuadrados en dos fases-

4W

3W

3W

57 W

57 W65W

65W

1W

1W

BW 2W 7100

3W 3W WW

Ui

fur 17w1 W' 22 W

.0() EscaMMNtO 41NO...

300

4W

74 Estadistica aplicada al turismo

E]EM1L1 1E IESILILIÍI 1 1111111 SE S 1SS • EJEMPLO IE RESOLUCIÓN 1 111111 IE SPSS

Los resultados son los que se muestran en la Figura 3.21.

En la primera tabla se confirma el número de observa-

ciones para las que se han realizado los cálculos 4.659.En el segundo cuadro se muestra la tabla de contingencia

para estas variables cualitativas con las frecuencias observa-das y esperadas correspondientes.

En la tercera tabla, titulada «Pruebas chi cuadrado» semuestra en su primera fila, el valor en tablas del contras-

te chi cuadrado: 11.214. Este valor resulta mayor al valor

en tablas (que al I ck es de 6.635), con lo que se rechaza la

hipótesis nula de independencia. Este resultado viene rati-ficado por la significación, que al ser menor de 0,05, nosmuestra que la probabilidad de aceptar la hipótesis nula es

pequeña.En la última tabla se muestran los estadísticos Phi, V de

Cramer y coeficiente de contingencia. Todos ellos coincidenen valor absoluto debido a que se trata de una tabla 2 x 2.Todos ratifican el resultado del contraste Chi, tanto por suvalor', como por la significación de los mismos. Conclui-mos, por tanto, que existe una cierta asociación entre elhecho de realizar un viaje en temporada alta y en pensióncompleta.

b) Para estimar una regresión lineal múltiple, acudimos a lamisma opción que en el caso de la regresión lineal simple. Esdecir, «Analizar, Regresión. Lineal...). (Figura 3.22).

Nuevamente, seleccionamos la variable Precio como varia-ble dependiente, mientras que como variables independientesseleccionamos ahora Temporada. Destino, Días, Hotel, País,

EeI iV .

Aunque el valor no parezca excesivamente alto debido al gran número de datos, las probabilidades de aceptación de la hipótesis nula deindependencia resultan siempre muy reducidas.

Page 82: TURISMO Í A

vaunNes arme..btroduckles Normadas Merar

ORGANIZAPENSION

HOTELTEMPORADAOURACION

PATSDESTINO.

E VALUAC IeI

Inlroducu

ModeloError Pu d

R cuadrado ccuadrado •elmacten a

511 5107151.1 2121729

a1

aad w...

caaslM,9e^ae Vanaaa dpend»m.PRECIO

Resumen del modelo

Venablo procederes ■ConslaM•I ORGAMZA PENSION HOTEL.TEMPORADA OURACION PATS DESTINO Ev ALUAC

ANO VA 1e1

Suma decuadrados gl

MamaSpg

Regr•spon

loba

26225191922506547 7655129067 557

046504658

327814 974 539 043

608111 000A"

a ICondarau ORGANIZA PENSION HOTEL TEMPORADA.DURACION pPAIS. DESTINO EVALUACe venable dependa. PRECIO

eoenalem.e l.1

Model.CD•SCI.la•a mM.ndee.dna

B Error llp

Co.lkmnlesIele6a•mados _

Bel.

I sq.

¡Gens-tenle,TEMPORAD

-36113009

2 472935

14 6196639

000000

DESAMO 211 577 402 585 53.753 000OURACION .248 4 148 .018 -1679 093HOTEL 2203 103 079 7.202 .000PATS .687 122 .061 -5627 000PENSIO 171 755 105 9 493 000EVALUAC 1208 011 218 19069 000ORGANIZA 4 308 1 076 .042 4 004 ce.

variadle dependNnl• PRECIO

Figura 3.27.

Capítula 3 Bnálisis exploratorio de variables bidimensionales

75

EJEMPLO I 1ES0L1CIbl 0 PRRIII OE SPSS • EJEMPLO IE IESILItIiil I P11lIR If SPSS

Pensión, Evaluación Ore<utizado. Como método seleccio-namos ahora introducir y pedimos estimaciones y ajuste del

modelo en el cuadro de diálogo «Regresión lineal: estadísti-cos» . Con el método introducir le pedimos que nos introduz-ca todas las variables a la vez.

La salida de SPSS nos ofrece el output de la Figura 323.La primera tabla únicamente nos confirma las variables

introducidas. La tabla «Resumen del modelo» nos proporcionael valor de la bondad del ajuste un 51%. mientras que la ter-cera tabla, titulada »ANOVA(b)» nos ofrece la descomposi-ción de dicha bondad del ajuste en suma de cuadrados de laregresión (explicada), residual y total.

En la última tabla observamos los coeficientes de las varia-bles independientes, así como el contraste t y la significaciónde cada uno de ellos. Es interesante matizar ahora la inter-pretación de los coeficientes. Los coeficientes en una regre-sión múltiple se interpretan como el aumento en la variabledependiente, fruto de un aumento en la variable independientede una unidad, manteniendo el resto de variables indepen-dientes constantes. Por ejemplo, un aumento en el número deestrellas de un hotel aumenta el viaje en 2.2 €: si se mantie-ne el resto de variables independientes incorporadas comoconstantes, mientras que un punto más en su evaluación lo haceen 0,2 €. Observamos cómo al ser un viaje organizado, conpensión completa y en temporada alta aumenta el precio delviaje en 4,3, 7,17 y 6.2 € respectivamente. siempre teniendoen cuenta que mantenemos constantes el resto de variablesindependientes. Los destinos a los que hemos asignado códi-gos numéricos superiores aparecen como los más caros, al con-

trario de lo que sucede con los países. De todas las variables, únicamente la duración del viaje no aparece como significativa.al presentar un contraste t inferior a 2 y una probabilidad de aceptar la hipótesis nula de no significación, superior al 0,05.

c) Nos adentramos de nuevo en el menú »Analizar, Regresión, Lineal» y realizamos exactamente los mismos pasos que en elcaso a) a excepción del método. Escogemos ahora el método »pasos sucesivos». Dicho método nos irá añadiendo una a una lasvariables independientes. De esta forma podremos observar la evolución del coeficiente de bondad del ajuste (Figura 3.24).

La salida que nos ofrece SPSS es muy similar a las anteriores. Observe únicamente que nos va ofreciendo para cada tablalos resultados de cada una de las regresiones que ha realizado. Es fácil observar cómo ha ido añadiendo variables de forma con-secutiva. El mecanismo para elegirla variable a introducir ha sido seleccionar aquélla variable que más hace aumentarla bondad

del ajuste, siempre que sea significativa. Debido a ello veremos que la variable Duración no ha sido incorporada a ninguna

regresión. De igual forma, la variable Destino ha sido seleccionada en primer lugar, ya que la regresión simple entre el precio

por noche y esta variable tiene un coeficiente de determinación o bondad del ajuste del 43% (Figura 3.25).A partir de la observación del cuadro »Resumen del modelo» concluimos que el coeficiente de determinación o bondad del

ajuste aumenta del 43% al 51% a medida que vamos incorporando variables a la regresión.

dl En los Apartados a) y b) hemos constatado la importancia del destino a la hora de determinar el precio del viaje. Una vezaquí, resulta de interés determinar cuánto afecta cada destino concreto al precio del viaje. Éste es el objetivo de este apartado.

Para crear las variables binarias (1,0) para la variable Destino nos trasladamos ala opción »Transformar, Calcular» (Figura 3.26).

En el submenú que nos aparece a continuación podemos crear una variable llamada Destino! que será una variable binaria

con valor I para el caso en que la variable original cuyo nombre es Destino tome valor I, y con valor O para cuando la varia-\

Page 83: TURISMO Í A

Dependerla

IJ I ajSKG•

•• 3•309-

• °a

• .+-paada

• -,aAap r--, I „IarOOlad

• °>"^ Bbaue 1 de 1 • x;1•0

•• ,,,red

Indeper664et

^

Mlloda IPa . ,

,I

J

CaefiaM4f de moray* - l3 Ape. dd Inodeb

I3 Erbnecarr. r Crab, en R cuabedo

r In46rvdmde cArllaae r DeraWvot

r Mara de rpvenaea r C6reiapOrer pa0d y lmgari5l

- r Diayóroca de rArnleewad

3 7J PfJ CID

Regresión lineal: EStadístrcosPegar

5 4• Reaaldeca

I ce""^

Ayuda

d ^ araluac3 organez I duraaon hotel I eda penslonj

CC 7pfd

31

00 7

71 Reads

11-

Cosroxla

Ay de

MCP»

6CO

19 2 00 1 1 0 1.00' 74 00 6 00 2.00

la99er?Hn e.1 1ned0

,GI Erro ppda

naPm55aN

R 9ursrr3 l mead24 93324

39701 433 43 26 793653 70414/ 496 495 2158119

708(4) 502 501 23•31615 71214/ 537 506 23318326 140/ 509 509 21.28091

;t54W 511 510 2222183

1ed60 a4am7ra Cm9ad!).DESTINOvemr60 p ,gg0aa ICmsv ?ai. pE516O EVAWAo5se0995e3058 Cn9ne).OES1010EVALUAD PENSIONVaedas pr6dtl24as ICn.1ntel. DESTINO EVAEUAD 09990N. HOTEL

• 2.1060. 5ed<ivas ICmfanbl. 0E51110 EVALUAD PENSION HOTEL 7134R617406o Vnn(spredtlpraa (0:09211.01. DESTINO EVALUAD 0999(61 NOTE T9ASO040A PASp 2.1ed60prtltlorn ICn9suel.DESTINO EvKIAO PENSION. Nara TEMFOPADA PAS

C40A3912w

AAOVA90

A1o0eo craves a Ntlaeu F S•1 0e741,

Tda

22188f95862910=7 971

1ST

2218839`,93524915

15508r. 3001e1

sM

5129^7557 4606. 64060e8 2093033453 2 1246543 726 2201 801 004e)

P49 W s 2635931 101 4656 566 141Tda 5129367 557 4e55

, 040e929 .4913.8 421 3 848312 907 1526134 0001910449, 64129 136 4855 555 130Tda $129m155T 4658

4 0406016? 2573834412 4 643455 303 1171970 0040306010.41 25560'3145 4654 519610Tdai 5129067 557 4656

5 0404.19.1 2593027_243 5 519805 a49 955 975 0001.)a?a14 2530910 314 4853 5431M

5129057 557 46•í8 040406 2612010997 6 435131163 664582 00W)

2617055 580 4652 5410706129047 551 4658

7 04099040 2621003287 7 37443661 694 347 00901Rvar 2186088 790 4651 539 263Tad 5129a61551 465640 a2460 ICnYa-te/ 0E571110

eda pne0olaa 1Cnanle) DESTINO EVAI WC2sa6npwtld.s ICnf9eal DESTINO . EVKUAC.09399(64V.14010. aqtlar60 ICna.1nel. DESTINO EVKUAC. 089909. HOTEL

ade4 54902461 ICmanlel 0ES7010. EVALUAC 0EH9O6 HOT&. TEMPORAL2n4660 pr4a91nras ICnanlelBDTINO 0 Harr" EVALUAC P999. HOT TEMWpADA PAV.1ad60 d4acl9r.s ICn.1nnl. 0E571410. EVALUAC . PENSION HOTEL . TEMPORADA PASOR0N11Z4V.1edeapatleb PPEDO

Figura 3.25.

V&01941e umemrldulwrmladu N/

.15aN9660 NmnedPx re.

DESTINO

IatenD Pr deG p.1a4071 e.050 Pr. dF

1M)

Iasea7ce deEVKUAC Fpea 400.1 e.

050 Rod ae Gwe mara'

Pee pesoslaten Proa d

099906 F p.1• ewer •.050. Rob deF

p.1a .1,)091

024 peasalso Ras d

HOTS 050 05 0 4l,050 Rd dF

p.1e M1007

P9 pasosworn Rob at

TEMPORADA050 Rai 9,

pee as• a.1001

P6 peerlal.1 Roo d

PIES F 9. ems 4=0.0 Roo dF

we 64.1=1 100'

P6 pesashilen Rob ce

(620019I24 050 Rd 6.5p.1.sa1M

1^a V.1erAedpsp .1d P9F_00 Traafer4Aa aata 6ded3 Ut►dedes

Salde ass d60948trecon ..

Carper aparoone3...aec0dlrrer

(16800360851425..

Asola recipes a casos...

Recodetdaón automatics-

Crea sere Kanpard...

Reenviara Vraves paridos...

figura 33.

76 Esladshca aplicada al turismo

EJEM/L1 II OESOIIIIÍI I I11TI1 IE SPSS • EJENILI IE IESILIIIiI I II1111 IE SfSs

O enelgunlugar -Edit.,, de dews 5055.111_11‘

J

Ed•• Darns Tr arb'H Matee

al^leiJ A Er kiJ±l_d ol

Page 84: TURISMO Í A

. a ax oe astro

wYe0yea

W6.W9.W

q

i aoer^r&

-8laüe lde1 -

i .teeperávia _J

>e:tro3 AyAa

Meeodo I -r-_..,.. J

VarMEIe de selsms

Eegetas de casa0Estadistcm I GráMos.. I 6raae_ I Oonortx..

eut ^ desfieu2 ^ des^eu3 ^ destnut^ 3 destew5 ^ destitea6 ^ des7ia700 100 s S x W 00

Coacervar de regeson F Arate di modas

Ñ Estromnes r Castos en R o,aeedo

(- intervalos de asean. r D,.....^n.wr Mato de rovevaa r- Canebmnes parad r :enpaaca 4 d I

r- Dragroso_ros de cdnedoza

Pap

Q

63 OD

64 OD

65 .W 25.W 1 WW

75.W, .W

9W6s .W 6.W67 ID 6W, 3W

Capdulo 3. Análisis explarabno le variables bidimensianeles

77

EIEIIILI IE IES1L1[1Í1 1 111111 IE SIS • EJEM' IE IESILItIÍ1 1 111111 IE SPSS

y o aWades Sentar, r

JEmaór nercnca.

_f < I > 1 /Leal rn,.unes ^

J<=I>=I ju s 6.J J_J

11 21 31

/f 6 I 0 I .

J ' 1111 Ef.t^u

Jar I .3t 7 ^J

153ic¢a_rvr.IANY¡e bivabn.vabr__IARSINIaqr_nmI4RTANIemr na+nlSFNORMIvatra-'-BERNOUWIcn'.

• _ryasfo

• ^ 3m J

1

Acepta ^^^^ ^J

58 6 00 300 ==T 1 0069 9m 600 1 W

W a) 8W 300 3x 1 W61 m l 900 600 1 00

62 W 8W 3W 3000 1 W63 W 3W 3.W 3200 1 W64 W, 9W 6W 00 1 W

^^.: II u u n

ble destino original tome cualquier otro valor. Para ello. en el recuadro blanco con nombre «variable destino» escribimos .-tinolr. y en el recuadro «expresión numérica. escribimos «destino=l» (Figura 3.27).

Observaremos cómo nos ha creado una nueva variable con nombre Destinol. A continuación repetiremos el proceso con elobjetivo de crear las seis variables binarias restantes.

A continuación volvemos a realizar la regresión del Apartado a) sustituyendo la variable Destino original por seis de lassiete variables binarias creadas. En nuestro caso. omitiremos destino I (Figura 3.28).

asar, ..,r.- Editor de datos SPSS JaJJ _ca Gorr,

= lol^l J ^J J = 1 r2 MI 55 t :Regresión irreal

Page 85: TURISMO Í A

78 Estadística aplicada al turismo

EJEM/L1 IE IESILIIIfI I 111111 If S1SS • EJEMPLI If IESILIEIÍI I P11111 If SPSS

Variables introducidas eliminadas 151

ModelHanes

I'uduodaa/enables

eliminadas Método

DESTINO?,DURACION.DESTINOS,

:RGANIZA,DESTINO2.PENSON. Introduce

TEMPORADA,HOTEL. PR S.

DESTINOS.DESTIN O/3.EVALUAC.,

DESTIN04(a)

a Todas las variables solroladas miroduodas

In Venable dependiente PRECIO

Resumen del modelo

F cuadrado Error tío de la

' lodeS R P cuadrado corregida estimación

772 . < 5% 595 21 11463

es redidoracHOTEL = / c DESTINO?, E VALUAC DESTIN04

AN OVA (b)

..-cSarna de

cuadrados g^

Medracuadratica F = .

Fegres■on 30581%992 13 235246076 527 662 0001a1

P `" %^• 2070858565 4645 445 827

5129067 557 4658

a- soles prediCc. a_ :-stante). DESTINO?, DUPACION, DESTINOS. ORGANIZA.DESTINO2. PEN90N,TEMPORADA. HOTEL. DAIS DESTINOS, DESTINO3, EVALUAC., DESTINO4b Variable dependiente PRECIO

coerciemeslal

^,d=rI c eficientes noestandar¢ados

Coeficremeses/enderezados t S

B Error op Betaon sta.d°; 48 196 10726 4 493 23

PAlS .364 112 -.032 -3244 301

AVALUAC I 173 010 .181 17 219 000

ORGANIZA. 4666 979 .046 4 765 000

DURACION - 125 135 -009 - 929 353

HOTEL 1 80 276 065 6554 000

PB49ON 8 823 695 129 12 696 000

TEMPORADA, 4723 952 052 5542 000

DESTINO2 -27371 10647 -.189 -2571 010

DESTINO3 -11928 10 588 -.145 -1.127 260

DESTINO4 094 10574 001 009 993

DESTINOS 22 203 10590 273 2 097 036

DESTINO& 80 952 10 735 411 7 541 000

DESTINO? 151 368 11 398 333 13.292 0170

a Variable dependiente PRECIO

La salida que nos muestra SPSS la de la Figura 3.29.

A la luz de los resultados, observamos que el destino que más hace aumentar el precio es el «destino leo. Dicho destino

aumenta en 151 € el precio de un viaje con respecto a lo que costaría un viaje con destino a 1. Sin embargo, los destinos 2 y 3disminuyen el precio del viaje siempre respecto al «destino 1» en 27 y 12€, respectivamente.

Page 86: TURISMO Í A

Jóvenes

Autobús 20 12

Coche 15 20

Moto 17 12

Bicicleta 10 5

15

16

8

13

4

5

10

Comercial

P.A.S.

Becarios

Indiferente En contra

4 13

8 13

15 10

Capiulo 3. Análisis exploratorio de variables bidimensionales

79

RIV

Ejercicios previos

3111 En la Tabla 3.8 se observan los resultados de una encues-ta que cruza grupos de edad con sus preferencias en cuan-to al medio de transporte a utilizar durante sus vacacio-

nes:

a) Calcule el porcentaje de individuos que son adultossobre el total que va en autobús.

b) Del total de individuos encuestados, ,qué porcenta-je son jóvenes y prefieren utilizar la bicicleta?

c) Calcule las distribuciones marginales.

3.123. El 70% de la población de La Habana durante veranoson hombres y el 30% de la población total tiene másde 35 años. ¿Cuál es el porcentaje de la población dehombres mayores de 35 años?

312.3 Supongamos que todos los turistas que van a las esta-ciones de esquí de los Pirineos por Semana Santa se gas-

tan un 25% de su sueldo mensual durante su estancia.¿Cuál será el coeficiente de correlación entre las varia-bles X (sueldo mensual) e Y (gasto en turismo de esquí)

durante Semana Santa en los Pirineos?

3114 ¿Qué signo presentará el coeficiente de correlación entrela edad de un coche de segunda mano y su alquiler dia-rio?

312.S. Tenemos los siguientes datos:

n = 26. V = 1.287, Vy = 1.207. 'x2 = 66.83,1

= 59.059, Yxy = 62.262

Calcule el coeficiente de correlación lineal de Pearson.

312.6. ¿Qué tipo de dependencia existe, a priori. entre el núme-ro de banderas rojas de una playa durante la temporadade baño y el número de visitantes de la misma'?

3.12.1. Comente las siguientes frases:

a) «Si la ordenada de una regresión es 0, la recta pasapor el origen de ordenadas.»

b) «Los coeficientes b y b no tienen por qué presentarel mismo signo.»

c) «La nube de puntos entre dos variables cuyo coefi-ciente de correlación es nulo. tendrá forma de 0.

d) «El signo del coeficiente de determinación dependedel signo de la varianza de los residuos.»

e) «Un coeficiente de correlación de entre 1 o —1 indi-ca una dependencia funcional.«

Ejercicios tipo

312.8 El gestor de una agencia de viajes realiza un sondeo paraconocer la actitud de sus comerciales, personal ad-ministrativo y becarios en referencia a una reducciónproporcional de sus sueldos que se utilizaría para lamejora de la calefacción. el aire acondicionado y el hilomusical de su lugar de trabajo.

a) Complete la Tabla 3.9. Determine las distribuciones

marginales.

b) Del total de becarios, ¿qué porcentaje se muestra

indiferente?

c) Entre los comerciales, ¿qué porcentaje está a favor"

¿Y entre el P.A.S?

d) De los que están a favor. ¿qué porcentaje son beca-

rios? ¿Y comerciales?

e) De los que están a favor, ¿cuántos son comerciales?

¿Y P.A.S?

fi Estudie la asociación o independencia de ambos atri-

butos.

J

Page 87: TURISMO Í A

Tbsa

22 20%

27 15%

32 10%

37 8%

42 7%

47 6%

52 9%

57 10%

62 8%

67 3%

Tabla 3.11.

%Aumento en publicidad

%Aumento en rentas

O 11 9 8 6 7 10

2 8 7 9 3 5 I I

a) Dibuje el diagrama de dispersión y calcule el coefi-

ciente de correlación. Comente las ventajas que tie-

ne la utilización del coeficiente de correlación en rela-

ción a la covarianza.

h) Calcule la recta de regresión entre la tasa de paro yla edad. Comente los resultados.

c) ¿Cuál sería según su recta la tasa de paro que corres-

pondería al grupo de edad de 40 años?

d) Calcule el coeficiente de bondad del ajuste y comen-ta su resultado.

e) Realice los contrastes de significación para la pen-

diente y la constante de su modelo. Contente los

resultados.

31210 Una importante agencia de viajes quiere realizar un estu-dio entre el aumento en sus gastos en publicidad y el

incremento en sus ventas. La Tabla 3.11 muestra los

resultados recogidos para los últimos años:

de agua

22 1.000

31 1.950

30 1.800

28 1.750

25 1.600

26 1.550

30 2.000

20 1.050

18 900

Tabla 3.13.

Malo Normal

30 80

90 45

20 90

VBueno Total

75

40

100

Niños

Jóvenes

Adultos

Total

80 ESladlstMco aplicada al tunsmo

EJERCICIOS PROPUESTOS • EJERCICIOS PROPUESTOS • EJERCICIOS PROPUESTOS

3123 La Tabla 3.10 muestra la tasa de paro del sector turísti- 3.12.11. El director de un camping de Loredo ha observado duran-

co en España en función de su edad para el año 2000. te la temporada de verano la temperatura media de cadasemana y los litros de agua que los clientes han comprado

en el supermercado.

a) Dibuje la nube de puntos.

b) Calcule el coeficiente de correlación y coméntelo.

c) ¿Puede planificar el supermercado del camping la

cantidad de litros de agua a encargar a sus provee-

dores en función de la temperatura esperada? Reali-

ce los cálculos necesarios para ello.

d) ¿Qué cantidad de agua se necesitaría si se espera una

temperatura de 32 grados?

e) ¿Cómo puede calificar el ajuste que ha realizado?

Ayúdese del coeficiente de determinación.

f) Realice el contraste de la hipótesis de no significa-

ción de la pendiente de la regresión, es decir, de que

la temperatura no influencia los litros de agua com-

prados.

3.12.12. Una consultora turística pretende realizar un estudio de

mercado. En particular, le interesan las opiniones de ungrupo de control, según su edad, sobre un nuevo producto

turístico que relaciona el tiempo libre con la salud y quele ha sido encargado por un gran complejo hotelero.

a) Dibuje la nube de puntos y coméntela.b) ¿Tiene sentido el coeficiente de correlación lineal?

Justifique su respuesta.c) Calcule la recta de regresión. Interprete su resultado.d) Haga una previsión sobre el aumento de las ventas

en el caso de que la publicidad se aumente un 15%.e) ¿Cuánto vale el coeficiente de determinación? Jus-

tifique su respuesta.

Page 88: TURISMO Í A

E3EItItHS IIIIIES1oS • E]EItItI1S 11111ES11S • E]EItIt11S IIIIIESTIS

Capítulo 3 Bnálisis exploratorio de variables bidimensionales

81

a) • Qué porcentaje de niños encuentran el nuevo pro-ducto bueno? ¿Qué porcentaje de la muestra son jóve-nes y encuentran el producto malo?

b) ¿Qué porcentaje de las personas que encuentran elproducto bueno son niños o adultos?

cl Estudie la independencia o asociación de estos atri-butos.

3.1213 Los siguientes datos reflejan la relación entre el preciode la habitación diario y el número de estrellas de varioshoteles de Calella en verano.

Tabla 3.14.

Y= Recio /20 90 40 20

%=Número estrellas 4

a) Dibuje la nube de puntos.b) Calcule el coeficiente de correlación y coméntelo.c) Calcule la recta de regresión entre el precio y el

número de estrellas del hotel. Coméntela.d) ¿Cuál sería el precio diario esperado por parte si se

quiere alojar en un hotel de tres estrellas?e) ¿Cómo puede calificar el ajuste que ha realizado?

Ayúdese del coeficiente de determinación.

jl Realice el contraste de la hipótesis de no significa-ción de la pendiente de la regresión, es decir, de queel número de estrellas del hotel no influencia el pre-cio diario de una habitación.

Ejercicio con SPSS

3.12.11. A partir del fichero Salarios.xls:

a) Realice el diagrama de dispersión entre la variableSalario hora y Nivel de educación.

b) Calcule el coeficiente de correlación y la recta deregresión entre el salario hora y el nivel de educa-ción.

c) Comente los siguientes resultados: la pendiente. el

coeficiente de determinación y sus componentes y elcontraste de significación.

d) Realice la regresión entre el Salario hora como varia-ble dependiente y las variables Años de experiencia.

Nivel de educación y Sexo, como variables indepen-dientes. Comente los mismos resultados que en c).

e) Compare la regresión del Apartado b) con la regre-sión del Apartado c).

Page 89: TURISMO Í A

CAPITULO 4análisis de

4.1. Series temporales. Componentes

de una serie temporal

4.2. Desagregación de los componentes

de una serie temporal

4.3. Autocorrelación

4.4. Ejemplos de estudio

4.5. Ejemplos de resolución a partir

de SPSS

4.6. Ejercicios propuestos

Page 90: TURISMO Í A

Cuando un fenómeno es dinámico, es necesario estudiarlo

periódicamente si queremos analizarlo con profundidad,

ya que su análisis en un períododeterminado del tiempo no nos proporcionaría toda la información posible acerca

del mismo y no limitaría su predicción. l -

En el Capítulo 1, cuando clasificábamos los datos, veíamos que algunos

consistían en un conjunto de observaciones sobre una o más variables en períodos

regulares de tiempo y para un único individuo. Conocimos este tipo de datos como

series temporales o cronologías y son el objeto de estudio del siguiente capítulo.

Otra forma de entender el capítulo es que seguimos estudiando series estadísticas

de dos variables con la peculiaridad de que ahora vamos a considerar el tiempo

como variable independiente de la serie estadística.

• 4.1. Series temporales. Componentes de une serie temporal

Las series temporales son un conjunto de datos de un individuo en el tiempo. Las seriespueden ser deterministas, como por ejemplo, la hora a la cual ha salido el sol el 4 de agos-to en Tenerife durante los últimos treinta años o aleatorias, como el número que ha salidopremiado en la lotería de Navidad durante los últimos treinta años. La mayoría de serieseconómicas, sociales o turísticas presentan aspectos deterministas y aleatorios. Por ejem-plo. la demanda de viajes a Roma en octubre durante los últimos treinta años presentacomponentes deterministas y aleatorios. Aunque para la mayoría de años hablemos de deman-das muy similares, no serán exactamente iguales ni tendrán un crecimiento lineal exactodebido a la presencia de factores aleatorios.

Sea cual sea el patrón que genera la serie económica X, contiene como mínimo cuatrocomponentes no observables:

— Tendencia: variación a largo plazo (T, 1. Se trata de un movimiento suave de la seriea largo plazo y de la dirección predominante en un espacio de tiempo suficiente-mente amplio.

— Ciclo: oscilaciones lentas de forma más o menos senoidal para períodos superioresal año y no fijas (C,). En general, presentes en cualquier serie con componente eco-nómico.

— Estacional: oscilaciones fijas dentro de un mismo año (S,) Suelen subyacer detrásmotivos climáticos, sociales, económicos o socio-religiosos. Los valores de las varia-bles se ven influenciados por las estaciones del año.

— Irregular: variaciones aleatorias que no están sujetas a nada alrededor del resto decomponentes (I,). Se trata de fenómenos aislados, desconectados entre sí y que pro-ducen variaciones imprevisibles.

Page 91: TURISMO Í A

Capítulo 4 Introducción al análisis de series temporales 85

Veamos un ejemplo. Supongamos la si guiente serie ..Ventas de coches de alquiler men-suales en Mallorca durante treinta años»:

T, Lo que han crecido o decrecido durante los treinta años.C, --s Períodos que se corresponden a los ciclos económicos.S, -s Demanda estacional, dependiendo de la estación del año.

-s Casos puntuales que normalmente no se pueden controlar.

En ocasiones, si la serie no es excesivamente larga. resulta difícil distinguir entre el com-ponente tendencia y el componente ciclo. Si observamos un crecimiento de cinco años enuna serie para la cual sólo observamos esos cinco años. ¡cómo sabemos si ese comporta-miento es debido a una tendencia a crecer que presenta dicha serie o a que los años paralos cuales tenemos información correspondían años de ciclo expansivo' Es decir, yo sóloobservo 5 años. Puede ser que los 5 años siguientes decrezca y sería ciclo, o que siga cre-ciendo y sería tendencia. Pero no lo observo. Así que no me puedo pronunciar.

Estos componentes pueden estar combinados de la siguiente forma:

— Aditiva: X, = T,+ C,+ S,+ /,

— Multiplicativa : X, = T,- C,- S,- /,

La forma multiplicativa se puede transformar en aditiva de forma rápida mediante una trans-

formación logarítmica.Durante el resto del capítulo nos centraremos en el componente estacional y en la ten-

dencia.

• • 4.2. Desagregación de las componentes de una serle temporal

La no obsenabilidad de los componentes anteriores conduce a su extraccion. El seguimiento

de un fenómeno a través de la evolución observada puede generar grandes incertidumbres

y parece aconsejable realizar dicho seguimiento a partir de la evolución subyacente. Por tan-

to. suele ser la tendencia (que nos proporciona dicha evolución subyacente) el componen-

te de mayor interés. No obstante. cualquier otra señal o componente puede ser de interés.

en particular el componente estacional.

La determinación de la tendencia

Existen tres métodos para la obtención de este componente:

a) La tendencia determinista: en este método se toma el tiempo como variable expli-

cativa y se realiza un análisis de regresión mediante el ajuste mínimo cuadrático

que ya vimos. Se trata de calcular la recta de la tendencia en la regresión

v = a + b t. Si se utiliza esta metodología es aconsejable que la serie esté des-

estacionalizada (sin el componente estacional) y que se intuya a partir del dia-

grama de dispersión una tendencia lineal. Una vez realizado el cálculo, podemos

predecir siempre que el coeficiente de determinación indique que el ajuste reali-

zado es representativo.b) La tendencia evolutiva: se calcula utilizando el procedimiento de las medias móvi-

les. El método de las medias móviles, para un período concreto, es simplemente la

media aritmética de los valores de este período y los cercanos a él. Se considera

este método mucho más realista que el de la tendencia determinista al no creer que

se pueda predecir la tendencia de forma exacta mediante una recta sino que ésta es

algo aleatorio, dinámico, que va cambiando a medida que lo hace la serie y en fun-

ción de la misma.

Page 92: TURISMO Í A

86 Estadistica aplicada al turismo

Se trata de diluir la imponan,iu individual de una observación calculando lamedia aritmética simple de dicho valor y los de su alrededor. Al realizar el cálcu-lo, siempre quedarán algunas medias móviles sin determinar al principio y al finalde la serie. Cuanto mayor sea el orden de la media móvil, mayor será ésta pérdida

de información.c) Diferenciación de la serie: se supone que la serie evoluciona lentamente en el tiem-

po, de manera que en el instante t la tendencia debe de ser similar a la del instan-

te r-l. Se calcula:

y,=x,—x,_,

Variación estacional

Cuando se observan datos mensuales, trimestrales, cuatrimestrales, etc., podemos esperarun cierto efecto estacional. En este apartado vamos a determinar dicha variación estacio-nal. Se trata de aislar este efecto mediante el cálculo de coeficientes estacionales para, acontinuación, desestacionalizar la serie, o sea, calcular la serie deduciéndole dicho efecto

estacional.Los pasos a seguir para el cálculo de este componente en el supuesto de una serie adi-

tiva y datos mesuales, eliminando la influencia de las restantes fuerzas, son:

Cálculo de una tendencia (que puede recoger en parte el componente cíclico),mediante una media móvil. Con datos mensuales la media móvil sería del tipo:

1 12(yr-6+ yt -5+...+ vt+vt+l +...+Yr+ 5)

Dado que la media móvil realmente no se puede centrar al ser de orden par, sepromedia:

Mc''- = 2[M'' + M"(+ 1 )]

1

)2(2 yt- 6 + yt- 5+.. . + yt+yt + 1 + ... + Yr +5+ 2 yt+ 6)

2. Considerando que la variación cíclica está incluida dentro de la tendencia, se pue-den eliminar ambos componentes restando los valores originales menos los valo-res de la tendencia calculados en 1.

(yt—Mc12)• 100

3. El paso siguiente es eliminar el componente irregular. Se calcula la media aritmé-tica de los valores obtenidos en 2 referidos a cada momento de repetición anual.Es decir, se calcula la media de dichos factores para todos los meses de enero, febre-ro, etc., que se tomará como coeficiente de estacionalidad del esquema aditivo.

1n[(yli—Mcy,)• 100+...+ (yni—Mc")• 100]

para i = I, 2,... n, donde el primer subíndice de y y M hace referencia al año (n entotal) y el segundo al mes de referencia.

Los valores desestacionalizados de la serie original serán:

yti' = (vii — s i) • 100

M" =

Si =

Page 93: TURISMO Í A

Caplulo 4 Introducción al análisis de series temporales 87

En caso de esquema multiplicativo. las diferencias de las fórmulas anteriores se cam-bian por cocientes.

En las anteriores líneas hemos descrito el proceso de descomposición más universal:el XII. Se observa cómo. únicamente a partir de los datos que proporciona la propia seriey realizando medias móviles, extraemos la tendencia y el componente estacional al tiempoque podemos obtener la serie desestacionalizada. Evidentemente. con las nuevas series sepueden realizar predicciones. Eso sí. las predicciones se deben limitar a un futuro próximo.ya que no sabemos si en un futuro lejano se van a introducir fenómenos nuevos que afec-ten a la variable estudiada.

• • 4.3. Autoco«elación

En muchas ocasiones. los valores de una serie dependen linealmente de los valores obser-vados en un tiempo anterior. Se denomina autocorrelación. a la correlación de los pares devalores de una serie a una misma distancia (por ejemplo, entre un valor y su inmediato ante-rior, o entre los valores del mismo mes de años distintos cuando la serie es mensual, etc.).

La existencia de autocorrelación en una serie temporal indica, en mayor o menor medi-da, la dependencia lineal que una serie tiene con ella misma con un retardo en el tiempo.Su forma de cálculo es calculando el coeficiente de correlación que vimos en el Aparta-do 3.2 entre, ahora. dos series: la serie original y la serie original retardada h períodos.

La correlación entre los diferentes valores de una serie será de gran valor para lo quese conoce como identificar la serie, así como para descubrir la existencia de estacionalidad.

4.4.1. La Tabla 4.1 nos muestra el procedimiento XII para unos datos cuatrimestrales sobre las reservas realizadas en un hotel

andorrano.

Tabla 4.1. Datos cuatrimestrales X, n, , +/, /VEN S, X, - S,

0,704 0.871 1.579 1,191 1,178 0,13 -0.093 1,284

0.77 1,419 -0,649 -0,611 1,381

4 2,296 1,578 0318 0,704 1,593

1.667 1.836 -0,169 -0,093 1,76

1,544 2,034 -0,49 -0,611 2,155

2,89 2,231 0,658 0,704

2,26 2,368 -0,108 -0.093

1.955 2.607 -0.652 -0,611

3.606 2.807 0,799 0,704

2,859 2,928 -0.069 -0,093

2,498 3,129 -0,631 -0,611

4,029 3,367 -0,662 0.704

3,574 3,616 -0,042 -0,093

3.2 -0,611

6 7 8 9 10112131415 J

Page 94: TURISMO Í A

88 f9iüstica aplicada al (ulism0

EJEMPLOS 1E ES11011 • EJE M►LOS DE ESi1010 • EJEMPLOS 0E ES1U011

El primer paso consistía en obtener el componente Tendencia construyendo las medias móviles adecuadas. Así. para los dos

primeros cuatrimestres para los que es posible:

1,579 + 1.191 + 0.77 ,1,191 + 037 + 2,296 = 1,178 — 1,419

El resto aparecen en la tercera columna de la tabla anterior.A continuación se extrae dicho componente de la serie original. Esto se observa en la cuarta columna de la tabla anterior

X,— MM =S,+I,

Se calcula el índice de variación estacional bruto (IVEB). Se trata de la media para cada uno de los cuatrimestres. La sumade estas medias debería ser nula por definición (ya que, en buena lógica, se trata de una medida relativa y, por tanto, si un cua-trimestre es bueno para las reservas hoteleras respecto a otros, los otros deberían compensar esa bondad). En nuestro caso estono es así, pero sólo por un residuo de 0.17.

Como vemos, de cara a obtener el índice de variación estacional neto, se fuerza a que la suma de estas medias sea nula

repartiendo el citado residuo entre los cuatrimestres. El resultado se presenta en la quinta columna.

Media QI = (0.719 + 0,658 4+ 0,799 + 0,662) — 0,709

[0013 +( 0619) +( — 0108) +( 0188) +Media QII = ( -0,042)] = 0,087

Media QII = 4 =

—0,605

IVEN —o IVEN = IVEB IIVEB

S

IVEN = IVEB — IVS B = Repartimos el 0,017

Q1 IVEN = 0.709 — 0,017 = 0,7114

3

QIl IVEN = —0,087 — 0.17 — 0,093

QII IVEN = —0,605 — 0.017 —

—0.605

Una vez tenemos calculado el índice de variación estacfnnnl neu va ce r,^^e^ie eaienlar lo ^P.,P ^iece^r^^:,,o^t;oo,io ,ta,t

tiendo de la serie original el índice de variación estacional neto. La observamos en la sexta columna.

0,017

J

Page 95: TURISMO Í A

patos rrardama GrtfimsP.atta tnt,daees ventana

a1^1^IJ _ Ddsaaoaedadesde.alalis.Cosa aeoedades m datos... 2121E1 '44I

granasen/tos - Calma de datos SPSS

Leta taradaDen I .a• IInserta caso

Ir a caso-160.r

16 11 c., Ordenar cum...

Reescraoses

Fular arder.56 Ewa...7 osarlo ortogonal

Seo netas adoro...9

Sawa.. casos...10 Pondera casos...11

12

Los casaat- El pond caw

J44evaIes

ti-«tes Paodridad Rwatk arend noena

cancaa IG7r. tre=-e: Tesc Ahor

Dmvntt DasMee 12 13

sm. _ d^as wbora^:

Sem. chas keonaóesE.Haces

D. horas

Dias hae bp4r464j81 J

Fechas ee,glesMole 'e--^-' .1A

y- os- flor de datos SSS

Arriano Erices Date Transformar Rnas:a Grafc. Uidades Vats

Infames

Badea. desertaos L411 ya,. Tablar

nene( year no.Cana,/ sedas .3. IModela mear cereraModem riot..--;_^ •3'8

1978 Correbaaes3 1978 Reaesen

4 16 67 1978 toglren

S 1 7 00 1978 Oa,da

6 1724 1978 Resano Se sacos •

7 1746 1978 EscaraProbas ns paramera. •

8 1978Soasado e>yonerdtl.

9 1978 Sta,,.-an ca a.ñaregesco -.10 1978 Pes pastas mates

1978 Miss ce sabes venidos-. ,==1 12 18 66 1978

c

1..1. A partir de los datos del fichero Grandesexitos.sav trate de:

Realice la descomposición estacional de la serie abenef» v trate de conocer los meses donde normalmente ha tenido másfuerza el producto de la agencia.

1 Cree la serie de la primera diferenciade la variable Benef y el primer retar-do de la serie original.

a erro Ea^ Ver

Compruebe si la serie abenef» pre-senta autocorrelación.

Solución

a) Para realizarla descomposición esta-cional, el primer paso consiste en que elprograma reconozca la variable como unaserie temporal. Para ello, tenemos quedecir de qué fecha a qué fecha tenemosobservaciones para la variable Benef.

Para ello. accedemos al menú ,/Datos.definir fechas» (Figura 4.1).

Una vez aquí, le indicarnos la tipolo-gía de los casos que componen nuestroarchivo. En nuestro caso indicamos quelos casos son años, meses y le indicamosa qué momento temporal correspondenuestra primera observación. Para nues-tro caso, la primera observación corres-ponde a enero de 1978. O sea, el primercaso es: año=1978 y mes=1 (Figura 4.2).

Observamos que SPSS nos ha crea-do tres nuevas variables que contienen elaño, mes y fecha de cada observación.respectivamente. Una vez aquí. ya pode-mos realizar la descomposición estacio-nal de la variable Benef. SPSS nos ofrecedirectamente el índice de variación esta-cional neto. Para ello acudimos al menú«Analizar. Series temporales. Descom-posición estacional. (Figura 4.3).

Nos aparece el siguiente submenú enque marcamos la opción ,/aditivo... Conla indicamos el esquema que creemosgue la serie.

Recordemos que el esquema aditivoes recomendable, porque aunque el es-quema sea multiplicativo, con una sen-cilla transformación sobre la serie sepuede convertir en aditivo.

elelSI

4

a

h

Caplulo 4 Inhoduooido el análisis de seres temporales 89

4.5. Ejemplo de resolución a partir de SPSS

Page 96: TURISMO Í A

Resulte of SEASON procedure for variable BENEFAdditive Model. Equal weighted MA method. Period = 12.

SeasonalPeriod index

1 .0632 .1833 .2134 .2625 .171

.050-.053-.187-.158

10 -.12911 -.15112 -.263

The following new variables are being created:Name LabelERR_1 Error for BENEF from SEASON, MOD_4 ADD EQU 12SAS_1 Seas adj ser for BENEF from SEASON, MOD_4 ADD BOU 12SA0_1 Seas factors for BENEF from SEASON, M00_4 ADD EQU 12STC_1 Trend-cycle f.- R ENEF from SEASON, MOD_4 ADD EQU 12

Fillri44.

9(1 Estadística aplicada al tunsmo

EJEMfLI OE MIL 11111 I ►1111 11 OE SISO • EJEMPLO IE IESILItI I I 111111 IE IPSO

I.I output de SPSS es el que aparece en la Figura 4.4.

Como se puede observar con facilidad a partir del índi-

ce estacional (seasonal índex) los seis primeros meses decada año tienen un efecto positivo en la variable, es decir.durante los seis primeros meses se obtienen los mayoresbeneficios netos de este producto. Parece ser que el productosuele tener su momento cumbre en primavera. La segundaparte del año. en mayor o menor grado según el mes, pre-senta un efecto estacional negativo. Seguramente en lasegunda parte del año los artistas están más preocupadosde su gira española. que tradicionalmente suele ser en vera-no. así como de la promoción de sus discos para el momen-to de mayor ventas, la Navidad.

Observamos cómo la salida nos indica. igualmente. queel programa nos ha calculado cuatro series nuevas. El tér-

mino irregular (err_1 ), la serie desestacionalizadasas_l 1. el índice estacional (saf_1) y el componen-

te tendencia-ciclo(stc_l). Dichas cuatro series semuestran en la imagen de la vista de datos (Figura 4.51.

_ 9r andesetatos - Editor de datos '5S

ArdNo Edoon er Datos trasforma aneto Grifeos Utilidades

J JJ J JJ .F1E1 E11^IEI '4141

Saf 1

1 ea_

benef I year_ morad_ I date_ I err 1 sas 1

1670 1976 1 JAN 1978 09462 16 91

16 19 1978 2 F E 8 1978 - 05761 16001_ 18252 16 •z1.J

3 16 38 1978 3 MAR 1978 - 07402 161:. 2t340 16 24062

4 16 67 1978 4 APR 1978 - 07957 16 412-- 26191

5 1700 1976 5 MAY 1978 00822 1682(.- 17052 16 81726

6 17 24 1978 6.JUN 1978 03504 17 169 05009

7 17 46 1978 7 JUL1978 04913 17.512)- -.05331 17 46318

e 1755 19781 8'AUG 1978 ' - 02766 17 7384. -.18742

9 1779 19781 9 SEP 1978 - 137% 17 9496 -- 15757

10 1844 19-178 10'0CT 1978 I 11158 185651 • - 12881

1866 1978 111NOV 1978 ' 02182 18.811" - 15089 18 79106

12 1886 1976 12 DEC 1978 I 02613 19.127:- -26327 19 09914

3 19 41 1979 1'JAN 1979 ' - 03988 19.340'. 06282

14 1981 1979 2rFEB 1979 - 08434 19 6264_ 18252

15 2032 1979 3 MAR 1979 ! 02220 20.10560 .21340

16 20 76 1979 41APR 1979 .01889 20 50109 26191 20 4822017 21 00 1979 5IMAY 1979 - 05833 20 82948 17052 208878218 21.39 1979 61JUN 1979 02282 21 33791 0500.9 21 3150919 21 67 1979 7 JUL 1979 -.03854 21 71831 -05331; 21 7568520 22 04 1979 8 AUG 1979 22 22542 - 18742 22 2225321 2254 1979 9 I SEP 1979 00298 22 70357 - 15757 22 6976022 2302 1979 1010CT 1979 -.02197 23 15081 -12881 23 17278

3 2356 1979 11 NOV1979 11393 23.70589 - 1508.9 23 5919524 23 80 1979 12 GEC 1979 14813 24.06427 - 1b1í/ 239161425 24 14 1980 1 - 980 - 08455 24.07918 06282 24 1637226 24 51 1980 2 r:: ,9W - 11534 24 4468227 2495 1980 24 8070728 25 59 1980 09722 25 2298729 25 82 1980 02100

30 26 03 19130 599 02518 25 97591 05009 26 0010931 26 32 1980 7 01966 =_ 716E, =6 35562\vota de dalos Volada variable! j I tl

5055 0 procesador esta preparado

^

Page 97: TURISMO Í A

Frdvrp Edcm re Datos Trardama Nate Crañms tRidades Ventana

^I 61 I .gaI QJ JJ Renga de alea[a¢apút...

Contar acabases_RecoBca a

bond YE categoraervarvnes... I sas_7 I sat_11 I16

rer,g .08 estor. os a casps.. 79462 1601318 06282 15 91856 a 2 16 19 .ecaNcaoa+aumnábta... )5761 16 00348 18252 16 06109 3 16.38 - - . 7402 16 16660 21340 16 24062 4 16.67I p ecop.aae =abes oerñdvs... 7%7 16 411161 26191 16 48976 5 17.001 20822 16 82548 17052 16 81726 6 17.24 .. -. .- 03504 171899 05009 1,'.15487

7 1746 ,_-_ - "` _ 04913 1751231 -05331 1746318 8 1755 1970 E - 5 1976 - 02766 17 73842 - .18742 17 76608 9 17.79 197E .- =EP 1978 - 13736 17.94957 -15757' 18 08693

10 18 -441 197E ' 0 OCT 1978 11158 18 56581 - .12881 I 18.45423 1 1 18.66 i 197E ' " ':1V 1976 .02182 18.81289 - 15089 18 79106 12 18.86 197E - - - _ 1978 02813 18 12727 -.26327 , 19.0991413 19.41'' 1975 - 039 8 19.34518 06282' 19 38806

-yee_

sic-1 I oar I va' I ya' I

31 26 E: 1960=Vista de datos A Veta de venables

Gee see temporal

1 4 19.81 j 1979 - _ = 1979 - 08434 19.62848 18252 19 7128215 20.32 ¡ 1979 - -5 1979 , .02Z^016 20.761 1979 4 APR 1979 17 21 001 1979 5 MAY 1979 18 21 391 1979 6'JUN 197919 21.67 ! 1979 7 JUL 197920 22.04 ^ 1979 AUG 197921 2254 1979 9 SEP 19792."1 23.02' 1979 10 OCT 197923 23 5E 1979 i 11 NOV 1979 24 23 8C25 24.14 1900' 1 JAN 1980 26 24 5' 1900'i 2 FEB 1980 '', - 11534 I 24.33148 18252 , 24 4468227 24 98-1 1980" 3 !'4R 1980 - 06847'28 2559 1980'. 4 _-g 7980 ^ .09722'29 25 67 1980 8 - ■ 1960 - 0210030 26 0= 1980 = ..'. 1980 . -.0251E

1979 112 DEC 1979

5.55 El entesadkr esta preparado

- 08455;

- 0583302282 21 33791 .05009 21 31509

- 03854 21.71831 - 05331 21 7568500289 2222542 - 1 8742: 22.22253100298 22 .70007 - 15757 697601

- 02197 23.15081 - .12881 23 17278111 393 . 23 70569 -.15089 23 59195 '

0176

01889

14813'

25 3270925.6514825.97591

20 5010920.82948

24 064272407918

24 73860

26 3'53 1lai

20 10560

- .26327 ^, 23 91614

21340 24 8070726 191 25 22987

17052 25 6204805009 26 00109'6331 Y 85t_

21340

06282 24 16372.

2619117052

20 0834020 4822020 88782

Crear sese temporal � tenete> YEAR. ne patudo

•^ MONTH . peed 12in Erra le BENEF Iron S

Seas a4 sale BENEIT Seas lades le BESE

? redoyde lo. BEI.E

Nueras venables

Nombres. lunesnFvet

I_raenoa J

oda.

Peroárided actual 12

FINO

ti ssistgResultVariable

amor_1

Values First :.art .a..a Crea_ingReplaced Non-Miss Non-Miss Cases Function

2 288.

Capítulo 4 Introducción al análisis de series temporales 91

EJEMPLO 1E IESILIIIÍI 1 f11í11 1E SPSS • EJEMPLO 1E IESILILIÍI 1 P11E11 1E SPSS

FilIt14.6.

Se puede comprobar fácilmente que la serie originalse obtiene sumando el componente tendencia-ciclo, elcomponente irregular y el componente estacional. Deigual manera, se obtiene la serie desestacionalizada comola serie original menos el índice estacional.

b) Para obtener la serie primera diferencia de la serieBene(, entrarnos en el menú «Transformar. crear serie tem-porab> (Figura 4.6).

A continuación. seleccionamos la serie Benef en elrecuadro de nuevas variables. así como la función dife-rencia y el orden I. El cuadro de diálogo se representa enla Figura 4.7.

La salida de SPSS nos indica que hemos perdido undato (la primera obser vación), ya que el primer valor noperdido es la obser v ación 2 (Figura 4.8).

En el visor de datos obser vamos la nueva variablecreada (Benef I) (Fi gura 4.9).

Page 98: TURISMO Í A

Nueves eeiabler

- Picotee r lu, :

JMIME

Pegas

Restablecer

Nam6re I : -. -Furm

ayude

I Raa ^

Orden 17--

Penodddadadual 12

^

Fluía 1.10.

i 6er/el

r> YEAR, nd perodcs^ MONTH percd 12s^ Ene la BENEF bota S

.^ Seas ad ser le BENEI

.^ Seas lades le BENE

s^ Tiendcyck Ice BESO

•^ DIFRBENEF.1 ) rbenN.i^Results of SEASON procedure for variable BENEFMissingResult Values First Last Valid CreatingVariable Replaced Non-Miss Non-Miss Cases FunctionLBENEF_1 _ 288 287 LAGSIBENEF,11

l i

92 EStadstica aplicada al turismo

EJEMPLI OE IESILIEIÍI 1 PIITII IE SPSS • EJEMPLO 1E IESOLIEIÍI 1 P11111 OE SPS

bevel year_ month_ date_ I en_1 sas_1 I sal 1 stc_1 benef 1 I

1 1608 1978 1 JAN 1978 09462 16 01310 OE: -- 15 91856

2 16 19 1978 2 FEB 1978 - 05761 1600348' 18252 16 06109 11

3 1638 1978 3 MAR 1978 - 07402 16.16660 21340 16.24062 .19

4 16 67 1978 4 APR 1978 -.07%7 16.41009 26191 16 48976 29

5 17.00 1978 5 MAY 1978 00822 16 8254E1 17052 16.81726 32

6 17.24 1978 6 JUN 1978 03504 17.18991 65009 17.15487 24

7 1746 1978 7 JUL 1978 1 04913 17.51231 -.05331 17 46318 22

8 1755 1978 8 AUG 1978 I -.02766 17.73842 - 18742 17 76608 ce

9 17.79 1978 9 SEP 1978 I - 13736 17.94957 -.15757 18 00693 24

lO 18 44 1978 10 OCT 1978 T 11158 18.56581 - 12881 18.45423 64

11 18.66 1978 11 NOV 1978 .02182 18 8/289 -.15089 18.791% 22

12 18 86 1978 12 DEC 1978. 02813 19.12727 -.26327 19.09914 20

13 19 41 1979 i 1 JAN 1979 . - 039138 19.34518 06282 19.38506 54

14 19.81 1979 2 FEB 1979 -.08434 19.62848 18252 19.71282 40

15 20 32 1979 3 MAR 1979 02220 20.10560 21340 20.08340 51

16 20 76 1979 4 APR 1979 .01889 20 50109 .26191 20 48220 44

17 21. CO 1979 5 MAY 1979 -.05833 20.82948 17052 2088782 24

18 21.39 1979 6 JUN 1979 02282 21.33791 05009 21 31509 39

19 21 67 1979 7 JUL 1979 -03854 21 71831 -.05331 21.75685 28

20 2204 1979 8 AUG 1979 .00289 22.22542 -.18742 2222253 37

21 2254 1979 9 SEP 1979 .00298 22.70057 -.15757 22.69760 50

22 23.02 1979 10 OCT 1979 -02197 23 15%1 - 12881 23.17278 48

23 2356 1979 11 NOV1979 11393 23 70589 -.15089 2359195 53

24 23.80 1979 12 DEC 1979 .14813 24 C6427 -.26327 23.91614 25

25 24.14 1980 1 JAN 1980 • 08455 24.07918 .06282 24 16372 34

26 24.51 1980 2 FEB 1980 -.11534 24.33148 .18252 24 44682 37

27 24.95 19E0 3 MAR 1980 -.06847 24.738ú0 21340 2480707 44

28 25 59 1950 4 APR 1980 09722 25 32709 26191 25 22987 64

29 25.82 1980 5 MAY 1980 .02100 25.65148 17052 25.63348 23

30 26.03 1980 6 JUN 19E0 • 02518 25 97591 .05009 26 00109 20

31 26 32 1980 7 JUL 1980 _ r;., _ _ i . 1 -.05331 26 35562 30-T

nyen. dedatos Mate de mandes .-'SP55 O procesados esta peparado

Para crear la función retardos de la variable original seaccede al mismo menú («Transformar. Crear series tempora-les»). En él. se selecciona nuevamente la variable originalBenef, pero en función se selecciona la función retardos deorden 1. En el recuadro donde tenemos que introducir elnombre de la nueva variable creada cambiamos el nombrepara que no nos borre la variable anterior. A la nueva seriela llamaremos, por ejemplo, Ibenef I (Figura 4.10).

Si aceptamos, obtendremos una salida en el visor deresultados muy similar a la obtenida al crear la variableBenef I. Se nos indica de nuevo que hemos perdido unaobservación (Figura 4.11).

La nueva variable Ibenef I la podemos observar en elvisor de datos (Figura 4.12).

c) Para conocer la autocorrelación de la serie Benef sim-plemente se calcula la correlación entre la serie originalBenef y el primer retardo Ibenef I calculado en el aparta-do anterior. Para ello, «Analizar, Correlaciones, Bivariadas»(Figura 4.13).

Page 99: TURISMO Í A

1978 2 1619

3 16.38 1978

4 16.67 1978

5 1700 1978

6 17 24 1978

7 17 46 1978

8 1755 1978

9 17 79 1978

10 1844 1978

11 18.66 1978

12 18 % 1978

13 19.41 1979

14 1981 1979

155 20 32 1979

16 20 76 1979

17 21 00 1979

18 21 39 1979

19 21 67 1979

vamend 1

Retasotopined •

aas4ce

Reducodn de datos

(scares

pruebes no pee sndtrices

Sra ten opte$Supernuenoe

Respuestas Restyles

Aram de vetoes perdidos...

11 UtL 19/0 u2811

1 JAN 1979 - 03946

2 FEB1979 -.08434

3 MAR 1979 02220

4 APR 1979 01889

5 MAY 1979 - 09833

6 JUN 1979 02282

7 JUL 1979 - 03851

I sas_1 I sal_1 116 01318 06282

18252

pacaks... 21340

26191

16 82548 17052

17 18991 .05009

1717512317- 05331

17 738421 - 18742

17 94957 -.15757

stc_1 I band 1

15 91856

16 06109

16 24062'

16 48976 29

16 81726 32

17 15487

17 46318

17 76608

18 08693

40 1941

51 19 81

2032

3376

21 00

21 39

a11alaI N I . I _1 OE? 1No me tEaaew,ros eeeoar-oe l

1 S nel_1 ¡ Tabas

beset year mon Ccerpwat matt.

1d

16 GB 1976Modelo leed pener

Models, mitos

• 18 56581

1608

19 1619

18.81289

19 1272

19 34518

19.62848 18252 19 71282

20 10560 21340 20 08340

20 50109 26191 20 48220

20 82948

21 33791 05009 21 31509

21 71831 I - 0533; 21 75685

fapifulo 4 Introducción al análisis de series temporales 93

EJEMPLI If IESILIfIÍI 1 P11111 p c SPSS • EJEMPLI 1E IESILIfIÍI 1 flllll IE SPSS

Ardv:o EdrtM Ver (Wow Trens/nm.e lvtln. (iehcos V.4ledts vet-ewe

aI^IsIJ I . I_J r= m J r r' ^Ir1^1 2'^

s Ina net

p^^—

banal year_ I month_ date err, 1 sae 1 I

1608 1978 1 JAN 1978 09462 16 01318

2 16 19 1978 1– 2FEB 1978 05761 16 00348 16 %

3 1638 1978 3 MAR 1978 • 07402 ^ 16 16660'. 2134_ '624. 16 19

4 1667 1978 4 APR 1978 - 07%7 16 41009I 26191 1638-

5 1700 1978 5 MAY 1978 00822 16 82548 1705. '6 81-. 1667

6 17 24 1978 6 JUN 1978 03504 7.18991 0500'= '.7 15-. 1700

7 17 46 1978 7 JUL 1978 04913 17 512311 0533 '7 4E: 1724

177F: 174€8 1755 1978 8 AUG 1978 • 027661 17 73842 - 1874.

9 17 79 1978 9 SEP 1978 13736: 17 94957' - 15757 18 03i 1757

10 18.44 1978 10 OCT 1978 11158 18 565811 - 12881 18 454. 1779

1866 1978 11 NOV 1978 02182 18 81289 1 15089 18 79'

12 1886 1978 12 DEC 1978 02813 19 12727 26327 19 031.'

13 1941 1979 JAN 1979 - 03988 19 34518 06282 19 3-c=

14 19.81 1979 2 FEB 1979 08434 19 628481 18252 1971.-. 19.

15 20 32 1979 3 MAR 1979 02220 20 10%13 21340 20 08:4 1981

16 20 76 1979 4 APR 1979 01889 20 501091 26191 20 48220 20 32

17 2100 1979 5 MAY 1979 - 05833 20 829481 17052 20 887821 20 76

18 21.39 1979 JUN 1979 21 00

19 2167 1979 JUL 1979 21 39

20 2204 1979 AUG 1979 21 67

21 22 54 1979 SEP 1979 22 04

22 2302 1979 OCT 1979 2 54

23 2356 1979 NOV 1979 23 02

24 23.80 1979 DEC 1979 2356

25 24 14 1980 JAN 1980 23 80

26 24.51 1983 FEB 1980 24 14

27 24% 1980 MAR 1980 24 51

28 25.59 1980 APR 1980 24 95

29 25 82 1980 2559

30 26 03 1983 25 82

31 26 32 1980 7 JUL 1980 01968 26 37531=ma. de drape AVMs devesle ll a l

Ovss iEi d«esadr ese wneedo

J

Page 100: TURISMO Í A

- Eaeeoaves de condensan--

Ñ Pesan r Taub de Cendal r Soeannen

- Prueba deegJr.ecíón .._.-

r Bieldar r Uridad

17 Maca las correlaciones ayLCatrcas

Fqarra 4 1,1.

,MDIIiH Va+r.d '2J7 Erra la BE IIEF ho

f Seo, eg ea la BE

i Seas lactas la BE

^ Trerácyck fa BEr

aj DIFFIBEHEE 1] [te

VaieMec acwa

slESEIau' i: Pegar

^

Correlaciones

LAGSBENEF IBENEF,1)

BENEF Correlation de1 1 0001")Pearson

Sig (bilateral) 000N 288 287

LAGS (BENEF,1) Correlaclon de1 0000 1Pearson

Sig (bilateral) 000N 287 287

La correlación es significativa al nivel 0.01 Ibrlaterall

A continuación. introducimos las series Benef y lbenef I (Figura 4.14). La salida que nos muestra SPSS es la de la Figu-

4.15.Observamos una autocorrelación muy elevada, de orden unitario y totalmente significativa. La variable Benef depende. por

tanto, de su pasado anterior más inmediato. La serie depende en gran medida de sí misma. Seguramente el componente quedetermina de forma más relevante el beneficio neto que la agencia extrae por dicho producto es el contrato que tiene con la emi-sora de radio. Dichos contratos se suelen ir renovando condiciones muy similares a las del último contrato firmado.

ra

Primavera 18 18,3 18,6 18,4

Verano 27,7 27,5 29,4 30,5

Otoño 21 22,1 21,8 23,7 •

Invierno 17,5 18,2 19,4 19,7

94 Esladíshca aplicada dl rl)nsmO

EJEMPLO lE IESILILIÍI I P1 1111 IE SPSS • EJEMPLO OE RESOLItIÓI I P11111 DE SPSS

4.6. Ejercicios propuestos

wEjercicios hpo

46.1. Se ha analizado la serie temporal correspondiente a losempleos netos creados por los juegos europeos del depor-te y la salud en los últimos cinco años a partir de los datostrimestrales de los distintos países donde se han cele-brado. La tendencia viene dada por la siguiente recta deregresión: T = 342,3 + 6.7t (donde res el número de tri-mestre desde I a 20). Los coeficientes de variación esta-cional vienen dados en la Tabla 4.2.

3

0,9

ta la tendencia y la variación estacional. Calcule igual-mente la predicción para los juegos del año 2004 que secelebrarán en Mataró.

4.6.2. Se conoce el precio de las comidas servidas en diversosrestaurantes de León durante las siguientes estaciones yaños (en euros):

4 1,3

Se pide:

Encuentre los valores predichos de la serie para el pri-mer año de celebración de los juegos. teniendo en cuen-

Se pide:

a) Descomponga dicha serie temporal en sus compo-nentes no observados. Calcule la tendencia por los dosmétodos que ya conoce (determinista y evolutivo). l

Page 101: TURISMO Í A

Capítulo 4 Introducción al análisis de series temporales

95

EJEI[IEIIS IIIIIESTIS • EJEItIEI1S IIIIIESTIS • EJEItI[I1S IIIIIESTISb) Obtenga el índice de variación estacional.

e) Desestacionalice la serie temporal.

d) Comente la existencia de autocorrelación en laserie.

e) Represente gráficamente el índice de variación y laserie desestacionalizada.

463Una agencia de viajes de Madrid declara los ingresos queobtiene según la estación del año. durante el período1998-2001 en millones de euros (Tabla 4.41.

Calcule:

a) Los componentes de dicha serie temporal. Calcule latendencia por el método de las medias móviles.

b) La serie desestacionalizada.

Ejercicio con SPSS

4.64 Entre en la \\eb del Instituto de Estadística de su comu-nidad autónoma' (por ejemplo la web para Cataluña eswww.idescates). Bájese alguna de las series que hacenreferencia al sector turístico.

Se pide:

al La gráfica de la serie.

b) La descomposición temporal de la serie que hayaescogido. Calcule la tendencia por los dos métodosque ya conoce (determinista y evolutiva).

e) La serie desestacionalizada y comprueba si la seriepresenta autocorrelación.

di La gráfica de la serie desestacionalizada y del índi-ce de variación estacional.

1998 1999 2000 2001

Pnmacera a sa a. h -

\ tirano 10.4 10,5 11 u,v

Otoño 6,3 6.7 6,9 6.6

Invierno 4.5 4.4 4.8 4.6

' En la Web del Instituto Nacional de Estadística (www.ine.esl tiene un link a todas ellas.

Page 102: TURISMO Í A

Bibliogra is K

FERNÁNDEZ AGUADO. Carmen. Manual de Estadística descriptiva aplicada al sector turís-

tico. Editorial Síntesis, 2001.

IGLESIAS. J. A. Técnicas de investigación aplicadas al sector turístico. Editorial Síntesis,2001.

PEÑA. D. Estadística: modelos y métodos. Alianza editorial, 1991.

— Estadística para ciencias sociales. Alianza editorial, 1995.

PÉREZ, C. Técnicas estadísticas con SPSS. Prentice Hall. 2001.

SPSS Base 11.0: Manual del usuario.

SPSS Gráficos interactivos 10.0.

TOMEO PERUCHA. V. y UÑA JUÁREZ. I. Lecciones de Estadística descriptiva: curso teórico-

práctico. Thomson-Paraninfo, 2003.

Page 103: TURISMO Í A

Índice oaIftico

Atributos, 64 Frecuenciao variables cualitativas. 64 absoluta. 12

Autocorrelación, 87, 92

acumulada, 13relativa. 12

acumulada. 13

C

Coeficientede contingencia C. 65

Histograma. 15de correlación lineal r. 56de determinación o bondad del ajuste. 60de Fisher, 29de Pearson, 30

Correlaciones. 70Covarianza. 56

y correlación, 55 ÍndiceCuarto decil (D,), 24, 25 de Gini. 31Curva de concentración o curva de Lorenz, 31, 32 estacional. 90

D L

12Ley normal. 30

Datos, de corte transversal, 12

de panel, 12

temporales, 12Diagrama

de barras, 15de caja, 26 Mediana: Me, 21, 24de dispersión o nube de puntos, 55 Medidasde sectores, 15 de apuntamiento, 29, 36, 38de tallo y hojas, 16 de centralización, 35, 37

Page 104: TURISMO Í A

100 Estadística aplicada al turismo

de concentración, 29, 30de curtosis o apuntamiento. 30de dispersión, 25, 36, 38

desviaciónmedia respecto de la mediana. 27típica, 27

recorrido, 27intercuartílico. 27

varianza, 27de posición, 23. 35. 37

cuartiles, 23deciles, 23percentiles, 23

de simetría, 29. 36, 38de tendencia central, 16

mediaaritmética, 16aritmética ponderada, 17geométrica, 20

Moda: Mo, 22Muestra, 10Muestreo aleatorio

estratificado, 11por aglomeración. I Isimple, 10sistemático. 11

N

Nonagésimo percentil (P90), 24, 25

,P

Pictograma, 15Polígono de frecuencias, 16Primer cuartil (C 1 ), 24, 25

Regresión lineal, 71múltiple, 63simple, 57

S

Series temporales, 84, 89ciclo, 84, 91estacional, 84, 91irregular, 84, 91tendencia, 84, 91

Suma de cuadradosexplicada, 61no explicada o suma residual, 61total, 61

T

Tablas de doble entrada o de contingencia, 54Tendencia-ciclo, 91Teorema de Tchebychev, 29Tercer cuartil (C3), 24Tipificación de una variable, 29

V

V de Cramer, 65Variable

cualitativa, 11cuantitativa, II

continua, 12discreta, 11

dependiente, endógena o explicada, 57independiente, exógena o explicativa, 57

Variación estacional, 86

R

KRecta de regresión, 58, 66

de Y sobre X, 59 x2 de Pearson, 65

Page 105: TURISMO Í A

C

Page 106: TURISMO Í A

PEARSON

Educación

www.pearsoneducacion.co

TUR ISM O Y HOS TELER Í A

Estadística Aplicadaal TurismoJosé María Raya

Con toda seguridad la mayoría del conocimiento queadquirimos, tanto de índole teórica como práctica, presentacomo objetivo esencial la ayuda a la hora de tomardecisiones. Esta finalidad es especialmente evidente cuandotomamos en consideración cualquier técnica cuantitativa,en particular, la estadística descriptiva. Y si la estadísticadescriptiva resulta tremendamente útil para científicos,ingenieros o economistas, ¿por qué no para losprofesionales del sector turístico?

El presente libro trata a nivel intermedio los tópicos que lamayoría de textos de dicha temática suelen presentar:• En primer lugar, intenta ofrecer una exposición clara y

sencilla de los principales conceptos estadísticos sinmenoscabar el rigor matemático propio de la materia.

• En segundo lugar, el texto se orienta al sector turístico porvarias razones:

Resulta especialmente motivadora la escasa presenciade textos de índole cuantitativa realmente orientados al

sector, tratando de forma directa la utilidad que confierenlos instrumentos estadísticos a la gestión hotelera, a lasagencias de viajes o, evidentemente, a las consultorasturísticas entre otros profesionales del sector. Este hechose mitiga durante el texto incluso en forma de casuísticareal debidamente disfrazada.

Por último, y relacionado con los puntos anteriores, el texto seacompaña de la implementación y solución de diversosproblemas a partir de, probablemente, el paquete estadísticode mayor generalización, utilizado tanto en la esfera públicacomo en la privada, en la académica como en la empresarial:el programa SPSS. Así, cada capítulo viene acompañado deuna sección en la que se practica la obtención de todas lastablas, gráficos y estadísticos vistos en el mismo a partir deuna base de datos con evidente orientación turística,de forma que el lector aprenda a utilizar el paquete en dichoentorno, a interpretar sus salidas y sea capaz, por tanto,de tomar decisiones.