FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y...

44
FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y GASTRONOMIA Carrera de Administración Hotelera USO DE GOOGLE Y TWITTER EN EL NOWCASTING DEL FLUJO DE LLEGADAS A HOSPEDAJES EN MÁNCORA Tesis para optar el Título Profesional de Licenciado en Administración Hotelera WENDY FIORELLA CASTILLO VALENCIA Asesor: Giannina Crespo Del Busto Lima Perú 2017

Transcript of FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y...

Page 1: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

FACULTAD DE ADMINISTRACION HOTELERA

TURISMO Y GASTRONOMIA

Carrera de Administración Hotelera

USO DE GOOGLE Y TWITTER EN EL NOWCASTING DEL FLUJO DE LLEGADAS A

HOSPEDAJES EN MÁNCORA

Tesis para optar el Título Profesional de Licenciado en

Administración Hotelera

WENDY FIORELLA CASTILLO VALENCIA

Asesor:

Giannina Crespo Del Busto

Lima –Perú

2017

Page 2: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

  

Índice  

I. Introducción..................................................................................................................1

1.1. Planteamiento del problema………………………………......................................1

1.2. Formulación del problema.....................................................................................3

1.3. Justificación de la investigación............................................................................3

II. Marco Referencial........................................................................................................5

2.1. Antecedentes........................................................................................................5

2.2.1. Datos del Motor de Búsqueda Google.......................................................7

2.2.2. Twitter........................................................................................................7

2.2.3. Twitter y análisis de sentimiento................................................................7

2.2.4. Twitter y otras redes sociales....................................................................8

2.2.5. Big Data...................................................................................................11

2.2.6. Big Data y Hotelería................................................................................11

2.2.7. Hospedaje................................................................................................12

2.2.8. Modelo Estadístico...................................................................................12

2.2.9. Nowcasting...............................................................................................12

2.2.10. Nowcasting y Hotelería.........................................................................13

2.2.11. Nowcasting vs. Forecasting..................................................................13

2.2.13. Coeficiente de Determinación.....................................................................14

2.2.14. Modelo de arribos mensuales a hospedajes........................................14

2.2.15. Regresión Múltiple......................................................................................15

2.3. Objetivos..........................................................................................................15

2.4. Hipótesis..............................................................................................................16

III. Método......................................................................................................................17

3.1. Tipo y diseño de investigación............................................................................17

3.1.1. Tipo de Investigación...............................................................................17

3.1.2. Diseño de investigación...........................................................................17

3.2. Variables.............................................................................................................17

3.2.1. Flujo mensual de arribos a hospedajes de Máncora....................................17

3.2.2. Datos de volúmenes de búsquedas referidos a hoteles en Máncora.......18

3.2.3. Sentimiento mensual de los comentarios en Twitter................................19

3.4. Procedimiento de recolección de datos...............................................................21

3.5. Limitaciones.........................................................................................................22

3.6. Plan de análisis....................................................................................................22

 

Page 3: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

  

 

IV.Resultados.....................................................................................................................23

4.1. Resultados...............................................................................................................23

4.2. Discusión.................................................................................................................24

4.3. Conclusiones...........................................................................................................26

4.4. Recomendaciones...................................................................................................29

Referencia..........................................................................................................................31

Anexos...............................................................................................................................35

 

Índice de Tablas

Tabla 1: Arribos mensuales a Hospedajes de Máncora 2011-2016 .................................. 18

Tabla 2: Índice de Búsquedas relacionadas a hospedajes en Máncora (2012-2016) ....... 19

Tabla 3: Sentimiento mensual del término Máncora como destino de viaje (2012-2016) . 20

Tabla 4: Regresión Múltiple del primer modelo ................................................................. 23

Tabla 5: Regresión Múltiple del segundo modelo .............................................................. 24

 

 

 

 

 

 

 

 

 

 

 

Page 4: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

 

1  

 

I. Introducción 

1.1. Planteamiento del problema

El porcentaje de hogares en el Perú que tiene acceso al internet en el Perú ya superó el

50% (Ipsos Perú, 2016). Por otro lado, un 90% de peruanos que accede a internet hace

uso frecuente de motores de búsqueda como Google (Ipsos Perú, 2016). Dicha tendencia

es global y no retrocederá con el paso de los años (Banco Mundial, 2016). Con una

proporción de internautas cada vez más alta, se ha llegado a postular que los indicadores

electrónicos relacionados con las búsquedas guardan relación con los indicadores del

mundo real (Onder & Gunter, 2016).

Choi & Varian (2011) fueron los primeros investigadores que usaron los datos del motor de

búsqueda Google para predecir indicadores del mundo real. La investigación que realizaron

abarcaba temas relacionados al consumo y turismo. En cuanto a este último tópico, los

investigadores llegaron a la conclusión de que existía una relación directa entre los datos

del buscador y el número de arribos mensuales de turistas de Canadá y Estados Unidos a

Hong Kong.

La anterior investigación fue tomada como base por los especialistas en turismo que

deseaban mejorar los modelos ya existentes (Song & Li, 2008). Parte de las

investigaciones se orientó al nowcasting (Onder & Gunter, 2016). Este último concepto

hace referencia a los sistemas de predicción inmediata, es decir, predicciones del presente,

del pasado reciente y del futuro cercano, siendo utilizados principalmente en ámbitos

propios de la economía (De la Oz, 2014) . El principio básico de este sistema se basa en

obtener el máximo provecho de la información disponible publicada con la finalidad de

obtener una estimación con anterioridad a la siguiente publicación oficial de la variable en

cuestión (Dinis, Costa, & Pacheco, 2015).

Predicciones del presente, del futuro cercano y del pasado reciente son escenarios de muy

corto plazo. Si se trata de mediciones diarias, se hace referencia al hoy, mañana y ayer,un

buen ejemplo de esto son los valores bursátiles en donde es común escuchar en las

noticias financieras el valor de cierre de una acción el día de ayer, cuál es su valor actual

y qué valor alcanzaría el día de mañana (Giannone, Reichlin, & Small, 2008). Por otro lado,

si se trata de pronósticos mensuales, el muy corto plazo, hace referencia a un valor actual,

de cierre o apertura (Carriere-Swallow & Labbe, 2013). Así, por ejemplo, es posible estimar

cuántas personas arribarán a un destino turístico durante un mes vigente (que todavía no

Page 5: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

2  

ha concluído), cuántas personas llegarán durante el próximo mes y cuántos viajeros

llegaron en el mes que acaba de terminar el día de ayer (Onder & Gunter, 2016). Ambos

casos presentados son ejemplos de escenarios de muy corto plazo. Las entidades

gubernamentales siempre demoran algunos meses en proporcionar cifras de arribos a

hoteles y destinos turísticos (Dinis, et al. 2015)

En el nowcast, un futuro cercano o un pasado reciente, son términos que hacen referencia

a una extensión de tiempo que no puede superar un mes (Dinis, et al. 2015). Así, por

ejemplo, si mañana fuera 31 de diciembre del 2017, una estimación del tipo nowcast solo

puede extendeser hasta el 1 de diciemnbre del 2017 (pasado) o 30 de enero del 2018

(futuro). Los escenarios futuros que superan ese período mensual no están relacionados

al nowcast (Giannone, et.al.2008). Una particularidad del nowcasting es que puede hacer

referencia al pasado; mientras que el forecasting únicamente se centra en el futuro (Askitas

& Zimmermann, 2009). Esta necesidad de analizar el pasado reciente nace a partir de que

los arribos turísticos y otros indicadores siempre salen con meses de retrado (Dinis, et al.

2015).

En este caso, se escogió a Máncora como objeto de estudio, el cual es uno de los seis

distritos de la Provincia de Talara, ubicada en el Departamento de Piura (BCRP, 2012). Su

principal recurso turístico es el balneario de Máncora, el cual también funciona como caleta

de pescadores (MINCETUR, 2016) . En los últimos años se ha convertido en uno de los

ejes turísticos del norte del país (BCRP, 2012). Conforme el flujo de llegadas de visitantes

a Máncora ha ido creciendo, también se ha ido incrementando la oferta hotelera

(MINCETUR, 2016).

En el 2015, un 73% de los vacacionistas nacionales que visitó Píura afirmó que buscó

información en internet antes del viaje y un 46% indicó que visitó Máncora (PROMPERU,

2016a). Por otro lado, un 62% de extranjeros señaló a dicho medio electrónico como el

que más influyó en la elección de Piura como destino y un 88% de ellos arribó a Máncora

(PROMPERU, 2016b).

En Máncora, los hospedajes categorizados solo han concentrado un 4.5% de los arribos

totales durante el período 2012-2016 (MINCETUR, 2017). Esta proporción se ve reflejada

también en los registros de TripAdvisor, ya que solo 14 de los 108 hospedajes registrados

en Máncora cuentan con una categoría (TripAdvisor, 2017). La actividad turística y hotelera

resulta fundamentales para el sostenimiento de Máncora (BCRP, 2017)

Park, Lee, & Song (2015) indicaron que cuando la proporción de viajeros que busca

información en la web antes de viajar a un destino se hace mayoritaria surge un problema

Page 6: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

3  

de investigación: saber si el número de búsquedas puede ser empleado para modelar los

arribos a hoteles que se encuentran en el área de influencia del punto de destino elegido.

Dicha posible relación también fue planteada por Camacho & Pacce (2016) para el caso

del mercado hotelero español; ambos autores mencionaron que los datos del motor de

búsqueda Google contribuyen a la predicción de tendencias del mercado hotelero en

escenarios de muy corto plazo.

Por otro lado, en el ámbito de la demanda turística, Abbasi, Hossein, Magherbi & Waller

(2015) señalaron que redes sociales como Twitter resultan útiles para la estimación de la

demanda, identificación de la ruta seguida, tiempo requerido para los desplazamientos,

entre otros. Bigne, Andreau, & Oltra (2017) señalaron que los datos de Twitter resulta últiles

para el modelamiento de los ratios de ocupación de hoteles.

La presente investigación pretende determinar si es posible usar los datos del motor de

búsqueda de Google y la red social Twitter en la construcción de un modelo nowcasting de

arribos mensuales a hospedajes en Máncora.

1.2. Formulación del problema

“¿Resultan utilizables los datos del motor de búsqueda Google y la red social Twitter para

construir un modelo nowcasting del flujo de arribos mensuales a hospedajes en Máncora?”

1.3. Justificación de la investigación.

La investigación resultará de utilidad para empresas hoteleras que operen en Máncora,

pues encontrarán una variable asociada a la demanda que se actualiza en tiempo real.

(Camacho & Pacce, 2016). Por otro lado, las autoridades gubernamentales podrán estimar

la cantidad de arribos a hoteles de dicho distrito antes de tener datos oficiales gracias al

modelo nowcasting (Park, et al., 2015) .

A nivel global coexisten los trabajos de investigación que estudian la demanda turística y

hotelera (Park, et al., 2015) .No obstante, en el Perú solo existen estudios asociadas al

flujo de arribos de turistas. En este sentido, este es el primer estudio acerca de arribos a

hospedajes.

Desde un punto de vista académico, quienes estén interesados en el modelamiento de

arribos a hoteles en el Perú, encontrarán en este documento un soporte para la inclusión

de una nueva variable externa: el volumen de búsquedas. Este indicador, además, logra

Page 7: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

4  

cuantificar un elemento que solo se podía obtener mediante encuestas: el interés hacia los

hoteles de un destino turístico (Zhang, Shu, Ji, & Wang, 2015). Por otro lado, los datos de

Twitter son también introducidos como nueva variable para la construcción de la demanda

hotelera peruana.

El documento pretende reforzar el uso de datos abiertos (open data, en inglés) para la

investigación en hotelería. El empleo de datos electrónicos libres es cada vez más

frecuente en revistas internacionales de investigación vinculadas al sector hotelero (Korte,

Ariyachandra, & Frolick, 2013). Esto contrasta en gran parte de los trabajos de

investigación locales en los que se recurre más a datos primarios obtenidos a través de

instrumentos (tales como encuestas o guía de pautas) y donde los investigadores se

enfrentan a limitaciones de disponibilidad y tiempo.

Las decisiones que se pueden tomar con esta investigación son aquellas vinculadas al

marketing electrónico referido a hoteles en Máncora. En principio, si es que el objetivo es

incrementar la tasa de ocupación de los hoteles en dicha locación, una de los indicadores

a tomar en consideración será un aumento de la cantidad de búsquedas, lo que se consigue

gracias a estrategias de e-marketing (Camacho & Pacce, 2016).

Page 8: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

5  

II. Marco Referencial

2.1. Antecedentes

Choi & Varian (2011) emplearon los datos del motor de búsqueda para realizar el

modelamiento del número de arribos de turistas extranjeros a Hong Kong entre enero del

2004 y agosto del 2008. Llegaron a demostrar que el número de arribos para un período

mensual está en función de los indicadores registrados hace un año y el mes inmediato

anterior en combinación con el volumen de búsquedas relacionadas al mencionado

territorio en el mes vigente. En el mismo sentido, el R-cuadrado del modelo que no incluía

al indicador electrónico resultaba inferior al de aquella ecuación que sí llegó a usar los

valores del motor de búsqueda Google.

Zahkary, Atiya, El-Shishiny & El-Gayar (2009) construyeron un modelo de predicción diaria

para estimar las llegadas y el ratio de ocupación del Hotel Plaza, ubicado en Alejandrá,

Egipto. Los investigadores propusieron un enfoque para la estimación de estos parámetros

a partir de los datos históricos; a continuación agregaron otras variables como cancelación

de reservas, duración de la estancia y presencia (o ausencia) de espectáculos. El modelo

propuesto proporcionó resultados superiores en comparación con los enfoques existentes

que solo incluían arribos diarios.

Camacho & Pacce (2016) examinaron si las tendencias de las consultas de Google ayudan

a los agentes económicos con predicciones sobre las pernoctaciones de viajeros en

España. Utilzaron un modelo dinámico y una base de datos en tiempo real (los datos del

motor de búsqueda) y demostraron que estos últimos eran elementos pronosticadores de

la demanda hotelera en diferentes intervalos de tiempo. Los investigadores también

evidenciaron que los modelos que incluyen las tendencias de búsqueda superan a los

modelos que excluye dichos indicadores. De esta manera contribuyeron a la literatura

sobre el vínculo entre internet y la demanda hotelera.

Pan, Chenguand, & Song (2012) tuvieron como principal objetivo predecir las arribos de

extranjeros a hoteles en Charleston, Carolina del Sur y usaron los datos de volumen de

búsqueda de Google. Pero a diferencia de la investigación de Choi y Varian (2011), su

enfoque se orientó a la frecuencia semanal como una variable dependiente diferente, a

saber, noches de habitaciones de hotel vendidas. Esta nuevo indicador es más relevante

para la industria de la hospitalidad local que las llegadas de turistas internacionales. Se

empleó un modelo autorregresivo. Esta investigación es la primera que se orienta

especialmente a la hotelería y los datos electrónicos.

Page 9: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

6  

Yang, Pan, & Song (2013) utilizaron los datos de volumen de tráfico web de una

organización de marketing de un destino para predecir la demanda hotelera en el corto

plazo. Los resultados mostraron una mejora significativa en la reducción de errores en

modelos que incorporaron los datos digitales a comparación de los modelos que no incluían

a dichas variables para las proyecciones a corto plazo de las noches de habitación

vendidas. Estos resultados empíricos demostraron el valor significativo de los datos de

tráfico del sitio web para la predicción de la demanda de habitaciones de hotel en un destino

e incluso los ingresos y el rendimiento futuro de las empresas locales. También se discuten

las implicaciones para futuras investigaciones sobre el uso de Big Data para pronosticar la

demanda hotelera.

Bigne, et.al. (2017) analizaron los comentarios de la red social Twitter y determinaron que

las publicaciones de las Organizaciones de Marketing de Destinos (DMO’s) influyeron

positivamente sobre los ratios de ocupación de hoteles ubicados en Alicante, Cádiz,

Granada, Málaga y Zaragoza durante el año 2015. Emplearon un modelo basado en

inteligencia artificial que registró la data de 7,240 tweets.

Linares, Herrera, Cuadros & Alfaro (2015) usaron el análisis sentimental para predecir el

número de arribos de turistas extranjeros a Perú durante los meses de agosto y septiembre

del 2014. La muestra analizada fue de 1,000 comentarios en la red social Twitter. Los

instrumentos analizados fueron SentiText , un software especializado en medir el

sentimiento presente en un comentario, y Python, un lenguaje de programación. Los

investigadores determinaron que sí existía relación entre el sentimiento de los comentarios

y los arribos totales.

Los antecedentes ya mencionados hacen referencia a que los pronósticos de arribos a

hoteles en el corto plazo se construyen teniendo como base los datos históricos e

incorporando nuevas variables entre las que destaca la cantidad de búsquedas. Esta

adición incrementa el nivel de precisión de los pronósticos, lo cual queda en evidencia a

través de indicadores como un incremento del R-cuadrado. Por otro lafo, los datos de

Twitter son elementos predictores que pueden incluso determinar el ratio de ocupación de

hoteles para áreas geográficas específicas usando técnicas como el análisis sentimental.

Finalmente a diferencia de los modelos turísticos que usan arribos a un atractivo

determinado, en la hotelería deben usarse arribos a hoteles.

Page 10: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

7  

2.2. Marco Teórico

2.2.1. Datos del Motor de Búsqueda Google.

Conocido también como Google Trends, proporciona un índice de series temporales

del volumen de consultas que los usuarios ingresan a Google en un área geográfica

dada y por un período establecido (Carriere-Swallow & Labbe, 2013). Los usuarios

tienen la posibilidad de ver y descargar los patrones de volúmenes de búsqueda

para uno o más términos consultados (Onder & Gunter, 2016). Dicha información

también está disponible en función de una categoría (Camacho & Pacce, 2016); así,

por ejemplo se puede descargar la información de las consultas referidas a Perú

como destino turístico o solo aquellas que involucren un interés meramente

histórico. También existe información acerca de las búsquedas principales y más

frecuentes que incluyen o están vinculadas con el término de búsqueda (Pan,

Chenguand, & Song, 2012). La información de esta herramienta proporciona cifras

diarias y semanales durante un período que llega hasta la actual (aunque

incompleta) semana (Choi & Varian, 2011). Los datos están disponibles a partir del

2014, no representan una variable absoluta, sino relativa (Chang & Del Río, 2013)

En cuanto a la industria hotelera, los datos del motor de búsqueda se han empleado

para predecir el número de arribos a hoteles (Yang, Pan, & Song, 2013). Por otro

lado, se ha empleado la mencionada información para conocer a los principales

hoteles competidores en un espacio geográfico establecido (Camacho & Pacce,

2016)

2.2.2. Twitter.

Es una red social basada en el servicio de microblogging usada por cerca de 304

millones de personas en el mundo que generan aproximadamente 500 millones de

comentarios al día (Bigne, et.al. 2017). Los datos de esta red social han sido

empleados para identificar tendencias del marketing, ciencias políticas y finanzas

(Kumar, Morstatter & Liu, 2014)

2.2.3. Twitter y análisis de sentimiento.

El análisis de sentimiento pretende clasificadar de manera automática a un mensaje

como positivo, negativo o neutro en función al tono emocional presente en el escrito

(Kumar, et.al. 2014). Esta clasificación se realiza en función a un puntaje específico

asignado a cada comentario (Linares, et.al. 2015). El análisis de sentmiento

aplicado a la red social Twitter surgió el año 2009 y despertó el interés de la

Page 11: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

8  

comunidad científica debido a sus aplicaciones en diferentes ámbitos de las

ciencias (Linares, et.al. 2015).

2.2.4. Twitter y otras redes sociales.

Twitter proporciona datos de calidad para realizar pronósticos de demanda (Kumar,

et.al. 2014). Dicha red social se caracteriza por su tendencia a ser empleada en

tiempo real (Kumar, et.al. 2014). Otras páginas como TripAdvisor o Expedia

también pueden ser utilizadas como fuente de información, pero por lo general sus

usuarios pueden registrar valoraciones varias semanas y meses después de

realizado el viaje, lo cual puede generar sesgos mayores a los de Twitter (Kahn &

Liu, 2016). Por otro lado, redes sociales como Instagram se encuentran al mismo

nivel que Twitter en cuanto a uso en tiempo real; sin embargo, se prefiere usar la

segunda debido a su mayor compatibilidad con el análisis de sentimiento (Kumar,

et.al. 2014). Esto se debe, principalmente, a los tipos de datos: el análisis de

sentimiento se fortalece en entornos con datos uniformes y Twitter posee

uniformidad en cuanto a sus unidades básicas, es decir, los comentarios realizados

por los usuarios: los mismos poseen una extensión similar y poseen un menor grado

de heterogeneidad que otras redes sociales en cuanto a contenido (Kumar, et.al.

2014). Por otro lado, los primeros algoritmos especializados en el análisis de

sentimiento en redes sociales se construyeron sobre la base de comentarios en

Twitter (Kumar, et.al. 2014). La mayoría de los softwares diseñados para el análisis

de sentimiento fueron puestos a prueba en los comentarios de dicha red social

(Kumar, et.al. 2014).

Por otro lado, Twitter posee datos textuales que pueden ser extraídos en forma

masiva gracias a aplicaciones especializadas, lo cual facilita el posterior

procesamiento de textos (Kumar, et.al. 2014). Luego, la red social que más ha sido

explotada por la producción científica en torno al análisis sentimental y modelos

predictivos ha sido Twitter (Linares, et.al. 2015). Este tiende a tener un mayor grado

de homogeneidad en cuanto ha contenido, ya que predominan los patrones

textuales por sobre las imágenes (Kahn & Liu, 2016).

En cuanto a otras redes sociales como Instagram predominan las imágenes sobre

el contenido textual (Park, et al., 2015). Sí es posible, por ejemplo, procesar

fotografías personales y obtener patrones numéricos para determinar el género o la

edad de una persona; no obstante, el proceso de cuantificar sentimientos y

emociones emppleando una fotografía es una rama de las ciencias de la

Page 12: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

9  

computación que está apenas introduciéndose al ámbito académico (Park, et al.,

2015). El correcto procesamiento digital de imágenes requiere conocimientos

propios del ámbito de la ingeniería como inteligencia artificial y redes neuronales

(Park, et al., 2015).

Al momento de seleccionar Twitter como red social de análisis, se tomó en cuenta

que para el período 2012-2016, el 75% de personas que arribó a hospedajes en

Máncora es de origen peruano. Por ello, la actividad de los peruanos en las redes

sociales resulta más importante que la de los extranjeros. En el 2016, Twitter fue

usado por un 24% de internautas peruanos, mientras que Instagram alcanzó el

20%; sin embargo, esta última solo había alcanzado una participación del 13% en

el 2015 y antes no figuraba, mientras que Twitter siempre ha tenido una

participación importante desde el 2012 (Ipsos Perú, 2016).

Whatsapp es la segunda red social que más se usa en el Perú , ya que es usada

por un 50% de internautas peruanos (Ipsos Perú, 2016).No obstante, dicha red

social no permite extraer muchos datos ya que la mayoría de su la información que

contiene se encuentra en conversaciones privadas. Por último Facebook, fue usada

por un 99% de peruanos en el 2016 (Ipsos Perú, 2016). Sin embargo, posee una

limitación importante: la proporción de usuarios que comparte información de forma

pública con respecto a sus viajes es mínima si se compara con Twitter (Davenport,

2013). Los usuarios de Facebook comparten información de sus viajes, trabajos y

otros; eso es innegable, pero la mayoría de ocasiones lo hace de tal forma de que

solo sus contactos puedan visualizarla dicho contenido (Kumar, et.al. 2014).

En twitter, en cambio, la proporción de usuarios que comparte contenido de forma

pública es mucho mayor (Kumar, et al. 2014). Dado que Twitter concentra una

mayor cantidad de información pública, es recomendable usar el análisis

sentimental en dicha red social (Kumar, et al. 2014). Si existiese algún mecanismo

que permitiera ver todo el contenido que publican las personas con respecto a

Máncora sin restricciones en Facebook, entonces sería más recomendable usar

dicha red social.

Para el caso de TripAdvisor, dicha red social no posee el grado de inmediatez que

tiene Twitter. Esto queda en evidencia al momento de escribir una opinión. Si se

desea escribir una valoración en TripAdvisor, uno de los campos obligatorios a

llenar es la fecha de visita, una valoración a escribirse en octubre del 2017, puede

incluir experiencias vividas con anterioridad desde octubre del 2017 hasta

Page 13: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

10  

noviembre del 2016, es decir, un rango de doce meses (TripAdvisor, 2017). Una

extracción de datos que requiera información histórica de experiencias vividas hasta

octubre del 2017, por ejemplo, puede incluir a todos los comentarios de viajeros que

hayan manifestado haber viajado hasta antes de esa fecha en TripAdvisor. Sin

embargo, no será posible incluir comentarios de viajeros que digiten opiniones en

fecha posterior (precisamente porque todavía no han sido escritas) a pesar de que

indicaron haber viajado en el período que es objeto de estudio. Dicho de otra forma,

los comentarios digitados en el 2018 que manifiesten haber viajado a Máncora

durante octubre del 2017 no podrán ser utilizados en el nowcast de este último mes.

Lo anterior no significa que TripAdvisor no pueda utilizarse como Big Data. Al

contrario, sí es empleada, pero hasta ahora los estudios que usan dicha red social

como fuentes de data secundaria se enfocan al comportamiento post-compra, o al

comportamiento después de haber visitado el sitio turístico o haber empleado los

servicios asociados a este (Abbasi, et.al.2015). TripAdvisor ha demostrado ser ideal

para estudio de satisfacción, imagen de servicio, posicionamiento, etcétera (Abbasi,

et.al.2015).

Un último aspecto a considerar es la automatización en el proceso de extracción de

datos. El proceso que permite extraer comentarios de un entorno web en forma

masiva se conoce como data scraping. En este aspecto, Twitter es la red social que

más progresos ha tenido (Kumar, et al. 2014). Extraer valoraciones en Facebook e

Instagram resulta una tarea sumamente complicada dado que se requiere dominio

de conocimientos de lenguajes de programación como Python, competencia que es

propia de ingenieros o científicos (Bigne, et.al. 2017).

En el caso de Instagram, existe un desafío adiciona, dado que es una red cuyo

contenido principal son las imágenes, una extracción masiva de datos tendría que

incluir a las fotografías. Este proceso puede ser llevado a cabo, pero de forma

manual, es decir, seleccionando la imagen y descargándole en una base de datos

para su posterior análisis. Esto sería una solución viable, pero requiere de un tiempo

que sobrepasa los plazos de la investigación. Tal como afirmaron Hernández,

Fernández, & Baptista (2014), uno de los aspectos más importantes al momento de

realizar una investigación, es procurar la viabilidad de la misma. El proceso de

extracción automática de datos favorece a Twitter por encima de otras redes

sociales (Kumar, et al. 2014). Por esta razón también es conveniente emplear

Twitter en lugar de Facebook, Instagram o TripAdvisor. Estas últimas también

Page 14: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

11  

pueden ser empleadas, pero se requiere de algún mecanismo de extracción masiva

de datos que garantice la viabilidad de la investigación en un plazo determinado.

2.2.5. Big Data.

Laney (2001) señaló que la definición pasa por las tres 'Vs' de gestión de datos:

variedad, volumen y velocidad. La variedad hace referencia a los distintos formatos

de datos que aparentemente no son compatibles (datos de GPS vs. Comentarios

vía Twitter, por ejemplo). El volumen, por otro lado, se refiere a la enorme cantidad

de información que debe ser administrada (las búsquedas en Google, las datos

descriptivos de las reproducciones en YouTube, entre otros). Finalmente, el

incremento de rapidez en que los datos son generados viene asociado al concepto

velocidad.

2.2.6. Big Data y Hotelería.

La información registrada correspondiente a desembolsos de dinero de los clientes

al momento de su arribo y durante su permanencia en un hotel puede ser estudiada

de tal modo que permite clasificar los tipos de necesidades por cada segmento de

huéspedes y maximizar el nivel de gasto de los mismos durante su estancia (Lee,

Jo, Kim & Hwang, 2016). Por otro lado, resulta posible analizar información que no

presenta una estructura definida; los comentarios en redes sociales, por ejemplo,

resultan de mucha utilidad para conocer elementos vinculados a la satisfacción e

insatisfacción de los huéspedes (Jeong, Mankad, Gavirneni, & Verma, 2016).

En cuanto a la administración eficiente de recursos, Kahn & Liu (2016) indicaron

que las cadenas de hoteles pueden reducir sus gastos en electricidad y agua si es

que se conoce con detalle cómo se gastan los mismos, y que esto era posible

gracias a que los hoteles tenían acceso a registros por horas del consumo de litros

de agua y killowats de energía. En otra investigación, Davenport (2013) señaló que

la cadena Marriott ha utilizado Big Data Analytics con el fin de predecir el precio

óptimo de sus habitaciones para llenar sus hoteles haciendo uso de algoritmos que

recurren a variables históricas vinculadas al costo de las habitaciones.

Page 15: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

12  

2.2.7. Hospedaje.

Según el MINCETUR (2015) es un “lugar destinado a prestar habitualmente

servicio de alojamiento no permanente, para que sus huéspedes pernocten en el

local”.

2.2.8. Modelo Estadístico.

Un modelo estadístico es una ecuación matemática que reproduce los fenómenos

observables de la forma más exacta posible, y para ello tiene en cuenta las variables

suministradas y la influencia que el azar tiene en dichas observaciones (Cuxart,

2000). Es una forma simplificada, matemáticamente formal, de aproximarse a la

realidad generada por los datos (Vázquez, Cruz, Reyes, Juárez, & Solano, 2014).

Opcionalmente permite hacer predicciones (Cuxart, 2000)

2.2.9. Nowcasting.

Se puede definir como la predicción del presente, el futuro muy cercano y el pasado

muy reciente en el ámbito económico (Giannone, et al. 2008). Estos dos últimos

términos pueden entenderse como instantes antes o después del presente

(Giannone, et al. 2008). Así, por ejemplo, es posible estimar el tipo de cambio que

tendrá el dólar frente a la moneda local a primeras horas del día de mañana o el

valor con el que cerró una acción en la Bolsa de Valores el día de ayer incluso sin

haber accedido a reportes oficiales (Giannone, et al. 2008).

Recientemente se ha vuelto popular en la disciplina económica, ya que las medidas

estándar usadas para evaluar el estado de una economía (el PBI, por ejemplo) sólo

se determinan después de un largo tiempo e incluso están sujetas a revisiones

posteriores (Chang & Del Río, 2013). Los modelos de predicción inmediata se han

aplicado en muchas instituciones, en particular los Bancos Centrales, y la técnica

se utiliza rutinariamente para monitorear el estado de la economía en tiempo real

(Askitas & Zimmermann, 2009). En cuanto al turismo y la hotelería, los indicadores

de llegadas siempre son publicados con algunos meses de retraso (Chang & Del

Río, 2013). El nowcasting otorga la posibilidad de alcanzar un indicador por

adelantado que resulta útil para realizar estimaciones en escenarios que

comprenden un plazo muy corto (Park, Lee, & Song, 2015).

Page 16: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

13  

2.2.10. Nowcasting y Hotelería.

El uso del nowcasting en la hotelería se ha dado principalmente para predecir

demandas en escenarios de corto plazo (Pan, et.al. 2012). Así, por ejemplo, será

posible determinar cuántas personas arribarán a un hotel el 31 de diciembre de un

año específico utilizando registros de hasta un día antes, es decir, 30 de diciembre

(Pan, et.al. 2012).

2.2.11. Nowcasting vs. Forecasting.

El Forecasting construye escenarios de largo plazo (Athanasopoulos, et.al. 2011).

Pretende determinarse, por ejemplo, cuántos arribos se producirán el próximo año

o en los siguientes cinco años (Athanasopoulos, et.al. 2011). El nowcasting es para

predicciones en escenarios de muy corto plazo: mañana o en los próximos 30 días

(Askitas & Zimmermann, 2009). El Forecasting puede ser empleado para iniciativas

e inversión (construcción de un hotel, por ejemplo), mientras que el Nowcasting se

emplea para aspectos operativos (determinar cuánto personal se va a necesitar

para atender a los viajeros que llegarán mañana) (De la Oz, 2014).

2.2.12. Periodicidad de los pronósticos.

Los pronósticos del tipo nowcasting obedecen a diferentes necesidades y pueden

ser calculados en forma diaria, semanal o mensual (De la Oz, 2014). El elegir uno

de ellos obedece a la disponibilidad de los datos y al tipo de destino estudiado

(Athanasopoulos, et.al. 2011). Si se trata de lugares particularmente sensibles a la

actividad turística (como Máncora), lo más conveniente es realizar pronósticos

mensuales, dado que son los que reflejan mejor efectos como la estacionalidad

(Athanasopoulos, et.al. 2011). Los pronósticos diarios requieren la aplicación de

métodos econométricos complejos e información adicional a los arribos:

cancelaciones, tipo de cambio (para el caso de los extranjeros), entre otros datos.

Para el caso de Máncora solo se tienen arribos.

Page 17: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

14  

2.2.13. Coeficiente de Determinación.

También conocido como R-cuadrado (R2), “es el porcentaje de variación de la

variable dependiente que explica su relación con una o más variables

independientes” (Minitab, s.f.). Por lo general, mientras mayor sea el R2, mejor será

el ajuste del modelo a sus datos de entrada; el R2 siempre se encuentra entre 0 y

100% (Garth, 2008).

2.2.14. Modelo de arribos mensuales a hospedajes.

En la presente investigación se optará por el modelo de Choi & Varian (2011), el

mismo ha sido tomado como base para todos aquellas ecuaciones que han

pretendido modelar los arribos turísticos y hoteleros haciendo uso de los

indicadores del motor de búsqueda (Athanasopoulos, Hyndman, Song, & Wu,

2011). Por otro lado, se adoptará el enfoque de De la Oz (2014), quien adaptó la

ecuación y la analizó como si se tratase de una regresión múltiple. Estos modelos,

originalmente usados para el turismo son tambien empleables para la hotelería

(Pan, Chenguand, & Song, 2012). El modelo queda, luego, expresado de la

siguiente forma:

Log (H(t)) = a1 + b1 * Log (H(t-12))+ b2 * Log (H(t-1)) (primer modelo)

En la anterior expresión, H(t) es la cantidad de arribos a hospedajes en Máncora en

el mes t (abril del 2016, por ejemplo) ; H(t-12) corresponde a las llegadas recibidas

para el mismo mes pero correspondientes al año anterior (abril del 2015 de acuerdo

a la situación ejemplificada); H(t-1) es también un flujo que corresponde al número

de arribos pero para el mes inmediato anterior (marzo del 2016 en sintonía con el

ejemplo).

Posteriormente se incorporan las variables obtenidas a partir del motor de búsqueda

de Google y la red social Twitter de la siguiente forma:

Log H(t) = a1 + b1 * Log H(t-12)+ b2 * Log H(t-1) + c1* G(t) + c2*S(t) (segundo

modelo)

La ecuación anterior adiciona el índice de búsquedas mensual G (t) (representa las

búsquedas de hospedajes en Máncora de abril del 2016 de acuerdo al ejemplo

anterior) ; y S(T) representa al sentimiento acumulado mensual de los comentarios

en la red social Twitter vinculados a Máncora (de abril del 2016 de acuerdo al

ejemplo) . La forma en que se incluyen los comentarios de Twitter fue propuesta por

Page 18: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

15  

Kumar, et.al. (2014). Los términos b1, b2, c1 y c2 son los coeficientes que afectan

a las variables Log H(t-12); Log H(t-1), H(t) y S(t) respectivamente , y a1 es un

término independiente. Lo que se espera es que todas las variables ya

mencionadas tengan una relación directa (Camacho & Pacce, 2016)

2.2.15. Regresión Múltiple.

Se utiliza para la predicción de respuestas a partir de variables explicativas (Barón

& Téllez, 2010). En investigaciones se emplea para identificar los indicadores que

efectivamente pueden influir en la respuesta y descarta aquellas que no aportan

información (Barón & Téllez, 2010).

2.3. Objetivos

Objetivo General: Determinar si la ecuación que incluye los datos del motor de

búsqueda Google y la red social Twitter alcanza un mayor nivel de relación que el

modelo que no emplea dichas variables en el caso de los arribos mensuales a

hospedajes en Máncora.

Objetivo específico 1: Determinar si las llegadas mensuales registradas hace un

año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo

mensual de arribos.

Objetivo específico 2: Estimar si las llegadas mensuales registradas hace un mes a

hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual

de arribos.

Objetivo específico 3: Determinar si los volúmenes de búsquedas registrado por

Google relacionados a hospedajes en Máncora son utilizables para modelar el

nowcasting del flujo mensual de arribos.

Objetivo específico 4: Determinar si el sentimiento mensual de los comentarios en

Twitter relacionados a Máncora son utilizables para modelar el nowcasting del flujo

mensual de arribos.

Page 19: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

16  

2.4. Hipótesis

La hipótesis principal es la siguiente:

Hp: La ecuación que incluye los datos del motor de búsqueda Google y la red social

Twitter alcanza un mayor nivel de relación que el modelo que no emplea dichas

variables en el caso de los arribos mensuales a hospedajes en Máncora.

Mientas que las hipótesis secundarias nulas son:

Ho1: Las llegadas mensuales registradas hace un año a hospedajes en Máncora no

son utilizables para modelar el nowcasting del flujo de arribos.

Ho2: Las llegadas mensuales registradas hace un mes a hospedajes en Máncora no

son utilizables para modelar el nowcasting del flujo mensual de arribos.

Ho3: Los volúmenes de búsquedas registrado por Google relacionados a hospedajes

en Máncora no son utilizables para modelar el nowcasting del flujo mensual de

arribos.

Ho4: El sentimiento mensual de los comentarios en Twitter relacionados a Máncora

no son utilizables para modelar el nowcasting del flujo mensual de arribos.

Estas son las hipótesis nulas, las hipótesis alternativas niegan cada una de las ya

expuestas.

Page 20: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

17  

III. Método

3.1. Tipo y diseño de investigación

3.1.1. Tipo de Investigación.

Se recurre al análisis de magnitudes numéricas que pueden ser tratadas mediante

herramientas del campo de la estadística (Monje, 2011). Por tanto, se trata de un

estudio del tipo cuantitativo. Esta tipología, por otro lado, permite dar respuesta a

las preguntas propias de la investigación y comprobar hipótesis delimitadas en

forma previa (Hernández, et.al. 2014).

3.1.2. Diseño de investigación.

El diseño de investigación será correlacional: busca medir la relación entre dos o

más variables, estableciendo su grado de correlación; sin embargo, no pretende

dar una causa completa al fenómeno investigado, sólo investiga grados de

correlación (Hernández et al., 2014). El objetivo es conocer cómo se comporta una

variable en relación a otra (Monje, 2011).

3.2. Variables.

3.2.1. Flujo mensual de arribos a hospedajes de Máncora.

Es una variable de libre acceso que se obtiene a partir de la Encuesta Mensual de

Establecimientos de Hospedaje (MINCETUR, 2017). Incluye tanto a extranjeros

como nacionales que han arribado a hospedajes de Máncora entre los años 2012

al 2016. Es necesario mencionar que el estudio abarcará los datos del período

indicado a pesar de contar con las llegadas del año 2011, y esto se debe a que para

usar el modelo es necesario tener los datos del año anterior. El número de arribos

para un mes de referencia cualquiera del 2012 al 2016 viene a ser la variable

dependiente (llegadas registrada en noviembre el 2016, por ejemplo), mientras que

las variables independientes serán los arribos registrados hace un año y hace un

mes respecto al mencionado período de referencia (llegadas registrada en

noviembre del 2015 y octubre del 2016 respectivamente, de acuerdo al ejemplo).

Page 21: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

18  

En cuanto a las llegadas, Máncora ha mantenido un comportamiento irregular. En

los años 2012 y 2014, la demanda se contrajo, mientras que se expandió para los

demás años de análisis. No existe una tendencia fija.

Tabla 1: Arribos mensuales a Hospedajes de Máncora 2011-2016

Período 2011 2012 2013 2014 2015 2016

enero 12,692 14,354 19,024 11,774 14,154 14,749

febrero 11,895 14,547 14,644 17,458 14,152 14,502

marzo 9,733 8,872 13,953 9,150 8,850 10,912

Abril 7,987 6,325 10,750 6,721 9,358 7,448

mayo 8,888 5,272 8,827 5,541 6,002 6,259

Junio 6,620 9,550 9,866 4,388 7,711 6,439

Julio 10,746 7,218 12,304 7,587 9,793 12,434

agosto 10,118 8,321 9,352 9,888 9,186 8,994

septiembre 6,589 5,154 6,861 5,464 6,801 8,743

octubre 12,625 9,688 9,466 10,616 9,945 9,185

noviembre 9,748 9,338 12,587 9,789 7,844 8,790

diciembre 6,861 7,023 11,365 10,203 7,716 11,637

Total 114,502 105,662 138,999 108,579 111,512 120,092

Crecimiento -7.72% 31.55% -21.89% 2.70% 7.69%

Fuente: MINCETUR (2017)

3.2.2. Datos de volúmenes de búsquedas referidos a hoteles en Máncora.

Es una variable independiente. Proviene de una fuente secundaria (Google Trends,

2017). Se ingresa a la dirección https://www.google.com/trends/ y se procede a

digitar el término que desea buscarse: Máncora. Es necesario mencionar la

depuración de los datos como función de autocorrección ofrecida por Google

(Anexo 1). De esta manera si es que un usuario busca información acerca de

Máncora y no conoce la forma en la que se escribe y digita “Máncora”, el buscador

mostrará la corrección y la relacionará con Máncora, esto es la corrección

semántica (Yang, Pan, & Song, 2013). Luego, se procede a restringir las búsquedas

a la categoría Hoteles y Alojamiento (Anexo 2)

El resultado será la salida del software que muestra el interés a lo largo del tiempo

para el término Máncora (Anexo 3). La base de datos resulta descargable como

Page 22: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

19  

archivo CSV (Anexo4). Se obtiene una base de datos que está disponible por días

y semanas por lo que será necesario agruparlas en meses mediante operaciones

de adición y así obtener indicadores mensuales (Anexo 5). En cuanto al ámbito

geográfico de búsqueda, el navegador permite seleccionar si se desea limitar las

búsquedas a un espacio determinado. Resulta posible obtener el interés global

hacia Máncora, pero también es posible delimitar los resultados a territorio peruano.

Tabla 2: Índice de Búsquedas relacionadas a hospedajes en Máncora (2012-2016)

2012 2013 2014 2015 2016

enero 2,281 1,877 1,344 1,858 1,681

febrero 1,822 1,465 1,794 1,476 1,244

marzo 1,218 1,163 859 941 945

abril 1,050 1,054 831 1,066 854

mayo 754 1,009 827 848 932

junio 1,274 995 1,077 1,257 912

julio 979 1,368 1,273 1,324 1,400

agosto 1,199 1,446 1,110 1,055 1,102

septiembre 828 925 884 1,084 1,137

octubre 1,326 1,217 1,233 1,221 1,127

noviembre 1,084 1,282 1,229 1,013 1,196

diciembre 1,277 1,507 1,477 1,206 1,509

Total 15,092 15,308 13,938 14,349 14,039

Crecimiento 1.43% -8.95% 2.95% -2.16%

Fuente: Google Trends

Al igual que los arribos a hospedajes a Máncora, los índices de búsqueda tampoco

presentan una tendencia clara en cuanto a crecimiento.

3.2.3. Sentimiento mensual de los comentarios en Twitter.

Es una variable independiente. Cada comentario en Twitter relacionado a Máncora

como destino de viaje fue procesado con el software Lexalytics (Anexo 6). Los

puntajes alcanzados se organizaron de acuerdo al mes de ocurrencia y

posteriormente sumados de acuerdo al mismo criterio y así se obtuvo un puntaje

mensual que va desde el enero del 2012 hasta diciembre del 2016.

Page 23: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

20  

Cabe mencionar que el puntaje mensual surge de operaciones de adición y

sustracción.

Tabla 3: Sentimiento mensual del término Máncora como destino de viaje (2012-

2016)

2012 2013 2014 2015 2016

enero 23.785 25.003 27.472 29.617 29.75

febrero 22.914 27.569 28.286 26.759 27.7

marzo 25.862 26.622 30.623 27.909 28.775

abril 25.098 28.944 27.156 29.312 27.624

mayo 26.742 27.857 31.547 26.807 28.168

junio 29.681 31.826 25.826 27.906 27.732

julio 26.692 24.379 27.197 28.217 31.071

agosto 25.380 24.825 28.241 29.422 27.334

septiembre 26.653 31.605 25.267 27.43 26.143

octubre 29.586 32.642 31.262 26.975 25.255

noviembre 26.428 29.948 26.287 25.228 27.551

diciembre 26.078 27.729 28.356 27.394 29.152

Total 314.899 338.949 337.520 332.976 336.255

Crecimiento 7.64% -0.42% -1.35% 0.98%

Fuente: Twitter

En cuanto al sentimiento mensual y las búsquedas en Google, ambas puntuaciones

se han comportado también de forma errática con aumentos y descensos. No existe

una tendencia clara en las mismas.

3.3. Instrumentos de Investigación

Nvivo10 es un software de análisis cualitativo que incluye un paquete especial (Capture for

Nvivo) que permite extraer comentarios de la red social Twitter (Kumar, et.al. 2014) .El

complemento permite extraer los comentarios acerca de un término específico junto a los

usuarios que los digitaron y la fecha en la que fueron registrados (Kumar, et.al. 2014). Este

instrumento fue empleado para extraer los comentarios acerca de Máncora en la red social

Twitter. El software permite, además, eliminar contenido inapropiado o no deseado con

facilidad (Kumar, et.al. 2014).

Lexalytics es un software que permite calcular el puntaje sentimental (o nivel de

sentimiento) en un texto, cuenta con una versión online y otra de prueba gratuita por treinta

Page 24: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

21  

días que es compatible con Excel (Hofmann & Chisholm, 2015). Se usó para obtener el

nivel de sentimiento presente en cada comentario de Twitter.

Excel es una hoja de cálculo desarrollada por Microsoft que permite almacenar información

y realizar operación matemáticas y estadísticas (Microsoft, 2016). Fue empleado como

almacén de datos y para operaciones básicas.

SPSS es un programa estadístico informático muy usado en las ciencias exactas y sociales

(Pallant, 2007). También es empleado con bastante frecuencia en investigaciones de

mercado (Garth, 2008). Es uno de los softwares estadísticos más conocidos, cuenta con

capacidad para trabajar con grandes bases de datos y una sencilla interfaz para la mayoría

de los análisis (Pallant, 2007). En la versión 12 de SPSS se pueden realizar análisis con 2

millones de registros y 250.000 variables (Garth, 2008). Fue empleado para el análisis

estadístico.

3.4. Procedimiento de recolección de datos

Todos los datos provienen de fuentes secundarias. Las llegadas a hospedajes en Máncora

y las búsquedas de Google se obtuvieron directamente y fueron colocados en la hoja de

cálculo de Excel. En el caso de los comentarios de Twitter, fue necesario capturar los

tweets relacionados a Máncora como destino de viaje y posteriormente depurar el

contenido: eliminar contenido que no tuviera que ver con viajes (actividades municipales,

noticias locales, etc.), borrar emoticones y eliminar SPAM (Linares, et.al. 2015). Luego los

comentarios fueron organizados de acuerdos al mes y años en el que ocurrieron. El

proceso de depuración puede ser llevado a cabo por el investigador (Linares, et.al. 2015).

Posteriormente, los comentarios de Twitter fueron sometidos al instrumento Lexalytics y se

registró el nivel de sentimiento presente en cada uno. Luego se procedió a sumar los

puntajes de cada mes y así obtener indicadores mensuales. Por último se organizaron

todos los datos en una hoja de cálculo junto con los datos de Google y los arribos a

hospedajes. Este proceso se realizó durante los meses de abril y mayo del 2017.

Page 25: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

22  

3.5. Limitaciones

Entre las limitaciones pertinentes debe tomarse en cuenta que los datos del motor de

búsqueda no son indicadores absolutos. Son datos de naturaleza relativa y se actualizan

en tiempo real. Una nueva muestra de los datos de búsqueda arrojaría índices distintos.

No obstante, ello no cambiará el hecho de que exista la correlación entre las variables

búsquedas y llegadas. Lo que sí cambiarán son algunos coeficientes que afectan a los

indicadores, pero la correlación subsistirá y siempre será directamente proporcional. Otra

de las limitaciones pertinentes es el proceso de depuración de datos de Google. Resulta

cierto que se ha delimitado la información del motor de búsqueda solo a aquellos casos en

los que se busca Máncora con fines de viaje y posteriormente se ha restringido los

resultados a la categoría hoteles. No obstante, una serie de profesionales del turismo

también pueden buscar información de hoteles en Máncora con el objetivo de elaborar un

plan de marketing y el motor de búsqueda los contabilizaría como búsquedas relacionadas

a hoteles en dicho distrito con fines turísticos. Pero es racional creer que casi la totalidad

de búsquedas relacionadas al turismo y más específicamente a hoteles en Máncora, parte

de personas que tienen alguna intención de hospedarse ahí.

Una última limitación es la depuración de comentarios de Twitter. Es un proceso que se

hizo de forma semiautomática y por tanto siempre puede ser mejorado. Además, los

resultados del motor de búsqueda de Twitter también varían con el tiempo ya sea por

mejoras en los algoritmos de búsquedas (Kumar, et.al. 2014) o por disponibilidad del

servicio (Bigne, et.al. 2017). Existen también limitaciones propias del software Nvivo como

instrumento que permite capturas de Twitter ; no obstante, es uno de los mejores

instrumentos de extracción (Kumar, et.al. 2014)

3.6. Plan de análisis

Los datos secundarios ya enumerados serán sometidos a los dos modelos ya citados con

anterioridad durante la primera semana de junio del 2017. El principal indicador a tomar en

cuenta es el R-cuadrado, tal como lo hicieron Choi & Varian (2011). Debe compararse el

R-cuadrado alcanzo por los dos modelos ya mencionados. Luego se verifican los niveles

de significancia registrado por alcanzado por cada una de las variables y se toma como

referencia el 0.05 indicado por (Choi & Varian, 2011).

Page 26: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

23  

IV. Resultados

4.1. Resultados

El primer modelo posee la forma:

Log (H(t)) = a1 + b1 * Log (H(t-12))+ b2 * Log (H(t-1))

Tabla 4: Regresión Múltiple del primer modelo

Parámetro Estimación Error Estándar

Estadístico -

T Pr(>|T|) (p-valor)

Constante 0.976314 0.559145 1.74608 0.0862

LogH(t-12) 0.496022 0.111582 4.44535 4.1067E-05

LogH(t-1) 0.25853 0.108536 2.38198 0.0206

R-cuadrado = 0.34689; R-cuadrado ajustado = 3235498

En esta primera salida se ha demostrado que sí existe relación entre las llegadas

mensuales a hospedajes en Máncora para un determinado mes y sus datos registrados

hace un año y en el período mensual inmediato anterior. Las estimaciones son los

coeficientes que afecta a cada una de las variables. La relación entre estas últimas es del

tipo directa (tienen símbolo positivo). En el caso de LogH(t-12) su p-valor es muy próximo

a cero y, por tanto no debe ser excluida del modelo de regresión, ocurre una situación

idéntica con la variable LogH(t-1). Luego, la forma del primer modelo es tal como sigue:

LogH(t) = 0.976314 + 0.496022*LogH(t-12) + 0.25853*LogH(T-1)

El estadístico R-Cuadrado indica que el modelo explica 34.6389% de la variabilidad en

LogH(t). El modelo, además, resulta explicativo para las variables mencionadas (Anexo 7)

De momento el coeficiente que afecta a LogH(t-12), es decir, 0.496022 es superior al valor

de 0.25853 que multiplica a LogH(t-1).

En esta primera ecuación no se ha incluido a la variable del motor de búsqueda Google ni

a los datos de Twitter. Pero hasta ahora se cumple que sí existe relación entre las variables

que solo hacen uso de las llegadas en diferentes momentos.

El segundo modelo ya incorpora a los datos del motor de búsqueda y posee la forma:

Page 27: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

24  

Log H(t) = a1 + b1 * Log H(t-12)+ b2 * Log H(t-1) + c1* G(t) + c2*S(t)

Tabla 5: Regresión Múltiple del segundo modelo

Parámetro Estimación Error Estadístico t Pr(>|T|) (p-valor)

Constante 1.04068972 0.3659004 2.844188539 0.006240285

LogH(t-12) 0.1514208 0.07270769 2.082596848 0.041951753

LogH(T-1) 0.35816367 0.06413869 5.584206557 7.47833E-07

G(T) 0.00034407 3.2635E-05 10.54295995 8.1154E-15

S(T) 0.0176957 0.00430003 4.115245928 0.000130592

R-cuadrado = 0.7882388; R-cuadrado ajustado = 0.77283799

En esta segunda salida ha quedado en evidencia un incremento del valor del R-cuadrado

(normal y ajustado). El nivel de significancia se encuentra en niveles inferiores a 0.05.

Todas las variables dependientes son pertinentes en el modelado (Anexo 8).

En la segunda ecuación el modelo quedó de la siguiente forma:

Log H(t) = a1 + 0.1514208 * Log H(t-12)+ 0.35816367 * Log H(t-1) + 0.00034407 G(t) +

0.0176957*S(t)

4.2. Discusión

Al igual que lo señalado por Choi & Varian (2011), los resultados estadísticos evidencian

que existe correlación entre el número de arribos a hospedajes de Máncora y las

búsquedas relacionadas al distrito en cuanto a hospedajes . La relación es del tipo

directamente proporcional. El R-cuadrado alcanza un valor más alto cuando se incluye a

los datos del motor de búsqueda.

No ha resultado posible realizar la investigación de flujos diarios realizada por Zahkary,

et.al. (2009); tampoco se ha podido incluir variables como cancelación de reservas y

presencia de espectáculos, ya que no se ha podido acceder a dicha información . Sin

embargo, se coincide con el investigador en que la inclusión de variables adicionales

mejora el nivel de precisión de aquellos modelos que únicamente emplean datos históricos

sobre el número de arribos.

Page 28: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

25  

Resulta verdadero lo mencionado por Camacho & Pacce (2016): los datos del motor de

búsqueda se actualizan en tiempo real. Estos indicadores, además, contribuyen a

pronosticar la demanda hotelera, aunque el pronóstico funciona para un escenario de

tiempo inmediato o nowcasting.

No se cuenta con los datos del flujo de arribos turísticos al distrito de Máncora, pero resulta

verdadero lo señalado por Pan, et.al (2012): el modelamiento que pronostique llegadas a

hoteles en combinación con datos de un motor de búsqueda resulta viable cuando se usan

indicadores de arribos a hoteles. Por otro lado, al existir relación entre los flujos y

búsquedas mensuales, no se puede descartar la relación que puede existir entre ambas

variables si son evaluadas en forma semanal como lo hicieron los investigadores.

Yang, et.al. (2013) usaron datos relacionados a la cantidad de visitas a una página web y

la relacionaron con los arribos a hoteles. No resulta aplicable el uso de esa variable en esta

investigación porque no se ha podido encontrar una web especializada en hoteles de

Máncora. Por otro lado, las pocas webs de negocios locales no generan el tráfico web

mínimo necesario para ser medidos.

En cuanto a lo mencionado por Bigne, et.al. (2017) y Linares, et.al. (2015), la red social

Twitter sí resulta útil para estimar arribos. Si bien es cierto no se ha podido utilizar la

inteligencia artificial o métodos computacionales más sofisiticados, sí se ha podido

emplear el análisis de sentimiento en los comentarios de Twitter y posteriormente recurrir

al modelo de regresión lineal múltiple, el cual es enseñado en los cursos de Estadística

General.

Los objetivos de la investigación se han cumplido. Resulta cierto el hecho de que los datos

de un motor de búsqueda y la red social Twitter pueden ser empleados en el modelamiento

nowcasting de arribos mensuales a hospedajes de Máncora. Lo mismo ocurre con las

llegadas mensuales anteriores y con las llegadas del mes anterior. Los datos electrónicos

contribuyen a mejorar el nivel de ajuste e incrementan la precisión del modelo que solo

emplea datos históricos.

El aporte académico se centra en la relación entre los datos del motor de búsqueda y la

red social Twitter vs. Número de arribos a hospedajes. Es, además, el primer modelo de

demanda hotelera realizado por una universidad peruana.

Page 29: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

26  

4.3. Conclusiones

Podemos concluir que los datos de un motor de búsqueda y la red social Twitter resultan

utilizables en el modelamiento nowcasting del flujo de arribos mensuales a Máncora.

El empleo de las regresiones múltiples determinó que los datos del motor de búsqueda y

la red social Twitter son significativos en el modelamiento del tipo nowcasting. El

incremento del coeficiente de determinación de un modelo a otro implica que la variabilidad

del indicador llegadas mensuales a hoteles de Máncora en un mes determinado queda

mejor explicada por las variables del motor de búsqueda y sentimiento mensual presente

en los comentarios en Twitter.

La hipótesis de la investigación no era del tipo causal sino correlacional. No es posible

afirmar que más búsquedas de hoteles en Máncora generen que más gente se hospede

en los hoteles de dicho distrito. Eso es tentativo, pero no existe evidencia de ello. Lo que

sí resulta claro es que hay una relación directamente proporcional entre las búsquedas y

las llegadas, aunque es relativamente pequeña en valor absoluto. También existe relación

entre el sentimiento de los comentarios de la red social Twitter y los arribos a hospedajes

del destino trabajado.

Por otro lado, el hecho de que los niveles de sentimiento mensual presente en los

comentarios de la red social Twitter sean todos positivos significa que en cada mes

predominan los mensajes con un contenido favorables al destino. Esta tendencia evidencia

de que el destino resulta valorado en forma positiva, al menos según los comentarios en la

red social Twitter.

Indirectamente se ha demostrado que puede establecerse una relación matemática entre

comentarios y el número de arribos a hospedajes. Este tipo de relación no es muy frecuente

en las investigaciones en hotelería peruanas, donde los comentarios tradicionalmente son

tratados como datos cualitativos.

La Big Data proporciona datos que son de calidad para la estimación de la demanda

hotelera. Es información que se actualiza en tiempo real y que está a libre disponibilidad

de los investigadores que deseen usarla. Los datos de Twitter y Google no requieren de

gastos en efectivo. Este tipo de información es valiosa para los investigadores en hotelería.

Si bien es cierto que en ocasiones la Big Data puede requerir de métodos complejos como

la inteligencia artificial, no resulta verdad que este tipo de investigaciones no pueda ser

abarcada por profesionales hoteleros. El documento ha proporcionado evidencia suficiente

de que es posible realizar investigaciones que involucren Big Data sin necesidad de recurrir

Page 30: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

27  

a técnicas propias de ingenieros o científicos. La investigación se basa en conocimientos

estadísticos que son adquiridos durante el pregrado de la formación del administrador

hotelero.

La demanda hotelera para un área geográfica específica puede ser estimada empleando

datos históricos. No obstante, un nivel de precisión mayor puede ser alcanzado si se

emplean datos electrónicos, como la información brindada por Google y Twitter.

El empleo de Google y Twitter ha sido posible gracias a que ambas cuentan con

componentes que permiten estudiar un tópico en particular (Máncora). Pero ha resultado

también clave el empleo de indicadores como la geolocalización y la obtención de datos en

un lapso determinado de tiempo.

Por otro lado, el proceso de depuración de información ha hecho posible que los resultados

sean coherentes. Así, por ejemplo se ha evitado que solo se incluya al término clave

Máncora como destino y no la película que comparte el mismo nombre. Lo mismo ocurre

con Twitter, aunque esta última red social requiere una limpieza semiautomática, ya que

carece del algoritmo para diferencias entre los diferentes significados de Máncora.

Era necesario utilizar una variable que pueda complementar a los datos de Google. El

interés hacia un servicio o destino puede incrementarse de forma exponencial si es que,

por ejemplo, ocurriera un hecho negativo notable. Las búsquedas te dicen que se

incrementa el interés; sin embargo, no pueden identificar si ese interés es positivo o

negativo como sí lo puede hacer el análisis de sentimiento a partir de los comentarios.

Dado que se ha modelado empleando flujos mensuales y no diarios, resulta posible estimar

las llegadas a los hospedajes de Máncora para un mes vigente empleando datos históricos,

búsquedas en Google y comentarios en Twitter. Este modelo puede aplicarse cada vez

que esté a punto de terminarse un mes y así estimar cuántas personas han llegado desde

el inicio de dicho período mensual, es decir, la demanda actual que comienza y termina en

un mes que todavía está en vigencia y muy próximo a concluir. Lo anterior resulta de

utilidad para la industria hotelera, ya que permite obtener un indicador antes de que salga

un reporte oficial por parte del Estado. Por otro lado, es posible estimar llegadas en fechas

clave como son los fines de cada mes.

La elección de la red social Twitter ha demostrado ser útil para estimar las llegadas a

hospedajes en Máncora. No obstante, la elección de una red social en particular depende

de la representatividad en el uso con respecto al objeto de estudio (Máncora en este caso)

y la facilidad de acceder y posteriormente extraer información. En Máncora, por otro lado,

Page 31: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

28  

un 8% de los arribos a hospedajes durante el período 2012-2016 tuvo origen chileno

(MINCETUR, 2017). Si se desea realizar un modelamiento de arribos de chilenos en

Máncora, deberá emplearse una red social que sea representativa en Chile y tenga una

importante proporción de datos de acceso público. Twitter ha sido representativa para los

arribos a hospedajes en Máncora, ya que estos son en su mayoría nacionales. Además, el

hecho de que dicha red social tenga una importante proporción de información que es de

acceso público ha determinado su elegibilidad sobre otras redes de mayor uso como

Facebook, en donde el contenido está más restringido y solo es visible para los contactos

que estén agregados. Por otro lado, el proceso de extracción masiva y automática que

puede llevarse a cabo en Twitter, ha viabilizado la información. El uso de otras redes

sociales está condicionado al dominio de mecanismos que puedan extraer datos en forma

rápida y así evitar los procesos manuales. Si se deseara estudiar solamente el flujo de

americanos que llegan a Máncora, es posible optar por redes que sean más

representativas para Estados Unidos como lo son Yelp.com o Instagram. Pero debe

tomarse en consideración que ambas requieren plazos más amplios en la investigación, ya

que la extracción de data es un proceso más largo: en Instagram sería necesario descargar

las imágenes una a la vez, mientras que en Yelp.com se debería proceder a copiar y pegar

cada comentario en una base de datos. Esto se sugiere para investigaciones que

dispongan de un mayor tiempo disponible. Twitter, en cambio, proporciona datos de más

fácil acceso al permitir extraer y analizar información en forma semiautomática.

Por último, los datos del modelamiento nowcast son complementarios a los del forecast.

Esta complementariedad es del tipo matemática: el nowcast se orienta a la inmediatez y el

forecast, hacia horizontes de tiempo más largos; una variable que puede ser empleada

para el nowcast, también es candidata a ser empleada al forecast (Giannone, et.al. 2008).

Google y Twitter puede emplearse para el modelamiento nowcast, entonces el buscador y

la red social también son candidatos a ser empleados en estimaciones de largo plazo, pero

eso ya es parte de otro estudio.

Page 32: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

29  

4.4. Recomendaciones

Dado que existe evidencia entre los flujos de arribos y las llegadas mensuales, resulta

recomendable estudiar si existe una relación entre ambas variables medidas semana a

semana. Los datos de ambas variables existen y puede realizarse la prueba de correlación.

Google no es el único motor de búsqueda que permite usar sus datos. Si bien es cierto que

se ha estudiado el caso de los hoteles de Máncora, el modelo se puede extender a todo el

territorio peruano. El flujo de arribos de ciudadanos chinos puede estudiarse usando los

datos del buscador Baidu, el más popular en la República Popular China, país donde

Google está restringido por motivos políticos. Es por ello que no se puede utilizar los datos

del motor de búsqueda norteamericano para el caso de los viajeros chinos. Hoy el

segmento chino representa 38 millones de dólares en ingresos para el Perú y es uno de

los de mayor crecimiento (PROMPERU, 2016b)

El motor de búsqueda Google también proporciona información por ciudad. De esta forma

es posible plantear, por ejemplo, la relación entre las búsquedas de hoteles en Máncora

realizadas por limeños y las llegadas de limeños a los hoteles del mencionado distrito.

En cuanto al marketing digital, resulta tentativo estudiar la influencia de las campañas

digitales que tengan por objetivo incrementar las búsquedas relacionadas a Máncora.

Resulta posible aproximarse a la construcción de un indicador del tipo ratio de respuesta

que surja de un cociente entre las búsquedas y llegadas.

Google y Twitter proporcionan información con características de geolocalización. Es

posible encontrar información de cada ciudad y distritos (en el caso de Lima Metropolitana).

Los administradores hoteleros, entonces, podrán segmentar la información en formación

de forma geográfica para distintos tipos de estudios.

Es recomendable el uso de Twitter para evaluar los comentarios y así conocer si la imagen

de otras zonas turísticas (con una importante presencia de hoteles) es positiva o negativa

según las perspectivas de los viajeros. En cuanto al uso de Twitter y los hoteles, es posible

que estos últimos usen dicha red social para evaluar si la imagen de un destino es positiva

o negativa. En el caso de que los viajeros valoren negativamente un lugar, esto

seguramente estará relacionado a un descenso en la demanda hotelera.

Page 33: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

30  

Por otro lado, cabe mencionar que el modelo resulta útil para los estudiantes y

profesionales de la hotelería. Esto debido a que las llegadas a un hotel en particular resulta

ser información sensible a la que no se puede acceder con facilitad. En esta investigación

ha resultado posible aproximarse a la estimación de llegadas en Máncora, indicador que

los vinculados a la industria hotelera encontrarán útil para la descripción de un entorno.

Page 34: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

31  

Referencia

1. Abbasi, A., Hossein, T., Magherbi, M., & Waller, S. (2015). Utilising Location Based Social Media in Travel Survey Methods: bringing Twitter data into the play. Proceedings of the 8th ACM SIGSPATIAL International Workshop on Location-Based Social Networks. New York. Obtenido de http://faculty.ce.berkeley.edu/pozdnukhov/lbsn15/files/a1-abbasi.pdf

2. Askitas, N., & Zimmermann, K. (2009). Google Econometrics and Unemployment Forecasting. Applied Economics Quarterly,, 55(2), 107-120.

3. Athanasopoulos, G., Hyndman, R., Song, H., & Wu, D. (2011). The tourism forecasting competition. International Journal of Forecasting, 822-844.

4. Banco Mundial. (2016). Usuarios de Internet (por cada 100 personas). Recuperado el 20 de Febrero de 2017, de http://datos.bancomundial.org/indicador/IT.NET.USER.P2?view=map

5. Barón, F., & Téllez, F. (2010). Regresión múltiple. Apuntes de Bioestadística. Obtenido de https://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf

6. BCRP. (2012). Piura: principales atractivos turísticos. Recuperado el 2 de Marzo de 2017, de http://www.bcrp.gob.pe/docs/Sucursales/Piura/Piura-Atractivos.pdf

7. BCRP. (2017). Informe Económico y Social de la Región Piura. Recuperado el 30 de Mayo de 2017, de http://www.bcrp.gob.pe/publicaciones2/glosario/42-transparencia/comunicaciones3/361-informe-economico-y-social-region-piura.html

8. Bigne, E., Andreau, L., & Oltra, E. (2017). TOURISM DESTINATION TWEETS PREDICT HOTEL OCCUPANCY: AN ARTIFICIAL NEURAL NETWORK STUDY. University of Valencia. Recuperado el 30 de Mayo de 2017, de www.marketing-trends-congress.com/archives/2016/pages/PDF/BIGNE_ANDREU_OLTRA.pdf

9. Camacho, M., & Pacce, M. (2016). Forecasting travelers in Spain with Google queries. BBVA. Recuperado el 5 de Marzo de 2017, de https://www.bbvaresearch.com/wp-content/uploads/2016/12/WP_16-211.pdf

10. Carriere-Swallow, Y., & Labbe, F. (2013). Nowcasting with Google Trends in an Emerging Markets. Journal of Forecasting, 32(4), 289-298. doi:10.1002/for.1252

11. Chang, J., & Del Río, A. (2013). Google Trends: Predicción del nivel de empleo agregado en Perú usando datos en tiempo real, 2005-2011. Recuperado el 21 de Febrero de 2017, de http://www.bcrp.gob.pe/docs/Publicaciones/Documentos-de-Trabajo/2013/documento-de-trabajo-15-2013.pdf

12. Choi, H., & Varian, H. (2011). Predicting the Present with Google Trends. Recuperado el 22 de Febrero de 2017, de http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf

13. Cuxart, A. (2000). Modelos Estadísticos y Evaluación. Revista de Educación(323), 369-394.

14. Davenport, T. (2013). At the Big Data Crossroads: turning towards a smarter travel experience. Recuperado el 5 de Marzo de 2017, de http://www.bigdata.amadeus.com/assets/pdf/Amadeus_Big_Data.pdf

Page 35: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

32  

15. De la Oz, M. (2014). Predicting Tourist Inflows to Punta Cana, Dominican Republic, Using Google Trends. Recuperado el 23 de Febrero de 2017, de http://digitalcommons.usu.edu/cgi/viewcontent.cgi?article=1362&context=gradreports

16. Dinis, G., Costa, C., & Pacheco, O. (2015). Google it! Using the Google Trends tool to understand the Algarve Tourist. dosalgarves A multidisciplinary e-journal, 21, 64-84.

17. Garth, A. (2008). Analysing data using SPSS. Recuperado el 22 de Febrero de 2017, de Sheffield Hallam University: http://teaching.shu.ac.uk/hwb/ag/resources/material/analysingdatausingspss.pdf

18. Giannone, D., Reichlin, L., & Small, D. (2008). Nowcasting: The real-time informational content of macroeconomic data. Journal of Monetary Economics, 55, 665-676. Recuperado el 8 de Marzo de 2017, de http://dept.ku.edu/~empirics/Courses/Econ844/papers/Nowcasting%20GDP.pdf

19. Google Trends. (2017). Resultados de la búsqueda para el término Máncora (Hoteles). Recuperado el 15 de Marzo de 2017, de https://trends.google.com/trends/explore?cat=179&q=%2Fm%2F090cdh

20. Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta ed.). México: McGraw Hill.

21. Hofmann, M., & Chisholm, A. (2015). Text Mining and Visualization: Case Studies Using Open-Source Tools. Chapman and Hall/CRC .

22. Ipsos Perú. (2016). Perfil del Internauta 2016.

23. Jeong, H., Mankad, S., Gavirneni, N., & Verma, R. (2016). What Guests Really Think of Your Hotel: Text Analytics of Online Customer Reviews. Cornell Hospitality Repor, 16(2), 3-17. Recuperado el 4 de Marzo de 2017

24. Kahn, M., & Liu, P. (2016). Utilizing “Big Data” to Improve the Hotel Sector Energy Efficiency: Lessons from Recent Economics Research. Cornell Hospitality Quarterly, 57(2), 202-210.

25. Korte, D., Ariyachandra, T., & Frolick, M. (2013). Business Intelligence in the Hospitality Industry. International Journal of Innovation, Management and Technology, 4(4), 429-434.

26. Kumar, S., Morstatter, F., & Liu, H. (2014). Twitter Data Analytics. Springer.

27. Laney, D. (2001). 3D Data Management: Controlling Data Volume, Velocity and Variety. Recuperado el 5 de Marzo de 2017, de http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf

28. Lee, S., Jo, J., Kim, Y., & Hwang, E. (2016). Big Data Analysis with Hadoop on Personalized Incentive Model with Statistical Hotel Customer Data. International Journal of Software Innovation, 4 (3), 1-21.

29. Linares, R., Herrera, J., Cuadros, A., & Alfaro, L. (2015). Prediction of Tourist Traffic to Peru by using Sentiment Analysis in Twitter Social Network. Computing Conference (CLEI). Arequipa. doi:10.1109/CLEI.2015.7360051

Page 36: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

33  

30. Microsoft. (2016). Excel 2016. Obtenido de https://www.microsoft.com/en-gb/smb/articles/top-5-benefits-of-microsoft-excel

31. MINCETUR. (2015). Reglamento de Establecimientos de Hospedaje. Recuperado el 8 de Marzo de 2017, de http://www.elperuano.com.pe/normaselperuano/2015/06/09/1248181-2.html

32. MINCETUR. (2016). Atractivos Turístico - Playa Máncora. Recuperado el 2 de Marzo de 2017, de http://ficha.sigmincetur.mincetur.gob.pe/index.aspx?cod_Ficha=407

33. MINCETUR. (2017). Resultados de la Encuesta Mensual a Establecimientos de Hospedaje Temporal. Recuperado el 8 de Marzo de 2017, de http://consultasenlinea.mincetur.gob.pe/estaTurismo/Index.aspx?po=hospedajeTemporal/consulta/frmActividades.aspx?id=1572

34. Minitab. (s.f.). Soporte de MiniTab17. Recuperado el 8 de Marzo de 2017, de http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/regression-and-correlation/goodness-of-fit-statistics/r-squared/

35. Monje, C. (2011). Metodología de la Investigación Cualitativa y Cuantitativa. Recuperado el 8 de Marzo de 2017, de https://carmonje.wikispaces.com/file/view/Monje+Carlos+Arturo+-+Gu%C3%ADa+did%C3%A1ctica+Metodolog%C3%ADa+de+la+investigaci%C3%B3n.pdf

36. Onder, I., & Gunter, U. (2016). Forecasting Tourism Demand with Google Trends: The Case of Vienna. Conference: The 8th International Conference on Computational and Financial Econometrics. Recuperado el 23 de Febrero de 2017, de https://www.researchgate.net/publication/274009577_Forecasting_Tourism_Demand_with_Google_Trends_The_Case_of_Vienna

37. Pallant, J. (2007). SPSS survival manual: a step by step guide to data analysis using SPSS for Windows. Open University Press.

38. Pan, B., Chenguand, D., & Song, H. (2012). Forecasting hotel room demand using search engine data. Journal of Hospitality and Tourism Technology, 3(3), 196 - 210. doi:10.1108/17579881211264486

39. Park, S., Lee, J., & Song, W. (2015). Short-term forecasting of Japanese tourist inflow to South Korea using Google trends data. Journal of Travel & Tourism Marketing, 34(3). doi:10.1080/10548408.2016.1170651

40. PROMPERU. (2016a). Perfil del Vacacionista Nacional 2015 - Vacacionistas que visitaron Piura. Recuperado el 5 de Marzo de 2017, de http://www.promperu.gob.pe/TurismoIN/Sitio/Descargar?url=~/Uploads/perfiles_vacac_nac/1035/tips/2115/PVN15_Vacacionistas%20que%20visitaron%20Piura.pdf

41. PROMPERU. (2016b). Perfil del turista extranjero - Turista que visitó Piura 2015. Recuperado el 5 de Marzo de 2017, de http://www.promperu.gob.pe/TurismoIN/Sitio/Descargar?url=~/Uploads/perfiles_extranjeros/38/tips/2325/PTE%202015%20-%20Turista%20que%20visita%20Piura.pdf

42. Song, H., & Li, G. (2008). Tourism demand modelling and forecasting-A eview of recent research. Tourism Manage, 29, 203-220.

Page 37: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

34  

43. TripAdvisor. (Mayo de 2017). Mancora Hotels. Obtenido de https://www.tripadvisor.com/Hotels-g635976-Mancora_Piura_Region-Hotels.html

44. Vázquez, V., Cruz, H., Reyes, H., Juárez, B., & Solano, F. (2014). Modelado y predicción de la tasa de interés interbancaria de equilibrio en México vía un proceso auto-recursivo de orden uno. Revista de Análisis Cuantitativo y Estadístico, 1(1), 1-9.

45. Yang, Y., Pan, B., & Song, H. (2013). Predicting Hotel Demand Using Destination Marketing Organization’s Web Traffic Data. Journal of Travel Research, 53(4), 433-447. doi: 10.1177/0047287513500391

46. Zahkary, A., Atiya, A., El-Shishiny, H., & El-Gayar, N. (2009). Forecasting Hotel Arrivals and Occupancy Using Monte Carlo Simulation. Journal of Revenue & Pricing Management. Recuperado el 6 de Marzo de 2017, de https://www.researchgate.net/publication/228621779_Forecasting_hotel_arrivals_and_occupancy_using_Monte_Carlo_simulation

47. Zhang, Y., Shu, S., Ji, Z., & Wang, Y. (2015). A Study of the Commercial Application of Big Data of the International Hotel Group in China: Based on the Case Study of Marriott International. 2015 IEEE First International Conference on Big Data Computing Service and Applications. Recuperado el 3 de Marzo de 2015, de http://ieeexplore.ieee.org/document/7184910/

Page 38: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

35  

Anexos

Anexo 1

Figura 1. Módulo de consulta para obtener datos del motor de Búsqueda acerca de Máncora.

Fuente: Google Trends

Anexo 2

Figura 2. Módulo de Consulta que limita los resultados solo a aquellas búsquedas relacionadas a hoteles y

similares

Fuente: Google Trends

Anexo 3

Figura 3. Vista previa de los resultados registrados por el motor de búsqueda a lo largo del tiempo para el

término Máncora (Hoteles)

Fuente: Google Trends

Page 39: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

36  

Anexo 4

Figura 4. Módulo de descarga de datos de búsqueda en archivo CSV

Fuente: Google Trends

Anexo 5

Figura 5. Módulo de descarga de datos de búsqueda en archivo CSV

Fuente: Google Trends

Anexo 6

Page 40: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

37  

Figura 6. Transformación de comentario en dato numérico usando el análisis sentimental con el instrumento

Lexalytics. En este caso la expresión: “Bye bye Mancora. You were the perfect holiday from out vacation”

alcanzó un puntaje de 0.750.

Anexo 7

Tabla A1: Análisis de Varianza del primer modelo

Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P

Modelo 0.391902 2 0.195951 15.1 0

Residuo 0.739491 57 0.0129735 Total (Corr.) 1.13139 59

El objetivo del análisis de varianza es comparar las dos fuentes de variación (regresión y

residuos) para saber cuál explica mejor la variación en la variable respuesta LogH(t). Para

hacer esto, es necesario recurrir a un a prueba que compara la variación en regresión y la

variación residual, conocida como la prueba F. La salida es proporcionada por el software

estadístico. El indicador más importante de esta tabla es el Valor-P, el cual indica que

algunas variables del modelo son explicativas.

Por otro lado, este modelo que no incluye datos electrónicos puede ser presentado en

forma gráfica.

Figura 7. Gráfico de Resultados Observados vs. Predichos para el caso del primer modelo.

Gráfico de LogH(t)

3.6 3.8 4 4.2 4.4predicho

3.6

3.8

4

4.2

4.4

ob

serv

ado

Page 41: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

38  

Anexo 8

Tabla A2: Análisis de Varianza del segundo modelo

Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P

Modelo 0.891804 4 0.222951 51.18 0

Residuo 0.239589 55 0.00435616 Total (Corr.) 1.13139 59

El objetivo del análisis de varianza es comparar las dos fuentes de variación (regresión y

residuos) para saber cuál explica mejor la variación en la variable respuesta LogH(t). Para

hacer esto, es necesario recurrir a un a prueba que compara la variación en regresión y la

variación residual, conocida como la prueba F. El indicador más importante de esta tabla

es el Valor-P, el cual indica que algunas variables del modelo son explicativas.

Además el modelo que ha incorporado las variables electrónicas

Figura 8. Gráfico de Resultados Observados vs. Predichos para el caso del segundo modelo.

En el segundo modelo, los puntos están más próximos a la línea. Entonces la incorporación

de las variables de Google y Twitter si ayudan a mejorar el pronóstico de las llegadas a

hospedajes de Máncora.

Gráfico de LogH(t)

3.6 3.8 4 4.2 4.4predicho

3.6

3.8

4

4.2

4.4

ob

serv

ado

Page 42: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

39  

Anexo 9

Matriz de Consistencia

PROBLEMA OBJETIVOS HIPOTESIS (si se requiere) VARIABLES DIMENSIÓN INDICADORES 

Sub Indicador

es

Problema Principal

Objetivo principal

Hipótesis principal Variable

independiente Dimensión de la VI

Material con el que se

corroborará información

Se desea saber si los datos provistos por el motor de búsqueda y Twitter son utilizables para el modelo nowcasting del flujo mensual de arribos a hospedajes en Máncora.

Determinar si la ecuación que incluye los datos del motor de búsqueda Google y la red social Twitter alcanza un mejor nivel de ajuste que el modelo que no emplea dichas variables en el caso de los arribos mensuales a hospedajes en Máncora.

La ecuación que incluye los datos del motor de búsqueda Google y la red social Twitter alcanza un mejor nivel de ajuste que el modelo que no emplea dichas variables en el caso de los arribos mensuales a hospedajes en Máncora.

Datos mensuales del motor de búsqueda referidos a hospedajes en Máncora Nivel se sentimiento mensual en los comentarios de Twitter acerca de Máncora.

Número de arribos a hospedajes en Máncora Índice de búsqueda mensual acerca de hospedajes en Máncora. Nivel de Sentimiento en los comentarios de Twitter.

Datos de Google Trends. Datos de Nivel de Sentimiento de Twitter.

Page 43: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

40  

Problemas específicos

Objetivos específicos

Hipótesis específica Variable dependiente

Dimensión de la VD

Se desea saber si las llegadas mensuales registradas hace un año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo de arribos

Determinar si las llegadas mensuales registradas hace un año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.

Las llegadas mensuales registradas hace un año a hospedajes en Máncora no son utilizables para modelar el nowcasting del flujo mensual de arribos.

Flujo mensual de arribos a hospedajes de Máncora

Cantidad de arribos mensuales a hospedajes en Máncora.

Datos proporcionados por el MINCETUR.

Se desea determinar si las llegadas mensuales registradas hace un mes a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo de arribos.

Determinar si las llegadas mensuales registradas hace un año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.

Las llegadas mensuales registradas hace un año a hospedajes en Máncora no son utilizables para modelar el nowcasting del flujo mensual de arribos.

Page 44: FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y …repositorio.usil.edu.pe/bitstream/USIL/3222/3/2017_Castillo-Valencia.… · 1.1. Planteamiento del problema El porcentaje de hogares

41  

Se desea saber si los volúmenes de búsquedas registrado por Google relacionados a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos. Se desea Determinar si los niveles de sentimiento mensuales de los comentarios en Twitter relacionados a Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.

Determinar si los volúmenes de búsquedas registrado por Google relacionados a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos. Determinar si los niveles de sentimiento mensuales de los comentarios en Twitter relacionados a Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.

Los volúmenes de búsquedas registrado por Google relacionados a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos. Los niveles de sentimiento mensuales de los comentarios en Twitter relacionados a Máncora no son utilizables para modelar el nowcasting del flujo mensual de arribos. 

volúmenes de búsquedas referidos a hoteles en Máncora Sentimiento mensual presente en los comentarios de Twitter.

Índices de Búsqueda Nivel de Sentimiento

Datos obtenidos a partir de Google Trends Datos obtenidos de Twitter con Nvivo y procesados con Lexalytics