FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y...
Transcript of FACULTAD DE ADMINISTRACION HOTELERA TURISMO Y...
FACULTAD DE ADMINISTRACION HOTELERA
TURISMO Y GASTRONOMIA
Carrera de Administración Hotelera
USO DE GOOGLE Y TWITTER EN EL NOWCASTING DEL FLUJO DE LLEGADAS A
HOSPEDAJES EN MÁNCORA
Tesis para optar el Título Profesional de Licenciado en
Administración Hotelera
WENDY FIORELLA CASTILLO VALENCIA
Asesor:
Giannina Crespo Del Busto
Lima –Perú
2017
Índice
I. Introducción..................................................................................................................1
1.1. Planteamiento del problema………………………………......................................1
1.2. Formulación del problema.....................................................................................3
1.3. Justificación de la investigación............................................................................3
II. Marco Referencial........................................................................................................5
2.1. Antecedentes........................................................................................................5
2.2.1. Datos del Motor de Búsqueda Google.......................................................7
2.2.2. Twitter........................................................................................................7
2.2.3. Twitter y análisis de sentimiento................................................................7
2.2.4. Twitter y otras redes sociales....................................................................8
2.2.5. Big Data...................................................................................................11
2.2.6. Big Data y Hotelería................................................................................11
2.2.7. Hospedaje................................................................................................12
2.2.8. Modelo Estadístico...................................................................................12
2.2.9. Nowcasting...............................................................................................12
2.2.10. Nowcasting y Hotelería.........................................................................13
2.2.11. Nowcasting vs. Forecasting..................................................................13
2.2.13. Coeficiente de Determinación.....................................................................14
2.2.14. Modelo de arribos mensuales a hospedajes........................................14
2.2.15. Regresión Múltiple......................................................................................15
2.3. Objetivos..........................................................................................................15
2.4. Hipótesis..............................................................................................................16
III. Método......................................................................................................................17
3.1. Tipo y diseño de investigación............................................................................17
3.1.1. Tipo de Investigación...............................................................................17
3.1.2. Diseño de investigación...........................................................................17
3.2. Variables.............................................................................................................17
3.2.1. Flujo mensual de arribos a hospedajes de Máncora....................................17
3.2.2. Datos de volúmenes de búsquedas referidos a hoteles en Máncora.......18
3.2.3. Sentimiento mensual de los comentarios en Twitter................................19
3.4. Procedimiento de recolección de datos...............................................................21
3.5. Limitaciones.........................................................................................................22
3.6. Plan de análisis....................................................................................................22
IV.Resultados.....................................................................................................................23
4.1. Resultados...............................................................................................................23
4.2. Discusión.................................................................................................................24
4.3. Conclusiones...........................................................................................................26
4.4. Recomendaciones...................................................................................................29
Referencia..........................................................................................................................31
Anexos...............................................................................................................................35
Índice de Tablas
Tabla 1: Arribos mensuales a Hospedajes de Máncora 2011-2016 .................................. 18
Tabla 2: Índice de Búsquedas relacionadas a hospedajes en Máncora (2012-2016) ....... 19
Tabla 3: Sentimiento mensual del término Máncora como destino de viaje (2012-2016) . 20
Tabla 4: Regresión Múltiple del primer modelo ................................................................. 23
Tabla 5: Regresión Múltiple del segundo modelo .............................................................. 24
1
I. Introducción
1.1. Planteamiento del problema
El porcentaje de hogares en el Perú que tiene acceso al internet en el Perú ya superó el
50% (Ipsos Perú, 2016). Por otro lado, un 90% de peruanos que accede a internet hace
uso frecuente de motores de búsqueda como Google (Ipsos Perú, 2016). Dicha tendencia
es global y no retrocederá con el paso de los años (Banco Mundial, 2016). Con una
proporción de internautas cada vez más alta, se ha llegado a postular que los indicadores
electrónicos relacionados con las búsquedas guardan relación con los indicadores del
mundo real (Onder & Gunter, 2016).
Choi & Varian (2011) fueron los primeros investigadores que usaron los datos del motor de
búsqueda Google para predecir indicadores del mundo real. La investigación que realizaron
abarcaba temas relacionados al consumo y turismo. En cuanto a este último tópico, los
investigadores llegaron a la conclusión de que existía una relación directa entre los datos
del buscador y el número de arribos mensuales de turistas de Canadá y Estados Unidos a
Hong Kong.
La anterior investigación fue tomada como base por los especialistas en turismo que
deseaban mejorar los modelos ya existentes (Song & Li, 2008). Parte de las
investigaciones se orientó al nowcasting (Onder & Gunter, 2016). Este último concepto
hace referencia a los sistemas de predicción inmediata, es decir, predicciones del presente,
del pasado reciente y del futuro cercano, siendo utilizados principalmente en ámbitos
propios de la economía (De la Oz, 2014) . El principio básico de este sistema se basa en
obtener el máximo provecho de la información disponible publicada con la finalidad de
obtener una estimación con anterioridad a la siguiente publicación oficial de la variable en
cuestión (Dinis, Costa, & Pacheco, 2015).
Predicciones del presente, del futuro cercano y del pasado reciente son escenarios de muy
corto plazo. Si se trata de mediciones diarias, se hace referencia al hoy, mañana y ayer,un
buen ejemplo de esto son los valores bursátiles en donde es común escuchar en las
noticias financieras el valor de cierre de una acción el día de ayer, cuál es su valor actual
y qué valor alcanzaría el día de mañana (Giannone, Reichlin, & Small, 2008). Por otro lado,
si se trata de pronósticos mensuales, el muy corto plazo, hace referencia a un valor actual,
de cierre o apertura (Carriere-Swallow & Labbe, 2013). Así, por ejemplo, es posible estimar
cuántas personas arribarán a un destino turístico durante un mes vigente (que todavía no
2
ha concluído), cuántas personas llegarán durante el próximo mes y cuántos viajeros
llegaron en el mes que acaba de terminar el día de ayer (Onder & Gunter, 2016). Ambos
casos presentados son ejemplos de escenarios de muy corto plazo. Las entidades
gubernamentales siempre demoran algunos meses en proporcionar cifras de arribos a
hoteles y destinos turísticos (Dinis, et al. 2015)
En el nowcast, un futuro cercano o un pasado reciente, son términos que hacen referencia
a una extensión de tiempo que no puede superar un mes (Dinis, et al. 2015). Así, por
ejemplo, si mañana fuera 31 de diciembre del 2017, una estimación del tipo nowcast solo
puede extendeser hasta el 1 de diciemnbre del 2017 (pasado) o 30 de enero del 2018
(futuro). Los escenarios futuros que superan ese período mensual no están relacionados
al nowcast (Giannone, et.al.2008). Una particularidad del nowcasting es que puede hacer
referencia al pasado; mientras que el forecasting únicamente se centra en el futuro (Askitas
& Zimmermann, 2009). Esta necesidad de analizar el pasado reciente nace a partir de que
los arribos turísticos y otros indicadores siempre salen con meses de retrado (Dinis, et al.
2015).
En este caso, se escogió a Máncora como objeto de estudio, el cual es uno de los seis
distritos de la Provincia de Talara, ubicada en el Departamento de Piura (BCRP, 2012). Su
principal recurso turístico es el balneario de Máncora, el cual también funciona como caleta
de pescadores (MINCETUR, 2016) . En los últimos años se ha convertido en uno de los
ejes turísticos del norte del país (BCRP, 2012). Conforme el flujo de llegadas de visitantes
a Máncora ha ido creciendo, también se ha ido incrementando la oferta hotelera
(MINCETUR, 2016).
En el 2015, un 73% de los vacacionistas nacionales que visitó Píura afirmó que buscó
información en internet antes del viaje y un 46% indicó que visitó Máncora (PROMPERU,
2016a). Por otro lado, un 62% de extranjeros señaló a dicho medio electrónico como el
que más influyó en la elección de Piura como destino y un 88% de ellos arribó a Máncora
(PROMPERU, 2016b).
En Máncora, los hospedajes categorizados solo han concentrado un 4.5% de los arribos
totales durante el período 2012-2016 (MINCETUR, 2017). Esta proporción se ve reflejada
también en los registros de TripAdvisor, ya que solo 14 de los 108 hospedajes registrados
en Máncora cuentan con una categoría (TripAdvisor, 2017). La actividad turística y hotelera
resulta fundamentales para el sostenimiento de Máncora (BCRP, 2017)
Park, Lee, & Song (2015) indicaron que cuando la proporción de viajeros que busca
información en la web antes de viajar a un destino se hace mayoritaria surge un problema
3
de investigación: saber si el número de búsquedas puede ser empleado para modelar los
arribos a hoteles que se encuentran en el área de influencia del punto de destino elegido.
Dicha posible relación también fue planteada por Camacho & Pacce (2016) para el caso
del mercado hotelero español; ambos autores mencionaron que los datos del motor de
búsqueda Google contribuyen a la predicción de tendencias del mercado hotelero en
escenarios de muy corto plazo.
Por otro lado, en el ámbito de la demanda turística, Abbasi, Hossein, Magherbi & Waller
(2015) señalaron que redes sociales como Twitter resultan útiles para la estimación de la
demanda, identificación de la ruta seguida, tiempo requerido para los desplazamientos,
entre otros. Bigne, Andreau, & Oltra (2017) señalaron que los datos de Twitter resulta últiles
para el modelamiento de los ratios de ocupación de hoteles.
La presente investigación pretende determinar si es posible usar los datos del motor de
búsqueda de Google y la red social Twitter en la construcción de un modelo nowcasting de
arribos mensuales a hospedajes en Máncora.
1.2. Formulación del problema
“¿Resultan utilizables los datos del motor de búsqueda Google y la red social Twitter para
construir un modelo nowcasting del flujo de arribos mensuales a hospedajes en Máncora?”
1.3. Justificación de la investigación.
La investigación resultará de utilidad para empresas hoteleras que operen en Máncora,
pues encontrarán una variable asociada a la demanda que se actualiza en tiempo real.
(Camacho & Pacce, 2016). Por otro lado, las autoridades gubernamentales podrán estimar
la cantidad de arribos a hoteles de dicho distrito antes de tener datos oficiales gracias al
modelo nowcasting (Park, et al., 2015) .
A nivel global coexisten los trabajos de investigación que estudian la demanda turística y
hotelera (Park, et al., 2015) .No obstante, en el Perú solo existen estudios asociadas al
flujo de arribos de turistas. En este sentido, este es el primer estudio acerca de arribos a
hospedajes.
Desde un punto de vista académico, quienes estén interesados en el modelamiento de
arribos a hoteles en el Perú, encontrarán en este documento un soporte para la inclusión
de una nueva variable externa: el volumen de búsquedas. Este indicador, además, logra
4
cuantificar un elemento que solo se podía obtener mediante encuestas: el interés hacia los
hoteles de un destino turístico (Zhang, Shu, Ji, & Wang, 2015). Por otro lado, los datos de
Twitter son también introducidos como nueva variable para la construcción de la demanda
hotelera peruana.
El documento pretende reforzar el uso de datos abiertos (open data, en inglés) para la
investigación en hotelería. El empleo de datos electrónicos libres es cada vez más
frecuente en revistas internacionales de investigación vinculadas al sector hotelero (Korte,
Ariyachandra, & Frolick, 2013). Esto contrasta en gran parte de los trabajos de
investigación locales en los que se recurre más a datos primarios obtenidos a través de
instrumentos (tales como encuestas o guía de pautas) y donde los investigadores se
enfrentan a limitaciones de disponibilidad y tiempo.
Las decisiones que se pueden tomar con esta investigación son aquellas vinculadas al
marketing electrónico referido a hoteles en Máncora. En principio, si es que el objetivo es
incrementar la tasa de ocupación de los hoteles en dicha locación, una de los indicadores
a tomar en consideración será un aumento de la cantidad de búsquedas, lo que se consigue
gracias a estrategias de e-marketing (Camacho & Pacce, 2016).
5
II. Marco Referencial
2.1. Antecedentes
Choi & Varian (2011) emplearon los datos del motor de búsqueda para realizar el
modelamiento del número de arribos de turistas extranjeros a Hong Kong entre enero del
2004 y agosto del 2008. Llegaron a demostrar que el número de arribos para un período
mensual está en función de los indicadores registrados hace un año y el mes inmediato
anterior en combinación con el volumen de búsquedas relacionadas al mencionado
territorio en el mes vigente. En el mismo sentido, el R-cuadrado del modelo que no incluía
al indicador electrónico resultaba inferior al de aquella ecuación que sí llegó a usar los
valores del motor de búsqueda Google.
Zahkary, Atiya, El-Shishiny & El-Gayar (2009) construyeron un modelo de predicción diaria
para estimar las llegadas y el ratio de ocupación del Hotel Plaza, ubicado en Alejandrá,
Egipto. Los investigadores propusieron un enfoque para la estimación de estos parámetros
a partir de los datos históricos; a continuación agregaron otras variables como cancelación
de reservas, duración de la estancia y presencia (o ausencia) de espectáculos. El modelo
propuesto proporcionó resultados superiores en comparación con los enfoques existentes
que solo incluían arribos diarios.
Camacho & Pacce (2016) examinaron si las tendencias de las consultas de Google ayudan
a los agentes económicos con predicciones sobre las pernoctaciones de viajeros en
España. Utilzaron un modelo dinámico y una base de datos en tiempo real (los datos del
motor de búsqueda) y demostraron que estos últimos eran elementos pronosticadores de
la demanda hotelera en diferentes intervalos de tiempo. Los investigadores también
evidenciaron que los modelos que incluyen las tendencias de búsqueda superan a los
modelos que excluye dichos indicadores. De esta manera contribuyeron a la literatura
sobre el vínculo entre internet y la demanda hotelera.
Pan, Chenguand, & Song (2012) tuvieron como principal objetivo predecir las arribos de
extranjeros a hoteles en Charleston, Carolina del Sur y usaron los datos de volumen de
búsqueda de Google. Pero a diferencia de la investigación de Choi y Varian (2011), su
enfoque se orientó a la frecuencia semanal como una variable dependiente diferente, a
saber, noches de habitaciones de hotel vendidas. Esta nuevo indicador es más relevante
para la industria de la hospitalidad local que las llegadas de turistas internacionales. Se
empleó un modelo autorregresivo. Esta investigación es la primera que se orienta
especialmente a la hotelería y los datos electrónicos.
6
Yang, Pan, & Song (2013) utilizaron los datos de volumen de tráfico web de una
organización de marketing de un destino para predecir la demanda hotelera en el corto
plazo. Los resultados mostraron una mejora significativa en la reducción de errores en
modelos que incorporaron los datos digitales a comparación de los modelos que no incluían
a dichas variables para las proyecciones a corto plazo de las noches de habitación
vendidas. Estos resultados empíricos demostraron el valor significativo de los datos de
tráfico del sitio web para la predicción de la demanda de habitaciones de hotel en un destino
e incluso los ingresos y el rendimiento futuro de las empresas locales. También se discuten
las implicaciones para futuras investigaciones sobre el uso de Big Data para pronosticar la
demanda hotelera.
Bigne, et.al. (2017) analizaron los comentarios de la red social Twitter y determinaron que
las publicaciones de las Organizaciones de Marketing de Destinos (DMO’s) influyeron
positivamente sobre los ratios de ocupación de hoteles ubicados en Alicante, Cádiz,
Granada, Málaga y Zaragoza durante el año 2015. Emplearon un modelo basado en
inteligencia artificial que registró la data de 7,240 tweets.
Linares, Herrera, Cuadros & Alfaro (2015) usaron el análisis sentimental para predecir el
número de arribos de turistas extranjeros a Perú durante los meses de agosto y septiembre
del 2014. La muestra analizada fue de 1,000 comentarios en la red social Twitter. Los
instrumentos analizados fueron SentiText , un software especializado en medir el
sentimiento presente en un comentario, y Python, un lenguaje de programación. Los
investigadores determinaron que sí existía relación entre el sentimiento de los comentarios
y los arribos totales.
Los antecedentes ya mencionados hacen referencia a que los pronósticos de arribos a
hoteles en el corto plazo se construyen teniendo como base los datos históricos e
incorporando nuevas variables entre las que destaca la cantidad de búsquedas. Esta
adición incrementa el nivel de precisión de los pronósticos, lo cual queda en evidencia a
través de indicadores como un incremento del R-cuadrado. Por otro lafo, los datos de
Twitter son elementos predictores que pueden incluso determinar el ratio de ocupación de
hoteles para áreas geográficas específicas usando técnicas como el análisis sentimental.
Finalmente a diferencia de los modelos turísticos que usan arribos a un atractivo
determinado, en la hotelería deben usarse arribos a hoteles.
7
2.2. Marco Teórico
2.2.1. Datos del Motor de Búsqueda Google.
Conocido también como Google Trends, proporciona un índice de series temporales
del volumen de consultas que los usuarios ingresan a Google en un área geográfica
dada y por un período establecido (Carriere-Swallow & Labbe, 2013). Los usuarios
tienen la posibilidad de ver y descargar los patrones de volúmenes de búsqueda
para uno o más términos consultados (Onder & Gunter, 2016). Dicha información
también está disponible en función de una categoría (Camacho & Pacce, 2016); así,
por ejemplo se puede descargar la información de las consultas referidas a Perú
como destino turístico o solo aquellas que involucren un interés meramente
histórico. También existe información acerca de las búsquedas principales y más
frecuentes que incluyen o están vinculadas con el término de búsqueda (Pan,
Chenguand, & Song, 2012). La información de esta herramienta proporciona cifras
diarias y semanales durante un período que llega hasta la actual (aunque
incompleta) semana (Choi & Varian, 2011). Los datos están disponibles a partir del
2014, no representan una variable absoluta, sino relativa (Chang & Del Río, 2013)
En cuanto a la industria hotelera, los datos del motor de búsqueda se han empleado
para predecir el número de arribos a hoteles (Yang, Pan, & Song, 2013). Por otro
lado, se ha empleado la mencionada información para conocer a los principales
hoteles competidores en un espacio geográfico establecido (Camacho & Pacce,
2016)
2.2.2. Twitter.
Es una red social basada en el servicio de microblogging usada por cerca de 304
millones de personas en el mundo que generan aproximadamente 500 millones de
comentarios al día (Bigne, et.al. 2017). Los datos de esta red social han sido
empleados para identificar tendencias del marketing, ciencias políticas y finanzas
(Kumar, Morstatter & Liu, 2014)
2.2.3. Twitter y análisis de sentimiento.
El análisis de sentimiento pretende clasificadar de manera automática a un mensaje
como positivo, negativo o neutro en función al tono emocional presente en el escrito
(Kumar, et.al. 2014). Esta clasificación se realiza en función a un puntaje específico
asignado a cada comentario (Linares, et.al. 2015). El análisis de sentmiento
aplicado a la red social Twitter surgió el año 2009 y despertó el interés de la
8
comunidad científica debido a sus aplicaciones en diferentes ámbitos de las
ciencias (Linares, et.al. 2015).
2.2.4. Twitter y otras redes sociales.
Twitter proporciona datos de calidad para realizar pronósticos de demanda (Kumar,
et.al. 2014). Dicha red social se caracteriza por su tendencia a ser empleada en
tiempo real (Kumar, et.al. 2014). Otras páginas como TripAdvisor o Expedia
también pueden ser utilizadas como fuente de información, pero por lo general sus
usuarios pueden registrar valoraciones varias semanas y meses después de
realizado el viaje, lo cual puede generar sesgos mayores a los de Twitter (Kahn &
Liu, 2016). Por otro lado, redes sociales como Instagram se encuentran al mismo
nivel que Twitter en cuanto a uso en tiempo real; sin embargo, se prefiere usar la
segunda debido a su mayor compatibilidad con el análisis de sentimiento (Kumar,
et.al. 2014). Esto se debe, principalmente, a los tipos de datos: el análisis de
sentimiento se fortalece en entornos con datos uniformes y Twitter posee
uniformidad en cuanto a sus unidades básicas, es decir, los comentarios realizados
por los usuarios: los mismos poseen una extensión similar y poseen un menor grado
de heterogeneidad que otras redes sociales en cuanto a contenido (Kumar, et.al.
2014). Por otro lado, los primeros algoritmos especializados en el análisis de
sentimiento en redes sociales se construyeron sobre la base de comentarios en
Twitter (Kumar, et.al. 2014). La mayoría de los softwares diseñados para el análisis
de sentimiento fueron puestos a prueba en los comentarios de dicha red social
(Kumar, et.al. 2014).
Por otro lado, Twitter posee datos textuales que pueden ser extraídos en forma
masiva gracias a aplicaciones especializadas, lo cual facilita el posterior
procesamiento de textos (Kumar, et.al. 2014). Luego, la red social que más ha sido
explotada por la producción científica en torno al análisis sentimental y modelos
predictivos ha sido Twitter (Linares, et.al. 2015). Este tiende a tener un mayor grado
de homogeneidad en cuanto ha contenido, ya que predominan los patrones
textuales por sobre las imágenes (Kahn & Liu, 2016).
En cuanto a otras redes sociales como Instagram predominan las imágenes sobre
el contenido textual (Park, et al., 2015). Sí es posible, por ejemplo, procesar
fotografías personales y obtener patrones numéricos para determinar el género o la
edad de una persona; no obstante, el proceso de cuantificar sentimientos y
emociones emppleando una fotografía es una rama de las ciencias de la
9
computación que está apenas introduciéndose al ámbito académico (Park, et al.,
2015). El correcto procesamiento digital de imágenes requiere conocimientos
propios del ámbito de la ingeniería como inteligencia artificial y redes neuronales
(Park, et al., 2015).
Al momento de seleccionar Twitter como red social de análisis, se tomó en cuenta
que para el período 2012-2016, el 75% de personas que arribó a hospedajes en
Máncora es de origen peruano. Por ello, la actividad de los peruanos en las redes
sociales resulta más importante que la de los extranjeros. En el 2016, Twitter fue
usado por un 24% de internautas peruanos, mientras que Instagram alcanzó el
20%; sin embargo, esta última solo había alcanzado una participación del 13% en
el 2015 y antes no figuraba, mientras que Twitter siempre ha tenido una
participación importante desde el 2012 (Ipsos Perú, 2016).
Whatsapp es la segunda red social que más se usa en el Perú , ya que es usada
por un 50% de internautas peruanos (Ipsos Perú, 2016).No obstante, dicha red
social no permite extraer muchos datos ya que la mayoría de su la información que
contiene se encuentra en conversaciones privadas. Por último Facebook, fue usada
por un 99% de peruanos en el 2016 (Ipsos Perú, 2016). Sin embargo, posee una
limitación importante: la proporción de usuarios que comparte información de forma
pública con respecto a sus viajes es mínima si se compara con Twitter (Davenport,
2013). Los usuarios de Facebook comparten información de sus viajes, trabajos y
otros; eso es innegable, pero la mayoría de ocasiones lo hace de tal forma de que
solo sus contactos puedan visualizarla dicho contenido (Kumar, et.al. 2014).
En twitter, en cambio, la proporción de usuarios que comparte contenido de forma
pública es mucho mayor (Kumar, et al. 2014). Dado que Twitter concentra una
mayor cantidad de información pública, es recomendable usar el análisis
sentimental en dicha red social (Kumar, et al. 2014). Si existiese algún mecanismo
que permitiera ver todo el contenido que publican las personas con respecto a
Máncora sin restricciones en Facebook, entonces sería más recomendable usar
dicha red social.
Para el caso de TripAdvisor, dicha red social no posee el grado de inmediatez que
tiene Twitter. Esto queda en evidencia al momento de escribir una opinión. Si se
desea escribir una valoración en TripAdvisor, uno de los campos obligatorios a
llenar es la fecha de visita, una valoración a escribirse en octubre del 2017, puede
incluir experiencias vividas con anterioridad desde octubre del 2017 hasta
10
noviembre del 2016, es decir, un rango de doce meses (TripAdvisor, 2017). Una
extracción de datos que requiera información histórica de experiencias vividas hasta
octubre del 2017, por ejemplo, puede incluir a todos los comentarios de viajeros que
hayan manifestado haber viajado hasta antes de esa fecha en TripAdvisor. Sin
embargo, no será posible incluir comentarios de viajeros que digiten opiniones en
fecha posterior (precisamente porque todavía no han sido escritas) a pesar de que
indicaron haber viajado en el período que es objeto de estudio. Dicho de otra forma,
los comentarios digitados en el 2018 que manifiesten haber viajado a Máncora
durante octubre del 2017 no podrán ser utilizados en el nowcast de este último mes.
Lo anterior no significa que TripAdvisor no pueda utilizarse como Big Data. Al
contrario, sí es empleada, pero hasta ahora los estudios que usan dicha red social
como fuentes de data secundaria se enfocan al comportamiento post-compra, o al
comportamiento después de haber visitado el sitio turístico o haber empleado los
servicios asociados a este (Abbasi, et.al.2015). TripAdvisor ha demostrado ser ideal
para estudio de satisfacción, imagen de servicio, posicionamiento, etcétera (Abbasi,
et.al.2015).
Un último aspecto a considerar es la automatización en el proceso de extracción de
datos. El proceso que permite extraer comentarios de un entorno web en forma
masiva se conoce como data scraping. En este aspecto, Twitter es la red social que
más progresos ha tenido (Kumar, et al. 2014). Extraer valoraciones en Facebook e
Instagram resulta una tarea sumamente complicada dado que se requiere dominio
de conocimientos de lenguajes de programación como Python, competencia que es
propia de ingenieros o científicos (Bigne, et.al. 2017).
En el caso de Instagram, existe un desafío adiciona, dado que es una red cuyo
contenido principal son las imágenes, una extracción masiva de datos tendría que
incluir a las fotografías. Este proceso puede ser llevado a cabo, pero de forma
manual, es decir, seleccionando la imagen y descargándole en una base de datos
para su posterior análisis. Esto sería una solución viable, pero requiere de un tiempo
que sobrepasa los plazos de la investigación. Tal como afirmaron Hernández,
Fernández, & Baptista (2014), uno de los aspectos más importantes al momento de
realizar una investigación, es procurar la viabilidad de la misma. El proceso de
extracción automática de datos favorece a Twitter por encima de otras redes
sociales (Kumar, et al. 2014). Por esta razón también es conveniente emplear
Twitter en lugar de Facebook, Instagram o TripAdvisor. Estas últimas también
11
pueden ser empleadas, pero se requiere de algún mecanismo de extracción masiva
de datos que garantice la viabilidad de la investigación en un plazo determinado.
2.2.5. Big Data.
Laney (2001) señaló que la definición pasa por las tres 'Vs' de gestión de datos:
variedad, volumen y velocidad. La variedad hace referencia a los distintos formatos
de datos que aparentemente no son compatibles (datos de GPS vs. Comentarios
vía Twitter, por ejemplo). El volumen, por otro lado, se refiere a la enorme cantidad
de información que debe ser administrada (las búsquedas en Google, las datos
descriptivos de las reproducciones en YouTube, entre otros). Finalmente, el
incremento de rapidez en que los datos son generados viene asociado al concepto
velocidad.
2.2.6. Big Data y Hotelería.
La información registrada correspondiente a desembolsos de dinero de los clientes
al momento de su arribo y durante su permanencia en un hotel puede ser estudiada
de tal modo que permite clasificar los tipos de necesidades por cada segmento de
huéspedes y maximizar el nivel de gasto de los mismos durante su estancia (Lee,
Jo, Kim & Hwang, 2016). Por otro lado, resulta posible analizar información que no
presenta una estructura definida; los comentarios en redes sociales, por ejemplo,
resultan de mucha utilidad para conocer elementos vinculados a la satisfacción e
insatisfacción de los huéspedes (Jeong, Mankad, Gavirneni, & Verma, 2016).
En cuanto a la administración eficiente de recursos, Kahn & Liu (2016) indicaron
que las cadenas de hoteles pueden reducir sus gastos en electricidad y agua si es
que se conoce con detalle cómo se gastan los mismos, y que esto era posible
gracias a que los hoteles tenían acceso a registros por horas del consumo de litros
de agua y killowats de energía. En otra investigación, Davenport (2013) señaló que
la cadena Marriott ha utilizado Big Data Analytics con el fin de predecir el precio
óptimo de sus habitaciones para llenar sus hoteles haciendo uso de algoritmos que
recurren a variables históricas vinculadas al costo de las habitaciones.
12
2.2.7. Hospedaje.
Según el MINCETUR (2015) es un “lugar destinado a prestar habitualmente
servicio de alojamiento no permanente, para que sus huéspedes pernocten en el
local”.
2.2.8. Modelo Estadístico.
Un modelo estadístico es una ecuación matemática que reproduce los fenómenos
observables de la forma más exacta posible, y para ello tiene en cuenta las variables
suministradas y la influencia que el azar tiene en dichas observaciones (Cuxart,
2000). Es una forma simplificada, matemáticamente formal, de aproximarse a la
realidad generada por los datos (Vázquez, Cruz, Reyes, Juárez, & Solano, 2014).
Opcionalmente permite hacer predicciones (Cuxart, 2000)
2.2.9. Nowcasting.
Se puede definir como la predicción del presente, el futuro muy cercano y el pasado
muy reciente en el ámbito económico (Giannone, et al. 2008). Estos dos últimos
términos pueden entenderse como instantes antes o después del presente
(Giannone, et al. 2008). Así, por ejemplo, es posible estimar el tipo de cambio que
tendrá el dólar frente a la moneda local a primeras horas del día de mañana o el
valor con el que cerró una acción en la Bolsa de Valores el día de ayer incluso sin
haber accedido a reportes oficiales (Giannone, et al. 2008).
Recientemente se ha vuelto popular en la disciplina económica, ya que las medidas
estándar usadas para evaluar el estado de una economía (el PBI, por ejemplo) sólo
se determinan después de un largo tiempo e incluso están sujetas a revisiones
posteriores (Chang & Del Río, 2013). Los modelos de predicción inmediata se han
aplicado en muchas instituciones, en particular los Bancos Centrales, y la técnica
se utiliza rutinariamente para monitorear el estado de la economía en tiempo real
(Askitas & Zimmermann, 2009). En cuanto al turismo y la hotelería, los indicadores
de llegadas siempre son publicados con algunos meses de retraso (Chang & Del
Río, 2013). El nowcasting otorga la posibilidad de alcanzar un indicador por
adelantado que resulta útil para realizar estimaciones en escenarios que
comprenden un plazo muy corto (Park, Lee, & Song, 2015).
13
2.2.10. Nowcasting y Hotelería.
El uso del nowcasting en la hotelería se ha dado principalmente para predecir
demandas en escenarios de corto plazo (Pan, et.al. 2012). Así, por ejemplo, será
posible determinar cuántas personas arribarán a un hotel el 31 de diciembre de un
año específico utilizando registros de hasta un día antes, es decir, 30 de diciembre
(Pan, et.al. 2012).
2.2.11. Nowcasting vs. Forecasting.
El Forecasting construye escenarios de largo plazo (Athanasopoulos, et.al. 2011).
Pretende determinarse, por ejemplo, cuántos arribos se producirán el próximo año
o en los siguientes cinco años (Athanasopoulos, et.al. 2011). El nowcasting es para
predicciones en escenarios de muy corto plazo: mañana o en los próximos 30 días
(Askitas & Zimmermann, 2009). El Forecasting puede ser empleado para iniciativas
e inversión (construcción de un hotel, por ejemplo), mientras que el Nowcasting se
emplea para aspectos operativos (determinar cuánto personal se va a necesitar
para atender a los viajeros que llegarán mañana) (De la Oz, 2014).
2.2.12. Periodicidad de los pronósticos.
Los pronósticos del tipo nowcasting obedecen a diferentes necesidades y pueden
ser calculados en forma diaria, semanal o mensual (De la Oz, 2014). El elegir uno
de ellos obedece a la disponibilidad de los datos y al tipo de destino estudiado
(Athanasopoulos, et.al. 2011). Si se trata de lugares particularmente sensibles a la
actividad turística (como Máncora), lo más conveniente es realizar pronósticos
mensuales, dado que son los que reflejan mejor efectos como la estacionalidad
(Athanasopoulos, et.al. 2011). Los pronósticos diarios requieren la aplicación de
métodos econométricos complejos e información adicional a los arribos:
cancelaciones, tipo de cambio (para el caso de los extranjeros), entre otros datos.
Para el caso de Máncora solo se tienen arribos.
14
2.2.13. Coeficiente de Determinación.
También conocido como R-cuadrado (R2), “es el porcentaje de variación de la
variable dependiente que explica su relación con una o más variables
independientes” (Minitab, s.f.). Por lo general, mientras mayor sea el R2, mejor será
el ajuste del modelo a sus datos de entrada; el R2 siempre se encuentra entre 0 y
100% (Garth, 2008).
2.2.14. Modelo de arribos mensuales a hospedajes.
En la presente investigación se optará por el modelo de Choi & Varian (2011), el
mismo ha sido tomado como base para todos aquellas ecuaciones que han
pretendido modelar los arribos turísticos y hoteleros haciendo uso de los
indicadores del motor de búsqueda (Athanasopoulos, Hyndman, Song, & Wu,
2011). Por otro lado, se adoptará el enfoque de De la Oz (2014), quien adaptó la
ecuación y la analizó como si se tratase de una regresión múltiple. Estos modelos,
originalmente usados para el turismo son tambien empleables para la hotelería
(Pan, Chenguand, & Song, 2012). El modelo queda, luego, expresado de la
siguiente forma:
Log (H(t)) = a1 + b1 * Log (H(t-12))+ b2 * Log (H(t-1)) (primer modelo)
En la anterior expresión, H(t) es la cantidad de arribos a hospedajes en Máncora en
el mes t (abril del 2016, por ejemplo) ; H(t-12) corresponde a las llegadas recibidas
para el mismo mes pero correspondientes al año anterior (abril del 2015 de acuerdo
a la situación ejemplificada); H(t-1) es también un flujo que corresponde al número
de arribos pero para el mes inmediato anterior (marzo del 2016 en sintonía con el
ejemplo).
Posteriormente se incorporan las variables obtenidas a partir del motor de búsqueda
de Google y la red social Twitter de la siguiente forma:
Log H(t) = a1 + b1 * Log H(t-12)+ b2 * Log H(t-1) + c1* G(t) + c2*S(t) (segundo
modelo)
La ecuación anterior adiciona el índice de búsquedas mensual G (t) (representa las
búsquedas de hospedajes en Máncora de abril del 2016 de acuerdo al ejemplo
anterior) ; y S(T) representa al sentimiento acumulado mensual de los comentarios
en la red social Twitter vinculados a Máncora (de abril del 2016 de acuerdo al
ejemplo) . La forma en que se incluyen los comentarios de Twitter fue propuesta por
15
Kumar, et.al. (2014). Los términos b1, b2, c1 y c2 son los coeficientes que afectan
a las variables Log H(t-12); Log H(t-1), H(t) y S(t) respectivamente , y a1 es un
término independiente. Lo que se espera es que todas las variables ya
mencionadas tengan una relación directa (Camacho & Pacce, 2016)
2.2.15. Regresión Múltiple.
Se utiliza para la predicción de respuestas a partir de variables explicativas (Barón
& Téllez, 2010). En investigaciones se emplea para identificar los indicadores que
efectivamente pueden influir en la respuesta y descarta aquellas que no aportan
información (Barón & Téllez, 2010).
2.3. Objetivos
Objetivo General: Determinar si la ecuación que incluye los datos del motor de
búsqueda Google y la red social Twitter alcanza un mayor nivel de relación que el
modelo que no emplea dichas variables en el caso de los arribos mensuales a
hospedajes en Máncora.
Objetivo específico 1: Determinar si las llegadas mensuales registradas hace un
año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo
mensual de arribos.
Objetivo específico 2: Estimar si las llegadas mensuales registradas hace un mes a
hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual
de arribos.
Objetivo específico 3: Determinar si los volúmenes de búsquedas registrado por
Google relacionados a hospedajes en Máncora son utilizables para modelar el
nowcasting del flujo mensual de arribos.
Objetivo específico 4: Determinar si el sentimiento mensual de los comentarios en
Twitter relacionados a Máncora son utilizables para modelar el nowcasting del flujo
mensual de arribos.
16
2.4. Hipótesis
La hipótesis principal es la siguiente:
Hp: La ecuación que incluye los datos del motor de búsqueda Google y la red social
Twitter alcanza un mayor nivel de relación que el modelo que no emplea dichas
variables en el caso de los arribos mensuales a hospedajes en Máncora.
Mientas que las hipótesis secundarias nulas son:
Ho1: Las llegadas mensuales registradas hace un año a hospedajes en Máncora no
son utilizables para modelar el nowcasting del flujo de arribos.
Ho2: Las llegadas mensuales registradas hace un mes a hospedajes en Máncora no
son utilizables para modelar el nowcasting del flujo mensual de arribos.
Ho3: Los volúmenes de búsquedas registrado por Google relacionados a hospedajes
en Máncora no son utilizables para modelar el nowcasting del flujo mensual de
arribos.
Ho4: El sentimiento mensual de los comentarios en Twitter relacionados a Máncora
no son utilizables para modelar el nowcasting del flujo mensual de arribos.
Estas son las hipótesis nulas, las hipótesis alternativas niegan cada una de las ya
expuestas.
17
III. Método
3.1. Tipo y diseño de investigación
3.1.1. Tipo de Investigación.
Se recurre al análisis de magnitudes numéricas que pueden ser tratadas mediante
herramientas del campo de la estadística (Monje, 2011). Por tanto, se trata de un
estudio del tipo cuantitativo. Esta tipología, por otro lado, permite dar respuesta a
las preguntas propias de la investigación y comprobar hipótesis delimitadas en
forma previa (Hernández, et.al. 2014).
3.1.2. Diseño de investigación.
El diseño de investigación será correlacional: busca medir la relación entre dos o
más variables, estableciendo su grado de correlación; sin embargo, no pretende
dar una causa completa al fenómeno investigado, sólo investiga grados de
correlación (Hernández et al., 2014). El objetivo es conocer cómo se comporta una
variable en relación a otra (Monje, 2011).
3.2. Variables.
3.2.1. Flujo mensual de arribos a hospedajes de Máncora.
Es una variable de libre acceso que se obtiene a partir de la Encuesta Mensual de
Establecimientos de Hospedaje (MINCETUR, 2017). Incluye tanto a extranjeros
como nacionales que han arribado a hospedajes de Máncora entre los años 2012
al 2016. Es necesario mencionar que el estudio abarcará los datos del período
indicado a pesar de contar con las llegadas del año 2011, y esto se debe a que para
usar el modelo es necesario tener los datos del año anterior. El número de arribos
para un mes de referencia cualquiera del 2012 al 2016 viene a ser la variable
dependiente (llegadas registrada en noviembre el 2016, por ejemplo), mientras que
las variables independientes serán los arribos registrados hace un año y hace un
mes respecto al mencionado período de referencia (llegadas registrada en
noviembre del 2015 y octubre del 2016 respectivamente, de acuerdo al ejemplo).
18
En cuanto a las llegadas, Máncora ha mantenido un comportamiento irregular. En
los años 2012 y 2014, la demanda se contrajo, mientras que se expandió para los
demás años de análisis. No existe una tendencia fija.
Tabla 1: Arribos mensuales a Hospedajes de Máncora 2011-2016
Período 2011 2012 2013 2014 2015 2016
enero 12,692 14,354 19,024 11,774 14,154 14,749
febrero 11,895 14,547 14,644 17,458 14,152 14,502
marzo 9,733 8,872 13,953 9,150 8,850 10,912
Abril 7,987 6,325 10,750 6,721 9,358 7,448
mayo 8,888 5,272 8,827 5,541 6,002 6,259
Junio 6,620 9,550 9,866 4,388 7,711 6,439
Julio 10,746 7,218 12,304 7,587 9,793 12,434
agosto 10,118 8,321 9,352 9,888 9,186 8,994
septiembre 6,589 5,154 6,861 5,464 6,801 8,743
octubre 12,625 9,688 9,466 10,616 9,945 9,185
noviembre 9,748 9,338 12,587 9,789 7,844 8,790
diciembre 6,861 7,023 11,365 10,203 7,716 11,637
Total 114,502 105,662 138,999 108,579 111,512 120,092
Crecimiento -7.72% 31.55% -21.89% 2.70% 7.69%
Fuente: MINCETUR (2017)
3.2.2. Datos de volúmenes de búsquedas referidos a hoteles en Máncora.
Es una variable independiente. Proviene de una fuente secundaria (Google Trends,
2017). Se ingresa a la dirección https://www.google.com/trends/ y se procede a
digitar el término que desea buscarse: Máncora. Es necesario mencionar la
depuración de los datos como función de autocorrección ofrecida por Google
(Anexo 1). De esta manera si es que un usuario busca información acerca de
Máncora y no conoce la forma en la que se escribe y digita “Máncora”, el buscador
mostrará la corrección y la relacionará con Máncora, esto es la corrección
semántica (Yang, Pan, & Song, 2013). Luego, se procede a restringir las búsquedas
a la categoría Hoteles y Alojamiento (Anexo 2)
El resultado será la salida del software que muestra el interés a lo largo del tiempo
para el término Máncora (Anexo 3). La base de datos resulta descargable como
19
archivo CSV (Anexo4). Se obtiene una base de datos que está disponible por días
y semanas por lo que será necesario agruparlas en meses mediante operaciones
de adición y así obtener indicadores mensuales (Anexo 5). En cuanto al ámbito
geográfico de búsqueda, el navegador permite seleccionar si se desea limitar las
búsquedas a un espacio determinado. Resulta posible obtener el interés global
hacia Máncora, pero también es posible delimitar los resultados a territorio peruano.
Tabla 2: Índice de Búsquedas relacionadas a hospedajes en Máncora (2012-2016)
2012 2013 2014 2015 2016
enero 2,281 1,877 1,344 1,858 1,681
febrero 1,822 1,465 1,794 1,476 1,244
marzo 1,218 1,163 859 941 945
abril 1,050 1,054 831 1,066 854
mayo 754 1,009 827 848 932
junio 1,274 995 1,077 1,257 912
julio 979 1,368 1,273 1,324 1,400
agosto 1,199 1,446 1,110 1,055 1,102
septiembre 828 925 884 1,084 1,137
octubre 1,326 1,217 1,233 1,221 1,127
noviembre 1,084 1,282 1,229 1,013 1,196
diciembre 1,277 1,507 1,477 1,206 1,509
Total 15,092 15,308 13,938 14,349 14,039
Crecimiento 1.43% -8.95% 2.95% -2.16%
Fuente: Google Trends
Al igual que los arribos a hospedajes a Máncora, los índices de búsqueda tampoco
presentan una tendencia clara en cuanto a crecimiento.
3.2.3. Sentimiento mensual de los comentarios en Twitter.
Es una variable independiente. Cada comentario en Twitter relacionado a Máncora
como destino de viaje fue procesado con el software Lexalytics (Anexo 6). Los
puntajes alcanzados se organizaron de acuerdo al mes de ocurrencia y
posteriormente sumados de acuerdo al mismo criterio y así se obtuvo un puntaje
mensual que va desde el enero del 2012 hasta diciembre del 2016.
20
Cabe mencionar que el puntaje mensual surge de operaciones de adición y
sustracción.
Tabla 3: Sentimiento mensual del término Máncora como destino de viaje (2012-
2016)
2012 2013 2014 2015 2016
enero 23.785 25.003 27.472 29.617 29.75
febrero 22.914 27.569 28.286 26.759 27.7
marzo 25.862 26.622 30.623 27.909 28.775
abril 25.098 28.944 27.156 29.312 27.624
mayo 26.742 27.857 31.547 26.807 28.168
junio 29.681 31.826 25.826 27.906 27.732
julio 26.692 24.379 27.197 28.217 31.071
agosto 25.380 24.825 28.241 29.422 27.334
septiembre 26.653 31.605 25.267 27.43 26.143
octubre 29.586 32.642 31.262 26.975 25.255
noviembre 26.428 29.948 26.287 25.228 27.551
diciembre 26.078 27.729 28.356 27.394 29.152
Total 314.899 338.949 337.520 332.976 336.255
Crecimiento 7.64% -0.42% -1.35% 0.98%
Fuente: Twitter
En cuanto al sentimiento mensual y las búsquedas en Google, ambas puntuaciones
se han comportado también de forma errática con aumentos y descensos. No existe
una tendencia clara en las mismas.
3.3. Instrumentos de Investigación
Nvivo10 es un software de análisis cualitativo que incluye un paquete especial (Capture for
Nvivo) que permite extraer comentarios de la red social Twitter (Kumar, et.al. 2014) .El
complemento permite extraer los comentarios acerca de un término específico junto a los
usuarios que los digitaron y la fecha en la que fueron registrados (Kumar, et.al. 2014). Este
instrumento fue empleado para extraer los comentarios acerca de Máncora en la red social
Twitter. El software permite, además, eliminar contenido inapropiado o no deseado con
facilidad (Kumar, et.al. 2014).
Lexalytics es un software que permite calcular el puntaje sentimental (o nivel de
sentimiento) en un texto, cuenta con una versión online y otra de prueba gratuita por treinta
21
días que es compatible con Excel (Hofmann & Chisholm, 2015). Se usó para obtener el
nivel de sentimiento presente en cada comentario de Twitter.
Excel es una hoja de cálculo desarrollada por Microsoft que permite almacenar información
y realizar operación matemáticas y estadísticas (Microsoft, 2016). Fue empleado como
almacén de datos y para operaciones básicas.
SPSS es un programa estadístico informático muy usado en las ciencias exactas y sociales
(Pallant, 2007). También es empleado con bastante frecuencia en investigaciones de
mercado (Garth, 2008). Es uno de los softwares estadísticos más conocidos, cuenta con
capacidad para trabajar con grandes bases de datos y una sencilla interfaz para la mayoría
de los análisis (Pallant, 2007). En la versión 12 de SPSS se pueden realizar análisis con 2
millones de registros y 250.000 variables (Garth, 2008). Fue empleado para el análisis
estadístico.
3.4. Procedimiento de recolección de datos
Todos los datos provienen de fuentes secundarias. Las llegadas a hospedajes en Máncora
y las búsquedas de Google se obtuvieron directamente y fueron colocados en la hoja de
cálculo de Excel. En el caso de los comentarios de Twitter, fue necesario capturar los
tweets relacionados a Máncora como destino de viaje y posteriormente depurar el
contenido: eliminar contenido que no tuviera que ver con viajes (actividades municipales,
noticias locales, etc.), borrar emoticones y eliminar SPAM (Linares, et.al. 2015). Luego los
comentarios fueron organizados de acuerdos al mes y años en el que ocurrieron. El
proceso de depuración puede ser llevado a cabo por el investigador (Linares, et.al. 2015).
Posteriormente, los comentarios de Twitter fueron sometidos al instrumento Lexalytics y se
registró el nivel de sentimiento presente en cada uno. Luego se procedió a sumar los
puntajes de cada mes y así obtener indicadores mensuales. Por último se organizaron
todos los datos en una hoja de cálculo junto con los datos de Google y los arribos a
hospedajes. Este proceso se realizó durante los meses de abril y mayo del 2017.
22
3.5. Limitaciones
Entre las limitaciones pertinentes debe tomarse en cuenta que los datos del motor de
búsqueda no son indicadores absolutos. Son datos de naturaleza relativa y se actualizan
en tiempo real. Una nueva muestra de los datos de búsqueda arrojaría índices distintos.
No obstante, ello no cambiará el hecho de que exista la correlación entre las variables
búsquedas y llegadas. Lo que sí cambiarán son algunos coeficientes que afectan a los
indicadores, pero la correlación subsistirá y siempre será directamente proporcional. Otra
de las limitaciones pertinentes es el proceso de depuración de datos de Google. Resulta
cierto que se ha delimitado la información del motor de búsqueda solo a aquellos casos en
los que se busca Máncora con fines de viaje y posteriormente se ha restringido los
resultados a la categoría hoteles. No obstante, una serie de profesionales del turismo
también pueden buscar información de hoteles en Máncora con el objetivo de elaborar un
plan de marketing y el motor de búsqueda los contabilizaría como búsquedas relacionadas
a hoteles en dicho distrito con fines turísticos. Pero es racional creer que casi la totalidad
de búsquedas relacionadas al turismo y más específicamente a hoteles en Máncora, parte
de personas que tienen alguna intención de hospedarse ahí.
Una última limitación es la depuración de comentarios de Twitter. Es un proceso que se
hizo de forma semiautomática y por tanto siempre puede ser mejorado. Además, los
resultados del motor de búsqueda de Twitter también varían con el tiempo ya sea por
mejoras en los algoritmos de búsquedas (Kumar, et.al. 2014) o por disponibilidad del
servicio (Bigne, et.al. 2017). Existen también limitaciones propias del software Nvivo como
instrumento que permite capturas de Twitter ; no obstante, es uno de los mejores
instrumentos de extracción (Kumar, et.al. 2014)
3.6. Plan de análisis
Los datos secundarios ya enumerados serán sometidos a los dos modelos ya citados con
anterioridad durante la primera semana de junio del 2017. El principal indicador a tomar en
cuenta es el R-cuadrado, tal como lo hicieron Choi & Varian (2011). Debe compararse el
R-cuadrado alcanzo por los dos modelos ya mencionados. Luego se verifican los niveles
de significancia registrado por alcanzado por cada una de las variables y se toma como
referencia el 0.05 indicado por (Choi & Varian, 2011).
23
IV. Resultados
4.1. Resultados
El primer modelo posee la forma:
Log (H(t)) = a1 + b1 * Log (H(t-12))+ b2 * Log (H(t-1))
Tabla 4: Regresión Múltiple del primer modelo
Parámetro Estimación Error Estándar
Estadístico -
T Pr(>|T|) (p-valor)
Constante 0.976314 0.559145 1.74608 0.0862
LogH(t-12) 0.496022 0.111582 4.44535 4.1067E-05
LogH(t-1) 0.25853 0.108536 2.38198 0.0206
R-cuadrado = 0.34689; R-cuadrado ajustado = 3235498
En esta primera salida se ha demostrado que sí existe relación entre las llegadas
mensuales a hospedajes en Máncora para un determinado mes y sus datos registrados
hace un año y en el período mensual inmediato anterior. Las estimaciones son los
coeficientes que afecta a cada una de las variables. La relación entre estas últimas es del
tipo directa (tienen símbolo positivo). En el caso de LogH(t-12) su p-valor es muy próximo
a cero y, por tanto no debe ser excluida del modelo de regresión, ocurre una situación
idéntica con la variable LogH(t-1). Luego, la forma del primer modelo es tal como sigue:
LogH(t) = 0.976314 + 0.496022*LogH(t-12) + 0.25853*LogH(T-1)
El estadístico R-Cuadrado indica que el modelo explica 34.6389% de la variabilidad en
LogH(t). El modelo, además, resulta explicativo para las variables mencionadas (Anexo 7)
De momento el coeficiente que afecta a LogH(t-12), es decir, 0.496022 es superior al valor
de 0.25853 que multiplica a LogH(t-1).
En esta primera ecuación no se ha incluido a la variable del motor de búsqueda Google ni
a los datos de Twitter. Pero hasta ahora se cumple que sí existe relación entre las variables
que solo hacen uso de las llegadas en diferentes momentos.
El segundo modelo ya incorpora a los datos del motor de búsqueda y posee la forma:
24
Log H(t) = a1 + b1 * Log H(t-12)+ b2 * Log H(t-1) + c1* G(t) + c2*S(t)
Tabla 5: Regresión Múltiple del segundo modelo
Parámetro Estimación Error Estadístico t Pr(>|T|) (p-valor)
Constante 1.04068972 0.3659004 2.844188539 0.006240285
LogH(t-12) 0.1514208 0.07270769 2.082596848 0.041951753
LogH(T-1) 0.35816367 0.06413869 5.584206557 7.47833E-07
G(T) 0.00034407 3.2635E-05 10.54295995 8.1154E-15
S(T) 0.0176957 0.00430003 4.115245928 0.000130592
R-cuadrado = 0.7882388; R-cuadrado ajustado = 0.77283799
En esta segunda salida ha quedado en evidencia un incremento del valor del R-cuadrado
(normal y ajustado). El nivel de significancia se encuentra en niveles inferiores a 0.05.
Todas las variables dependientes son pertinentes en el modelado (Anexo 8).
En la segunda ecuación el modelo quedó de la siguiente forma:
Log H(t) = a1 + 0.1514208 * Log H(t-12)+ 0.35816367 * Log H(t-1) + 0.00034407 G(t) +
0.0176957*S(t)
4.2. Discusión
Al igual que lo señalado por Choi & Varian (2011), los resultados estadísticos evidencian
que existe correlación entre el número de arribos a hospedajes de Máncora y las
búsquedas relacionadas al distrito en cuanto a hospedajes . La relación es del tipo
directamente proporcional. El R-cuadrado alcanza un valor más alto cuando se incluye a
los datos del motor de búsqueda.
No ha resultado posible realizar la investigación de flujos diarios realizada por Zahkary,
et.al. (2009); tampoco se ha podido incluir variables como cancelación de reservas y
presencia de espectáculos, ya que no se ha podido acceder a dicha información . Sin
embargo, se coincide con el investigador en que la inclusión de variables adicionales
mejora el nivel de precisión de aquellos modelos que únicamente emplean datos históricos
sobre el número de arribos.
25
Resulta verdadero lo mencionado por Camacho & Pacce (2016): los datos del motor de
búsqueda se actualizan en tiempo real. Estos indicadores, además, contribuyen a
pronosticar la demanda hotelera, aunque el pronóstico funciona para un escenario de
tiempo inmediato o nowcasting.
No se cuenta con los datos del flujo de arribos turísticos al distrito de Máncora, pero resulta
verdadero lo señalado por Pan, et.al (2012): el modelamiento que pronostique llegadas a
hoteles en combinación con datos de un motor de búsqueda resulta viable cuando se usan
indicadores de arribos a hoteles. Por otro lado, al existir relación entre los flujos y
búsquedas mensuales, no se puede descartar la relación que puede existir entre ambas
variables si son evaluadas en forma semanal como lo hicieron los investigadores.
Yang, et.al. (2013) usaron datos relacionados a la cantidad de visitas a una página web y
la relacionaron con los arribos a hoteles. No resulta aplicable el uso de esa variable en esta
investigación porque no se ha podido encontrar una web especializada en hoteles de
Máncora. Por otro lado, las pocas webs de negocios locales no generan el tráfico web
mínimo necesario para ser medidos.
En cuanto a lo mencionado por Bigne, et.al. (2017) y Linares, et.al. (2015), la red social
Twitter sí resulta útil para estimar arribos. Si bien es cierto no se ha podido utilizar la
inteligencia artificial o métodos computacionales más sofisiticados, sí se ha podido
emplear el análisis de sentimiento en los comentarios de Twitter y posteriormente recurrir
al modelo de regresión lineal múltiple, el cual es enseñado en los cursos de Estadística
General.
Los objetivos de la investigación se han cumplido. Resulta cierto el hecho de que los datos
de un motor de búsqueda y la red social Twitter pueden ser empleados en el modelamiento
nowcasting de arribos mensuales a hospedajes de Máncora. Lo mismo ocurre con las
llegadas mensuales anteriores y con las llegadas del mes anterior. Los datos electrónicos
contribuyen a mejorar el nivel de ajuste e incrementan la precisión del modelo que solo
emplea datos históricos.
El aporte académico se centra en la relación entre los datos del motor de búsqueda y la
red social Twitter vs. Número de arribos a hospedajes. Es, además, el primer modelo de
demanda hotelera realizado por una universidad peruana.
26
4.3. Conclusiones
Podemos concluir que los datos de un motor de búsqueda y la red social Twitter resultan
utilizables en el modelamiento nowcasting del flujo de arribos mensuales a Máncora.
El empleo de las regresiones múltiples determinó que los datos del motor de búsqueda y
la red social Twitter son significativos en el modelamiento del tipo nowcasting. El
incremento del coeficiente de determinación de un modelo a otro implica que la variabilidad
del indicador llegadas mensuales a hoteles de Máncora en un mes determinado queda
mejor explicada por las variables del motor de búsqueda y sentimiento mensual presente
en los comentarios en Twitter.
La hipótesis de la investigación no era del tipo causal sino correlacional. No es posible
afirmar que más búsquedas de hoteles en Máncora generen que más gente se hospede
en los hoteles de dicho distrito. Eso es tentativo, pero no existe evidencia de ello. Lo que
sí resulta claro es que hay una relación directamente proporcional entre las búsquedas y
las llegadas, aunque es relativamente pequeña en valor absoluto. También existe relación
entre el sentimiento de los comentarios de la red social Twitter y los arribos a hospedajes
del destino trabajado.
Por otro lado, el hecho de que los niveles de sentimiento mensual presente en los
comentarios de la red social Twitter sean todos positivos significa que en cada mes
predominan los mensajes con un contenido favorables al destino. Esta tendencia evidencia
de que el destino resulta valorado en forma positiva, al menos según los comentarios en la
red social Twitter.
Indirectamente se ha demostrado que puede establecerse una relación matemática entre
comentarios y el número de arribos a hospedajes. Este tipo de relación no es muy frecuente
en las investigaciones en hotelería peruanas, donde los comentarios tradicionalmente son
tratados como datos cualitativos.
La Big Data proporciona datos que son de calidad para la estimación de la demanda
hotelera. Es información que se actualiza en tiempo real y que está a libre disponibilidad
de los investigadores que deseen usarla. Los datos de Twitter y Google no requieren de
gastos en efectivo. Este tipo de información es valiosa para los investigadores en hotelería.
Si bien es cierto que en ocasiones la Big Data puede requerir de métodos complejos como
la inteligencia artificial, no resulta verdad que este tipo de investigaciones no pueda ser
abarcada por profesionales hoteleros. El documento ha proporcionado evidencia suficiente
de que es posible realizar investigaciones que involucren Big Data sin necesidad de recurrir
27
a técnicas propias de ingenieros o científicos. La investigación se basa en conocimientos
estadísticos que son adquiridos durante el pregrado de la formación del administrador
hotelero.
La demanda hotelera para un área geográfica específica puede ser estimada empleando
datos históricos. No obstante, un nivel de precisión mayor puede ser alcanzado si se
emplean datos electrónicos, como la información brindada por Google y Twitter.
El empleo de Google y Twitter ha sido posible gracias a que ambas cuentan con
componentes que permiten estudiar un tópico en particular (Máncora). Pero ha resultado
también clave el empleo de indicadores como la geolocalización y la obtención de datos en
un lapso determinado de tiempo.
Por otro lado, el proceso de depuración de información ha hecho posible que los resultados
sean coherentes. Así, por ejemplo se ha evitado que solo se incluya al término clave
Máncora como destino y no la película que comparte el mismo nombre. Lo mismo ocurre
con Twitter, aunque esta última red social requiere una limpieza semiautomática, ya que
carece del algoritmo para diferencias entre los diferentes significados de Máncora.
Era necesario utilizar una variable que pueda complementar a los datos de Google. El
interés hacia un servicio o destino puede incrementarse de forma exponencial si es que,
por ejemplo, ocurriera un hecho negativo notable. Las búsquedas te dicen que se
incrementa el interés; sin embargo, no pueden identificar si ese interés es positivo o
negativo como sí lo puede hacer el análisis de sentimiento a partir de los comentarios.
Dado que se ha modelado empleando flujos mensuales y no diarios, resulta posible estimar
las llegadas a los hospedajes de Máncora para un mes vigente empleando datos históricos,
búsquedas en Google y comentarios en Twitter. Este modelo puede aplicarse cada vez
que esté a punto de terminarse un mes y así estimar cuántas personas han llegado desde
el inicio de dicho período mensual, es decir, la demanda actual que comienza y termina en
un mes que todavía está en vigencia y muy próximo a concluir. Lo anterior resulta de
utilidad para la industria hotelera, ya que permite obtener un indicador antes de que salga
un reporte oficial por parte del Estado. Por otro lado, es posible estimar llegadas en fechas
clave como son los fines de cada mes.
La elección de la red social Twitter ha demostrado ser útil para estimar las llegadas a
hospedajes en Máncora. No obstante, la elección de una red social en particular depende
de la representatividad en el uso con respecto al objeto de estudio (Máncora en este caso)
y la facilidad de acceder y posteriormente extraer información. En Máncora, por otro lado,
28
un 8% de los arribos a hospedajes durante el período 2012-2016 tuvo origen chileno
(MINCETUR, 2017). Si se desea realizar un modelamiento de arribos de chilenos en
Máncora, deberá emplearse una red social que sea representativa en Chile y tenga una
importante proporción de datos de acceso público. Twitter ha sido representativa para los
arribos a hospedajes en Máncora, ya que estos son en su mayoría nacionales. Además, el
hecho de que dicha red social tenga una importante proporción de información que es de
acceso público ha determinado su elegibilidad sobre otras redes de mayor uso como
Facebook, en donde el contenido está más restringido y solo es visible para los contactos
que estén agregados. Por otro lado, el proceso de extracción masiva y automática que
puede llevarse a cabo en Twitter, ha viabilizado la información. El uso de otras redes
sociales está condicionado al dominio de mecanismos que puedan extraer datos en forma
rápida y así evitar los procesos manuales. Si se deseara estudiar solamente el flujo de
americanos que llegan a Máncora, es posible optar por redes que sean más
representativas para Estados Unidos como lo son Yelp.com o Instagram. Pero debe
tomarse en consideración que ambas requieren plazos más amplios en la investigación, ya
que la extracción de data es un proceso más largo: en Instagram sería necesario descargar
las imágenes una a la vez, mientras que en Yelp.com se debería proceder a copiar y pegar
cada comentario en una base de datos. Esto se sugiere para investigaciones que
dispongan de un mayor tiempo disponible. Twitter, en cambio, proporciona datos de más
fácil acceso al permitir extraer y analizar información en forma semiautomática.
Por último, los datos del modelamiento nowcast son complementarios a los del forecast.
Esta complementariedad es del tipo matemática: el nowcast se orienta a la inmediatez y el
forecast, hacia horizontes de tiempo más largos; una variable que puede ser empleada
para el nowcast, también es candidata a ser empleada al forecast (Giannone, et.al. 2008).
Google y Twitter puede emplearse para el modelamiento nowcast, entonces el buscador y
la red social también son candidatos a ser empleados en estimaciones de largo plazo, pero
eso ya es parte de otro estudio.
29
4.4. Recomendaciones
Dado que existe evidencia entre los flujos de arribos y las llegadas mensuales, resulta
recomendable estudiar si existe una relación entre ambas variables medidas semana a
semana. Los datos de ambas variables existen y puede realizarse la prueba de correlación.
Google no es el único motor de búsqueda que permite usar sus datos. Si bien es cierto que
se ha estudiado el caso de los hoteles de Máncora, el modelo se puede extender a todo el
territorio peruano. El flujo de arribos de ciudadanos chinos puede estudiarse usando los
datos del buscador Baidu, el más popular en la República Popular China, país donde
Google está restringido por motivos políticos. Es por ello que no se puede utilizar los datos
del motor de búsqueda norteamericano para el caso de los viajeros chinos. Hoy el
segmento chino representa 38 millones de dólares en ingresos para el Perú y es uno de
los de mayor crecimiento (PROMPERU, 2016b)
El motor de búsqueda Google también proporciona información por ciudad. De esta forma
es posible plantear, por ejemplo, la relación entre las búsquedas de hoteles en Máncora
realizadas por limeños y las llegadas de limeños a los hoteles del mencionado distrito.
En cuanto al marketing digital, resulta tentativo estudiar la influencia de las campañas
digitales que tengan por objetivo incrementar las búsquedas relacionadas a Máncora.
Resulta posible aproximarse a la construcción de un indicador del tipo ratio de respuesta
que surja de un cociente entre las búsquedas y llegadas.
Google y Twitter proporcionan información con características de geolocalización. Es
posible encontrar información de cada ciudad y distritos (en el caso de Lima Metropolitana).
Los administradores hoteleros, entonces, podrán segmentar la información en formación
de forma geográfica para distintos tipos de estudios.
Es recomendable el uso de Twitter para evaluar los comentarios y así conocer si la imagen
de otras zonas turísticas (con una importante presencia de hoteles) es positiva o negativa
según las perspectivas de los viajeros. En cuanto al uso de Twitter y los hoteles, es posible
que estos últimos usen dicha red social para evaluar si la imagen de un destino es positiva
o negativa. En el caso de que los viajeros valoren negativamente un lugar, esto
seguramente estará relacionado a un descenso en la demanda hotelera.
30
Por otro lado, cabe mencionar que el modelo resulta útil para los estudiantes y
profesionales de la hotelería. Esto debido a que las llegadas a un hotel en particular resulta
ser información sensible a la que no se puede acceder con facilitad. En esta investigación
ha resultado posible aproximarse a la estimación de llegadas en Máncora, indicador que
los vinculados a la industria hotelera encontrarán útil para la descripción de un entorno.
31
Referencia
1. Abbasi, A., Hossein, T., Magherbi, M., & Waller, S. (2015). Utilising Location Based Social Media in Travel Survey Methods: bringing Twitter data into the play. Proceedings of the 8th ACM SIGSPATIAL International Workshop on Location-Based Social Networks. New York. Obtenido de http://faculty.ce.berkeley.edu/pozdnukhov/lbsn15/files/a1-abbasi.pdf
2. Askitas, N., & Zimmermann, K. (2009). Google Econometrics and Unemployment Forecasting. Applied Economics Quarterly,, 55(2), 107-120.
3. Athanasopoulos, G., Hyndman, R., Song, H., & Wu, D. (2011). The tourism forecasting competition. International Journal of Forecasting, 822-844.
4. Banco Mundial. (2016). Usuarios de Internet (por cada 100 personas). Recuperado el 20 de Febrero de 2017, de http://datos.bancomundial.org/indicador/IT.NET.USER.P2?view=map
5. Barón, F., & Téllez, F. (2010). Regresión múltiple. Apuntes de Bioestadística. Obtenido de https://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf
6. BCRP. (2012). Piura: principales atractivos turísticos. Recuperado el 2 de Marzo de 2017, de http://www.bcrp.gob.pe/docs/Sucursales/Piura/Piura-Atractivos.pdf
7. BCRP. (2017). Informe Económico y Social de la Región Piura. Recuperado el 30 de Mayo de 2017, de http://www.bcrp.gob.pe/publicaciones2/glosario/42-transparencia/comunicaciones3/361-informe-economico-y-social-region-piura.html
8. Bigne, E., Andreau, L., & Oltra, E. (2017). TOURISM DESTINATION TWEETS PREDICT HOTEL OCCUPANCY: AN ARTIFICIAL NEURAL NETWORK STUDY. University of Valencia. Recuperado el 30 de Mayo de 2017, de www.marketing-trends-congress.com/archives/2016/pages/PDF/BIGNE_ANDREU_OLTRA.pdf
9. Camacho, M., & Pacce, M. (2016). Forecasting travelers in Spain with Google queries. BBVA. Recuperado el 5 de Marzo de 2017, de https://www.bbvaresearch.com/wp-content/uploads/2016/12/WP_16-211.pdf
10. Carriere-Swallow, Y., & Labbe, F. (2013). Nowcasting with Google Trends in an Emerging Markets. Journal of Forecasting, 32(4), 289-298. doi:10.1002/for.1252
11. Chang, J., & Del Río, A. (2013). Google Trends: Predicción del nivel de empleo agregado en Perú usando datos en tiempo real, 2005-2011. Recuperado el 21 de Febrero de 2017, de http://www.bcrp.gob.pe/docs/Publicaciones/Documentos-de-Trabajo/2013/documento-de-trabajo-15-2013.pdf
12. Choi, H., & Varian, H. (2011). Predicting the Present with Google Trends. Recuperado el 22 de Febrero de 2017, de http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf
13. Cuxart, A. (2000). Modelos Estadísticos y Evaluación. Revista de Educación(323), 369-394.
14. Davenport, T. (2013). At the Big Data Crossroads: turning towards a smarter travel experience. Recuperado el 5 de Marzo de 2017, de http://www.bigdata.amadeus.com/assets/pdf/Amadeus_Big_Data.pdf
32
15. De la Oz, M. (2014). Predicting Tourist Inflows to Punta Cana, Dominican Republic, Using Google Trends. Recuperado el 23 de Febrero de 2017, de http://digitalcommons.usu.edu/cgi/viewcontent.cgi?article=1362&context=gradreports
16. Dinis, G., Costa, C., & Pacheco, O. (2015). Google it! Using the Google Trends tool to understand the Algarve Tourist. dosalgarves A multidisciplinary e-journal, 21, 64-84.
17. Garth, A. (2008). Analysing data using SPSS. Recuperado el 22 de Febrero de 2017, de Sheffield Hallam University: http://teaching.shu.ac.uk/hwb/ag/resources/material/analysingdatausingspss.pdf
18. Giannone, D., Reichlin, L., & Small, D. (2008). Nowcasting: The real-time informational content of macroeconomic data. Journal of Monetary Economics, 55, 665-676. Recuperado el 8 de Marzo de 2017, de http://dept.ku.edu/~empirics/Courses/Econ844/papers/Nowcasting%20GDP.pdf
19. Google Trends. (2017). Resultados de la búsqueda para el término Máncora (Hoteles). Recuperado el 15 de Marzo de 2017, de https://trends.google.com/trends/explore?cat=179&q=%2Fm%2F090cdh
20. Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta ed.). México: McGraw Hill.
21. Hofmann, M., & Chisholm, A. (2015). Text Mining and Visualization: Case Studies Using Open-Source Tools. Chapman and Hall/CRC .
22. Ipsos Perú. (2016). Perfil del Internauta 2016.
23. Jeong, H., Mankad, S., Gavirneni, N., & Verma, R. (2016). What Guests Really Think of Your Hotel: Text Analytics of Online Customer Reviews. Cornell Hospitality Repor, 16(2), 3-17. Recuperado el 4 de Marzo de 2017
24. Kahn, M., & Liu, P. (2016). Utilizing “Big Data” to Improve the Hotel Sector Energy Efficiency: Lessons from Recent Economics Research. Cornell Hospitality Quarterly, 57(2), 202-210.
25. Korte, D., Ariyachandra, T., & Frolick, M. (2013). Business Intelligence in the Hospitality Industry. International Journal of Innovation, Management and Technology, 4(4), 429-434.
26. Kumar, S., Morstatter, F., & Liu, H. (2014). Twitter Data Analytics. Springer.
27. Laney, D. (2001). 3D Data Management: Controlling Data Volume, Velocity and Variety. Recuperado el 5 de Marzo de 2017, de http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
28. Lee, S., Jo, J., Kim, Y., & Hwang, E. (2016). Big Data Analysis with Hadoop on Personalized Incentive Model with Statistical Hotel Customer Data. International Journal of Software Innovation, 4 (3), 1-21.
29. Linares, R., Herrera, J., Cuadros, A., & Alfaro, L. (2015). Prediction of Tourist Traffic to Peru by using Sentiment Analysis in Twitter Social Network. Computing Conference (CLEI). Arequipa. doi:10.1109/CLEI.2015.7360051
33
30. Microsoft. (2016). Excel 2016. Obtenido de https://www.microsoft.com/en-gb/smb/articles/top-5-benefits-of-microsoft-excel
31. MINCETUR. (2015). Reglamento de Establecimientos de Hospedaje. Recuperado el 8 de Marzo de 2017, de http://www.elperuano.com.pe/normaselperuano/2015/06/09/1248181-2.html
32. MINCETUR. (2016). Atractivos Turístico - Playa Máncora. Recuperado el 2 de Marzo de 2017, de http://ficha.sigmincetur.mincetur.gob.pe/index.aspx?cod_Ficha=407
33. MINCETUR. (2017). Resultados de la Encuesta Mensual a Establecimientos de Hospedaje Temporal. Recuperado el 8 de Marzo de 2017, de http://consultasenlinea.mincetur.gob.pe/estaTurismo/Index.aspx?po=hospedajeTemporal/consulta/frmActividades.aspx?id=1572
34. Minitab. (s.f.). Soporte de MiniTab17. Recuperado el 8 de Marzo de 2017, de http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/regression-and-correlation/goodness-of-fit-statistics/r-squared/
35. Monje, C. (2011). Metodología de la Investigación Cualitativa y Cuantitativa. Recuperado el 8 de Marzo de 2017, de https://carmonje.wikispaces.com/file/view/Monje+Carlos+Arturo+-+Gu%C3%ADa+did%C3%A1ctica+Metodolog%C3%ADa+de+la+investigaci%C3%B3n.pdf
36. Onder, I., & Gunter, U. (2016). Forecasting Tourism Demand with Google Trends: The Case of Vienna. Conference: The 8th International Conference on Computational and Financial Econometrics. Recuperado el 23 de Febrero de 2017, de https://www.researchgate.net/publication/274009577_Forecasting_Tourism_Demand_with_Google_Trends_The_Case_of_Vienna
37. Pallant, J. (2007). SPSS survival manual: a step by step guide to data analysis using SPSS for Windows. Open University Press.
38. Pan, B., Chenguand, D., & Song, H. (2012). Forecasting hotel room demand using search engine data. Journal of Hospitality and Tourism Technology, 3(3), 196 - 210. doi:10.1108/17579881211264486
39. Park, S., Lee, J., & Song, W. (2015). Short-term forecasting of Japanese tourist inflow to South Korea using Google trends data. Journal of Travel & Tourism Marketing, 34(3). doi:10.1080/10548408.2016.1170651
40. PROMPERU. (2016a). Perfil del Vacacionista Nacional 2015 - Vacacionistas que visitaron Piura. Recuperado el 5 de Marzo de 2017, de http://www.promperu.gob.pe/TurismoIN/Sitio/Descargar?url=~/Uploads/perfiles_vacac_nac/1035/tips/2115/PVN15_Vacacionistas%20que%20visitaron%20Piura.pdf
41. PROMPERU. (2016b). Perfil del turista extranjero - Turista que visitó Piura 2015. Recuperado el 5 de Marzo de 2017, de http://www.promperu.gob.pe/TurismoIN/Sitio/Descargar?url=~/Uploads/perfiles_extranjeros/38/tips/2325/PTE%202015%20-%20Turista%20que%20visita%20Piura.pdf
42. Song, H., & Li, G. (2008). Tourism demand modelling and forecasting-A eview of recent research. Tourism Manage, 29, 203-220.
34
43. TripAdvisor. (Mayo de 2017). Mancora Hotels. Obtenido de https://www.tripadvisor.com/Hotels-g635976-Mancora_Piura_Region-Hotels.html
44. Vázquez, V., Cruz, H., Reyes, H., Juárez, B., & Solano, F. (2014). Modelado y predicción de la tasa de interés interbancaria de equilibrio en México vía un proceso auto-recursivo de orden uno. Revista de Análisis Cuantitativo y Estadístico, 1(1), 1-9.
45. Yang, Y., Pan, B., & Song, H. (2013). Predicting Hotel Demand Using Destination Marketing Organization’s Web Traffic Data. Journal of Travel Research, 53(4), 433-447. doi: 10.1177/0047287513500391
46. Zahkary, A., Atiya, A., El-Shishiny, H., & El-Gayar, N. (2009). Forecasting Hotel Arrivals and Occupancy Using Monte Carlo Simulation. Journal of Revenue & Pricing Management. Recuperado el 6 de Marzo de 2017, de https://www.researchgate.net/publication/228621779_Forecasting_hotel_arrivals_and_occupancy_using_Monte_Carlo_simulation
47. Zhang, Y., Shu, S., Ji, Z., & Wang, Y. (2015). A Study of the Commercial Application of Big Data of the International Hotel Group in China: Based on the Case Study of Marriott International. 2015 IEEE First International Conference on Big Data Computing Service and Applications. Recuperado el 3 de Marzo de 2015, de http://ieeexplore.ieee.org/document/7184910/
35
Anexos
Anexo 1
Figura 1. Módulo de consulta para obtener datos del motor de Búsqueda acerca de Máncora.
Fuente: Google Trends
Anexo 2
Figura 2. Módulo de Consulta que limita los resultados solo a aquellas búsquedas relacionadas a hoteles y
similares
Fuente: Google Trends
Anexo 3
Figura 3. Vista previa de los resultados registrados por el motor de búsqueda a lo largo del tiempo para el
término Máncora (Hoteles)
Fuente: Google Trends
36
Anexo 4
Figura 4. Módulo de descarga de datos de búsqueda en archivo CSV
Fuente: Google Trends
Anexo 5
Figura 5. Módulo de descarga de datos de búsqueda en archivo CSV
Fuente: Google Trends
Anexo 6
37
Figura 6. Transformación de comentario en dato numérico usando el análisis sentimental con el instrumento
Lexalytics. En este caso la expresión: “Bye bye Mancora. You were the perfect holiday from out vacation”
alcanzó un puntaje de 0.750.
Anexo 7
Tabla A1: Análisis de Varianza del primer modelo
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.391902 2 0.195951 15.1 0
Residuo 0.739491 57 0.0129735 Total (Corr.) 1.13139 59
El objetivo del análisis de varianza es comparar las dos fuentes de variación (regresión y
residuos) para saber cuál explica mejor la variación en la variable respuesta LogH(t). Para
hacer esto, es necesario recurrir a un a prueba que compara la variación en regresión y la
variación residual, conocida como la prueba F. La salida es proporcionada por el software
estadístico. El indicador más importante de esta tabla es el Valor-P, el cual indica que
algunas variables del modelo son explicativas.
Por otro lado, este modelo que no incluye datos electrónicos puede ser presentado en
forma gráfica.
Figura 7. Gráfico de Resultados Observados vs. Predichos para el caso del primer modelo.
Gráfico de LogH(t)
3.6 3.8 4 4.2 4.4predicho
3.6
3.8
4
4.2
4.4
ob
serv
ado
38
Anexo 8
Tabla A2: Análisis de Varianza del segundo modelo
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.891804 4 0.222951 51.18 0
Residuo 0.239589 55 0.00435616 Total (Corr.) 1.13139 59
El objetivo del análisis de varianza es comparar las dos fuentes de variación (regresión y
residuos) para saber cuál explica mejor la variación en la variable respuesta LogH(t). Para
hacer esto, es necesario recurrir a un a prueba que compara la variación en regresión y la
variación residual, conocida como la prueba F. El indicador más importante de esta tabla
es el Valor-P, el cual indica que algunas variables del modelo son explicativas.
Además el modelo que ha incorporado las variables electrónicas
Figura 8. Gráfico de Resultados Observados vs. Predichos para el caso del segundo modelo.
En el segundo modelo, los puntos están más próximos a la línea. Entonces la incorporación
de las variables de Google y Twitter si ayudan a mejorar el pronóstico de las llegadas a
hospedajes de Máncora.
Gráfico de LogH(t)
3.6 3.8 4 4.2 4.4predicho
3.6
3.8
4
4.2
4.4
ob
serv
ado
39
Anexo 9
Matriz de Consistencia
PROBLEMA OBJETIVOS HIPOTESIS (si se requiere) VARIABLES DIMENSIÓN INDICADORES
Sub Indicador
es
Problema Principal
Objetivo principal
Hipótesis principal Variable
independiente Dimensión de la VI
Material con el que se
corroborará información
Se desea saber si los datos provistos por el motor de búsqueda y Twitter son utilizables para el modelo nowcasting del flujo mensual de arribos a hospedajes en Máncora.
Determinar si la ecuación que incluye los datos del motor de búsqueda Google y la red social Twitter alcanza un mejor nivel de ajuste que el modelo que no emplea dichas variables en el caso de los arribos mensuales a hospedajes en Máncora.
La ecuación que incluye los datos del motor de búsqueda Google y la red social Twitter alcanza un mejor nivel de ajuste que el modelo que no emplea dichas variables en el caso de los arribos mensuales a hospedajes en Máncora.
Datos mensuales del motor de búsqueda referidos a hospedajes en Máncora Nivel se sentimiento mensual en los comentarios de Twitter acerca de Máncora.
Número de arribos a hospedajes en Máncora Índice de búsqueda mensual acerca de hospedajes en Máncora. Nivel de Sentimiento en los comentarios de Twitter.
Datos de Google Trends. Datos de Nivel de Sentimiento de Twitter.
40
Problemas específicos
Objetivos específicos
Hipótesis específica Variable dependiente
Dimensión de la VD
Se desea saber si las llegadas mensuales registradas hace un año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo de arribos
Determinar si las llegadas mensuales registradas hace un año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.
Las llegadas mensuales registradas hace un año a hospedajes en Máncora no son utilizables para modelar el nowcasting del flujo mensual de arribos.
Flujo mensual de arribos a hospedajes de Máncora
Cantidad de arribos mensuales a hospedajes en Máncora.
Datos proporcionados por el MINCETUR.
Se desea determinar si las llegadas mensuales registradas hace un mes a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo de arribos.
Determinar si las llegadas mensuales registradas hace un año a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.
Las llegadas mensuales registradas hace un año a hospedajes en Máncora no son utilizables para modelar el nowcasting del flujo mensual de arribos.
41
Se desea saber si los volúmenes de búsquedas registrado por Google relacionados a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos. Se desea Determinar si los niveles de sentimiento mensuales de los comentarios en Twitter relacionados a Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.
Determinar si los volúmenes de búsquedas registrado por Google relacionados a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos. Determinar si los niveles de sentimiento mensuales de los comentarios en Twitter relacionados a Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos.
Los volúmenes de búsquedas registrado por Google relacionados a hospedajes en Máncora son utilizables para modelar el nowcasting del flujo mensual de arribos. Los niveles de sentimiento mensuales de los comentarios en Twitter relacionados a Máncora no son utilizables para modelar el nowcasting del flujo mensual de arribos.
volúmenes de búsquedas referidos a hoteles en Máncora Sentimiento mensual presente en los comentarios de Twitter.
Índices de Búsqueda Nivel de Sentimiento
Datos obtenidos a partir de Google Trends Datos obtenidos de Twitter con Nvivo y procesados con Lexalytics