首页 > 新闻中心 > 行业动态

AG九游会大连地区酒店数据分析

发布时间:2023-12-18 15:39:21    次浏览

  AG九游会数据是在2019-08-27日取得的,08-28~08-29号的酒店价格,酒店价格会随着旅游淡旺季有浮动变化,目前大连属于季节转换的交界处,价格水平趋于合理但仍比正常水平偏高。

  经过删除重复项后,获得的酒店信息包含2219条有效信息, 其中5列有效信息分别为:

  由于一部分酒店由于新开业(或其他途径原因),暂时没有评分数(没有评分数的酒店在数据获取的过程中赋值”0“),因此,我们将这部分数据单独取出来,作为new_hotel数据集AG九游会,用于后续的一些分析和预测。

  通过对酒店价格的分布情况进行可视化,大概可知, 大部分的酒店价格集中在500元/晚以下,其中以200-300元/每晚的价格最为集中;500元/晚以上的酒店就不怎么多了。 因此,这里根据价格分布以及实际的物价水平,将酒店根据价格情况划分为以下几个等级:

  从饼图的结果可知,有超过50%的酒店是经济型的,21.9%的酒店则属于廉价型,高端和奢华型的比例相应较少,比较符合旅游城市的一般定位。

  在这里,由于从网站获取位置信息时,部分酒店的位置信息本身填写并不规范,导致获取得到的信息呈现一定的差异化,由于这些差异化的信息并不方便进行统一的规划,并且其所占比例不大,因此在sort之后处于比较靠后的位置,我们只截取靠前的8个主要区域的信息,可以看到,对于目前已经收集到酒店,大部分的酒店位于沙河口区AG九游会,金州区,与大连主要景点的分布直接相关,比如知名的星海广场,跨海大桥位于沙河口区,金石滩以及发现王国则位于金州区。(实际上,高新园区在map上并没有对应的内容,因为它不属于行政区域,而是作为甘井子区和沙河口区交接处的一个技术开发区,其占比对沙河口区和甘井子区都没有影响, 并不妨碍我们对数据进行分析)。

  大连是一个旅游城市,不同行政区(地理位置),酒店的定位和水平应该也是不相同的,因此,了解各种档次的酒店在不同区域的分布是一个很有意思的问题:

  通过各种档次酒店在不同地区的分布情况可知,各类型酒店在沙河口区、金州区以及中山区都是优势分布的,比较有趣的是,奢华型酒店在旅顺口区是没有分布的,这种类型的酒店除了在沙河口区比较集中之外,还在中山区占有相当大的比例,这和历史地理原因有很大的关系,大连人常说,中山区是传说中的”富人区“,许多商务型出行的人会把住地选在中山区,也促进的这一地区在高端、奢华系酒店的投入增长。

  除了对酒店价格(档次)的要求之外,我们在出行定酒店时也会考虑酒店的评价情况,评分越高,评价越多的,我们会更倾向于预订,因此,针对有评分的数据集,我们来看一看大连这些酒店的情况。

  由各类型酒店的评价分布情况可知, 差评主要出现在廉价型酒店和经济型酒店,而其中以廉价型酒店为差评重灾区,对于每晚最低价格300以上的舒适型,高端型和奢华型酒店,基本没有差评的出现,也印证了“钱花在哪哪就好“的一般认知,其中以奢华型酒店的好评(”超棒“)比例最高。评价”超棒“的比例并没有随着酒店档次的升高而提高,对于高端型酒店,其”超棒“评价的比例相对价格更低的舒适型酒店反而有所下降,原因也许是人们对酒店价格所对应的服务期待值大于酒店实际能够提供的服务水平,一方面提醒消费者不要盲目认为贵就是好,一方面提醒酒店,有多少能耐就做多少能耐对应的事,价格虚高不可取。

  ”种草清单“主要收集各档次酒店中评价好,评价条数多(多人检验,符合要求),价格相应合理的酒店名单,供各种不同出行需求的朋友选择; ”防踩雷清单“则主要收集差评酒店,提醒大家不要勇于”试错“”碰运气“。

  对于处于比较极端的酒店类型,比如很贵很贵的高端型酒店,一般是走商务典雅大气风格,名字听起来就会觉得很”贵“; 而便宜一些的,依靠价格走流量的,针对学生或经济基础比较差的人群,名字要么走小清新的路子,要么就简单粗暴,一听就是”划算“,我们通过词云来验证一下,这个理论对于大连地区的酒店是否符合。

  为了保证绘制词云的数据量充足,这里不按照原来的酒店档次划分标准来选取数据,而是选择价格低于150的酒店和高于500的酒店,作为两个相对极端的类型,看看他们在起名上有没有什么典型的区别。

  从结果来看,两类酒店的店名词云还是有明显差异的。 价格低廉的酒店,名字中出现”客舍“, ”主题“,”青年“,”快捷酒店“,”旅馆“, ”旅店“等次的频率较高,符合我们对这类酒店的定位认知; 高端的酒店,名字中包含”星海“,”海景“,”温泉“,”广场“的频率较高,由于大连比较知名的地标是沙河口区的星海广场,附近的酒店(特别是高档酒店),非常喜欢在名字中体现”星海“这个词,除了突出地理位置之外,似乎也能通过这个词给酒店增加一些格调。另外,高端酒店似乎不太喜欢给自己起名字叫”xx宾馆“,更喜欢叫”酒店“或”酒店式公寓“。 比较疯狂的一点是,无论是便宜一些的酒店,还是贵一点的酒店,都很喜欢”公寓“这个词。这似乎也是目前酒店事业发展的一种趋势。

  名字作为人或事物的一种象征,由它引起的第一印象是非常重要的,我们刚刚分析了比较极端的酒店类型在名字上的特点,在一定程度上,可以根据名字在判断酒店是否处于一定的档次,”三岁看一生”,对于刚刚开始运行,没有评分的小白酒店,我们可以根据对其价格的预测结果判断一下酒店的定价方案是否符合其定位,之前我们分析了不同档次酒店的评价特点,结合这些已知结果,大概的了解一下这些小白酒店是否具有标价虚高,或者是否值得我们当一次小白鼠,走一条“发现之路”。 不过这里面另外涉及到一个问题,新开的酒店因为环境和时代原因,在起名字的策略上会和之前的酒店产生差异,这种差异在建模预测的过程中会产生比较显著的影响,因此,这里我们只是利用学习过的方法,做一个有趣的实验AG九游会,结果不会准确,但过程是很有趣的:)

  通过前面的词云分析和已有评价的酒店的价格中位数,我们将价格150设为划分阈值,价格低于150元/晚的酒店,标注为1,而高于这个价格的,标注为0,这样的划分方式,使得两部分的数据量基本均衡,也在一定程度上体现出酒店名称的差异。

  训练集包含1669条信息,标注为1的数据共790条, 测试集包含550条信息,标注为1的数据共195条。

  ps:因为数据量少,且数据本身所包含的信息相对不足,在这里,训练的结果并不太好。

  实际上,预测的准确率只有60%左右,是一个相当不理想的结果,我们将数据展开,主要的原因在哪里。

  分歧比较明显的结果显示,很多新开的酒店,特别是价格很高的,都是“别墅”类型的度假型酒店,这一类型在已经评价的数据集中体现并不明显,建模的分类器对其不敏感,错分的可能就会大大增加。

  绘制词云来看新开的酒店们,其在名称上与建模所用的数据集相比,增加了一些原来没有的词,比如“号店”,“分店”,“别墅”等,导致预测的准确率下降。

  除开对名字方面的认识,我们还可以了解一下新开的这些酒店在地理位置的分布和均价的变化上有什么体现。

  由饼图可以发现,有超过30%的新酒店选择了金州区,沙河口区作为老牌的酒店扎堆地,只有16%的从业者将新店选择在这里。

  除了适合大多数出行者会选择的经济实惠的低价酒店外,高端奢华型酒店的投入比例在新开酒店中也有明显的提高,结合前面对新开酒店的词云分析,越来越多的酒店从业者投入了高端酒店的建设,以别墅型度假酒店为主要体现,体现出人们对品质和更加舒适的出行体验的的追求。

  两个极端等级的酒店均以“降低身价”的方式获得关注度来博取入住率,以获得长足的发展, 而中间型酒店,以改变经营理念,顺应时代潮流等方式获得涨价的资本,只是其最终的发展效果仍取决于旅客对其的认同。

  本次实验以大连地区的酒店作为分析数据,挖掘了包括价格情况、区域分布情况等信息,提供了已有评价的酒店的“种草清单”和“防踩雷清单”(妈妈再也不用担心有朋友来大连烦恼定酒店的问题啦!),进行酒店店名的词云分析,挖掘了店名和酒店档次的相关性,并建立分类模型,预测新开的、没有评价的酒店的店名是否与其定价标准相适宜,同时挖掘了新开酒店的区域分布和档次分布情况,对比了其与已有评价酒店的均价变化,侧面了解了一些大连旅游事业发展的情况的思路。由于数据量少,且酒店店名的命名方式与区域、时代环境等有较强的相关性,建模预测部分的效果并不好,但学习了这些内容,将其应用在不同的方面来加深对其的认识也是一件有趣的事情。

  《楼+数据分析与挖掘实战》是实验楼以满足数据分析或数据挖掘初级工程师职位需求而定制的课程内容。包含 35 个实验,20 个挑战,5 个综合项目,1 个大项目。6 周时间,让你入门数据分析与挖掘。

  关于《楼+ 数据分析与挖掘实战》课程详情内容,可添加助教小姐姐微信(sylmm002)进行咨询/索要优惠。