大众点评网团购 大众点评网健身房数据分析

2019-06-27
字体:
浏览:
文章简介:为了简化数据结构,使分析结果更加稳定,需要将人均消费离散化,为了确定分割点,我做了描述统计并画出箱线图由下图可知,评论条数的离散程度较高,异常值较多,所以我们将所有数据分成4个区间:20/50/100,把所有数据分为"评论少"."评论较少"."评论较多"和"评论多"四类(这里没有处理异常值,而是通过合理确定分割点来弱化异常值对分析结果的影响).大众点评网团购 大众点评网健身房数据分析添加导出节点并命名为" Revie

为了简化数据结构,使分析结果更加稳定,需要将人均消费离散化,为了确定分割点,我做了描述统计并画出箱线图

由下图可知,评论条数的离散程度较高,异常值较多,所以我们将所有数据分成4个区间:20/50/100,把所有数据分为“评论少”、“评论较少”、“评论较多”和“评论多”四类(这里没有处理异常值,而是通过合理确定分割点来弱化异常值对分析结果的影响)。

大众点评网团购 大众点评网健身房数据分析

添加导出节点并命名为” ReviewNum”,编辑公式为:if 评论条数<20 then "评论少" elseif 评论条数<50 then "评论较少" elseif 评论条数<100 then "评论较多" else "评论多" endif。

由下图可知,这三项的分布差别不大,均以 7/8 为界,分别把所有记录分为“一般”,“较好”,“好”三类。 添加三个导出节点,分别命名为 Facility,Environment 和 Service。编辑公式如下: if 设施<7 then "设施一般" elseif 设施<8 then "设施较好" else "设施好" endif if 环境<7 then "环境一般" elseif 环境<8 then "环境较好" else "环境好" endif if 服务<7 then "服务一般" elseif 服务<8 then "服务较好" else "服务好" endif

大众点评网团购 大众点评网健身房数据分析

我们爬取到的数据是商户的星级,根据各星级的分布情况,按照星级将评分分为“评分一般”、“评分较高”和“评分高”。 添加导出节点并命名为” Score”,编辑公式为:if member(rankstars,['五星商户','准五星商户']) then "评分高" elseif member(rankstars,['四星商户','准四星商户']) then "评分较高" else "评分一般" endif。

大众点评网团购 大众点评网健身房数据分析

我们总共添加了6个导出节点,数据预处理的流程如下:

预处理后的数据如下图所示,我们得到了经过离散的各项数据。

健身房的营业效果可以从客流量和顾客的平均打分两个方面来评估,而客流量与点评条数是基本成正比例的,因此我在本部分主要通过C5.0决策树来分析其他影响因素对平均得分(Score)和点评条数(ReviewNum)的影响。

我把影响因素分为两类: (1)店家固有属性:位置,Price,有无团购、有无促销; (2)用户体验:设施、服务、环境、点评分数。

4.1.1 店家固有属性

输入:位置、Price,有无团购、有无促销 目标:ReviewNum 决策树模型:添加一个C5.0节点,生成了一个三层决策树,其中影响最大的是所在位置,其次是价格,如下图所示:

从上图可以看出,在市中心繁华地段的健身房评论数较多,而偏远郊区评论数较少。Fitplus运动加&Denny House位于浦东新区,因此我们分析浦东新区的情况,其决策树如下:

4.1.2 用户体验

输入:Facility、Sevice、Environment、Score 目标:ReviewNum 决策树模型:按照上一节中提到的方法,这里生成了两层决策树。其中影响因素重要性最高的是点评分数,达到了61%,然后是设施。(点评分数的重要性高于设施,存疑)如下图所示:

4.1.3 整体分析

输入:位置、Price、Facility、Score 目标:ReviewNum 决策树模型:可见在所有因素中,位置是最重要的因素,然后是设施,最后是价格

结论:健身房需要评估商圈的位置和定位,这样才能准确把握并迎合消费者的心理,从而拥有更多的客户。而对于Fitplus运动加&Denny House,可以提供较一般的健身设备提高针对普通用户;或者提供好的设备主打高端市场。在价格方面,应当适中。

4.1.4 模型结构

与上一部分一样,将影响因素分为店家固有属性和用户体验。

4.2.1 店家固有属性

输入:位置、Price,有无团购、有无促销 目标:Score 决策树模型:生成了三层决策树。影响因素最大的是有无特色团购,在有特色团购的商家中,评分高的店家占23.037%,而没有特色团购商家的这个比例只有2.586%。次要的影响因素是位置,最后是价格,可以发现同种情况下价格实惠的健身房评分高的比例会更大。

4.2.2 用户体验

输入:Facility、Sevice、Environment、ReviewNum 目标:Score 决策树模型:生成两层决策树模型,其中影响因素最大的是服务,在服务好的健身房中,评分高的健身房比例高达71.875%,而服务较好和一般的健身房的这个比例都不到1%。其次是环境。

4.2.3 整体分析

输入:有无团购、位置、Sevice 目标:Score 决策树模型:生成一层决策树模型,服务的重要性占到100%,

为了能够快速有效的为客户推荐合适的健身中心,需要对健身中心进行聚类。在聚类之前,为了剔除强相关变量对结果的影响,需要先进行关联分析,这里采用的是Apriori 算法。

我所做的关联分析分别有以下几组: (1)店家固有属性之间:位置、Price、有无团购、有无促销; (2)用户体验属性之间:Facility、Sevice、Environment; (3)Facility、Sevice、Environment、Price; (4)Facility、Sevice、Environment、Score 这里,我设置最低条件支持度 10%,最小置信度 80%,最大前项数 5 项。

5.1.1 位置、Price、有无团购、有无促销

分析:对于浦东新区,有特色团购的支持度为16.938%,置信度为100%,而价格适中的支持度为11.401%,置信度为100% 结论:位于浦东新区的健身房大多数都有特色团购并且价格适中,这个不难理解,浦东新区年轻人较多,消费能力中等,也更喜欢使用团购这种比较新颖的购买方式。

首先对预处理的参数进行筛选,考虑到用户对健身房的要求,我们需要选取设施、环境和服务这三个参数。之所以没有选择健身房评分,是因为我们在前面的分析中看到健身房评分与设施、环境和服务两个维度的数据有着很强的关联性,另外还有有无团购这一属性。

除了这些,还需要有健身房所在的地区和健身房名称,但均不作为算法的输入参数 输入参数:有无特色团购、设施、服务以及环境(根据客户对健身房的要求来定)、Price 聚类类别数:3类(多次尝试后)

分析:从结果中我们看出聚类的质量还是比较好的,这三类中分别有79、115和113个健身中心。在聚类-1中,设施、服务和环境指标都是很好的,属于性价比高的健身房,聚类-2和聚类-3分别代表性价比一般的健身房和性价比低的健身房。

结论:很明显,聚类-1就是用户所希望的这一类健身房,为了在中山公园附近找到合适的健身中心,我们在这里添加了一个选择节点用于筛选健身房,筛选条件为:region = "长宁区" and '$KM-K-Means' = "聚类-1"。最终得到的筛选结果如下: