◆◆0

案例：电信用户分群精准画像的7个步骤

chenjj 2017-06-22 大数据, 大数据应用, 数据分析, 案例, 行业新闻 5,665 views

本期我们有幸采访到的嘉宾名叫兰锦池，2012年硕士毕业，概率论与数理统计专业，崇尚概率论和统计学解决问题的思想，喜爱折腾各种实际数据，愿意跟数据挖掘模型死磕。

现在他是一名资深数据挖掘工程师，主要负责用户行为分析和精准营销相关工作；曾做过某电信省公司的手机用户行为价值分群、手机终端升级概率预测模型、用户流失预警模型等。

在兰锦池看来，工作中最困难的还是数据源的采集和结构化数据的获取，比如曾经做用户的手机上网行为画像，需要采集手机上网日志数据，并转化为兴趣点数据。需要数据分析狮提出数据需求、采集规则、计算口径等非常详细的方案，期间还得与业务和数据采集部门深入合作。简而言之，就是，数据分析狮不仅仅是呆板的技术人员，而且能沟通协调、整合资源的多面手。

本期，他带来了一个电信用户分群案例，与大家分享。

1、业务问题背景

某省电信运营商e8套餐（宽带+固话）升级e9（宽带+固话+手机）的主要业务目标为针对e8客户加装电信C网号码并购买手机，升级为e9融合套餐或e9自主套餐用户。即，通过电信的自身的宽带客户资源，进行精准电话营销，促使用户购买手机，从而提升电信在手机市场的占有率。

2、数据理解：e8升e9的数据理解

3、确定分析对象

本环节关键点：

缩小分析基础客户群范围，从表中238万宽带客户中筛选出24万符合业务目标的e8客户，作为数据挖掘的基础客户群

具体步骤：

常用的数据挖掘基础客户群筛选维度如下：

客户群筛选，如宽带客户、手机客户、固话客户
套餐大类筛选：如e8、e9、乐享
特定业务规则筛选：如活动对客户网龄、套餐档位的限定
互斥协议等筛选：根据活动规则，对已有互斥协议的客户进行筛选

分析对象筛选流程：

以e8升e9为例，根据前期业务和数据理解，本次挖掘的基本目标客户为e8用户，且在同账户下无C网手机。

具体数据样本选取路径如下：

注，具体操作方法：

e8客户筛选操作：选择客户“套餐类型”字段为“e8”的客户
e8客户无C网手机筛选过程：将所有e8客户的ACC_ID字段与“CDMA单月宽表”进行关联，能关联出C网号码的即视为同账户下有C网手机。形成241243数据样本。

4、变量筛选

以e8升e9案例中变量处理为例，具体筛选流程如下：

通过对67个字段明显无关字段初步筛选后获得18个主要字段。
此后，需根据字段理解对有明显相关性的变量进行筛选合并，如下面表格中的红色字段，宽带上行流量、宽带下行流量和宽带总流量三个字段存在明显的关联关系，因此根据业务需求可直接只选择宽带总流量进行分析即可。
对于不确定是否有相关性的部分字段，可通过SPSS中“输出”模块中的“统计量”节点进行相关性判断。通常分析相关性结果大于0.666以上可基本判断相关性较强。例如：宽带使用流量字段与其他字段进行关联性分析，发现与宽带使用时长存在较强的相关性，因此这两个个字段可选择其中一个作为输入变量即可。
最终确定模型的10个主要输入变量。

5、决策树模型的建立

（1）选择模型输入变量

根据数据准备阶段字段筛选结果选择了9个字段作为模型输入变量。CHAID节点对应的目标变量和预测变量设置，见下截图。

（2）模型输出结果

运行CHAID决策树节点后，Modeler会根据样本数据和输入变量训练决策树模型。虽然输入了9个变量但是CHAID决策树节点训练的模型最终生成决策树所选择的变量只有5个，分别是宽带在网时长（PD_PROM_FEE）、固话通话时长（VO_MOU_FIX_AVG）、固话ARPU（MB_FIX_ARPU_AVG）、宽带在网时长（PD_BB_TENURE）、宽带流量（VO_BB_VOL）。可以看出，这5个变量在都是具有重要业务含义的字段，基本符合建模目标。

（3）决策树输出的初步结果

下图，是决策树模型输出的结果，树状结构末端的每个“叶子”，代表一个细分用户群体。这个决策树结果共有17个“叶子”节点。

6、模型调优

e8升级e9模型中，决策树模型验证调优流程如下：

初步结果判定：

决策树结果共有17个“叶子”节点，用户细分群体偏多，部分群体的规模小，占比不足5%，因此需要根据各叶子节点的特征，对决策树的“叶子”进行修剪合并。

比如，上图中的节点1（套餐档位<=68元的用户），这个节点中的类别“1”用户占比仅0.56%，较全样本的整体类别“1”占比0.786%较低，说明套餐档位<=68元的用户都是质量较差的部分，加装3G手机的可能性较低。从选取营销目标用户的角度，对这类用户不需要进行深入分析，因此可以把该节点下面的三层节点都剪裁合并。

模型的调整和优化—子模型的建立

如果认为决策树的某个子节点对应的决策树规则不符合业务逻辑，则可选择该决策树节点下的样本再建立一个子模型，从新选择新的变量。

比如，对上述决策树模型的结果，在套餐档位为80~98元且宽带在网时长13个月以上的样本分了四个子节点，但是这四个节点的类别“1”占比并没有递增或者递减的规律，这在业务逻辑上很难解释。因此可针对该条件（套餐档位为80~98元且宽带在网时长13个月以上）的样本数据，再单独建立一个决策树模型。

决策树子模型的建立可参见如下截图。首先，利用Modeler的样本选择节点，选择套餐档位为80~98元且宽带在网时长13个月以上的样本数据；然后，在决策树模型的节点选择输入变量时，不要选择宽带在网时长的字段，即调整输入变量；这样Modeler会根据新选择的样本和输入变量建立一个新的决策树模型（见下图）。这就建立了一个更具有业务解释性的决策树子模型。