【数据分析新手请教贴】保险的客户留存如何选变量/逻辑回归/随机森林

弥海砂Shirley |浏览1277次
2018/10/06 18:15

这是个有趣的案例分析,该保险公司发现近几年客户留存率下降,收集了两年的数据想要建立模型预测一下哪些客户会留存。对数据进行初步分析得到一下几张图。我把个人分析放在了图片后,对于变量的处理还是有些疑惑,求指导!


感觉可以先逻辑回归再加新变量随机森林?或者先包含很多变量,用随机森林选出feature importance高的变量放到逻辑回归,进一步通过系数分析留存率怎样被变量影响?不知哪种比较合理呢?平时不记得签到没有钱悬赏...以后多多发帖!数据分析新手求指教啦,感谢!

  • 问题补充 : 2018/10/06 18:16

    目前个人分析如下:

    years insured 小于两年的留存率明显低于其他时间段,往后留存率在90%以上且平稳上升,说明第一年的用户体验对于客户选择去留最为关键。逻辑回归,年龄,价格变化,以及是否有客户邮箱都可以作为因变量。

    年龄 – 2035岁,留存率上升很快,说明随着年龄增长,对于保险的需求有所增加,也可能是因为随着年龄增大对于尝试新产品的兴趣减小了,更倾向于使用同种产品。35岁以上,留存率稳定在95%左右,客户群比较稳定了,55岁以上,留存率有下降趋势。可以把年龄变量分成四组:20-2930-3940-5960-75+

    价格敏感 总体而言,留存率与价格变动呈现负相关,在0-5%范围内留存率最高。提高0%-10%的价格,留存率只有大概1%的下降,加价15%与降价5%范围内留存率相当,具体收益变化需要结合人口计算客户的终生价值,可以提升价格牺牲留存率来增大利润。留存率分为9个组。

    Years insured – 分为两类,两年为分界线。

    有无邮箱 电子推广对于客户留存的影响显著,约10%的差异,二分变量。

    其他变量:两年内有无索赔发生,业主性别,是否其他家人也够买了该保险,是否购买了该公司其他保险比如车险,购买服务的种类数目例如房屋险个人责任险等,是否够买了健康险。如果想考虑的变量很多可以用随机森林。

    输出

    逻辑回归 通过变量系数解释不同种类客户间留存率如何变化

    随机森林 通过feature importance output可以看到不同因素对于留存的影响大小

收藏关注
全部回答(0)
0人关注该问题
 加载中...