项目案例
金融交易系统分析及用户投保行为预测
大数据技术方向
“联表”查询及分析,用户360度画像挖掘,情感分析
大数据应用行业
金融保险,银行销售
项目简介
利用大数据技术的部署,未来企业客户将拥有一个全面的实时分析平台,可洞察重要的业务事项,如客户流失预测、产品建议和欺诈警示。其中,客户流失预测是业务最为敏感的领域。几乎任何公司都面临客户流失的问题,尤其对于电信公司,保险公司,信用卡公司,有线电视,这类依赖周期性循环消费业务模型的公司。因此,客户流失管理已成为一个重要的竞争武器。本项目提供基于客户关系管理系统,金融信用系统,银行业务数据,现金交易系统的历史数据。通过整个多个交易系统的用户及交易数据实现用户购买行为预测。通过多个交易系统的用户及交易数据实现用户对汽车保险购买意向的预测。在本案例中,我们是一家银行及保险公司,我们需要制定一项针对汽车保险的营销活动。我们不适用散弹法,而锁定已经在公司有过业务历史的这些用户。我们需要找到那些确定购买保险的客户,从而把销售工作都集中到这些客户身上。因此,我们将研究一个已经决定是否购买汽车保险的客户的样本,并且确定那些已经购买保险的客户。我们把目标锁定在剩下的这些没有决定是否购买我们的保险服务的客户身上,当然这些我们确定的用户档案信息都是基于我们的分析实现的。
数据来源及规模
提供基于客户关系管理系统(如客户ID,关联信用卡,关联保险记录,客户年龄等个人信息),金融信用系统(如:客户ID,支票金额,银行资金,每月支票数量,执行自动付款数量等),银行业务数据(如:用户ID,交易记录,贷款总额,账户总额等),现金交易系统等历史数据,以及用户保险意见文字记录。最后,通过完整的多交易系统的用户及交易数据实现用户购买行为预测。科研用原始数据包含:客户关系管理系统45,000个匿名银行客户个人资料;而银行财务信息的涉及超过5,300位银行客户近1,000,000笔交易,同时包含了来自900张信用卡的700个贷款记录,全部都在数据中。另外,还提供了880,000条全球信用贷款及还款进度记录,用于扩展分析,总数据量超过1G。为保证项目案例效果,教学用实验数据执行相应筛检安装。
主要技术及参数
- 使用MapReduce实现情感关键字统计及探索性分析
- 使用Pig,Hive与Impala查询与检索用户贷款及信用数据
- 使用NoSQL数据库管理银行业务数据
- 使用数据集成工具,查找和整合现金账号系统及内部信贷部门的数据
- 集中和合并所有的数据到Oracle数据库,并创建360度客户视图
- 使用Spark SQL执行内存数据分析
- 使用R分析数据,从而计算出那些符合营销活动的目标客户
项目案例提供基于客户关系管理系统,金融信用系统,银行业务数据,现金交易系统的历史数据。通过完整的交易系统的用户及交易数据实现用户购买行为预测。项目案例中所涉及的每一个大数据技术点,必须出现在《大数据基础与实战》对应章节的技术示例中。提供不少于12个大数据独立技术点实验文档,并为每个技术点提供独立的执行脚本,源代码,测试用数据以及分解实验指导,所有源代码不少于5,000行。