项目案例
视频点播网站用户行为分析与预测
大数据技术方向
机器学习,推荐系统
大数据应用行业
电子商务,在线视频
项目简介
基于在线视频网站的大数据企业级项目原型,展现如何实现通过大数据技术捕获用户行为,利用行为归类采集数据与交易数据的交叉分析,关联交易算法模型,大数据预测模型,为在线视频网站用户推送精确匹配用户潜在需求的视频。从而满足视频网站增加视频销售量的业务需求。项目以培养“大数据架构师”为标准构建:完整覆盖了大数据解决方案面向业务的数据采集,数据组织,数据分析及数据决策业务流程;通过端到端的项目演练实现真正用户需求与业务需求的完整闭环。学生完成该项目实训架构流程后,除了能了解大数据业务生命周期所经历的系统,软件及数据库间的各个环节;通过聚焦于输入,集成,输出三大核心节点,便能举一反三的创建更多数据接口(输入),集成更多数据源(大数据),并且创造出更多行为预测及对象推送算法(输出),从而有效的扩展其技术覆盖范围与事业,提升业务洞察能力,从而提升就业水平。进而使用面向业务的语言及口径描述整个技术业务流程。
- 如何使用大数据提升用户体验
- 如何使用大数据为用户提供个性化服务
- 如何使用大数据与NoSQL管理用户Profile
- 如何使用大数据与Hadoop形成用户行为日志推送
- 如何集成更完整的数据实现用户需求分析
- 如何运用大数据技术最大化业务价值
数据来源及规模
提供来自国际电影数据库(IMDB)电影真实数据,包括:电影名称,演员列表,导演,编剧,剧情描述,综合评分,用户数据,电影封面,拍摄年等原始数据作为教学案例数据模型。科研用原始数据包含:260,000个用户对40,000部电影的合共240,000次电影评分记录,及670,000个标签标记,总数据量超过1G(CSV格式)。为保证项目案例效果,教学用实验数据执行相应筛检安装。
主要技术及参数
- Flume实现用户行为实时捕获,并通过应用程序日志输出存储至Hadoop;
- NoSQL数据库存储并管理用户Profile及电影信息;
- HVIE实现类SQL海量数据查询;
- Impala数据检索;
- RStudio加载并执行R语言统计分析;
- 应用协同过滤算法实现用户偏好预测并推荐相关电影视频。
项目案例具备完整的基于B/S架构的视频点播门户网站,具备真实的电影及海报信息,用户可以通过登录视频网站对在线视频实现点播,评分,播放,暂停,恢复播放等操作,后台系统自动捕获用户行为,通过预测算法向用户推荐潜在喜爱的影片。项目案例中所涉及的每一个大数据技术点,必须出现在《大数据基础与实战》对应章节的技术示例中。提供不少于15个大数据独立技术点实验文档,并为每个技术点提供独立的执行脚本,源代码,测试用数据以及分解实验指导,所有源代码不少于5,000行。