房地产大数据探索

房地产大数据探索

项目案例

房地产在线交易平台EDA探索性数据分析

大数据技术方向

EDA数据探索,R语言统计与分析,API数据采集,流数据采集分析,数据清洗,行业分析,回归模型预测,K近邻分析

大数据应用行业

房地产行业,在线交易行业

项目简介

数据科学,特别面向数据密集型计算的过程中,经常涉及到的其中一个重要阶段,便是通过数据探索实现数据的初步了解。此阶段通常称为探索性数据分析(Exploratory Data Analysis —— EDA)。在把数据大量应用到扩展的大型数据分析 —— 往往需要大量的基础设施的支持和复杂的诸如Hadoop的MapReduce和上大型集群的Apache Spark等较新的算法,之前一个非常有用的准备及数据预探索过程。同时,我们在EDA使用的算法和方法,也高度适用的和有用于对常用的公共数据集和在大数据处理的输出执行(运行)的统计分析。EDA是大数据分析完美的补充,提供了一个系统的方法,在大数据分析的多种可能的结果中进行选择,将帮助我们获得关于早期阶段的数据直觉。EDA应先了解数据的模式,并最终输出能代表数据的近似统计模型。

本案例中,我们将数据科学的工程定位在全球领先的线上房地产销售网站RealDirect上面,借助真实的业务 —— 本项目使用该公司纽约核心业务区域:

  • Brooklyn(布鲁克林)
  • Bronx(布朗克斯)
  • Manhattan(曼哈顿岛)
  • Staten Island(史丹顿岛)
  • Queens(皇后区)

五个区的房产交易数据与房地产信息,使用炙手可热的R语言实现EDA探索性数据分析以及统计建模。我们将得到在一个相当大的数据集(具有百万行的多个文件,已收集了一段时间的工作)。我们使用存储在电子表格(如EXCEL的CSV文件),结构化和半结构化数据,包括静态数据和流数据。通过完整的项目训练,将解决业务问题。

数据来源及规模

通过更广泛的数据采集源和通道(如社交媒体Twitter),获得更多的信息以准确判断房地产市场趋势;利用流行的API采集手段,在R语言环境里面获得更精确的实时流数据(Stream)。包括:纽约核心业务区域:Brooklyn(布鲁克林)/ Bronx(布朗克斯)/ Manhattan(曼哈顿岛)/ Staten Island(史丹顿岛)/ Queens(皇后区)超过100,000条房产交易数据与房地产信息,并结合《纽约时报》超过1,000,000条读者信息,以及Twitter流媒体社交网站信息。

主要技术及参数

  1. 通过更广泛的数据采集源和通道(如社交媒体Twitter),获得更多的信息以准确判断房地产市场趋势;利用流行的API采集手段,在R语言环境里面获得更精确的实时流数据(Stream);
  2. 初步EDA探索性分析,通过当地媒体(如新闻网站)的读者年龄,性别,观看广告/点击率(CTR)判断房地产广告投放人群特征及潜在用户初步统计;
  3. 基于销售记录数据与周边设施配套分析,获得生活成本估算;进一步利用广阔的时间跨度记录,从而了解买房者在不同时间段,对于各种房型的喜好。
  4. 通过广泛的社交数据源,挖掘新的潜在用户需求(有的人可能买不起NY的房子,但只是想告诉别人“我住在这里”。),从而找到新的业务机会,拓展新的以租代售的业务。

项目案例使用真实的房地产交易数据进行分析,包括采用纽约核心业务区域:Brooklyn(布鲁克林)/ Bronx(布朗克斯)/ Manhattan(曼哈顿岛)/ Staten Island(史丹顿岛)/ Queens(皇后区)超过100,000条房产交易数据与房地产信息,并结合《纽约时报》超过1,000,000条读者信息,以及Twitter流媒体社交网站信息数据等。同时,项目案例必须采用各项数据科学与大数据前沿的先进技术,包括应用R语言统计分析,R语言数据可视化引擎GGplot2,R语言动态流数据采集引擎“StreamR”等;实现对房地产信息及销售数据的获取,访问,读取,清洗,整理,统计分析,以及可视化汇总等一系列工作。项目案例中所涉及的每一个大数据技术点,必须出现在《R语言统计分析与机器学习》对应章节的技术示例中。提供不少于12个大数据独立技术点实验文档,并为每个技术点提供独立的执行脚本,源代码,测试用数据以及分解实验指导,所有源代码不少于3,000行。