医疗大数据 | 项目架构

医疗流感趋势预测

项目案例

“医疗大数据”分析及流感趋势预测

大数据技术方向

多格式数据集成,流数据采集分析,文字挖掘,聚类挖掘,趋势预测

大数据应用行业

健康医疗

项目简介

国家卫计委预测,2020年中国将形成“健康医疗大数据”产业体系;本项目通过采集来自世界疾病控制中心,世界卫生组织,公共卫生服务部门,世界动物健康组织等真实的流行性感冒数据集,以及来自世界银行的经济发展指标。进而分析并预测疫苗接种率与流感发病率的关联及影响因素;同时分析人种,民族,国民经济发展指数(GDP),水源,生活设施,城镇生活等因素对感冒病毒传播的影响。利用Spark进行流式数据采集并采集实时流感新闻,通过聚类分析探索转播规律,以及构建大数据SQL趋势预测与搜索。

数据来源及规模

通过登录美国疾病控制中心,世界卫生组织,美国卫生及公共服务部,世界动物健康组织,世界银行等开放数据网站,下载并获取真实“医疗大数据”集进行分析。本项目案例混合静态及实时采集数据进行分析,可使用离线下载或API接口实时采集方式获取。主要数据包括:各卫生组织流感汇总数据(周/月/年),疫苗播种率统计,流感新闻数据,禽流感发病率;经济发展指标数据:全球217个国家自1960 – 2016年农业与农村发展,援助实效,气候变化,经济与增长,教育,能源与采矿,环境,外债,金融部门,性别,健康,基础设施,劳动和社会保护,贫困,私营部门,公共部门, 技术,社会发展,贸易,城市发展领域数据。

主要技术及参数

  1. 如何使用Python和其他工具,将不同类型的文本和网络数据加载到一个数据库。包括:加载和共享简单的 CSV 数据;加载更复杂的分隔数据;从 Web 加载 JSON 数据;从 Web 收集病原菌流感数据;使用 Pandas 收集 Web 数据。
  2. 使用SQL基本的汇总统计和可视化,使用SQL,Panda和Scipy进行假设检验,以及使用SQL和Scikit-Learn进行线性建模。我们在第二部分收集所有数据,现在我们将使用一些问题来指导我们的数据调查。本部分共5课 —— 不同的民族是否会影响到疫苗接种率?疫苗接种率是否会影响流感发病率?GDP 与流感发病率有何关系?在城市生活是否会影响流感发病率?卫生设施和清洁水对流感传播有什么影响?
  3. 学习如何使用Apache Spark中的工具从大数据获得的洞察力,我们将使用文本消息来确认如何使用数据分析去分析新闻文章的主题,然后通过新闻文章的主题,我们会对流感的分析得出结论。

项目案例使用真实的医疗数据进行分析,包括采用来自美国疾病控制中心,世界卫生组织,美国卫生及公共服务部,世界动物健康组织的真实流感数据;以及世界银行世界经济发展指标数据等。同时,项目案例必须采用各项数据科学与大数据前沿的先进技术,包括应用Python数据分析库Pandas,Scipy,Scikit-Learn,Spark,PySpark,CX_ORACLE等;项目案例中所涉及的每一个大数据技术点,必须出现在《大数据基础与实战》对应章节的技术示例中。提供不少于15个大数据独立技术点实验文档,并为每个技术点提供独立的执行脚本,源代码,测试用数据以及分解实验指导,所有源代码不少于3,000行。