数据湖概念与应用

日前,IBM 发布博文,从数据湖的定义,数据湖的优势,数据湖的演变,数据湖的应用等方面,多角度的阐述了近期日渐火爆的『数据湖』概念。

基本概念

  • 数据仓库:数据仓库是一种存储架构,旨在保存从多个数据源提取的数据,这些数据源包括操作数据存储、事务数据存储,以及企业内的部门数据集市。数据仓库将数据组合为一种聚合、摘要形式,适合于进行企业级数据分析以及针对业务需求定制报告。
  • 数据湖:数据湖是一种存储库,它以原生格式保存大量原始数据或细化的数据,以供按需访问。这个词有时与 Apache Hadoop 对象存储有关,但数据科学家越来越多地开始使用数据湖这个词来描述任何具有不明确的模式和数[……]

    继续阅读

Twitter 情感分析项目

本文为 Python 实战之 Twitter 情感分析项目系列,原作者为 Ricky Kim,全文共分 11 个子项目:

  1. 数据准备
  2. 数据清洗
  3. 数据可视化探索
  4. 构建分类模型
  5. 分类模型对比
  6. Doc2Vec 框架
  7. Doc2Vec 短语建模
  8. 降维
  9. 神经网络分析应用(Keras)
  10. 神经网络分析应用(Doc2Vec / Word2Vec / GloVe)
  11. 神经网络分析应用(CNN + Word2Vec)

GitHub地址项目 GitHub 地址[……]

继续阅读

神经网络架构搜索(NAS)综述

深度学习模型在很多任务上都取得了不错的效果,但调参对于深度模型来说是一项非常苦难的事情,众多的超参数和网络结构参数会产生爆炸性的组合,常规的 random search 和 grid search 效率非常低,因此最近几年神经网络的架构搜索和超参数优化成为一个研究热点。

机器之心的译文,从网络架构搜索的三个方面进行了分类综述,包括:

  • 搜索空间
  • 搜索策略
  • 评价预估

问题定义

网络架构和超参数优化的问题,有以下的特点:

  1. 评价函数未知,是一个黑箱优化问题,因为评价往往是在 unseed dataset 上进行评价;
  2. 非线性;
  3. 非凸;
  4. 混[……]

    继续阅读