LSTM:时间序列数据关联模型

此前,跨象乘云™介绍了《LSTM 模型预测电子货币价格》教程,实际上,LSTM 模型能够从时间序列数据中捕捉最重要的特征并进行关联建模。股票价格预测模型,是关于对冲基金如何使用此类系统的典型案例,使用了 Python 编写的 PyTorch 框架进行训练,设计实验并绘制结果。

对冲基金是深度学习应用中具有吸引力的领域之一,也是投资基金的一种形式。不少金融组织从投资者那里筹集资金后对其进行管理,并通过分析时间序列数据来做出一些预测。在深度学习中,有一种适用于时间序列分析的架构是:递归神经网络(RNNs),更具体地说,是一种特殊类型的递归神经网络:长短期记忆网络(LSTM)。NEVEN PI[……]

继续阅读

2018《大数据标准化白皮书》

3 月 29 日,由中国电子技术标准化研究院主编的《大数据标准化白皮书(2018 版)》正式发布。在国家大数据战略的推进实施下,我国大数据政策体系日臻完善,作为产业统筹布局的重要支撑,大数据标准的技术支撑和引领作用进一步凸显。

《白皮书》立足于大数据产业发展的社会转型历史时期所具有的政策、经济与文化等特点,分析处于初期发展阶段的大数据产业对于经济、社会的作用和影响,旨在与业界分享大数据领域的研究成果和实践经验,呼吁社会各界共同关注大数据的政策研究、技术投入、标准建设与服务应用,共同推动大数据的发展,提升社会整体决策与服务管理能力。

《白皮书》介绍了国内、国外主要国家在大数据领域的发[……]

继续阅读

Google 开源 FHIR 医疗数据模型

Google 正在大力推动 FHIR 进行医疗预测。在过去 10 年间,医疗数据已经从以纸质文件为主几乎完全数字化为电子健康记录。但是,理解这些数据涉及一些关键挑战。

  1. 供应商之间没有共同的数据表示形式;每个供应商都使用不同的方式来构建他们的数据。
  2. 即使使用相同供应商的网站也可能存在很大不同,例如,他们通常为同一种药物使用不同的代码。
  3. 数据可能分布在多个表格中,一些表格包含患者就医记录,一些包含实验室结果,其他的则包含生命体征数据。

近日,Google 开源了快速医疗互操作性资源 (FHIR) 标准解决了其中的大多数挑战:它具有一个坚实并且可扩展的数据模型并基于成熟的[……]

继续阅读

Pandas 教程:优化运算

当科研项目达到使用 100 多 TB 生物数据规模的时候,数据科学库的一些局限性会先露出来。面临这种规模的数据时,Pandas 成了最受喜爱的工具;然而,当你开始处理 TB 级别的基因数据时,单核运行的 Pandas 就会变得捉襟见肘。如果我们拥有更多的处理器核,或者要打开数十 TB 规模的文件时,我们希望 Pandas 运行得更快。目前,Apache Spark 是最高性能的分布式选择了,但是如果未对 Pandas 代码做出足够多的修改,你无法使用 Apache Spark 运行 Pandas 代码。

正因如此,来自 UC Berkeley 的 Devin Petersohn 发布文章[……]

继续阅读

置信区间与置信度

TowardsDataScience 的作者 Dima Shulga,采用实例解释了统计学中的置信区间与置信度的概念。同时,机器之心做了全文的翻译。

本文讨论了统计学中的一个基本术语 :置信区间。我们仅以一种非常友好的方式讨论一般概念,没有太多花哨的统计术语,同时还会使用 Python 完成简单的实现!尽管这个术语是非常基础的,但我们有时很难完全理解置信区间到底是什么,为什么我们需要它。[……]

继续阅读

Reticulate:R + Python 实现互操作

R 语言和 Python 已成为数据科学科研工作人员的标准配置。现在,对于数据科学科研人员而言,R 语言Python 终于不再是一个二选一的方案。CRAN 已于2018年3月21日收录 reticulat 包(1.6版本),它包含了用于 Python 和 R 之间协同操作的全套工具,在 R 和 Rstudio 中均可使用。主要包括:

  1. 支持多种方式在 R 环境中调用 Python。包括 R Markdown、加载 Python 脚本、导入 Python 模块以及在 R 会话中交互式地使用 Python。
  2. 实现 R 和 Python 对象之间的转换(例如:R 和 Python[……]

    继续阅读

R + Python 预测工具:Prophet

Prophet 是由 Facebook 开源一款基于 PythonR 语言的数据预测工具,相比现有预测工具更加人性化,并且难得地提供 Python 支持。对于高等院校开设数据科学与大数据技术专业而言,通常纠结于应该采用 R 语言还是 Python 作为数据分析专业核心课程的主要工具 —— 某些统计学,计量经济统计学专业,以及高等职业院校可能还依然在应用 Excel,SQL 或者商业化的 Matlab,SAS,SPSS,SATA。Prophet的发布很好的融合了数据科学,乃至未来的深度学习与新一代人工智能方向趋势的两种语言。另外,它生成的预测结果足以和专业数据分析师媲美。

P[……]

继续阅读

Python 公开入门书籍

如何快速熟悉 Python 编程一直是很多初学者的疑问,我们经常考虑要不要系统地从头开始啃 Python 教程,但这种方法不仅非常枯燥且很难坚持。因此,对于很多入门读者,更好的方式是学习基础的 Python 编程,然后在实践中完善代码技巧。本文介绍了一本非常精炼的 Python 免费书籍,它不仅有基础知识,同时每一章节还有非常多的练习与源代码。

该书是使用实践方法教授基础的 Python 编程语言。其方法相当基础:在简要介绍每个主题之后,读者要解答练习题来巩固知识点。这些练习题都是非常经典的任务,它们可以让我们在短时间内熟悉 Python 的使用。

GitHub地址项目GitHub地址[……]

继续阅读

GitHub 开发者使用指南

GitHub 是一个拥有数十亿行代码的网站,每天有数百万开发者聚集在一起,与开源软件进行协作和报告问题。简而言之,它是一个基于 Git 构建的软件开发人员的平台。作为开发人员,编程专业学生,科研人员,几乎每天都要在工作中使用 GitHub 或其他基于 Git 的工具。用于托管代码或协作其他人的代码。Flavio Copes 的这篇文章解释了 GitHub 的一些相关概念,以及如何它的一些功能使用来提高工作效率。

为什么选择 GitHub?

GitHub 由一家私人公司管理,而且还会通过托管人员代码获利。那么为什么你还选择使用它而不是选择像 BitBucket 或 GitLab 这样类似的平[……]

继续阅读

卷积目标检测架构选型指南

架构及硬件选型一直是深度学习与新一代人工智能科研工作面临的第一个难题,本白皮书的目标正是一份作为选择能够为给定应用程序和平台实现正确速度/内存/精度平衡的检测架构的指南。为此,该团队研究了在现代卷积目标检测系统中交换速度和内存使用的准确性的各种方法。近年来已经提出了许多成功的系统,但是由于不同的基本特征提取器(例如,VGG,残留网络),不同的默认图像分辨率以及不同的硬件和软件平台,所以基于相同基础目标(“苹果”对“苹果”)的比较是很困难的。该团队提出了更快的 R-CNN,R-FCN,和 SSD 系统的统一实施,将其视为体系结构,并描绘出通过使用替代特征提取器创建的速度/精度折衷曲线,以及各种其[……]

继续阅读