卷积神经网络和医疗影像分析平台:NiftyNet

NiftyNet 是一个基于 TensorFlow 的开源卷积神经网络平台,来研究医疗影像分析和影像导向的治疗。(An open source convolutional neural networks platform for medical image analysis and image-guided therapy.)NiftyNet 有着模块化的架构设计,能够共享网络架构和预训练模型。使用该模块架构,你可以:

  • 使用内建工具,从建立好的预训练网络开始
  • 根据自己的图像数据改造已有的网络
  • 根据自己的图像分析问题快速构建新的解决方案

NiftyNet 现在支持医疗影像分割和生成式对抗网络。该开源平台并非面向临床使用,同时,还支持:

卷积神经网络和医疗影像分析平台:NiftyNet
NiftyNet 论文链接

基于深度学习的医疗影像分析和计算机辅助诊断正逐渐成为主要的解决方案。虽然目前的深度学习框架是非常灵活与便捷的,但并不为医疗影像分析提供具体的功能,因此开发者需要大量的实现与试验才能构建医疗影像方面的应用。因此,许多研究团队存在大量重复的努力和不完整的基础设施开发。本研究提供了一个开源的深度学习医疗影像平台 NiftyNet。NiftyNet 的目标是加速和简化这些解决方案的开发,并为研究社区提供一个开放的机制来使用、适应和构建各自的研究成果。

NiftyNet 为各种医疗影像应用提供模块化的深度学习流程,包括语义分割、回归、图像生成和表征学习等常见的医学影像任务。NiftyNet 的处理流程包括数据加载、数据增强、网络架构、损失函数和评估指标等组件,它们都是针对并利用医学影像分析和计算机辅助诊断的特性而构建的。NiftyNet 构建在 TensorFlow 上,默认使用 TensorBoard 支持二维、三维图像和计算图的可视化。

GitHub地址项目GitHub地址

深度学习模型教育工具:Darkon

深度学习模型往往难以理解,通常被称为:黑箱;同时,由于模型运算过程复杂,往往很难通过精确的参数调整优化模型。Darkon 正是为了提升用户对深度学习模型理解能力的一个开源工具包。用于教学场景,它还可以更好地帮助学生理解深度学习模型,进而调试故障,解释决策流程,优化模型策略 …… 适用于所有 Tensorflow 模型。目前,Darkon 官方发布了基于影响值与Gradcam 的演示案例,未来将有更多的演示案例被发布到项目当中:

基于 Cifar-10 数据集的 ResNet 影响值案例:

基于 ImageNet 数据集的 ResNet Gradcam 案例:

基于 Sentence polarity 数据集的 CNN的文本情感分类案例:

Python与R数据科学与机器学习软件包流行榜

根据 PyPI(Python 软件包索引)统计,目前共有 126,921 个 Python 软件包,由于扩展 Python 在包括数据科学,机器学习方面在内的各领域的功能。而统计语言 R,经过长期的开源社区积累,也有相当数量的 CRAN 包以扩展其在特定领域的统计分析,数据科学,与机器学习能力。 Data Incubator 通过统计 Stack Overflow 以及在 Github / CRAN 上的下载评星量,统计出 PythonR,两种语言在数据科学与机器学习方面最为流行的软件包排行榜。对于新入门的科研人员,可以通过参考该排行榜,优先选择最为常用及重要的包开始数据科学与机器学习的科研工作。其中,Python 在数据科学方面(完整排行)排名前五的软件包分别是:

  1. numpy
  2. tensorflow
  3. pandas
  4. ipython
  5. scikit-learn

上述的 Python 数据科学扩展软件包此前已经过多次介绍:

R 语言在机器学习方面(完整排行)排名前五的软件包分别是:

  1. Caret – 分类与回归训练扩展软件包,包含了数据分割、预处理、功能选择、使用重采样进行模型调整、可变重要性估计等工具
  2. randomForest – 随机森林算法模型包
  3. e1071 – 支持向量机(SVM)算法模型包
  4. rpart – 分类与回归树算法模型包
  5. nnet – 单隐藏层神经网络算法模型包

商务智能数据可视化分析科研教学实践环境

工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境
工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境

商务智能数据可视化分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的商务智能与大数据可视化分析实战综合环境。以提升高校社会科学类专业学生数据素养,培养商业数据分析师,数据新闻记者,数字图书馆及知识库管理员为人才定位,可供高职类大数据技术与应用(610215)专业学生,及新闻传播,社会科学,经济管理,统计数理学院等非计算机专业学生或项目研究小组完成数据整理,商务数据智能分析,数据可视化运营,可视化机器学习与数据挖掘,业务预测,报表输出等全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装完整的数据采集,数据整理,机器学习,数据可视化分析平台,并提供超过 30 款直观,操作简单的数据工具,并配备专为商务智能优化数据源,帮助文科类专业或仅具备初级编程基础的师生,通过掌握高效先进的数据处理与分析工具,也能应用大数据发掘更大的价值。主要数据组件及工具包括:

    • Business Intelligence Optimized Data Sources – 商务智能优化数据源,覆盖:气候环境、宏观经济、娱乐行业、金融行业、人力资源、公共服务及共享经济行业、零售行业、社交网络行业、体育行业、商务智能、运输行业、医疗行业
    • CartoDB – 交互式地图制作工具
    • CrowData – 文档协作验证和数据发布工具,否则将很难或不可能通过自动工具(如OCR)获取
    • DJHandbook – 权威的数据新闻资源指南,全球超过15万学生,研究人员和数据新闻从业人员使用这些资源学习数据新闻制作,并且不断拓展新的技术工具
    • DocumentCloud – 比 Dropbox 更为实用的文档共享工具
    • E-commerce Data Acquisition Platform – 针对国内主流电商平台,实现商品信息采集、评论采集;为媒体行业提供数据源,实现自动化采集数据
    • Geojournalism – 数据新闻记者,设计师和开发人员工具箱,使用地理数据进入数据可视化世界
    • Gephi – 全球领先的互联网社区关系网络分析工具
    • Json Parser – 在线 JSON 数据编译解释器
    • kxcy-bd-viz – 跨象乘云™大数据可视化探索平台(简称:KXCY-BD-VIZ)
    • kxcy-ml-vp – 跨象乘云™可视编程机器学习平台(简称:KXCY-ML-VP)
    • Latlong – 在线地理位置信息查询器(经纬度/GPS参数)支持鼠标指针定位
    • libreoffice – 国际化的开源项目,自由免费的新一代办公软件
    • mapstarter – 支持 GeoJSON,TopoJSON,及 ESRI 图形格式,将地理数据文件转换为网络地图
    • Mozilla Firefox – 开源浏览器并提供大量数据分析插件
    • MySQL – 全球最大开源数据库
    • OnlineOCR – 光学字符识别(Optical Character Recognition, OCR)技术,可以识别扫描件或照片中的文字
    • Open Refine – 全球最受欢迎的数据与资料整理平台,
    • R 语言 – 最流行的统计语言,除了能清洗数据、统计分析,若有程序包 Rvest,还可通过公开数据门户(世界银行、欧盟统计局等机构)的 API 抽取数据。R 是处理数据的好手,在程序包 tidyr 和 dplyr 的帮助下,可以实现合并、设置子集、聚合等多个功能。另外,通过开放并及时更新的社区CRAN(The Comprehensive R Archive Network)统计算法包,能获得各数据科学领域与行业的最前沿的机器学习算法模型。
    • Rstudio – R 语言统计运算与数据可视化工作平台
    • Tabula – 解放PDF文件中锁定数据表的工具
    • TimelineJS – 新闻事件时间轴制作工具,支持超过40种语言
    • Web Scraper – 专门从网页中提取数据的工具,包括免费的 Google Chrome Web Scraper 扩展插件和基于云的 Web Scraper
    • 草料二维码 – 在线二维码生成器

《人工智能的未来之路(麦肯锡季刊)》

日前,麦肯锡发布并出版了《人工智能的未来之路(麦肯锡季刊)》电子书,可以通过亚马逊购买。

同时,读者也可以在麦肯锡网站上找到此前发布的原稿下载:

中国已成为全球人工智能的发展中心之一。随着中国老龄化日益严重,生产力的提升刻不容缓,人工智能正式加快生产力增长的重要机遇。然而,关于人工智能的伦理、安全、法律、政治问题不绝于耳,中国要想在这波发展浪潮中抢占先机,似乎路途还很遥远:专业人才的培养、教育培训的与时俱进,拓宽人工智能在传统行业用的范围、建立完善的开放数据生态系统等等不一而足。本书从宏观和微观等层面论述了中国人工智能的未来之路。此外,物流、供应链、消费领域也是本书关注的话题。

数据科学管道与数据分析库:Pandas

PandasPython 生态系统中最流行的数据分析库,并作为核心组件被跨象乘云公司集成至:数据科学与大数据分析科研教学实践环境中。Pandas 能够完成许多任务,通常用于快速简单的数据操作、聚合和可视化,具体包括:

  • 读/写不同格式的数据
  • 选择数据的子集(教程1234
  • 跨行/列计算
  • 寻找并填写缺失的数据
  • 在数据的独立组中应用操作
  • 重塑数据成不同格式
  • 合并多个数据集
  • 先进的时序功能
  • 通过 matplotlibseaborn 进行可视化操作

尽管 Pandas 功能强大,但它并不为整个数据科学流程提供完整功能。Pandas 通常是被用在数据采集和存储以及数据建模和预测中间的工具,作用是数据挖掘和清理。下图显示的,便是完整的数据科学管道与流程,以及各种数据科学库所处的位置 —— 相关组件也都被集成部署在跨象乘云的数据科学与大数据分析科研教学实践环境中。

数据科学管道 - Data Science Pipeline
数据科学管道 – Data Science Pipeline

对于典型的数据科学家而言,Pandas 在数据管道传输过程中扮演着非常重要的角色。现在,Pandas 在 Stack Overflow 上的活动居 Python 数据科学库之首,占整个站点新问题提交总数的 1%。《Pandas Cookbook》的作者 Theodore Petrou 提供了几条如何学习 Pandas 的建议。包括:

按照 Theodore Petrou 推荐的顺序重读 Pandas 文档

在阅读上述部分的文档并完成大约 10 个 Kaggle kernel 之后,你应该可以无障碍地弄懂 Pandas 的机制,同时可以顺利地进行实际数据分析。

全球第一款离线代码与算法搜索引擎:OpenGenus

OpenGenus 基金会日前发布全球第一款离线代码搜索引擎。即使没有连接到互联网,用户也可以使用自己喜欢的语言搜索任何算法或数据结构的代码。用户可以直接通过 Chrome Web Store 进行下载,解决了数据科学工程人员由于临时断网而无法搜索算法应用或数据结构的难题。

实际上,该离线搜索引擎包含了几个核心部件,包括:

  • quark – 离线搜索引擎核心组件
  • cosmos – 用户使用的所有算法及数据结构代码
  • cosmos-search – 下一代用户实时隐私保护代码搜索引擎

GitHub地址项目GitHub地址

数据科学与大数据分析科研教学实践环境

数据科学与大数据分析工程实践系统环境
工程实践系统环境 —— 数据科学与大数据分析工程实践系统环境

数据科学与大数据分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的数据科学与大数据分析项目开发综合环境,可供数据科学与大数据技术(080910T)专业学生或项目开发小组完成数据科学,大数据分析,数据挖掘,机器学习,以及深度学习与新一代人工智能全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装多个流行的 Python 数据科学组件与套件库,满足相关教学与实验所需的应用场景;支持数据科学工程在各个 Python 版本以及 R 语言数据分析环境间自由切换。通过一键部署与统一管理组件,能实现 1,000 个以上数据科学基因链套件库的快速扩展。常见的数据科学生态套件包括:

  • Caret – R 语言实用函数,旨在简化创建预测模型的过程,包含数据分割、预处理、功能选择、使用重采样进行模型调整、可变重要性估计等工具
  • Cython – 针对 Python 编程语言和扩展 Cython 编程语言(基于Pyrex)优化的静态编译器。 使在 Python 上编写 C 扩展和 Python 本身一样简单
  • Dask – 用于数据分析的灵活的并行计算库
  • dplyr – R 语言数据操作语法工具,提供了一组一致的动词,帮助用户解决最常见的数据操作难题
  • ggplot2 – R 语言数据可视化绘图包
  • IRkernel – jupyter 的原生 R 语言内核
  • IPython / Jupyter Notebook – 最流行的数据科学开发环境,支持 Web 应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
  • Matplotlib – Python 2D 绘图库,可以在各种平台和交互式环境中生成高质量的数据图形
  • NLTK – 先进的自然语言处理(NLP)工具库,用于分类、标记化、词干标记、解析和语义推理
  • NetworkX – Python 复杂网络关系分析资源包,用于创建,操作和研究复杂网络的结构,动态和功能。
  • Numba – 高性能计算库,可对 Python 代码编译,使其支持 CUDA 在 GPU 或多核 CPU 上執行
  • Numexpr – 非常简单易用的 Numpy 性能提升工具,解决 NumPy 的性能问题。
  • NumPy – 支持高级大量的维度数组与矩阵运算,并针对数组运算提供大量的数学函数库
  • Pandas – Python 生态系统中最流行的数据分析库,能够完成读/写不同格式的数据、选择数据的子集、跨行/列计算、寻找并填写缺失的数据、在数据的独立组中应用操作、重塑数据成不同格式、合并多个数据集、先进的时序功能、通过 matplotlib 和 seaborn 进行可视化操作
  • PySpark – Spark 的 Python API 接口
  • RStudio – R 语言统计运算与数据可视化工作平台
  • SciPy 库 – Scipy 库依赖于 NumPy,它提供便捷和快速的 N 维向量数组操作,作为科学计算工具集,主要用于统计、优化、集成、线性代数、傅里叶变换、信号和图像处理
  • Shiny – 基于 R 语言的全新交互式数据分析平台,属于 RStudio 的子项目
  • Spyder – Python 可视化开发环境,类似于 R 语言中的 RStudio
  • Scikit-learn – 极为强大的机器学习库,提供了完善的数据挖掘和分析模型,以及工程算法导图
  • Scikit-image – Python 图像处理算法集合库
  • tidyr – R 语言数据处理包,用于数据清洗和整理,主要用于筛选、排列、选择、变形、汇总、分组

同时,通过快速扩展,能在短时间内快速部署如:H2O.aiTensorFlow 等企业级深度学习与新一代人工智能平台,充分满足高等院校的科研与实训教学需求。

大数据企业级仿真科研教学实践环境

大数据工程实践系统环境
工程实践系统环境 —— 大数据企业级仿真科研教学实践环境

大数据企业级仿真科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的企业级大数据项目开发综合环境,可供大数据专业学生或项目开发小组完成大数据全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装包含:系统环境,功能连接中间件,应用数据库,SQL 结构化大数据数据库,NoSQL 非结构化数据库,教学用示例数据资源,以及面向专业类开发,管理,调优等功能组件及应用软件,满足相关教学与实验所需的应用场景。完整的大数据生态部件包括:

  • Airflow – ELT数据采集、导入、处理管道
  • Crunch – 编写、测试、运行MapReduce管道的JAVA框架
  • Flume – 分布式海量日志流采集架构
  • HBase – Hadoop数据库,面向分布式可扩展的大数据存储
  • HCatalog – 对接不同数据处理工具的Hadoop表与存储管理接口
  • Hive – 使用SQL语法读取、写入分布式存储大数据集的数据仓库
  • HttpFS – 支持所有Hadoop文件系统读写操作的HTTP网关服务器
  • Hue – 可视化大数据分析工作平台
  • Impala – Hadoop本地分析数据库
  • Jupyter Notebook – Web应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
  • Kafka – 用于构建实时数据管道和流式应用程序
  • kxcyViz – 跨象乘云™可视化数据统计与多维分析探索平台
  • Llama – 协调、管理和监控Impala和YARN之间的集群资源
  • Mahout – 提供分布式线性代数的机器学习与数据挖掘框架
  • Oozie – 管理Hadoop作业的工作流调度程序系统
  • Open Refine – 数据清理与处理,格式转换工具,支持Web服务和外部数据扩展
  • Pig – 大型数据集并行分析平台
  • Rapid Miner – 数据科学团队工作平台,集成机器学习和预测模型部署
  • R &. RStudio – 统计运算与数据可视化环境及工作平台
  • Search (Solr) – 企业级分布式索引,检索,复制与负载均衡查询平台
  • Sentry – Hadoop集群数据和元数据细粒度角色授权系统
  • Snappy – 高效数据压缩/解压缩库
  • Spark – 最流行的用于大规模数据处理的高速通用引擎
  • Sqoop – 用于在Hadoop和结构化数据存储/关系数据库之间高效传输批量数据的工具
  • Whirr – 运行大数据云服务的库
  • ZooKeeper – 分布式服务器开发与运维协调枢纽

Python自然语言处理工具库(含中文处理)

自然语言处理(Natural Language Processing,简称 NLP),是研究计算机处理人类语言的一门技术。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在 NLP 的价值也寄予厚望。再加上 AlphaGo 的成功,人工智能的研究和应用变得炙手可热。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。NLP 研究领域包括:

  1. 句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。
  2. 信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。
  3. 文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
  4. 机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
  5. 信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用 1,2,3 的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
  6. 问答系统: 对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
  7. 对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。

以上引用微软亚洲研究院首席研究员周明博士在知乎的回答

当前,用于自然语言处理(NLP)的 Python工具包括:

1.NLTK

NLTK 在使用 Python 处理自然语言的工具中处于领先的地位。它提供了超过 50 个包括如: WordNet 这种方便处理词汇资源的数据接口。同时,还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库,以及工业级 NLP 库的封装器和一个活跃的讨论论坛

统计语言学话题方面的手动编程指南加上全面的 API 文档,使得 NLTK 非常适用于语言学家、工程师、学生、教育家、研究人员以及行业用户等人群。NLTK 可以在 Windows、Mac OS X 以及 Linux 系统上使用。最好的一点是,NLTK 是一个免费、开源的社区驱动的项目。

因此,NLTK 被称为一个:

使用 Python 开发的用于统计语言学的教学和研究的有利工具,和一个自然语言处理的高效库。

2.Pattern

Pattern 拥有一系列的自然语言处理工具,比如说词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment analysis),WordNet。它也支持机器学习的向量空间模型,聚类,向量机。

3.TextBlob

TextBlob 是一个处理文本数据的 Python 库。它提供了一个简单的 api 来解决一些常见的自然语言处理任务,例如词性标注、名词短语抽取、情感分析、分类、翻译等等。

4.Gensim

Gensim 是一个 Python 库,用于对大型语料库进行主题建模、文件索引、相似度检索等。它可以处理大于内存的输入数据。作者说它是:

纯文本上无监督的语义建模最健壮、高效、易用的软件。

5.PyNLPI

PyNLPI 全称是:Python 自然语言处理库(Python Natural Language Processing Library,音发作: pineapple) 是一个用于自然语言处理任务库。它集合了各种独立或松散互相关的,那些常见的、不常见的、对 NLP 任务有用的模块。PyNLPI 可以用来处理 N 元搜索,计算频率表和分布,建立语言模型。它还可以处理向优先队列这种更加复杂的数据结构,或者像 Beam 搜索这种更加复杂的算法。同时,该处理库还提供了完善的文档库

6.spaCy

spaCy 是一个商业的开源软件。结合了 Python 和 Cython 优异的 NLP 工具。是快速的,最先进的自然语言处理工具。

7.Polyglot

Polyglot 支持大规模多语言应用程序的处理。它支持 165 种语言的分词,196 中语言的辨识,40 种语言的专有名词识别,16 种语言的词性标注,136 种语言的情感分析,137 种语言的嵌入,135 种语言的形态分析,以及 69 种语言的翻译。

8.MontyLingua

MontyLingua 是一个免费的、功能强大的、端到端的英文处理工具。在 MontyLingua 输入原始英文文本 ,输出就会得到这段文本的语义解释。它适用于信息检索和提取,请求处理,问答系统。从英文文本中,它能提取出主动宾元组,形容词、名词和动词短语,人名、地名、事件,日期和时间等语义信息。

9.BLLIP Parser

BLLIP Parser(也叫做 Charniak-Johnson parser)是一个集成了生成成分分析器和最大熵排序的统计自然语言分析器。它包括命令行Python 接口。

10.Quepy

Quepy 是一个 Python 框架,提供了将自然语言问题转换成为数据库查询语言中的查询。它可以方便地自定义自然语言中不同类型的问题和数据库查询。所以,通过 Quepy,仅仅修改几行代码,就可以构建你自己的自然语言查询数据库系统。

GitHub地址项目GitHub地址

另外,上述工具大部分在处理英文自然语言上展示了良好的效果。同时,对于国内科研人员而言,自然语言处理往往需要考虑在中文应用中的差异处理。本文最后附上:复旦大学邱锡鹏教授整理并发布的中文自然语言处理工具列表,以供参考 ——

GitHub地址项目GitHub地址

最佳Python数据科学平台:Anaconda

Anaconda 分发版是执行 Python 数据科学和机器学习最简单而且高效的平台,已经拥有超过 450 万用户。它包括数百种流行的 Python 数据科学软件包,以及用于Windows,Linux 和 MacOS 的 Conda 软件包和虚拟环境管理器。 其中,Conda 使安装,运行和升级复杂的数据科学和机器学习环境(如 scikit-learn,TensorFlow 和 SciPy)变得更加简单快捷;并且允许用户在多个 Python 版本之间并存以及自由切换的目标。 Anaconda 分发版同时也是数百万数据科学项目以及 AWS 的机器学习 AMI 的基础组件。

Anaconda 资源库中的 Python 和 R Conda 软件包在安全环境中进行编译,因此,科研机构与企业可以获得在本地系统上正常工作的优化二进制文件。结合 Conda 的虚拟环境和深度依赖管理,用户可以轻松地在 Windows,Linux 和 MacOS 系统中重现相同的数据科学结果。Anaconda 资源库中的1,000多个软件包对所有人都是免费的,同时,anaconda.org 上还提供 Conda 软件包建设者的 Conda Forge 社区。

一方面,Python 已逐步抛离 R 语言,成为数据科学的事实标准;另一方面,将 Python 数据科学生态圈整合的 Anaconda,也逐步成为了类似 Cloudera 对于 Hadoop 生态圈的角色。Anaconda 提供的数据科学生态圈组件特性包括:

  • 超过 1,000个 Anaconda 策划和社区数据科学软件包;
  • 支持各种 IDE 开发数据科学项目,包括:Jupyter,JupyterLab,Spyder 和 RStudio;
  • 支持 Dask,numpy,pandas 和 Numba 分析数据的可伸缩性和性能;
  • 支持 Bokeh,Datashader,Holoviews 或 Matplotlib 可视化数据;
  • 支持 Scikit-learn,Tensorflow,h20 和 theano 创建机器学习和深度学习模型;

Python编程教育工具:Python Tutor

Python Tutor 是由 Philip Guo 开发的一个免费教育工具。可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具,教师或学生可以直接在 Web 浏览器中编写 Python 代码,并一步一步可视化地执行程序。目前,已经有超过 180 个国家的 350 万人使用 Python Tutor 来查看 3,000 多万条代码。同时,很多高等院校也将其作为教科书,讲座和在线教程的补充。

GitHub地址项目GitHub地址

2017年最佳机器学习开源项目(30项 – 下篇)

续上篇:

第21位:Face classification

基于 Keras CNN 模型与 OpenCV 的 fer2013 / imdb 数据集实时面部检测和表情/性别分类及训练模型。其中:

  • IMDB性别分类测试准确率:96%。
  • fer2013情感分类测试准确率:66%。

GitHub地址项目GitHub地址

第22位:Speech to Text WaveNet

使用 DeepMind 的 WaveNet 和 TensorFlow 构成的端到端句级英语语音识别。WaveNet 是一种原始音频波形(raw audio waveforms)的深度生成模型。项目研究表明 WaveNet 可以生成模拟任何人类声音的语音,而且其听起来比已有最好的文本转语音(Text-to-Speech)系统更为自然,与人类表现之间的差距缩减了超过 50%。

扩展阅读:DeepMind WaveNet,将机器合成语音水平与人类差距缩小50%

GitHub地址项目GitHub地址

第23位:StarGAN

用于多领域图像到图像转换的统一生成对抗网络。

GitHub地址项目GitHub地址

第24位:MI-agents

Unity 发布的机器学习智能体。Unity 机器学习代理允许研究人员和开发人员使用 Unity 编辑器创建游戏和模拟,这些编辑器可以通过简单易用的 Python API 使用强化学习,神经元演化或其他机器学习方法对智能代理进行训练。同时,项目提供了一个极为有趣的平衡球游戏入门示例

GitHub地址项目GitHub地址

第25位:Deep Video Analytics

来自康奈尔大学的分布式可视化搜索和可视化数据分析平台。

GitHub地址项目GitHub地址

第26位:OpenNMT

Torch 上的开源神经机器翻译。哈佛大学自然语言处理研究组(Harvard NLP)宣布开源了其研发的神经机器翻译系统 OpenNMT,该系统使用了 Torch 数学工具包。该研究组在官网上表示该系统已经达到生产可用的水平(industrial-strength)。

扩展阅读:哈佛大学 NLP 组开源神经机器翻译工具包 OpenNMT:已达到生产可用水平

GitHub地址项目GitHub地址

第27位:Pix2PixHD

英伟达发布的基于 Pytorch 并且使用条件 GAN 合成和处理 2048×1024 分辨率图像的数学模型。它可以用于将语义标签贴图转换为逼真的图像,或者从人脸标签贴图合成肖像。

GitHub地址项目GitHub地址

第28位:Horovod

Uber 工程团队发布的分布式 TensorFlow 训练框架,该平台构建在 Uber 数据和计算基础设施之上,并且由一系列开源系统和内置组件组成。

扩展阅读:Uber 推出机器学习平台 Michelangelo:全面处理工作流程推动 AI 民主化

GitHub地址项目GitHub地址

第29位:AI-Blocks

强大而直观的所见即所得界面,可让任何人创建机器学习模型。AI-Blocs 的概念是提供简单的场景,通过可拖动并附有脚本的对象实现机器学习。该模型可以直接在编辑器上运行,也可以导出到在 Tensorflow 上运行的独立脚本。

GitHub地址项目GitHub地址

第30位:Voice Conversion with Non-Parallel Data

基于 TensorFlow 的深度神经网络语音转换(语音风格转换)。

GitHub地址项目GitHub地址

2017年最佳机器学习开源项目(30项 – 中篇)

续上篇:《2017年最佳机器学习开源项目(30项 – 上篇)》

第11位:Style2Paints

AI 漫画稿在线上色工具,通过人工智能,将线稿的风格转换为彩色漫画风格。该项目同时提供了在线体验网站根据不同的涂色风格,获得各种上色图片。特别值得关注的是该项目由苏州大学发布,是中国科研机构在本列表中排名最高的项目。

扩展阅读:Style2paints:专业的AI漫画线稿自动上色工具

GitHub地址项目GitHub地址

第12位:Tensor2Tensor

由 Google Brain 发布的用于广义序列与序列模型的工具库,是一个用于在 TensorFlow 中训练深度学习模型的开源系统。Tensor2Tensor 能够帮助人们为各种机器学习程序创建最先进的模型,可应用于多个领域,如翻译、语法分析、图像信息描述等,大大提高了研究和开发的速度。不但如此,Tensor2Tensor 还内置了训练数据集与最佳实践模型,让科研机构与企业能在短时间内应用最佳模型及算法。

扩展阅读:一个模型库学习所有:谷歌开源模块化深度学习系统 Tensor2Tensor

GitHub地址项目GitHub地址

第13位:CycleGAN and pix2pix in PyTorch

基于 PyTorch 的图像到图像转换工具,它能以你随手草绘的单色线图为基础,自动生成一张“真实图片”。它是条件生成式对抗网络(Conditional Generative Adversarial Networks)的一种绝佳实现,并且已经被移植到 TensorFlow 上进行部署。

扩展阅读:你来手绘涂鸦,人工智能生成「猫片」:edges2cats 图像转换详解

GitHub地址项目GitHub地址

第14位:Faiss

由 Facebook AI 团队(FAIR)发布的用密集向量高效相似性搜索与聚类的工具库。它包含搜索任意大小的向量集的算法,直到可能不适合 RAM 的算法。它还包含评估和参数调整的支持代码。Faiss 是用 C ++ 编写的,具有 Python / numpy 的完整包装。 一些最有用的算法在 GPU 上实现。 它由 Facebook AI Research 开发。

GitHub地址项目GitHub地址

第15位:Fashion-mnist 数据集

一个类似于 MNIST 的时尚产品数据集。

GitHub地址项目GitHub地址

第16位:ParlAI

用于在各种公开可用的对话数据集上训练与评估 AI 模型的框架,基于 Python 开发。其目标在于为科研人员提供一套共享,训练和测试对话模型的统一框架,让互联网上流行的对话数据集都集中在一个地方,并具有多任务的能力。

GitHub地址项目GitHub地址

第17位:Fairseq

来自 Facebook AI 团队(FAIR)的序列到序列工具包。2016年,谷歌在机器翻译上取得了连续不断的突破。谷歌的方法用到了文本处理惯用的循环神经网络。近日,Facebook 也宣布在神经机器翻译上取得了重大进展,在超过了去年谷歌研究的水平的同时还实现了显著的速度提升。而和谷歌的方法不一样,Facebook 的方法采用了一种完全基于卷积神经网络的架构,该研究的相关源代码和模型也已经在 GitHub 上开源,并且马上成为 GitHub 上最受欢迎的机器学习项目之一。

扩展阅读:Facebook提出全新CNN机器翻译:准确度超越谷歌而且还快九倍(已开源)

GitHub地址项目GitHub地址

第18位:Pyro

使用 Python 和 PyTorch 进行深度通用概率编程。

扩展阅读: Uber 与斯坦福大学开源深度概率编程语言 Pyro:基于PyTorch

GitHub地址项目GitHub地址

第19位:iGAN

基于 GAN 的交互图像生成器。

扩展阅读:伯克利大学和 Adobe 开源深度学习图像编辑工具 iGAN

GitHub地址项目GitHub地址

第20位:Deep-image-prior

使用神经网络进行图像恢复,同时无需学习过程,将低分辨率的图片变得更加清晰。

GitHub地址项目GitHub地址

2017年最佳机器学习开源项目(30项 – 上篇)

Mybridge AI 公司对比了 GitHub 上近 8,800 个开源机器学习项目,并挑选了其中最好的 30 个,在 Medium 上发布。这是一个具有很强竞争力的列表,其中包含 2017 年 1 月 – 12 月份开源的各类优秀机器学习库、数据集和应用;通过流行度、参与度和新鲜程度来对它们进行评级,它们的 GitHub 平均评星总数达到 3,558 个。一个参考值是 TensorFlow 作为全球最受欢迎的深度学习开发框架,目前在 GitHub 上的评星为已接近 85,000个。开源项目对于数据科学家而言非常有意义,可以通过阅读源代码,在前人的基础上构建更加强大的项目。现在,科研机构与企业工程人员都可以根据这份列表,尝试一下这些最佳项目。

第1位:FastText

Facebook 发布的快速文本表示及分类库,用于高效学习词语表达与句子分类。另外,列表中还提供了一个以及基于 FastText 的多语言无监督与监督词嵌入的项目 Muse

扩展阅读:Facebook 发布新版 fastText:拓展至移动端,加入教程

GitHub地址项目GitHub地址

第2位:Deep-photo-styletransfer

康奈尔大学 Fujun Luan 论文《Deep Photo Style Transfer》的代码与数据。

GitHub地址项目GitHub地址

第3位:face recognition

世界上最简单的人脸识别库,从 Python 或命令行中识别和操作人脸。使用基于 dlib 最先进的人脸识别技术构建而成,并具有深度学习功能。该模型在“野外面部标记”基准中的准确率为惊人的:99.38%。同时,也提供了一个简单的 face_recognition 命令行工具,让你用命令行从图像文件夹中,进行面部识别。

扩展阅读:基于 Python 的开源人脸识别库:离线识别率高达99.38%

GitHub地址项目GitHub地址

第4位:Magenta

Magenta 是来自 Google Brain 团队的一个机器智能音乐与艺术生成器项目。

我们可以使用机器学习来创造引人注目的艺术和音乐吗?

如果可以,怎么做? 如果没有,为什么不尝试一下呢? Magenta 使用 TensorFlow 开发,并提供公开的模型,工具,演示,教程博客帖子以及技术文章。

扩展阅读:谷歌 Magenta 项目是如何教神经网络编写音乐的?

GitHub地址项目GitHub地址

第5位:Sonnet

Sonnet 是一个建立在 TensorFlow 之上的库,用于构建复杂的神经网络,由 DeepMind 团队发布。

扩展阅读:基于 TensorFlow 和 Sonnet,DeepMind 开源可微神经计算机实现包

GitHub地址项目GitHub地址

第6位:deeplearn.js

来自 Google Brain 团队 Nikhil Thorat 的网页端硬件加速机器学习库。一个用于机器智能的开源硬件加速 JavaScript 库。deeplearn.js 将高性能机器学习构建块带入网络,允许用户在浏览器中训练神经网络,或在推理模式下运行预训练模型。项目提供了两个API,即时执行模型和一个镜像 TensorFlow API 的延迟执行模型。deeplearn.js 最初由 Google Brain PAIR 团队开发,为浏览器构建功能强大的交互式机器学习工具,但它可用于从教育,模型理解到艺术项目等各种应用。

扩展阅读:谷歌开源 DeepLearn.js:可在网页上实现硬件加速的机器学习

GitHub地址项目GitHub地址

第7位:Fast Style Transfer

TensorFlow 快速风格转换工具,在几分之一秒内将着名的绘画作品添加到任何照片甚至视频当中。

GitHub地址项目GitHub地址

第8位:Pysc2

基于 Python 的星际争霸 II 机器学习环境,这是 DeepMind 和暴雪合作开发星际争霸 II 到强化学习研究的一个丰富环境,为强化学习代理提供了与星际争霸 II 进行交互的界面,获得观察结果并发送动作。

GitHub地址项目GitHub地址

第9位:AirSim

基于虚幻引擎的开源自动驾驶模拟器,可用于无人机,汽车等虚拟引擎上的模拟器。它是开源的,跨平台的,支持 PX4 等流行的飞行控制器硬件,用于物理和视觉逼真的模拟。它是作为一个虚幻插件开发的,可以简单地放入任何你想要的虚幻环境中。微软的目标,是开发 AirSim 作为人工智能研究的平台,以实验自主车辆的深度学习,计算机视觉和强化学习算法。为此,AirSim 还以平台独立的方式公开 API 来检索数据和控制车辆。

GitHub地址项目GitHub地址

第10位:Facets

来自 Google Brain 团队的机器学习数据集可视化工具,Facets 项目包含两个用于理解和分析机器学习数据集的可视化子项目:Facets Overview 和 Facets Dive。可视化被实现为 Polymer Web 组件,由 Typescript 代码支持,可以很容易地嵌入到 Jupyter Notebooks 或网页中。

扩展阅读:谷歌开源机器学习可视化工具 Facets:从全新角度观察数据

GitHub地址项目GitHub地址