续上篇:
第21位:Face classification
基于 Keras CNN 模型与 OpenCV 的 fer2013 / imdb 数据集实时面部检测和表情/性别分类及训练模型。其中:
- IMDB性别分类测试准确率:96%。
- fer2013情感分类测试准确率:66%。
第22位:Speech to Text WaveNet
使用 DeepMind 的 WaveNet 和 TensorFlow 构成的端到端句级英语语音识别。WaveNet 是一种原始音频波形(raw audio waveforms)的深度生成模型。项目研究表明 WaveNet 可以生成模拟任何人类声音的语音,而且其听起来比已有最好的文本转语音(Text-to-Speech)系统更为自然,与人类表现之间的差距缩减了超过 50%。
扩展阅读:DeepMind WaveNet,将机器合成语音水平与人类差距缩小50%
第23位:StarGAN
用于多领域图像到图像转换的统一生成对抗网络。
第24位:MI-agents
Unity 发布的机器学习智能体。Unity 机器学习代理允许研究人员和开发人员使用 Unity 编辑器创建游戏和模拟,这些编辑器可以通过简单易用的 Python API 使用强化学习,神经元演化或其他机器学习方法对智能代理进行训练。同时,项目提供了一个极为有趣的平衡球游戏入门示例。
第25位:Deep Video Analytics
来自康奈尔大学的分布式可视化搜索和可视化数据分析平台。
第26位:OpenNMT
Torch 上的开源神经机器翻译。哈佛大学自然语言处理研究组(Harvard NLP)宣布开源了其研发的神经机器翻译系统 OpenNMT,该系统使用了 Torch 数学工具包。该研究组在官网上表示该系统已经达到生产可用的水平(industrial-strength)。
扩展阅读:哈佛大学 NLP 组开源神经机器翻译工具包 OpenNMT:已达到生产可用水平
第27位:Pix2PixHD
英伟达发布的基于 Pytorch 并且使用条件 GAN 合成和处理 2048×1024 分辨率图像的数学模型。它可以用于将语义标签贴图转换为逼真的图像,或者从人脸标签贴图合成肖像。
第28位:Horovod
Uber 工程团队发布的分布式 TensorFlow 训练框架,该平台构建在 Uber 数据和计算基础设施之上,并且由一系列开源系统和内置组件组成。
扩展阅读:Uber 推出机器学习平台 Michelangelo:全面处理工作流程推动 AI 民主化
第29位:AI-Blocks
强大而直观的所见即所得界面,可让任何人创建机器学习模型。AI-Blocs 的概念是提供简单的场景,通过可拖动并附有脚本的对象实现机器学习。该模型可以直接在编辑器上运行,也可以导出到在 Tensorflow 上运行的独立脚本。
第30位:Voice Conversion with Non-Parallel Data
基于 TensorFlow 的深度神经网络语音转换(语音风格转换)。