近日,James Le 在《FIFA World Cup 2018: A Data-Driven Approach to Ideal Team Line-Ups》FIFA 2018 游戏中的 17,000 名球员数据(每一位球员拥有超过 70 项参数),并且分析了世界杯传统强队中最强的阵容,跨象乘云™ 同步发布,热力接棒世界杯。
项目 GitHub 地址[……]
近日,James Le 在《FIFA World Cup 2018: A Data-Driven Approach to Ideal Team Line-Ups》FIFA 2018 游戏中的 17,000 名球员数据(每一位球员拥有超过 70 项参数),并且分析了世界杯传统强队中最强的阵容,跨象乘云™ 同步发布,热力接棒世界杯。
项目 GitHub 地址[……]
机器学习越来越多地从人工设计模型转向使用 H20、TPOT 和 auto-sklearn 等工具自动优化的工具。这些库以及随机搜索(参见《Random Search for Hyper-Parameter Optimization》)等方法旨在通过寻找匹配数据集的最优模型来简化模型选择和机器学习调优过程,而几乎不需要任何人工干预。然而,特征工程作为机器学习流程中可能最有价值的一个方面,几乎完全是人工的。
特征工程也被称为特征构造,是从现有数据中构造新的特征从而训练机器学习模型的过程。这一步可能比实际上使用的模型更重要,因为一个机器学习算法只能从我们给定的数据中学习,所以构造一个和任务相关[……]
项目主要分析绝地求生 72 万场比赛的数据,并结合数据给出吃鸡攻略,用数据吃鸡!
项目 GitHub 地址[……]
乔治亚理工大学 Jacob Eisenstein 教授开放了自然语言处理领域的最新教材《Natural Language Processing》,该教材 2018 年 6 月第一版的 PDF 已经在 GitHub 上开放下载。这本书的内容主要分为四大章节,即 NLP 中监督与无监等学习问题、序列与解析树等自然语言的建模方式、语篇语义的理解,以及后这些技术最在信息抽取、机器翻译和文本生成等具体任务中的应用。
Eisenstein 将这一本非常完善的教材称之为「Notes」,它是在乔治亚理工大学学习自然语言处理相关领域所需要了解的基础。例如在介绍自然语言处理理论与方法的课程 CS4650/7[……]
近日,UC Berkeley 发布了迄今为止规模最大、最多样化的开放驾驶视频数据集 —— BDD100K。该数据集共包含 10 万个视频,BAIR 研究者在视频上采样关键帧,并为这些关键帧提供注释。此外,BAIR 还将在 CVPR 2018 自动驾驶 Workshop 上基于其数据举办三项挑战赛。
自动驾驶将改变每个社区的生活。然而,最近的事件表明,在自动驾驶系统部署到现实世界中后,人造感知系统如何避免错误(甚至看似明显的错误)还不得而知。BAIR 的计算机视觉研究者有兴趣探索自动驾驶感知算法的前沿,以使其更加安全。为了设计和测试潜在的算法,研究者想利用真实驾驶平台收集数据中的所有信息。[……]
Spark 和 Mesos 的核心作者兼 Databrick 首席技术专家 Matei Zaharia 宣布推出开源机器学习平台 MLflow,这是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。Matei 表示,研究工作主要围绕着 ——
如何为开发者提供类似谷歌 TFX、Facebook FBLearner Flow 等平台类似的好处,但是要以开放的方式——不仅在开源的意义上开放,而且是可以使用任何工具和算法的意义上开放
的想法展开。
每个做过机器学习开发的人都知道机器学习的复杂性,除了软件[……]
此前,跨象乘云™ 曾经介绍过多款包括:神经网络,LSTM 网络,以及 CapsNet 胶囊网络的数据可视化工具。由于深度神经网络的设计和训练非常之难,通常涉及大量的调整、修改网络结构和尝试各种优化算法和超参数。从理论角度看,深度神经网络架构的数学基础仍然不够完善,相关技术通常是以经验性的成果作为基础。
所幸的是,数据可视化与生俱来的视觉特性可以弥补上述的部分缺陷,并描绘出更高层次的图像,在深度神经网络训练过程中助研究人员一臂之力。例如,在模型训练过程中,如果可以实时地绘制出梯度数据分布,就可以快速检测并纠正消失梯度或爆炸梯度现象。
另外,对词嵌入(word embedding)向量[……]