根据 PyPI(Python 软件包索引)统计,目前共有 126,921 个 Python 软件包,由于扩展 Python 在包括数据科学,机器学习方面在内的各领域的功能。而统计语言 R,经过长期的开源社区积累,也有相当数量的 CRAN 包以扩展其在特定领域的统计分析,数据科学,与机器学习能力。 Data Incubator 通过统计 Stack Overflow 以及在 Github / CRAN 上的下载评星量,统计出 Python 与 R,两种语言在数据科学与机器学习方面最为流行的软件包排行榜。对于新入门的科研人员,可以通过参考该排行榜,优先选择最为常用及重要的包开始数据科学与机器学习的科研工作。其中,Python 在数据科学方面(完整排行)排名前五的软件包分别是:
- numpy
- tensorflow
- pandas
- ipython
- scikit-learn
上述的 Python 数据科学扩展软件包此前已经过多次介绍:
R 语言在机器学习方面(完整排行)排名前五的软件包分别是:
- Caret – 分类与回归训练扩展软件包,包含了数据分割、预处理、功能选择、使用重采样进行模型调整、可变重要性估计等工具
- randomForest – 随机森林算法模型包
- e1071 – 支持向量机(SVM)算法模型包
- rpart – 分类与回归树算法模型包
- nnet – 单隐藏层神经网络算法模型包