这门课是 MIT 商业分析(BA)硕士项目的必修课,主要讲解了目前常用的一些数据分析工具,包括用 SQL 进行数据检索,用 Python,R 进行数据操作以及数据可视化和 git 和 Bash 的使用。
另外,MIT 老师还在自己的网站上给了这门课的文字教程和相关资料,非常适合大家学习。[……]
Jupyter 也能做可视化 Debug 了,Jupyter 团队发布第一个 Debug 插件与内核。虽然这只是第一版,但目前已经可以设置常见的断点 Debug,查看各种变量、执行模块等信息。
Python 代码编辑器怎么选?PyCharm、VS Code、Jupyter Notebook 都各有特色,Jupyter 适合做数据分析这些需要可视化的操作,PyCharm 更适合做完整的 Python 项目。然而,因为交互式操作,很少会有开发者想到用 Jupyter 做 Debug。
尽管很多读者可能认为 Jupyter 用来做展示和小型试验就足够了,Debug 并没有太大的需[……]
此前,跨象乘云 发布了《Python 知识卡片:Pandas》。Pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 NumPy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。学习 Pandas 最好的方法就是看 Pandas 官方教程,日前,国内学习小组发布了 Pandas 官方教程的中文版,包括:《十分钟搞定 pandas》,《Pandas 秘籍》,《学习 Pandas》。
《Pandas 中文官方教程》PDF 下载。[……]
用 NumPy 手写所有主流 ML 模型,普林斯顿博士后 David Bourgin 最近开源了一个非常剽悍的项目。超过 3 万行代码、30 多个模型,这也许能打造「最强」的机器学习基石。NumPy 作为 Python 生态中最受欢迎的科学计算包,很多读者已经非常熟悉它了。它为 Python 提供高效率的多维数组计算,并提供了一系列高等数学函数,我们可以快速搭建模型的整个计算流程。
尽管目前使用 写模型已经不是主流,但这种方式依然不失为是理解底层架构和深度学习原理的好方法。最近,来自普林斯顿的一位博士后将 NumPy 实现的所有机器学习模型全部开源,并提供了相应的论文和一些实现的测试效果[……]
如果你想了解一门既实用又简单的语言,作为你程序人生的第一步,那么,Python 无疑是最适合你的。数据科学家和人工智能从业者们尤其喜欢 Python,因为它有丰富的、易于理解的语法和广泛的开源软件。然而,目前大部分的所谓入门教程,实际上对于真正零基础的人来说还是具有很高的门槛,同时,几百页的书和动不动上百个小时的学习视频对有的人来说,无疑是劝退。
微软意识到了这一点,也充分理解大多数人对于学习的耐心,于是就开发了一门 Python 的入门课程《Python for Beginners》(国内镜像),基于原生 VS Code,每节课只有 5-10 分钟,可以被认为是真正的入门及课程了。[……]
『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。
新冠肺炎已在全球范围内爆发。为了解全球疫情分布情况,日前,一位名叫 Michael Freeborn 的医生 / 程序员,利用 Python 的图形库 Plotly,制作了两种疫情的等值线地图(Choropleth Chart)和 GEO 分布散点图(”Scatter-Geo” Chart)。前者显示了一个国家 / 地区的疫情扩散情况:该国家 / 地区的在地图[……]
此前,跨象乘云 发布了《NumPy 教程:基础知识》与《Python 知识卡片:NumPy》两份教程。近日,NumPy 官方正式推出了 NumPy 中文版网站,涵盖 NumPy 的一切。在 Github 上一度蝉联最流行的机器学习和数据科学包 NumPy,已经有了非常之系统的中文文档。现在,如果有什么和 NumPy 的问题,只需要浏览这份官方中文文档就足够了。它足够的系统、全面且亲民。NumPy 是使用 Python 进行科学计算的基础软件包,是 Python 生态系统中数据分析、机器学习、科学计算的主力军,极大简化了向量与矩阵的操作处理。除了计算外,它还包括了:
此前,跨象乘云™ 曾介绍了基于 scikit-learn 的机器学习算法工程导图,并介绍了在选取合适的机器学习算法前,都需要完成的必要数据科学流程。再强调一遍:掌握机器学习算法的价值,不单纯研究算法背后的数学原理,而是熟练理解各种机器学习算法应用的业务场景,搞清楚机器学习算法究竟能解决什么实际的业务问题。毕竟大多数企业希望聘请的是能提升业务的工程师,而不是科研数学家。因此,我们今天进一步介绍几种常用的机器学习应用场景:
这可能是机器学习中最简单的算法。例如,当你想要计算一些连续值,而不是将输出分类时,可以使用回归算法。因此,当你需要预测一个正在运行的过程未来的值时,你可以使用回归[……]