教学工具:迷你电影数据库

通常学习了 Python 入门课程之后,初学者会开始思考如何编写一个很酷的 Python 程序,来演示一些高级的语言能力,比如使用网页抓取或数据库操作。在《手把手搭建迷你 IMDB 数据库》教程(中文翻译)中,Tirthajyoti Sarkar 向我们展示了如何使用简单的 Python 库和其内置功能来获取网上的电影信息,并将它们存储在本地的 SQLite 数据库中,之后还可以查询电影数据并进行数据分析。我们可以将它看作是一个构建自己迷你 IMDB 数据库的项目!

这种类型的数据工程任务 —— 从网上收集数据并建立与数据库的关联;通常是数据分析项目的第一步。在做任何预测建模之前,你都需要掌握这一步骤。这一步的数据通常是凌乱且非结构化的,也就是说,没有能够帮你一步到位完成这些工作的方案或代码库。因此,你必须从网页上提取数据,检查它的结构,并构建你的代码,以便成功地抓取它。具体来说,这个演示程序将展示以下功能的用法:

通过在本地部署电影数据库,学生能更为贴近真实的业务需求的《数据库设计》逻辑,并基于该数据库实现高级机器学习,部署推荐系统,数据分析,算法模型及算子优化实践,并进一步完成端到端的网络大数据分析项目流程。

GitHub地址项目GitHub地址