《数据采集与网络爬虫》课程

网络上的数据量越来越大,单靠浏览网页获取静态数据越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本课程是专业核心课程,面向数据运营经理职位,采用简洁强大的 Python 语言,全面介绍网络数据采集技术,让学生从不同形式的网络资源中自由地获取数据。同时,本课程是实战性极高的课程,基于多位网络数据采集专家自身工作的宝贵经验汇编而成。特别在国内开放数据环境尚未成熟前,通过汲取前人宝贵的工作经验,学生将以最短的学习路径,了解如何使用 Python 脚本和网络 API 一次性采集并处理成千上万个网页上的数据。本课程不仅介绍了网络数据采集的基本原理,还提供了详细的代码示例与校内本地示例网站(网络条件不满足)让学生动手进行数据采集。最终实现具备基于网络爬虫,爬取:豆瓣,百度,知乎,去哪儿,淘宝,微博,小猪,58同城,JD京东,“腾讯”新闻等国内数据产生及聚集网站数据的能力。