编程与统计学入门数据科学项目

教师用来进行教学使用,帮助学生有机会使用与其课程相关的数据集,并指导学生进行数据分析以及帮助理解统计和计算机原理。

语音和音韵学概论

这个模块由两个实验组成,实验所用到的数据都是学生自己收集的,并且在这个模块中,学生独立分析数据并编码。在第一个实验室里,学生们研究声音开始以及结束的时间,以及母语口语和身高之间的相关性。在第二个实验中,学生分析元音发音,并将研究个体相互比较,从而揭示单个元数据对特征预测能力的影响。该模块适用于没有编码或统计经验的学生。

邻里映射

本模块让学生分析并可视化整个东湾人口普查区的社会经济和人口变化情况。学生们到社区进行定性观察,然后与人口普查数据进行比较。把一些的观察结果组合成一幅地图。该模块适用于没有编码或统计经验的学生。

宏观经济学

这个模块包含一些宏观经济学问题集。 第一个 notebook 帮助学生使用 Latex 公式以及教他们如何插图。 第一个 notebook 的建模部分可视化了索洛增长模型。该模块还使用自动评分功能可以及时反馈学生提交的作业。同样,该模块也适用于没有编码或统计经验的学生。

唐人街与排斥文化

使用 20 世纪 – 21 世纪的人口统计数据,让学生分析一个特定的唐人街随着时间的推移是如何变化的。在实验过程中,学生可以使用一些简单的文本分析方法做相关研究。

隐性偏见和社会结果

本模块向学生介绍相关和回归分析。学生从一个关于健康结果的数据集和一组关于内隐偏见的数据集中挑选出整个美国的县级数据集。然后,他们将这两个数据集合并,并计算相关性和进行回归预测,从而确定偏见与健康结果之间是否存在相关性。

道德基础理论

这些模块将政治演讲中的词汇使用与道德基础理论联系起来。这些数据的统计推断和可视化帮助学生寻找保守派和自由派总统候选人之间的修辞差异。然后,学生们将数据驱动的方法作为修辞工具进行研究和批判。

苏美尔文本分析

本模块使用一个有趣的数据集,即苏美尔文学电子文本语料库(ETCSL)。这些文本是从六千年前的资料中翻译出来的。在本模块中使用的技术在文本分析中不太常见,如k均值、分层聚类和多维缩放。

数据,预测和法律

利用 2016 年美国总统竞选演讲的数据,学生从语音文本中挖掘特征,可视化这些特征,并用主成分分析提取特征。该模块最后给出了一个三维特征图的例子,此模块需要学生有一些统计学知识。