开源 Python 爬虫网站秒搜所有豆瓣好书

程序员在提升自己的道路,大多还是会选择阅读编程书籍这一途径,但找到一本好书就没那么容易了。

通过查看各大销售网站的销量数据和评价,以及豆瓣评分和评价人数,可以帮助我们更快的挖掘出经典的计算机书籍,还有那些被人们忽视的好书。

为什么说它很好用呢?演示一遍你就知道了:

好书一下
好书一下

可以看出这网站的界面非常简洁,没有花里花哨的内容,只有干货,你可以直接通过关键字、分数、和评价人数这三个选项进行搜索,比如我们可以搜索关键字:编程;分数:9.0;评价人数:100 人以上

查找结果的显示方式有按照分数排序和人数排序两种,按照分数排序的截图如下:

分数排序
分数排序

按照评价人数排序的截图如下:

人数排序
人数排序

除了以上演示的操作,这个网站并实现了以下功能:

  • 可以爬下豆瓣读书标签下的所有图书
  • 按评分排名依次存储
  • 存储到 Excel 中,可方便大家筛选搜罗,比如筛选评价人数 >1000 的高分书籍;可依据不同的主题存储到 Excel 不同的 Sheet
  • 采用 User Agent 伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

也就是说你不仅可以在网站上搜索,还能通过下载各类目下的 Excel 书单文件,直接在 Excel 中搜索

Excel书单文件
Excel书单文件

效果截图如下:

效果截图
效果截图

GitHub地址项目 GitHub 地址

旷视发布最大物体检测数据集

在 4 月 16 日的智源学者计划启动暨联合实验室发布会上,旷视科技发布了通用物体检测数据集Objects365,包含 63 万张图像,远超 ImageNet、COCO 等数据集。另外,还开办了针对此数据集的 CVPR Workshop 竞赛。数据集包括人、衣物、居室、浴室、厨房、办公、电器、交通、食物、水果、蔬菜、动物、运动、乐器 14 个大类,每一类都有数十个小类。

局部渐进稀疏技术自动驾驶新数据集

NuScenes 最新研究发布了一个大型自动驾驶数据集,该数据集是首个包括 5 个雷达,1 个激光雷达,6 个摄像头,IMU 和 GPS 在内的完整传感器套件的数据集。 NuTonomy场景(NuScenes)比 KITTI 数据集多出 7 倍和 100 倍的图像,涵盖 23 个类别,包括不同类型的车辆,行人,移动设备及其他对象。

研究人员还发明了一种新的 3D 方法来整合各种物体检测的类别和任务,包括对物体大小,分类,方向,本地化,速度和属性的检测和估计。针对激光雷达和图像检测方法的数据集分析和基线测试证明,尽管仅基于激光雷达和仅基于图像的物体检测都能达到物体识别的要求,但仅激光雷达的网络性能更为优越。

NuScenes 能够加速自动驾驶方面的研究和技术,从而推进物体识别技术,并使相关技术更加实用化。我们希望研究人员鼓励对于 NuScenes 的进一步探索,以使其能够运用所有传感器数据并利用语义地图来获得更好的性能。因为每个传感器模态都提供用于训练 3D 对象检测的补充特征。

清华 + 美图开源大规模视频分析数据集

互联网上有大量的教学视频,可以帮助我们完成各种各样的挑战,然而,大多数现有的教学视频分析数据集在多样性和规模上都存在局限性,而实际应用程序更加多样化,这使得这些数据集显得匮乏,此外,组织利用这些数据集仍然存在巨大挑战。

为了解决以上问题,清华大学和美图开源了教程类行为视频数据集 COINCOmprehensive INstructional video analysis)。COIN 数据集采用分层结构组织,包含 11,827 个视频,包含与我们日常生活相关的 12 个领域(如车辆、小玩意等) 180 个任务的视频内容。这些视频均来自 YouTube。视频的平均长度为 2.36 分钟。每个视频都标有 3.91 个片段,每个片段平均持续 14.91 秒。总的来说,数据集包含 476 小时的视频,带有 46,354 个带注释的段。

COmprehensive INstructional video analysis
COmprehensive INstructional video analysis

为了构建具有高度多样性的大型基准,我们提出了一种组织数据集的层次结构,分别为领域层、任务层、步骤层。

  • 领域层:对于第一级 COIN,共分为 12 个领域:护理和护工,车辆,休闲,小机械,电器,家居用品,科学与工艺、植物与水果、零食与饮料、运动与家务。
  • 任务层:链接到领域层,精细到具体的目的。比如“更换灯泡”与“安装吊扇”的二级分类都归属“电器”领域下。
  • 步骤层:第三级是完成不同任务的一系列不同步骤,例如,“拆卸灯罩”、“取出旧灯泡”、“安装新灯泡”、“安装灯罩”等步骤与“更换灯泡”任务相关联。

GitHub地址项目 GitHub 地址

大规模中文自然语言处理语料

中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在 2019 年初这个时点上 —— 普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。笔者想要训练一个中文的词向量,在百度和 Github 上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。

为此,徐亮创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。包括 ——

  1. 维基百科(wiki2019zh),100万个结构良好的中文词条;
  2. 新闻语料(news2016zh),250万篇新闻,含关键词、描述;
  3. 百科问答(baike2018qa),150万个带问题类型的问答;
  4. 社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型;
  5. 翻译语料(translation2019zh),520万个中英文句子对;

GitHub地址项目 GitHub 地址

270 GB 阿里巴巴数据中心数据开放下载

  • 数据中心每个机器的运行情况如何?
  • 这些机器上运行着什么样的应用?
  • 这些应用有什么特点?

对于这些问题,除了少数资深从业者之外,普通学生和企业的研究者很难了解其中细节。

为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务;以及业务的资源需求有什么特点。如何使用这份数据集,完全取决于你的需要。

GitHub地址项目 GitHub 地址

中文 NLP 词库

最近,在 GitHub 上,有人收罗了一份资源,汇集了 40 个关于中文 NLP 词库,涵盖了各个方面。中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌 & 零件词库、时间抽取、连续英文切割、中文词向量大全、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

在应用这些语料库同时,你或者还需要 pyHanLPJieBa 等中文分词组件支持。

GitHub地址项目 GitHub 地址

Google 开源 Open Images V4 数据集

Open Images 是谷歌开源的一个大型数据集,包含大约 900 万张图像,这些图像用图像级别的标签和目标边界框进行了标注。最近,谷歌发布了该数据集的第四个版本 —— Open Images V4,图像数量增加到 920 万,其训练集包含 1,460 万个边界框,用于标识从属于 600 个目标类别的 174 万张图像中的目标,这使它成为了现有的含有目标位置标注的最大数据集。这些边界框大部分由专业的标注人员手工绘制,以确保准确性和一致性。数据集中的图像非常多样化,通常包含存在多个目标的复杂场景(平均每张图像 8.4 个)。此外,数据集用逾数千个类别的图像级标签进行标注。数据集被分成了训练集(9,011,219 张图像)、验证集(41,620 张图像)和测试集(125,436 张图像)三部分。

Google Open Images Dataset V4
Google Open Images Dataset V4

数据集下载地址

NLP 科研编程指南

最近 AllenNLPEMNLP 2018 上做了一个主题分享,名为「NLP 科研编程指南」(Writing Code for NLP Research)。该演讲从写原型和写模块两方面介绍了 NLP 研究该如何复制别人的代码、测试自己的代码块、记录及分享研究等,总之在研究者也要高效码代码的年代,这是一份浓缩的实践经验。

这份内容干货满满,仅仅只是看了 PPT 就知道是非常有意思的一次演讲了。PPT 共有 254 页之多,在「赤乐君」知乎专栏分享。深度学习与新一代人工智能科研人员可以直接下载 PPT 了解详细内容,其中每一页 PPT 都带有简要的备注,根据这些备注可以将所有 PPT 以及整场演讲串联起来。

平行语料库数据集

与大部分机器学习模型一样,有效的机器翻译系统需要大量的训练数据才能产生可读性强的结果。平行文本翻译语料库是两种语言之间的结构化翻译文本集。此类平行语料库对训练机器翻译算法至关重要。但从哪里可以获得这些外语数据集呢?

机器之心整理了一份完整的名单:《囊括欧亚非大陆多种语言的 25 个平行语料库数据集

Tencent AI Lab 开源大规模 NLP 数据集

10 月19 日,Tencent AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据集包含 800 多万中文词汇。Tencent AI Lab 表示,相比现有的公开数据,该数据在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

Tencent AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇,其中每个词对应一个 200 维的向量。相比现有的中文词向量数据,Tencent AI Lab 的中文词向量着重提升了以下 3 个方面:

  • 覆盖率(Coverage):该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如『不念僧面念佛面』、『冰火两重天』、『煮酒论英雄』、『皇帝菜』、『喀拉喀什河』等。
  • 新鲜度(Freshness):该数据包含一些最近一两年出现的新词,如『恋与制作人』、『三生三世十里桃花』、『打call”、『十动然拒』、『供给侧改革』、『因吹斯汀』等。
  • 准确性(Accuracy):由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系。
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases

DeepMind 开源图网络库

今年 6 月份,Deepmind 发表了一篇论文,将图与深度神经网络相结合,由此提出了一种新型图网络。由于图网络主要采用神经网络的方式对图进行操作,因此它又可以称为图神经网络。机器之心做了详细解读

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

目前图网络在监督学习、半监督学习和无监督学习等领域都有探索,因为它不仅能利用图来表示丰富的结构关系,同时还能利用神经网络强大的拟合能力。

一般图网络将图作为输入,并返回一张图以作为输入。其中输入的图有: edge- (E )、node- (V ) 和 global-level (u) 属性,输入也有相同的结构,只不过会使用更新后的属性。如下展示了输入图、对图实现的计算及输出图。论文地址

图网络库
图网络库

GitHub地址项目 GitHub 地址

Text-to-SQL 数据集:Spider

近期,耶鲁大学创建了一个新型大规模复杂跨域语义解析和 Text-to-SQL 数据集 Spider。研究者用多个当前最优模型进行实验,最好的模型在数据库分割设置下仅能达到 14.3% 的精确匹配准确率。Spider 数据集对未来研究是一个巨大挑战。

新千禧年开始后,每天生产的数据量呈指数级增长,它们大部分存储在关系数据库中。近年来,访问这些数据成为大多数大公司的兴趣,这些公司可以使用结构化查询语言(SQL)查询数据。随着手机的发展,更多个人数据也被存储。因此,更多来自不同背景的人尝试查询和使用自己的数据。尽管目前数据科学非常流行,但是大部分人不具备足够的知识来写 SQL、查询数据。此外,大部分人没有时间学习和了解 SQL。即使对于 SQL 专家,一次又一次地写类似的查询也是很单调的任务。因此,今天海量可用的数据无法有效访问。我们从哪里找到大量问题和 SQL 对标注数据?创建此类数据集非常耗时,因为标注人员必须理解数据库模式,问问题然后写出 SQL 答案,所有这些都需要特定的数据库知识。而让这件事变得更加困难的是:具备多个表的非私人数据库数量非常有限。为了解决该任务对大型高质量数据集的需求,我们创建了数据集 Spider,它包含 200 个具备多个表的数据库、10,181 个问题、5,693 个对应的复杂 SQL 查询。所有这些由 11 名耶鲁大学学生标注完成,共耗时 1,000 小时!

GitHub地址项目 GitHub 地址

TensorFlow 推出模型优化工具包,可将模型压缩75%

近日,TensorFlow 推出了一款新的模型优化工具包。利用该该工具包中的技术可以将模型压缩 75%,最大可将速度提升到原来的 3 倍。新手和熟练的开发者都能利用这套工具包中的技术来优化待部署和执行的机器学习模型。预计该工具包中的技术将有助于优化所有 TensorFlow 模型以进行部署,但它对于那些为内存紧张、功率和存储受限的设备提供模型的 TensorFlow Lite 开发人员来说帮助最大。

添加的第一项支持技术是对 TensorFlow Lite 转换工具的训练后量化(post-training quantization)。对于相关的机器学习模型,利用该技术可以将模型压缩到原来的 1/4,并将速度提升到原来的 3 倍。开发者可以通过量化模型减少能耗。这点对于在边缘设备中部署(不局限于手机)非常有用。

训练后量化技术是 TensorFlow Lite 转换工具的一部分。上手非常简单:创建 TensorFlow 模型之后,开发者可以简单地实现 TensorFlow Lite 转换工具中的「post_training_quantize」标记。假设这一保存的模型存储在 saved_model_dir 中,则可以生成量化的 tflite flatbuffer:

TensorFlow 提供了相关教程,深入解析如何做到这一点。未来的目标是将这种技术纳入通用的 TensorFlow 工具中,以便将其部署在目前没有 TensorFlow Lite 支持的平台上。好处在于 ——

  • 模型缩小到原来的 1/4
  • 主要由卷积层组成的模型执行速度提高了 10-50%。
  • 基于 RNN 的模型得到了 3 倍的加速
  • 由于减少了内存和计算需求,预计大多数模型将降低功耗。

AI 科研神器!Google 数据集搜索引擎

在当今世界,数据成了诸多学科领域的科学家和数据记者的命脉。网络上有成千上万的数据存储库,提供了数百万个数据集,世界各地的地方和国家政府也会公布他们的数据。为了能够轻松访问这些数据,Google 启动了 Dataset Search 项目,让科学家、数据记者、数据爱好者或其他人能够快速找到他们想要的数据,或者仅仅为了满足他们的求知欲。

Google Dataset Search
Google Dataset Search

数据集搜索使用户能够查找网上数以千计的存储区中存储的数据集,从而让这些数据集可供大众使用,让人人受益。

数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。

Google 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。Google 还相信,这个项目能够带来下列好处:

  • 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;
  • 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

Dataset Search 与 Google Scholar 的工作方式类似,可以让用户找到托管在任何位置的数据集,无论是发布者的网站、数字图书馆还是个人主页。Google 为数据提供者制定了一个指南,通过某种方式来描述他们的数据,这样,Google (和其他搜索引擎)可以更好地理解他们的数据。指南要求描述有关数据集的一些重要信息:数据集的创建者、发布时间、数据的收集方式、数据的使用条款等等。然后,Google 会收集并链接这些信息,分析可能存在的相同数据集的不同版本,并尝试找与描述或讨论数据集相关的资料。Google 所采用的方法是基于一种数据集描述开放标准(schema.org),数据发布者可以通过这种方式描述他们的数据集。数据集提供者可以采用这一通用标准,以便让更多的数据集成为这个强大生态系统的一部分。

Google 数据指南基于数据集的开放标准(schema.org),任何发布数据的人都可以通过这种标准方式来描述他们的数据集。以下是一个数据集定义的示例,完整数据集定义参见:http://schema.org/Dataset