新一代人工智能顶会论文攻略

在人工智能领域,会议论文是证明研究人员学术水平的重要一环。是否存在一些「技巧」可以提高论文被大会接收的几率?人工智能是否可以帮助我们?近日,来自卡耐基梅隆大学(CMU)研究者们收集了上万篇 AI 顶级会议的接收/被拒论文,并使用机器学习工具进行分析,获得了一些有趣的结果。权威的科学会议利用同行评审来决定要将哪些论文列入其期刊或会议记录。虽然这一过程似乎对科学出版物至关重要,但其往往也饱受争议。意识到同行评审的重要影响,一些研究人员研究了这一过程中的各个方面,包括一致性、偏差、作者回应和一般评审质量 (Greaves 等,2006;Greaves 等,2011;De Silva and Vance, 2017)。例如,NIPS 2014 会议的组织者将 10% 的会议提交论文分配给两组不同的审查人员,以衡量同行评审过程的一致性,并观察到两个委员会对超过四分之一的论文接受/拒绝决定意见不一样 (Langford and Guzdial, 2015)。

尽管已经有了这些努力,但是关于同行评审的定量研究还是有限的,很大程度上是由于只有很少的人能够接触到一个学术活动的同行评审(例如期刊编辑和程序主席)。本文的目的是通过首次引入一个用于研究目的的同行评审公共数据集: PeerRead,来降低科学界研究同行评审的障碍。

同行评审是科学文献出版过程中的重要组成部分。在本研究中,我们提出了第一个可用于研究目的的科学文献同行评审公共数据集 ( PeerRead v1 ),该数据集为研究这一重要的现象提供了机会。该数据集由 1 万 4 千 700 份论文草稿,以及包括 ACL、NIPS 和 ICLR 在内的顶级学术活动对应的接受/拒稿决定组成。数据集还包括专家为论文子集撰写的 1 万零 700 份文本同行评审。我们描述了数据收集过程,并提供了在同行评审中观察到的有趣现象。我们在此基础上提出了两个新颖的 NLP 任务,并给出了简单的基线模型。在第一个任务中,我们展示了简单的模型可以预测一篇论文是否被接受,与大多数基线模型相比,误差减少了 21 %。在第二个任务中,我们预测了评审方面的数值分数,结果表明,对于诸如「原创性」和「影响」的高方差方面,简单模型可以优于平均基线。

GitHub地址项目 GitHub 地址

JAVA 8新特性(90学时)+ 认证强化

毫无疑问,Java 8发行版是自Java 5(发行于2004,已经过了相当一段时间了)以来最具革命性的版本。Java 8为Java语言、编译器、类库、开发工具与JVM(Java虚拟机)带来了大量新特性。面向已经具备Java课程体系的高校,我们将提供面向Java语言新一代版本Java 8的新特性升级课程,在本课程中,学生通过权威及标准化的教育资源将了解到55个关键的Java新特性,通过大量精彩的案例演示与教学快速掌握最新的开发技术,并保证对技术的先进性。包括Lambda表达式,日期/时间API,JavaScript引擎Nashorn,Parallel Stream,Java飞行记录器…等核心特性将被详细介绍并提供大量的动手实验操作,代码开发及编写练习。同时,本课程还包含:

强化指导单元。

数据库基础(90学时)

在当今以数据为推动力的经济中,计算机科学和业务课程如果没有数据库和数据管理方面的课程,就不能说是完善的。应了解计算机如何组织、使用和处理数据,这对于了解如何使用我们掌握的数据以及如何寻求创新方式以更好地管理和使用数据都至关重要。数据库出现由来已久,不过总会出现新的内容需要学习。《数据库基础》是第一门入门课程,本课程向学生介绍基本关系数据库概念。本课程向学生教授关系数据库术语以及数据建模概念,构建实体关系图 (ERD) 及映射 ERD 等知识。使用 Oracle SQL Developer Data Modeler 构建 ERD,使用结构化查询语言 (SQL) 与关系数据库进行交互并处理数据库中的数据。使用 Oracle Application Express 提供动手参与的实践活动。利用基于项目的学习技术,学生将创建和处理项目,这对他们提出了为企业或组织设计、实施和演示数据库解决方案的挑战。本课程通过一个学术数据库/学校信息数据库的建模与创建的综合案例,为项目贯穿整个课程的多个知识点。同时也包含了多个包括:电子图书馆,酒店,保险,零售,租赁等多个行业的业务分析。

数据库设计(90学时)

在本课程中,学生将学习分析复杂的业务方案并创建数据模型 - 组织的信息的概念化表示形式。学生 将实施其数据库设计:使用 SQL创建一个物理数据库。 在此期间会讲解基本的 SQL 语法以及构造有效 SQL 语句的规则。本课程最后是创建一个项目,让学生设计、实施和演示企业或组织的数据库解决方案。本课程最后是创建一个项目,让学生设计、实施和演示企业或组织的数据库解决方案。HealthOne 医疗数据库建模项目为一家专门为医疗行业开发数据库的小型数据库咨询公司,不久前签下了一份合同,为中型医疗保险公司开发数据库应用程序系统的数据模型,以跟踪记录医疗索赔,其中包括患者信息、提供方(医生)信息、患者就诊信息以及医生为患者所开的处方药。需要记录患者姓名、地址、电话、电子邮件等信息,以及每名患者的主治医生、患者保险标识号和保险公司名称。此外,还需记录每名医生的相关信息,例如:专业及其隶属医院、电话和地址等。对于医院本身,需要掌握具体位置和联系方式。同时,还需要在这一特定数据库中跟踪医护人员为每名患者所开的处方,以便确定索赔资格,其中包括所开药品的一些基本信息,从而确保不会与患者的其他处方相冲突。需要了解每种药品的名称、用途以及可能的副作用。最后,该数据库将用于跟踪趋势,并根据累积的数据进行推断预测建模。

数据库建模与编程(90学时)

在本课程中,学生将学习分析复杂的业务方案并创建数据模型 - 组织的信息的概念化表示形式。学生 将实施其数据库设计:使用SQL创建一个物理数据库。 在此期间会讲解基本的SQL语法以及构造有效SQL语句的规则。本课程结合全球快餐连锁行业,人力资源管理,流行音乐行业等项目案例,贯穿数据库设计与建模内容。最后通过OFlix在线租赁综合案例作为本课程的结业最终项目。

数据预处理与数据整理(32学时)

机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察与行动的循环,此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的80%。显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。

通常,数据整理会占去整个分析管道(流程)的60%到80%。

但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键。本课程重点让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于Web服务实现数据扩展处理等各项关键技术。

云计算及大数据引擎管理(60学时)

云计算已经成为现代企业信息系统架构的标准模型,无论采用亚马逊还是阿里云,其云计算基本架构都以开源OpenStack为模板。通过本课程,学生将了解“云计算”基本架构,IaaS,SaaS,PaaS及核心功能模块,同时了解如何在“云计算”平台上通过引入数据引擎服务实现大数据Hadoop集群的配置与管理。大数据即服务 —— BDaaS,旨在为用户提供简单部署在“云计算”架构之上的Hadoop集群的能力,并且部署数据处理框架,如:

  • Hadoop
  • Spark
  • Storm
  • Cloudera CDH
  • Hortonworks HDP
  • MapR

通过简单的配置,能够迅速的把大数据集群机构部署起来,支持集群的扩容和收缩。以Spark/Storm应用为代表的大数据分析,是最适合在云上运行的业务之一。

大数据基础与实战(90学时)

本课程是真正面向企业大数据业务的实践性课程,基于跨象乘云公司集成部署的大数据工程实践系统环境,旨在帮助学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的投资回报率。该课程旨在阐述大数据项目的五个阶段战略,使学生了解如何使用并充分利用大数据。这五个阶段包括:

  • 数据处理底层架构(阶段1)
  • 数据采集和存储(阶段2)
  • 数据访问和处理(阶段3)
  • 数据统一和分析(阶段4)
  • 数据安全/可视化/性能优化(阶段5)

每个阶段均包括Hadoop核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多嵌入大数据池中的价值。

下一代大数据处理引擎(120学时)

流数据是指由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送,规模较小(约几千字节)。流数据包括多种数据,例如客户使用移动或Web应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或仪器的遥测数据。此类数据需要按记录或根据滑动时间窗口按顺序进行递增式处理,可用于多种分析,包括关联、聚合、筛选和取样。借助此类分析得出的信息,公司得以深入了解其业务和客户活动的方方面面。本课程面向当前最为热门的流式数据处理与分析框架:

  • Spark
  • Storm
  • Flink

让学生在掌握大数据批处理框架Apache Hadoop的基础上,深入了解实时流式数据的采集,访问,分析流程,紧跟大数据行业技术发展步伐,进一步掌握企业应用的流处理框架Storm;当前最为流行的企业大数据混合框架Spark与Spark SQL,Spark Streaming,Spark MLlib,Spark GraphX,Spark R等完整的组件家族;以及被称为第四代大数据通用处理引擎的Flink。课程穿插多个流式数据,图数据,日志数据,物联网IoT数据的真实案例,使学生在完成本实战课程后真正了解相关技术框架的业务应用与价值体现场景。

基于可视化工作流的机器学习与分析预测(60学时)

了解并强化数据挖掘的基本概念,学习如何使用数据库内分析,实现预测分析功能。数据挖掘是图形化扩展工具,用于直接对数据库内数据进行业务分析。建立多种数据挖掘模型,通过将成熟的模型应用到新数据中,实现业务预测与分析洞察。通过SQL API自动对数据进行实时挖掘,无需数据迁移与复制,最大化实现数据安全。本课程通过描述基本的数据挖掘概念,是学生能准确描述预测分析的优势。理解数据挖掘的主要任务,描述数据挖掘业务流内的关键步骤。使用数据挖掘建立,改进,应用多种数据模型。通过项目实际训练,实现对各种业务需求类型的分析与洞察,包括:预测个体行为,价值预测,关联时间搜索。

Python数据分析(60学时)

Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言,是目前云计算OpenStack的标准开发语言。同时,Python拥有非常丰富的库,使其在数据分析领域也有广泛的应用。本课程涵括Python在大数据分析领域中的五大核心应用:

  • 数据统计;(NumPy/Pandas库)
  • 数据采集;(Scrapy Web爬虫采集)
  • 数据处理;(清理、转换、合并、重塑)
  • 数据分析;(数据聚合与时间序列)
  • 数据可视化;(Matplotlib库)

R语言统计分析与机器学习(90学时)

R为统计员,数据分析师,数据科学家提供数据统计与高级分析的语言及开发环境,同时采用复杂的图形模式体现分析结果。通过本课程,学生将利用R语言对数据库数据进行调整。学习如何通过R语言拓展数据库进行预测及分析的知识与技巧。了解如何在SQL与R中独立或者数据/任务并行模式中运行R语言脚本。同时,在大数据背景下通过丰富的动手操作实验,了解如何用R语言实现:

  • 获取数据(从各种数据源将数据导入程序);
  • 整理数据(编码缺失值、修复或删除错误数据)
  • 注释数据(以记住每段数据的含义)
  • 总结数据(通过描述性统计量了解数据的概况)
  • 数据可视化(一图胜千言)
  • 数据建模(解释数据间的关系,检验假设)
  • 整理结果(创建具有出版水平的表格和图形)

商务智能数据化运营管理(60学时)

本课程面向数据科学与大数据应用专业建设,定位一线运维人员岗位需求实现人才培养规划。通过直观的可视化操作界面,先进的商务智能数据可视化分析平台,并穿插海量真实行业数据分析案例,实现业务逻辑与商务思维应用在大数据分析领域的结合,精准匹配行业需求并提升职业竞争能力。不但对于计算机专业学生,即便是经管学院,数理学院,乃至文史类专业学生都能利用商务智能数据可视化分析平台,实现对数据的精确分析。