大数据如何变革医疗保健行业

医疗保健行业在不断创造奇迹。无论是让盲人重见光明,帮助瘫痪的人恢复行动能力,还是进行基因重组以避免疾病,如今的医生正以新的方式拯救生命,改善人们的生活。这些戴着听诊器、穿着实验服的天才为整个社会带来福祉。

尽管已取得较大进步,医疗保健行业仍在努力试图解答一些颇为迫切的问题。如何帮助更多人活得更长寿、更健康?如何遏制飞涨的医疗保健费用?在数据泄露经常发生的时代,如何保护大量的个人信息和病历?

斯坦福大学的研究人员指出,答案在于对这个行业产生的大量数据进行处理,然后利用这些数据解决问题。 斯坦福大学的研究人员分析了大数据的需求、潜能和能力,并在题为《在医疗行业利用数据的力量》 (Har[……]

继续阅读

MIT 数据分析工具教程

这门课是 MIT 商业分析(BA)硕士项目的必修课,主要讲解了目前常用的一些数据分析工具,包括用 SQL 进行数据检索,用 Python,R 进行数据操作以及数据可视化和 git 和 Bash 的使用。

另外,MIT 老师还在自己的网站上给了这门课的文字教程和相关资料,非常适合大家学习。[……]

继续阅读

2020 年数据与分析领域的十大技术趋势

近日,Gartner 发布了数据与分析领域的十大技术趋势,为数据和分析领导者的新冠疫情(COVID-19)响应和恢复工作提供指导,并为疫情后的重启做好准备。数据和分析领导者如果希望在疫情后能持续创新,就需要不断提高数据处理和访问的速度,扩大分析规模,在前所未有的市场动荡中赢得成功。

数据和分析领导者应检验以尝试以下十大数据和分析趋势,加快新冠疫情后的恢复:

趋势1:更智能、更高速、更负责的 AI

到 2024 年底,75% 的企业机构将从人工智能(AI)试点转为AI运营,基于流数据的分析基础架构的数量将因此增加 5 倍。疫情当前,机器学习(ML)、优化和自然语言处理(NLP)等 AI[……]

继续阅读

《商务智能数据化运营管理》课程

本课程面向数据科学与大数据应用专业建设,定位一线运维人员岗位需求实现人才培养规划。基于商务智能数据可视化分析科研教学实践环境,通过直观的可视化操作界面,先进的商务智能数据可视化分析平台,并穿插海量真实行业数据分析案例,实现业务逻辑与商务思维应用在大数据分析领域的结合,精准匹配行业需求并提升职业竞争能力。不但对于计算机专业学生,即便是经管学院,数理学院,乃至文史类专业学生都能利用商务智能数据可视化分析平台,实现对数据的精确分析。[……]

继续阅读

The Car Connection 汽车数据集

关于汽车的项目很多,比如拍照识车、汽车比价等等,尽管这些项目本身难度不大,但是往往受制于数据集的质量,模型的效果不能很好的发挥。Nicolas Gervais 近日发布了一个关于汽车的数据集,数据相当全质量也相当高,为面向汽车工程类的大数据分析机器学习自动驾驶等方向的科研实验室项目,提供有效的支撑帮助。数据集的来源是 The Car Connection 网站,该网站是全球最大的汽车评测网站之一,致力于让汽车研究更加容易。

数据集包括 297,000 张图片,但是其中许多是汽车的内部图像,关于汽车的外观大概有 60,000 张照片。所有的文件都对汽车的 15 个参数进行了标注[……]

继续阅读

Python 知识卡片完整中文版

此前,跨象乘云™ 发布了一系列 Python 数据科学核心库的多份知识卡片,包括 ——

此前的知识卡片主要是英文原版,再次跨象乘云™ 发布《Python 知识卡片完整中文版》,覆盖:Bokeh,Jupyter Notebook,Keras,M[……]

继续阅读

GitHub 超 2.7 万星,最全 Python 入门算法

Github 上超过 2.7 万星标;最全算法及 Python 实现

该项目的算法包括排序:

搜索等经典算法,描述较为详细,对算法原理本身、应用场景以及实现过程的可视化等。

我们讨论机器学习的时候,其实很多时候都是在讨论算法。今天就向大家推荐一个好资源,用 Python 实现所有算法。该项目在 Github 上已经获得了超过 2.7 万星标,可以说非常受欢迎了。

该项目主要包括两方面内容:

  • 算法的基本原理讲解,
  • 以及 Python 代码实现,并给出了算法实现过程的动图,非常直观易懂。

项目地址:

GitHub地址项目 GitHub 地址

1. 冒泡算法

[……]

继续阅读

数据科学、神经网络、机器学习完全图解

这是一份非常详实的备忘单,涉及具体内容包括:

  1. 神经网络基础知识
  2. 神经网络图谱
  3. 机器学习基础知识
  4. 著名 Python 库 Scikit-Learn
  5. Scikit-Learn 算法
  6. 机器学习算法选择指南
  7. TensorFlow
  8. Python 基础
  9. PySpark 基础
  10. Numpy 基础
  11. Bokeh
  12. Keras
  13. Pandas
  14. 使用 Pandas 进行Data Wrangling
  15. 使用 dplyr 和 tidyr 进行 Data Wrangling
  16. SciPi
  17. MatPlotLib
  18. 使用 gg[……]

    继续阅读

埃森哲:大数据分析方法论

当前,越来越多的应用涉及到大数据,而这些大数据的属性,包括数量、速度、多样性等等都呈现出不断增长的复杂性,因此,大数据分析方法在这一领域也就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。全球最大的管理咨询公司「埃森哲」的此前发布了一份 PPT,讲述大数据分析方法,看看他们具体是如何进行的。

由于此报告发布已经有一段时间,里面所提及的各种数据分析工具未必是最好的选择。诸如:SAS / SPSS / MATLAB 均为严谨高效的数据统计商业应用型工具,好比数据库中的 ORACLE,然而, R 与 Python 显然更匹配基础科学人才培养目标。同时,数据科学与大数据在各细分领域并发[……]

继续阅读

PDF 数据表格提取神器

Excalibur,从古希腊语翻译过来就是『神剑』,它现在也是一种用于从 PDF 中提取表格数据的 Web 界面,使用 Python 3 编写,由 Camelot(Python 库) 提供支持,可以让任何人轻松地从 PDF 文件中提取表格数据。需要注意的是,Excalibur 仅适用于基于文本的 PDF 文件,扫描文件不在此列。

可移植文件格式

PDF 文件定义了将字符放置在相对于页面左下角的 x,y 坐标的指令。通过将某些字符放在比其他字符更近的地方来模拟单词。空格是通过将单词放在相对较远的地方来模拟的。最后,通过放置在电子表格中显示的字词来模拟表格,格式没有表格结构的内部表示。[……]

继续阅读