大数据培训
美国上市大数据培训机构

400-111-8989

热门课程

数据科学之大数据背后的科学

  • 发布:大数据培训
  • 来源:大数据新闻
  • 时间:2018-12-28 14:08

数据科学之大数据背后的科学“数据科学”与“大数据”是两个既有区别又有联系的术语,可以将数据科学理解为大数据时代一门新科学,即以揭示数据时代,尤其是大数据时代新的挑战、机会、思维和模式为研究目的,由大数据时代新出现的理论、方法、模型、技术、平台、工具、应用和最佳实践组成的一整套知识体系。

数据科学之大数据背后的科学

1. 数据科学的内涵及兴起

1974年,着名计算机科学家、图灵奖获得者Peter Naur在其着作《计算机方法的简明调研(Concise Survey of Computer Methods)》的前言中首次明确提出了数据科学(Data Science)的概念,“数据科学是一门基于数据处理的科学”,并提到了数据科学与数据学(Datalogy)的区别——前者是解决数据(问题)的科学(the science of dealing with data),而后者侧重于数据处理及其在教育领域中的应用(the science of data and of data processes and its place in education)。

Peter Naur首次明确提出数据科学的概念之后,数据科学研究经历了一段漫长的沉默期。直到2001年,当时在贝尔实验室工作的William S. Cleveland在学术期刊International Statistical Review上发表题为《数据科学——拓展统计学技术领域的行动计划(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的论文,主张数据科学是统计学的一个重要研究方向,数据科学再度受到统计学领域的关注。之后,2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美国计算机学会通讯(Communications of the ACM)》 上分别发表题为《计算——数据科学的愿景(Computing: A vision for data science)》和《数据科学与预测(Data science and prediction)》论文,从计算机科学与技术视角讨论数据科学的内涵,使数据科学纳入计算机科学与技术专业的研究范畴。然而,数据科学被更多人关注是因为后来发生了三个标志性事件:一是Patil DJ和 Davenport T H于2012年在哈佛商业评论上发表题为《数据科学家——21世纪最性感的职业(Data scientist: the sexiest job of the 21st century)》;二是2012年大数据思维首次应用于美国总统大选,成就奥巴马,击败罗姆尼,成功连任;三是美国白宫于2015年首次设立数据科学家的岗位,并聘请Patil DJ作为白宫第一任首席数据科学家。

Gartner的调研及其新技术成长曲线(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,数据科学的发展于2014年7月已经接近创新与膨胀期的末端,将在2~5年之内开始应用于生产高地期(plateau of Productivity)。同时,Gartner的另一项研究揭示了数据科学本身的成长曲线(Hype Cycle for Data Science),如图1所示。从图1可以看出,数据科学的各组成部分的成熟度不同:R的成熟度最高,已广泛应用于生产活动;其次是模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现可能要消失;语音分析、模型管理、自然语言问答等已经渡过了炒作期,正在走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等正处于高速发展之中。

2. 数据科学的学科地位

2010年,Drew Conway 提出了第一张揭示数据科学的学科地位的维恩图——《数据科学维恩图(The Data Science Venn Diagram)》(图2),首次明确探讨了数据科学的学科定位问题。在他看来,数据科学处于统计学、机器学习和领域知识的交叉之处。后来,其他学者在此基础上提出了诸多修正或改进版本,如图3是Jerry Overton于2016年给出的数据科学维恩图。但是,后续版本对数据科学的贡献和影响远不及Drew Convey首次提出的数据科学维恩图。

从Drew Conway的《数据科学维恩图》的中心部分可看出,数据科学位于统计学、机器学和某一领域知识的交叉之处,具备较为显着的交叉型学科的特点,即数据科学是一门以统计学、机器学习和领域知识为理论基础的新兴学科。同时,从该图的外围可看出,数据科学家需要具备数学与统计学知识、领域实战和黑客精神,说明数据科学不仅需要理论知识和实践经验,而且还涉及黑客精神,即数据科学具有三个基本要素:理论(数学与统计学)、实践(领域实务)和精神(黑客精神)。

3. 数据科学的知识体系

从知识体系看,数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发,如图4所示。

基础理论:主要包括数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。需要特别提醒的是,“基础理论”与“理论基础”是两个不同的概念。数据科学的“基础理论”在数据科学的研究边界之内,而其“理论基础”在数据科学的研究边界之外,是数据科学的理论依据和来源。

数据加工(Data Wrangling 或Data Munging):数据科学中关注的新问题之一。为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的精准度,数据科学项目需要对原始数据进行一定的加工处理工作——数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等。值得一提的是,与传统数据处理不同的是,数据科学中的数据加工更加强调的是数据处理中的增值过程,即如何将数据科学家的创造性设计、批判性思考和好奇性提问融入数据的加工活动之中。

数据计算:在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。比较有代表性的是Google三大云计算技术(GFS、BigTable和MapReduce)、Hadoop MapReduce、Spark和YARN。计算模式的变化意味着数据科学中所关注的数据计算的主要瓶颈、主要矛盾和思维模式发生了根本性变化。

数据管理:在完成“数据加工”和“数据计算”之后,还需要对数据进行管理与维护,以便进行(再次进行)“数据分析”以及数据的再利用和长久存储。在数据科学中,数据管理方法与技术也发生了重要变革——不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,如NoSQL、NewSQL技术和关系云等。

数据分析:数据科学中采用的数据分析方法具有较为明显的专业性,通常以开源工具为主,与传统数据分析有着较为显着的差异。目前,R语言和Python语言已成为数据科学家较为普遍应用的数据分析工具。

数据产品开发:“数据产品”在数据科学中具有特殊的含义——基于数据开发的产品的统称。数据产品开发是数据科学的主要研究使命之一,也是数据科学区别于其他科学的重要区别。与传统产品开发不同的是,数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。数据产品开发能力也是数据科学家的主要竞争力之源。因此,数据科学的学习目的之一是提升自己的数据产品开发能力。

4. 专业数据科学及专业中的数据科学

数据科学是一门与领域知识和行业实践高度交融的学科。从目前的研究现状看,数据科学可以分为两类:专业数据科学与专业中的数据科学。其中,“专业数据科学”是以独立学科的形式存在,与其他传统学科(如计算机科学、统计学、新闻学、社会学等)并列的一门新兴科学;“专业中的数据科学”是指依存于某一专业领域中的大数据研究,其特点是与所属专业的耦合度较高,难以直接移植到另一个专业领域,如数据新闻(Data Journalism)、材料数据科学(Materials Data Science)、大数据金融(Big Data Finance)、大数据社会、大数据伦理(Big Data Ethics)和大数据教育(Big Data Education)等。

专业数据科学与专业中的数据科学的联系如下:专业数据科学聚集了不同专业中的数据科学中的共性理念、理论、方法、术语与工具;相对于专业中的数据科学,专业数据科学更具有共性和可移植性,并为不同专业中的数据科学研究奠定了理论基础;专业中的数据科学代表的是不同专业中对数据科学的差异性认识和区别化应用。

来源:数据科学DataScience

感谢大家阅读由大数据新闻分享的“数据科学之大数据背后的科学”希望对大家有所帮助,了解更多专业课程培训内容请关注达内大数据培训机构官网。

免责声明:以上内容仅作为信息传播,文中部分信息来源于互联网,仅供阅读参考。

预约申请免费试听课

上一篇:大数据应用的十个领域
下一篇:大数据应用在AI教练和球探系统对体育赛场的影响?

大数据人工智能对我们生活有哪些改变?

2019年大数据就业前景如何?

大数据应用在AI教练和球探系统对体育赛场的影响?

2019年大数据分析市场新趋势

选择城市和中心
贵州省

广西省

海南省