TRU科学

什么是数据科学?

数据科学结合了多个领域——包括统计学、科学方法、人工智能(AI)和数据分析——从数据中提取价值。数据科学专业人员结合一系列技能来分析从网络、智能手机、客户、传感器和其他来源收集的数据,以确定可操作的见解。

数据科学包括为分析准备数据,包括清理、聚合和操作数据以执行高级数据分析。分析应用程序和数据科学家可以审查结果,以发现模式,并使商业领袖得出明智的见解。

数据科学揭示趋势并产生洞察,企业可以利用这些洞察做出更好的决策,创造更多创新的产品和服务。也许最重要的是,它使机器学习(ML)模型能够从输入给它们的大量数据中学习,而不是主要依赖于业务分析人员看他们能从数据中发现什么。

数据科学专业人员做什么?

数据科学专业人士需要保持好奇心,以结果为导向,关注细节。他们还需要特殊的行业知识和沟通技巧,使他们能够向非技术人员解释高度技术性的结果。他们在统计学和线性代数方面拥有很强的定量背景知识,以及编程知识,重点关注数据仓库、挖掘和构建和分析算法的建模。

关键技术工具和技能包括:

  • R
  • Python
  • Apache Hadoop
  • MapReduce
  • Apache火花
  • NoSQL数据库
  • 云计算
  • Apache猪
  • iPython笔记本
  • GitHub

数据科学生命周期

后Bacc -应用数据科学生命周期
数据科学生命周期的五个阶段

这五个阶段包括捕获、维护、处理、分析和沟通。

  • 捕获(数据采集、数据录入、信号接收、数据提取);
  • 维护(数据仓库、数据清理、数据分期、数据处理、数据架构);
  • 过程(数据挖掘、聚类/分类、数据建模、数据汇总);
  • 分析(探索性/验证性,预测性分析,回归,文本挖掘,定性分析);
  • 沟通(数据报告、数据可视化、商业智能、决策)。