TRU科学
科学的菜单
什么是数据科学?
数据科学结合了多个领域——包括统计学、科学方法、人工智能(AI)和数据分析——从数据中提取价值。数据科学专业人员结合一系列技能来分析从网络、智能手机、客户、传感器和其他来源收集的数据,以确定可操作的见解。
数据科学包括为分析准备数据,包括清理、聚合和操作数据以执行高级数据分析。分析应用程序和数据科学家可以审查结果,以发现模式,并使商业领袖得出明智的见解。
数据科学揭示趋势并产生洞察,企业可以利用这些洞察做出更好的决策,创造更多创新的产品和服务。也许最重要的是,它使机器学习(ML)模型能够从输入给它们的大量数据中学习,而不是主要依赖于业务分析人员看他们能从数据中发现什么。
数据科学专业人员做什么?
数据科学专业人士需要保持好奇心,以结果为导向,关注细节。他们还需要特殊的行业知识和沟通技巧,使他们能够向非技术人员解释高度技术性的结果。他们在统计学和线性代数方面拥有很强的定量背景知识,以及编程知识,重点关注数据仓库、挖掘和构建和分析算法的建模。
关键技术工具和技能包括:
- R
- Python
- Apache Hadoop
- MapReduce
- Apache火花
- NoSQL数据库
- 云计算
- Apache猪
- 表
- iPython笔记本
- GitHub
数据科学生命周期
![后Bacc -应用数据科学生命周期](http://www.wflynnlaw.com/__shared/assets/Post_Bacc_PB-ADS_Data_Science_Life_Cycle55145.png)
数据科学生命周期的五个阶段
这五个阶段包括捕获、维护、处理、分析和沟通。
- 捕获(数据采集、数据录入、信号接收、数据提取);
- 维护(数据仓库、数据清理、数据分期、数据处理、数据架构);
- 过程(数据挖掘、聚类/分类、数据建模、数据汇总);
- 分析(探索性/验证性,预测性分析,回归,文本挖掘,定性分析);
- 沟通(数据报告、数据可视化、商业智能、决策)。