数据湖架构浅谈
一、大数据技术和工具归类:
部分术语翻译:
Administration: 管理平台(此处应指大数据管理平台)
Data Security: 数据安全
Data Governance: 数据管控
Data Computing: 数据计算
Data Collection: 数据采集
Data Storage: 数据存储
BI/DATA Visualization: 商务智能可视化/数据可视化
二、数据湖的概念:
1.数据湖是一个大型数仓和处理环境。
2.数据湖是一种用于分析不同类型数据源的企业级数据管理平台。
a.首先将一组数据加载到数据湖(例如Hadoop),然后对加载到数据湖中的数据进行 业务分析和数据挖掘。
b.建立数据湖是进行数据相关业务的第一步。
三、数据湖的功能:
Data Ingestion(获取数据)
Data Storage(数据存储)
Data Auditing(数据审计)
Data Exploration(数据探索)
Data Lineage(数据继承)
Data Discovery(数据挖掘)
Data Governance(数据管理与处理)
Data Security(数据安全)
Data Quality(数据质量评估)
四、数据湖和Hadoop的区别:
- 数据湖提供一种在系统中存储不同模式和结构的数据集(通常是二进制对象或者文 件)的解决方案。
- Hadoop是数据湖的一种实现形式。
- 其他实现方式还有Azure Data Lake Store文件系统,其他云计算环境等。
五、数据湖的三大关键属性:
- 包含一切–一个数据湖可以存储所有数据,不论是永久的原始数据还是已经处理过的数据。
- 无限深入–一个数据湖可以让不同部门的用户根据自己的需求来优化、探索和丰富数据。
- 访问灵活–数据湖支持跨共享基础架构的多种数据访问模式:批处理,交互式,在线,搜索,内存和其他处理引擎。
六、传统企业数据仓库:
- 通过收集需求来构建设计方案;
- 通过事实和维度来构建数据模型;
- ETL:提取、转换、加载数据源中的数据到数仓;
- 使用BI工具构建报表。
七、范式转换:
1.EDW方式(写范式):
i.结构化→提取→分析
ii.单片
iii.结构化的
2.EDL方式(读范式):
i.提取→分析→结构化
ii.分布式
iii.配套工具齐全
iv.数据结构多样化
八、为什么选择EDL,而不是EDW?
1.EDW(Enterprise Data Warehouse)作为商业智能和数据挖掘的基础,拥有以下不足:
- 与时间不同步
- 可预测范围和能力有限
- 成本高昂
- 无法处理复杂数据
2.EDL优势: - 低成本存储海量数据
- 具有高速数据的不同数据源
- 超强的数据处理能力
- 数据管控和整合
- 阅读模式-在数据不受结构限制时洞悉其本质。
九、数据湖的层次
- 数据生命周期管理(ILM)
- 元数据:数据定义、数据继承
- 数据安全
十、数据湖的分层:
- Intake Tier(摄入层):数据获取,工具:WebHDFS、Kafka、Flume、Sqoop、Flink等;
- Data Management Tier(数据管理层):丰富和发布数据,工具:Hive、Spark、Flink等;
- Consumption Tier(消费层):应用处理后的数据,工具:NoSQL (MongoDB, Casandra, etc.)、Tableau、D3.js