AI智能
改变未来

数据湖架构浅谈


数据湖架构浅谈

一、大数据技术和工具归类:


部分术语翻译:
Administration: 管理平台(此处应指大数据管理平台)
Data Security: 数据安全
Data Governance: 数据管控
Data Computing: 数据计算
Data Collection: 数据采集
Data Storage: 数据存储
BI/DATA Visualization: 商务智能可视化/数据可视化

二、数据湖的概念:

1.数据湖是一个大型数仓和处理环境。
2.数据湖是一种用于分析不同类型数据源的企业级数据管理平台。
a.首先将一组数据加载到数据湖(例如Hadoop),然后对加载到数据湖中的数据进行 业务分析和数据挖掘。
b.建立数据湖是进行数据相关业务的第一步。

三、数据湖的功能:

Data Ingestion(获取数据)
Data Storage(数据存储)
Data Auditing(数据审计)
Data Exploration(数据探索)
Data Lineage(数据继承)
Data Discovery(数据挖掘)
Data Governance(数据管理与处理)
Data Security(数据安全)
Data Quality(数据质量评估)

四、数据湖和Hadoop的区别:

  • 数据湖提供一种在系统中存储不同模式和结构的数据集(通常是二进制对象或者文 件)的解决方案。
  • Hadoop是数据湖的一种实现形式。
  • 其他实现方式还有Azure Data Lake Store文件系统,其他云计算环境等。

五、数据湖的三大关键属性:

  • 包含一切–一个数据湖可以存储所有数据,不论是永久的原始数据还是已经处理过的数据。
  • 无限深入–一个数据湖可以让不同部门的用户根据自己的需求来优化、探索和丰富数据。
  • 访问灵活–数据湖支持跨共享基础架构的多种数据访问模式:批处理,交互式,在线,搜索,内存和其他处理引擎。

六、传统企业数据仓库:

  1. 通过收集需求来构建设计方案;
  2. 通过事实和维度来构建数据模型;
  3. ETL:提取、转换、加载数据源中的数据到数仓;
  4. 使用BI工具构建报表。

七、范式转换:

1.EDW方式(写范式):
i.结构化→提取→分析
ii.单片
iii.结构化的

2.EDL方式(读范式):
i.提取→分析→结构化
ii.分布式
iii.配套工具齐全
iv.数据结构多样化

八、为什么选择EDL,而不是EDW?

1.EDW(Enterprise Data Warehouse)作为商业智能和数据挖掘的基础,拥有以下不足:

  • 与时间不同步
  • 可预测范围和能力有限
  • 成本高昂
  • 无法处理复杂数据
    2.EDL优势:
  • 低成本存储海量数据
  • 具有高速数据的不同数据源
  • 超强的数据处理能力
  • 数据管控和整合
  • 阅读模式-在数据不受结构限制时洞悉其本质。

九、数据湖的层次

  • 数据生命周期管理(ILM)
  • 元数据:数据定义、数据继承
  • 数据安全

十、数据湖的分层:

  • Intake Tier(摄入层):数据获取,工具:WebHDFS、Kafka、Flume、Sqoop、Flink等;
  • Data Management Tier(数据管理层):丰富和发布数据,工具:Hive、Spark、Flink等;
  • Consumption Tier(消费层):应用处理后的数据,工具:NoSQL (MongoDB, Casandra, etc.)、Tableau、D3.js
赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 数据湖架构浅谈