- 个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
- 在线文档
本项目集成了 大数据知识库AI Skill助手,可以帮助您:
- 📚 知识复习:基于Flink、Spark、Hadoop、数据仓库、数据湖等知识库提供智能复习指导
- 💼 面试准备:提供大数据技术面试问题解答和面试技巧
- 🎯 学习路径:根据您的需求制定个性化的学习计划和路径
- ❓ 问题解答:解答大数据相关技术问题,提供详细解释和示例
在支持的AI平台上激活 bigdata-knowledge-coach Skill,然后您可以:
# 询问技术问题
"请帮我解释Flink的Checkpoint机制"
# 请求面试准备
"准备一下Spark Streaming的面试题"
# 学习规划
"我想学习数据仓库,请给出学习路径"
# 知识点复习
"帮我复习Hive的调优策略"
数据编排技术
配合官方文档和源码带从0到1学习hudi
- Paimon概览
- Paimon主键表
- Paimon非主键表
- Flink操作Paimon
- Spark操作Paimon
- Paimon Maintenance
- PaimonPrivileges
- Paimon实践
remote shuffle service
存储相关,包含rocksdb、Hbase、BookKeeper、Zookeeper等
广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。
计算引擎相关,主要包含Flink、Spark等
- 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等
- FlinkOverView
- CheckPoint机制
- TableSQLOverview
- DataStream API
- ProcessFunction API
- Data Source
- Table API
- Flink SQL
- Flink Hive
- Flink CEP
- Flink Function
- DataSource API
- FlinkCheckpoint源码分析
- FlinkChangelogCheckpoint
- FlinkSQL源码解析
- Flink内核源码分析
- Flink网络流控及反压
- TaskExecutor内存模型原理深入
- Flink窗口实现应用
- Flink运行环境源码解析
- FlinkTimerService机制分析
- StreamSource源解析
- Flink状态管理与检查点机制
- Flink内幕解析
主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。
数据采集框架,主要包含Binlog增量与SQL快照方式框架
消息中间件相关,主要包含大数据中使用比较多的Kafka和Pulsar
主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。
图库相关
工具集相关,包含计算平台、sql语法Tree等
数据笔记相关
欢迎为这个知识库贡献内容!
-
📝 提交Pull Request:修正错误、补充内容、更新文档
-
🐛 提交Issue:报告bug、提出改进建议、询问问题
-
💬 参与讨论:在Issue和Discussion中分享您的见解
-
🌟 Star支持:如果这个项目对您有帮助,请给我们一个Star!
- 实时计算:Flink、Spark Streaming
- 批处理:Spark、MapReduce
- 数据湖:Hudi、Iceberg、Paimon
- 数据仓库:Hive、Kudu
- 消息队列:Kafka、Pulsar
- 存储系统:HDFS、RocksDB、HBase
- OLAP引擎:ClickHouse、Druid、Impala
- 调度系统:DolphinScheduler、Azkaban
- 采集工具:Canal、Debezium、Flume
- 缓存系统:Alluxio
- 图数据库:Nebula Graph
- 工具集:Zeppelin、Calcite


