大数据知识库 (BigData Knowledge Repository)

概述

个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
在线文档

🤖 AI知识库助手

本项目集成了 大数据知识库AI Skill助手，可以帮助您：

📚 知识复习：基于Flink、Spark、Hadoop、数据仓库、数据湖等知识库提供智能复习指导
💼 面试准备：提供大数据技术面试问题解答和面试技巧
🎯 学习路径：根据您的需求制定个性化的学习计划和路径
❓ 问题解答：解答大数据相关技术问题，提供详细解释和示例

使用方法

在支持的AI平台上激活 bigdata-knowledge-coach Skill，然后您可以：

# 询问技术问题
"请帮我解释Flink的Checkpoint机制"

# 请求面试准备
"准备一下Spark Streaming的面试题"

# 学习规划
"我想学习数据仓库，请给出学习路径"

# 知识点复习
"帮我复习Hive的调优策略"

RoadMap

基础能力

JVM

Java

并发编程

JDK源码

待补充

算法

算法题解

BigData

cache

数据编排技术

alluxio

datalake

hudi

快速开始

doc with source

配合官方文档和源码带从0到1学习hudi

article

Paimin

iceberg

rss

remote shuffle service

celeborn

celeborn概述

store

存储相关，包含rocksdb、Hbase、BookKeeper、Zookeeper等

rocksDB

Bookkeeper

HBase

Zookeeper

Hadoop

广义上的Hadoop生态圈的学习笔记，主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。

HDFS

MapReduce

Yarn

Yarn快速入门

生产配置

Engine

计算引擎相关，主要包含Flink、Spark等

Flink

主要包含对Flink文档阅读的总结和相关Flink源码的阅读，以及Flink新特性记录等等

Core

SourceCode

zoology

Flink CDC Connector

FlinkCdcOverview

devops

Flink On K8s

Flink SQL Tools

Flink SQL Tools

Book

Flink内核原理与实现

Feature

Practice

Connector

自定义Table Connector

monitor

搭建Flink任务指标监控系统

Spark

主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。

Spark Core

Spark SQL

Spark Practice

Spark生产实践

Spark Streaming

Native SQL Engine

Spark Native SQL Engine概览

源码解析

Collect

数据采集框架，主要包含Binlog增量与SQL快照方式框架

Canal

CanalOverView

Debezium

Flume

Sqoop

MQ

消息中间件相关，主要包含大数据中使用比较多的Kafka和Pulsar

Kafka

Pulsar

schedule

Azkaban

Azkaban生产实践

DolphinScheduler

DolphinScheduler快速开始

olap

主要核心包含Kudu、Impala相关Olap引擎，生产实践及论文记录等。

Hive

Presto

presto概述

clickhouse

Druid

Druid概述

Kylin

Kylin概述

Kudu

Flink

Flink Olap

paper

Kudu论文阅读

Impala

graph

图库相关

nebula graph

tools

工具集相关，包含计算平台、sql语法Tree等

zeppelin

zeppelin

SQL语法树

calcite

ApacheCalciteOverView

数据仓库建设

理论

数据中台设计

方案实践

读书笔记

数据中台读书笔记

算法策略

特征工程

books

数据笔记相关

DDIA读书笔记

数据系统基础

devops

maven

服务监控

Prometheus

mac

iterm2

🤝 贡献方式

欢迎为这个知识库贡献内容！

📝 提交Pull Request：修正错误、补充内容、更新文档
🐛 提交Issue：报告bug、提出改进建议、询问问题
💬 参与讨论：在Issue和Discussion中分享您的见解
🌟 Star支持：如果这个项目对您有帮助，请给我们一个Star！
贡献者指南
代码规范
安全政策

📚 技术分享

技术栈覆盖

实时计算：Flink、Spark Streaming
批处理：Spark、MapReduce
数据湖：Hudi、Iceberg、Paimon
数据仓库：Hive、Kudu
消息队列：Kafka、Pulsar
存储系统：HDFS、RocksDB、HBase
OLAP引擎：ClickHouse、Druid、Impala
调度系统：DolphinScheduler、Azkaban
采集工具：Canal、Debezium、Flume
缓存系统：Alluxio
图数据库：Nebula Graph
工具集：Zeppelin、Calcite

Name		Name	Last commit message	Last commit date
Latest commit History 1,098 Commits
.agents/skills		.agents/skills
.claude/skills		.claude/skills
.github		.github
.lingma		.lingma
.vscode		.vscode
base		base
bigdata		bigdata
books/ddia		books/ddia
datawarehouse		datawarehouse
devops		devops
img		img
mac		mac
roadmap		roadmap
servicemonitor		servicemonitor
strategy		strategy
.DS_Store		.DS_Store
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
SECURITY.md		SECURITY.md
skills-lock.json		skills-lock.json

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

大数据知识库 (BigData Knowledge Repository)

概述

🤖 AI知识库助手

使用方法

RoadMap

基础能力

数据结构

分布式理论

计算机理论

Scala

JVM

Java

并发编程

JDK源码

待补充

算法

BigData

cache

alluxio

datalake

hudi

快速开始

doc with source

article

Paimin

iceberg

rss

celeborn

store

rocksDB

Bookkeeper

HBase

Zookeeper

Hadoop

HDFS

MapReduce

Yarn

生产配置

Engine

Flink

Core

SourceCode

zoology

Flink CDC Connector

devops

Flink On K8s

Flink SQL Tools

Book

Flink内核原理与实现

Feature

Practice

Connector

monitor

Spark

Spark Core

Spark SQL

Spark Practice

Spark Streaming

Native SQL Engine

源码解析

Collect

Canal

Debezium

Flume

Sqoop

MQ

Kafka

Pulsar

schedule

Azkaban

DolphinScheduler

olap

Hive

Presto

clickhouse