前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun
前言
之前很少用MOR表,现在来学习总结一下。首先总结一下 compaction 遇到的问题。
版本
- Flink 1.15.4
- Hudi 0.13.0
表类型
COW 和 MOR
- COW:COW COPY_ON_WRITE 写时复制,写性能相比于MOR表差一点,因为每次写数据都会合并文件,但是能及时读取到最新的表数据。数据文件只有 parquet
- MOR:MERGE_ON_READ 读时合并,写性能相比于COW会快,因为写数据时只追加不合并(.log文件),只有compaction才会合并文件,将.log文件合并为 paruqet文件。有两种表类型 ro、rt,ro表只会读parquet文件,rt 表会将paruqet文件和.log文件合并。也就是虽然rt表可以读取所有的最新的数据,但是要先合并文件性能要比读取COW表差一些。
compaction
官方文档:https://hudi.apache.org/docs/compaction
compaction 只在M