基于 Apache Hudi 极致查询优化的探索实践( 三 )

最终一共产生了8个文件 , 结合 BloomFilter Skipping掉了7 个,效果非常明显 。
后续工作后续关于点查这块工作会重点关注 Bitmap 以及二级索引 。最后总结一下 DataSkipping 中各种优化技术手段的选择方式 。

  1. Clustering中各种排序方式需要结合 Column statistics 才能达到更好的效果 。
  2. BloomFilter 适合等值条件点查,不需要数据做排序,但是要选择高基字段,低基字段 BloomFIlter 用处不大;另外超高基也不要选 BloomFilter,产出的 BloomFilter 结果太大 。
点击关注,第一时间了解华为云新鲜技术~
【基于 Apache Hudi 极致查询优化的探索实践】

推荐阅读