分散式排序

分散式排序允許排序超過 query.max-memory-per-node 的資料。分散式排序可透過 distributed_sort 會話屬性或在協調器的 etc/config.properties 中設定 distributed-sort 組態屬性來啟用。分散式排序預設為啟用。

啟用分散式排序後,排序運算子會在叢集中的多個節點上平行執行。然後將來自每個 Presto 工作節點的部分排序資料串流至單一工作節點進行最終合併。此技術允許利用多個 Presto 工作節點的記憶體進行排序。分散式排序的主要目的是允許對通常不適合單一節點記憶體的資料集進行排序。可以預期效能的提升,但由於資料需要由單一節點合併,因此它不會隨著節點數量線性擴展。