Apache Spark: dampak partisi ulang, penyortiran, dan caching pada suatu join

Saya menjelajahi perilaku Spark ketika bergabung dengan tabel untuk dirinya sendiri. Saya menggunakan Databricks. Skenario boneka saya adalah: Baca tabel eksternal sebagai dataframe A (file yang mendasarinya dalam format delta) Definisikan dataframe B sebagai dataframe A dengan hanya kolom...