Pertanyaan yang diberi tag apache-spark-sql

Apache Spark SQL adalah fitur untuk "SQL dan pemrosesan data terstruktur" di Spark, sistem komputasi cluster yang cepat dan serbaguna. Ini dapat digunakan untuk mengambil data dari Hive, Parquet, dll. Dan menjalankan kueri SQL melalui RDD dan Dataset yang ada.

9
Spark: UDF dieksekusi berkali-kali

Saya memiliki kerangka data dengan kode berikut: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...