Pertanyaan yang diberi tag apache-spark-sql

257

Perbedaan antara DataFrame, Dataset, dan RDD di Spark

Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang

152

Bagaimana saya bisa mengubah tipe kolom di DataFrame Spark SQL?

Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...

scala apache-spark apache-spark-sql

147

Spark - memuat file CSV sebagai DataFrame?

Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException:...

scala apache-spark hadoop apache-spark-sql hdfs

143

Bagaimana cara memilih baris pertama dari setiap grup?

Saya memiliki DataFrame yang dihasilkan sebagai berikut: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Hasilnya terlihat seperti: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| |...

sql scala apache-spark dataframe apache-spark-sql

139

Bagaimana mengkonversi objek rdd ke dataframe di spark

Bagaimana saya bisa mengubah RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) ke Dataframe org.apache.spark.sql.DataFrame. Saya mengkonversi dataframe menjadi rdd menggunakan .rdd. Setelah mengolahnya, saya ingin kembali dalam bingkai data. Bagaimana saya bisa melakukan

scala apache-spark apache-spark-sql rdd

137

Bagaimana cara mengurutkan berdasarkan kolom dalam urutan menurun di Spark SQL?

Saya mencoba df.orderBy("col1").show(10)tetapi diurutkan dalam urutan menaik. df.sort("col1").show(10)juga memilah dalam urutan menurun. Saya melihat stackoverflow dan jawaban yang saya temukan sudah ketinggalan jaman atau disebut RDD . Saya ingin menggunakan bingkai data asli di

scala apache-spark apache-spark-sql

137

Bagaimana cara menambahkan kolom konstan dalam Spark DataFrame?

Saya ingin menambahkan kolom dalam DataFramedengan nilai arbitrer (sama untuk setiap baris). Saya mendapatkan kesalahan saat menggunakan withColumnsebagai berikut: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError...

python apache-spark dataframe pyspark apache-spark-sql

129

Bagaimana cara mendefinisikan partisi DataFrame?

Saya sudah mulai menggunakan Spark SQL dan DataFrames di Spark 1.4.0. Saya ingin mendefinisikan pemartisi khusus di DataFrames, di Scala, tetapi tidak melihat cara melakukan ini. Salah satu tabel data yang saya kerjakan berisi daftar transaksi, berdasarkan akun, silimar ke contoh berikut. Account...

scala apache-spark dataframe apache-spark-sql partitioning

129

Bagaimana cara menambahkan kolom baru ke Spark DataFrame (menggunakan PySpark)?

Saya memiliki Spark DataFrame (menggunakan PySpark 1.5.1) dan ingin menambahkan kolom baru. Saya telah mencoba yang berikut ini tetapi tidak berhasil: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours,

python apache-spark dataframe pyspark apache-spark-sql

116

Kolom gabungan di Apache Spark DataFrame

Bagaimana kita menggabungkan dua kolom di Apache Spark DataFrame? Apakah ada fungsi di Spark SQL yang dapat kita

sql apache-spark dataframe apache-spark-sql

103

bagaimana mengubah kolom Dataframe dari tipe String ke tipe Double di pyspark

Saya memiliki dataframe dengan kolom sebagai String. Saya ingin mengubah tipe kolom menjadi tipe Double di PySpark. Berikut caranya, saya lakukan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Hanya ingin...

python apache-spark dataframe pyspark apache-spark-sql

102

Bagaimana cara memeriksa apakah spark dataframe kosong?

Sekarang, saya harus menggunakan df.count > 0untuk memeriksa apakah DataFramekosong atau tidak. Tapi ini agak tidak efisien. Apakah ada cara yang lebih baik untuk melakukan itu? Terima kasih. PS: Saya mau cek kalau kosong jadi saya simpan saja DataFramekalau tidak kosong

apache-spark apache-spark-sql

94

Bagaimana cara membuat DataFrame kosong dengan skema tertentu?

Saya ingin membuat DataFramedengan skema tertentu di Scala. Saya telah mencoba menggunakan JSON read (maksud saya membaca file kosong) tetapi menurut saya itu bukan praktik terbaik.

scala apache-spark dataframe apache-spark-sql

93

Mengganti nama kolom DataFrame di Spark Scala

Saya mencoba untuk mengonversi semua nama header / kolom a DataFramedi Spark-Scala. sampai sekarang saya datang dengan kode berikut yang hanya menggantikan satu nama kolom. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...

scala apache-spark dataframe apache-spark-sql

90

Spark DataFrame groupBy dan urutkan dalam urutan menurun (pyspark)

Saya menggunakan pyspark (Python 2.7.9 / Spark 1.3.1) dan memiliki GroupObject dataframe yang perlu saya filter & urutkan dalam urutan menurun. Mencoba mencapainya melalui potongan kode ini. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Tapi itu...

python apache-spark dataframe pyspark apache-spark-sql

87

Ekstrak nilai kolom Dataframe sebagai List di Apache Spark

Saya ingin mengubah kolom string dari bingkai data menjadi daftar. Yang bisa saya temukan dari DataframeAPI adalah RDD, jadi saya mencoba mengubahnya kembali menjadi RDD terlebih dahulu, lalu menerapkan toArrayfungsi ke RDD. Dalam hal ini, panjang dan SQL berfungsi dengan baik. Namun, hasil yang...

scala apache-spark apache-spark-sql

16

Menulis lebih dari 50 juta dari Pyspark df ke PostgresSQL, pendekatan efisien terbaik

Apa yang akan menjadi cara paling efisien untuk menyisipkan jutaan catatan katakan 50 juta dari bingkai data Spark ke Postgres Tables. Saya telah melakukan ini dari percikan ke MSSQL di masa lalu dengan memanfaatkan salinan massal dan opsi ukuran batch yang berhasil juga. Adakah sesuatu yang...

postgresql apache-spark pyspark apache-spark-sql bigdata

9

Spark: UDF dieksekusi berkali-kali

Saya memiliki kerangka data dengan kode berikut: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...

scala apache-spark apache-spark-sql