Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang
Apache Spark SQL adalah fitur untuk "SQL dan pemrosesan data terstruktur" di Spark, sistem komputasi cluster yang cepat dan serbaguna. Ini dapat digunakan untuk mengambil data dari Hive, Parquet, dll. Dan menjalankan kueri SQL melalui RDD dan Dataset yang ada.
Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang
Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...
Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException:...
Saya memiliki DataFrame yang dihasilkan sebagai berikut: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Hasilnya terlihat seperti: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| |...
Bagaimana saya bisa mengubah RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) ke Dataframe org.apache.spark.sql.DataFrame. Saya mengkonversi dataframe menjadi rdd menggunakan .rdd. Setelah mengolahnya, saya ingin kembali dalam bingkai data. Bagaimana saya bisa melakukan
Saya mencoba df.orderBy("col1").show(10)tetapi diurutkan dalam urutan menaik. df.sort("col1").show(10)juga memilah dalam urutan menurun. Saya melihat stackoverflow dan jawaban yang saya temukan sudah ketinggalan jaman atau disebut RDD . Saya ingin menggunakan bingkai data asli di
Saya ingin menambahkan kolom dalam DataFramedengan nilai arbitrer (sama untuk setiap baris). Saya mendapatkan kesalahan saat menggunakan withColumnsebagai berikut: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError...
Saya sudah mulai menggunakan Spark SQL dan DataFrames di Spark 1.4.0. Saya ingin mendefinisikan pemartisi khusus di DataFrames, di Scala, tetapi tidak melihat cara melakukan ini. Salah satu tabel data yang saya kerjakan berisi daftar transaksi, berdasarkan akun, silimar ke contoh berikut. Account...
Saya memiliki Spark DataFrame (menggunakan PySpark 1.5.1) dan ingin menambahkan kolom baru. Saya telah mencoba yang berikut ini tetapi tidak berhasil: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours,
Bagaimana kita menggabungkan dua kolom di Apache Spark DataFrame? Apakah ada fungsi di Spark SQL yang dapat kita
Saya memiliki dataframe dengan kolom sebagai String. Saya ingin mengubah tipe kolom menjadi tipe Double di PySpark. Berikut caranya, saya lakukan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Hanya ingin...
Sekarang, saya harus menggunakan df.count > 0untuk memeriksa apakah DataFramekosong atau tidak. Tapi ini agak tidak efisien. Apakah ada cara yang lebih baik untuk melakukan itu? Terima kasih. PS: Saya mau cek kalau kosong jadi saya simpan saja DataFramekalau tidak kosong
Saya ingin membuat DataFramedengan skema tertentu di Scala. Saya telah mencoba menggunakan JSON read (maksud saya membaca file kosong) tetapi menurut saya itu bukan praktik terbaik.
Saya mencoba untuk mengonversi semua nama header / kolom a DataFramedi Spark-Scala. sampai sekarang saya datang dengan kode berikut yang hanya menggantikan satu nama kolom. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...
Saya menggunakan pyspark (Python 2.7.9 / Spark 1.3.1) dan memiliki GroupObject dataframe yang perlu saya filter & urutkan dalam urutan menurun. Mencoba mencapainya melalui potongan kode ini. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Tapi itu...
Saya ingin mengubah kolom string dari bingkai data menjadi daftar. Yang bisa saya temukan dari DataframeAPI adalah RDD, jadi saya mencoba mengubahnya kembali menjadi RDD terlebih dahulu, lalu menerapkan toArrayfungsi ke RDD. Dalam hal ini, panjang dan SQL berfungsi dengan baik. Namun, hasil yang...
Apa yang akan menjadi cara paling efisien untuk menyisipkan jutaan catatan katakan 50 juta dari bingkai data Spark ke Postgres Tables. Saya telah melakukan ini dari percikan ke MSSQL di masa lalu dengan memanfaatkan salinan massal dan opsi ukuran batch yang berhasil juga. Adakah sesuatu yang...
Saya memiliki kerangka data dengan kode berikut: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one"))...