Bagaimana cara memeriksa apakah spark dataframe kosong?

Question 1

Sekarang, saya harus menggunakan df.count > 0untuk memeriksa apakah DataFramekosong atau tidak. Tapi ini agak tidak efisien. Apakah ada cara yang lebih baik untuk melakukan itu?

Terima kasih.

PS: Saya mau cek kalau kosong jadi saya simpan saja DataFramekalau tidak kosong

Question 2

Untuk Spark 2.1.0, saran saya adalah menggunakan head(n: Int)atau take(n: Int)dengan isEmpty, mana saja yang memiliki maksud paling jelas untuk Anda.

df.head(1).isEmpty
df.take(1).isEmpty

dengan padanan Python:

len(df.head(1)) == 0  # or bool(df.head(1))
len(df.take(1)) == 0  # or bool(df.take(1))

Menggunakan df.first()dan df.head()akan mengembalikan java.util.NoSuchElementExceptionjika DataFrame kosong. first()panggilan head()langsung, yang memanggil head(1).head.

def first(): T = head()
def head(): T = head(1).head

head(1)mengembalikan Array, jadi mengambil headArray itu menyebabkan java.util.NoSuchElementExceptionkapan DataFrame kosong.

def head(n: Int): Array[T] = withAction("head", limit(n).queryExecution)(collectFromPlan)

Jadi, alih-alih memanggil head(), gunakan head(1)langsung untuk mendapatkan array lalu Anda bisa menggunakan isEmpty.

take(n)juga setara dengan head(n)...

def take(n: Int): Array[T] = head(n)

Dan limit(1).collect()setara dengan head(1)(perhatikan limit(n).queryExecutiondalam head(n: Int)metode), jadi berikut ini semua setara, setidaknya dari apa yang saya tahu, dan Anda tidak perlu menangkap java.util.NoSuchElementExceptionpengecualian saat DataFrame kosong.

df.head(1).isEmpty
df.take(1).isEmpty
df.limit(1).collect().isEmpty

Saya tahu ini adalah pertanyaan lama, jadi semoga ini akan membantu seseorang yang menggunakan versi Spark yang lebih baru.

Question 3

Saya akan mengatakan untuk mengambil yang mendasarinya RDD. Di Scala:

df.rdd.isEmpty

dengan Python:

df.rdd.isEmpty()

Yang sedang berkata, semua ini adalah panggilan take(1).length, jadi itu akan melakukan hal yang sama seperti yang dijawab Rohan ... mungkin sedikit lebih eksplisit?

Question 4

Anda dapat memanfaatkan fungsi head()(atau first()) untuk melihat apakah DataFramememiliki satu baris. Jika demikian, itu tidak kosong.

Question 5

Jika Anda melakukannya df.count > 0. Dibutuhkan jumlah semua partisi di semua pelaksana dan menambahkannya di Driver. Ini membutuhkan waktu lama ketika Anda berurusan dengan jutaan baris.

Cara terbaik untuk melakukannya adalah dengan melakukan df.take(1)dan memeriksa apakah nilainya null. Ini akan kembali java.util.NoSuchElementExceptionjadi lebih baik untuk mencobanya df.take(1).

Dataframe mengembalikan kesalahan saat take(1)selesai, bukan baris kosong. Saya telah menyoroti baris kode tertentu di mana ia melempar kesalahan.

Question 6

Sejak Spark 2.4.0 ada Dataset.isEmpty.

Itu implementasi adalah:

def isEmpty: Boolean = 
  withAction("isEmpty", limit(1).groupBy().count().queryExecution) { plan =>
    plan.executeCollect().head.getLong(0) == 0
}

Perhatikan bahwa a DataFramebukan lagi kelas di Scala, itu hanya alias tipe (mungkin diubah dengan Spark 2.0):

type DataFrame = Dataset[Row]

Question 7

Untuk pengguna Java, Anda dapat menggunakan ini di set data:

public boolean isDatasetEmpty(Dataset<Row> ds) {
        boolean isEmpty;
        try {
            isEmpty = ((Row[]) ds.head(1)).length == 0;
        } catch (Exception e) {
            return true;
        }
        return isEmpty;
}

Ini memeriksa semua kemungkinan skenario (kosong, null).

Question 8

Di Scala, Anda dapat menggunakan implik untuk menambahkan metode isEmpty()dan nonEmpty()ke DataFrame API, yang akan membuat kode sedikit lebih bagus untuk dibaca.

object DataFrameExtensions {
  implicit def extendedDataFrame(dataFrame: DataFrame): ExtendedDataFrame = 
    new ExtendedDataFrame(dataFrame: DataFrame)

  class ExtendedDataFrame(dataFrame: DataFrame) {
    def isEmpty(): Boolean = dataFrame.head(1).isEmpty // Any implementation can be used
    def nonEmpty(): Boolean = !isEmpty
  }
}

Di sini, metode lain juga dapat ditambahkan. Untuk menggunakan konversi implisit, gunakan import DataFrameExtensions._file yang ingin Anda gunakan dengan fungsionalitas yang diperluas. Setelah itu, metode dapat digunakan secara langsung sebagai berikut:

val df: DataFrame = ...
if (df.isEmpty) {
  // Do something
}

Question 9

Saya memiliki pertanyaan yang sama, dan saya menguji 3 solusi utama:

df! = null df.count> 0
df.head (1) .isEmpty () seperti yang disarankan @ hulin003
df.rdd.isEmpty sebagai saran @Justin Pihony

dan tentu saja 3 berfungsi, namun dalam hal kinerja, inilah yang saya temukan, ketika menjalankan metode ini pada DF yang sama di mesin saya, dalam hal waktu eksekusi:

dibutuhkan ~ 9366ms
dibutuhkan ~ 5607ms
dibutuhkan ~ 1921ms

oleh karena itu saya pikir solusi terbaik adalah df.rdd.isEmpty seperti yang disarankan @Justin Pihony

Question 10

Saya menemukan itu pada beberapa kasus:

>>>print(type(df))
<class 'pyspark.sql.dataframe.DataFrame'>

>>>df.take(1).isEmpty
'list' object has no attribute 'isEmpty'

ini sama untuk "length" atau ganti take () dengan head ()

[Solusi] untuk masalah yang bisa kita gunakan.

>>>df.limit(2).count() > 1
False

Question 11

Jika Anda menggunakan Pypsark, Anda juga dapat melakukan:

len(df.head(1)) > 0

Question 12

Pada PySpark, Anda juga dapat menggunakan ini bool(df.head(1))untuk mendapatkan Truedari Falsenilai

Ia kembali Falsejika dataframe tidak berisi baris

Question 13

df1.take(1).length>0

The takeMetode mengembalikan array baris, jadi jika ukuran array sama dengan nol, tidak ada catatan di df.

Question 14

dataframe.limit(1).count > 0

Ini juga memicu pekerjaan tetapi karena kami memilih satu catatan, bahkan dalam kasus catatan skala miliar konsumsi waktu bisa jauh lebih rendah.

Dari: https://medium.com/checking-emptiness-in-distributed-objects/count-vs-isempty-surprised-to-see-the-impact-fa70c0246ee0

Question 15

Anda bisa melakukannya seperti:

val df = sqlContext.emptyDataFrame
if( df.eq(sqlContext.emptyDataFrame) )
    println("empty df ")
else 
    println("normal df")

Answer 1

Sekarang, saya harus menggunakan df.count > 0untuk memeriksa apakah DataFramekosong atau tidak. Tapi ini agak tidak efisien. Apakah ada cara yang lebih baik untuk melakukan itu?

Terima kasih.

PS: Saya mau cek kalau kosong jadi saya simpan saja DataFramekalau tidak kosong

Answer 2

155

Untuk Spark 2.1.0, saran saya adalah menggunakan head(n: Int)atau take(n: Int)dengan isEmpty, mana saja yang memiliki maksud paling jelas untuk Anda.

df.head(1).isEmpty
df.take(1).isEmpty

dengan padanan Python:

len(df.head(1)) == 0  # or bool(df.head(1))
len(df.take(1)) == 0  # or bool(df.take(1))

Menggunakan df.first()dan df.head()akan mengembalikan java.util.NoSuchElementExceptionjika DataFrame kosong. first()panggilan head()langsung, yang memanggil head(1).head.

def first(): T = head()
def head(): T = head(1).head

head(1)mengembalikan Array, jadi mengambil headArray itu menyebabkan java.util.NoSuchElementExceptionkapan DataFrame kosong.

def head(n: Int): Array[T] = withAction("head", limit(n).queryExecution)(collectFromPlan)

Jadi, alih-alih memanggil head(), gunakan head(1)langsung untuk mendapatkan array lalu Anda bisa menggunakan isEmpty.

take(n)juga setara dengan head(n)...

def take(n: Int): Array[T] = head(n)

Dan limit(1).collect()setara dengan head(1)(perhatikan limit(n).queryExecutiondalam head(n: Int)metode), jadi berikut ini semua setara, setidaknya dari apa yang saya tahu, dan Anda tidak perlu menangkap java.util.NoSuchElementExceptionpengecualian saat DataFrame kosong.

df.head(1).isEmpty
df.take(1).isEmpty
df.limit(1).collect().isEmpty

Saya tahu ini adalah pertanyaan lama, jadi semoga ini akan membantu seseorang yang menggunakan versi Spark yang lebih baru.

hulin003
sumber

20

Bagi yang menggunakan pyspark. isEmpty bukanlah sesuatu. Lakukan len (d.head (1))> 0 sebagai gantinya.

AntiPawn79

5

mengapa ini lebih baik df.rdd.isEmpty?

Dan Ciborowski - MSFT

1

df.head (1) .isEmpty membutuhkan banyak waktu, apakah ada solusi lain yang dioptimalkan untuk ini.

Rakesh Sabbani

1

Hai @Rakesh Sabbani, Jika df.head(1)memakan banyak waktu, mungkin karena dfrencana eksekusi Anda melakukan sesuatu yang rumit yang mencegah percikan mengambil jalan pintas. Misalnya, jika Anda hanya membaca dari file parket df = spark.read.parquet(...), saya cukup yakin spark hanya akan membaca satu partisi file. Tetapi jika Anda dfmelakukan hal-hal lain seperti agregasi, Anda mungkin secara tidak sengaja memaksa percikan untuk membaca dan memproses sebagian besar, jika tidak semua, data sumber Anda.

hulin003

hanya melaporkan pengalaman saya ke HINDARI: Saya menggunakan secara df.limit(1).count()naif. Pada kumpulan data besar, dibutuhkan lebih banyak waktu daripada contoh yang dilaporkan oleh @ hulin003 yang hampir seketika

Vzzarr

Answer 3

20

Bagi yang menggunakan pyspark. isEmpty bukanlah sesuatu. Lakukan len (d.head (1))> 0 sebagai gantinya.

AntiPawn79

Answer 4

5

mengapa ini lebih baik df.rdd.isEmpty?

Dan Ciborowski - MSFT

Answer 5

1

df.head (1) .isEmpty membutuhkan banyak waktu, apakah ada solusi lain yang dioptimalkan untuk ini.

Rakesh Sabbani

Answer 6

1

Hai @Rakesh Sabbani, Jika df.head(1)memakan banyak waktu, mungkin karena dfrencana eksekusi Anda melakukan sesuatu yang rumit yang mencegah percikan mengambil jalan pintas. Misalnya, jika Anda hanya membaca dari file parket df = spark.read.parquet(...), saya cukup yakin spark hanya akan membaca satu partisi file. Tetapi jika Anda dfmelakukan hal-hal lain seperti agregasi, Anda mungkin secara tidak sengaja memaksa percikan untuk membaca dan memproses sebagian besar, jika tidak semua, data sumber Anda.

hulin003

Answer 7

hanya melaporkan pengalaman saya ke HINDARI: Saya menggunakan secara df.limit(1).count()naif. Pada kumpulan data besar, dibutuhkan lebih banyak waktu daripada contoh yang dilaporkan oleh @ hulin003 yang hampir seketika

Vzzarr

Answer 8

45

Saya akan mengatakan untuk mengambil yang mendasarinya RDD. Di Scala:

df.rdd.isEmpty

dengan Python:

df.rdd.isEmpty()

Yang sedang berkata, semua ini adalah panggilan take(1).length, jadi itu akan melakukan hal yang sama seperti yang dijawab Rohan ... mungkin sedikit lebih eksplisit?

Justin Pihony
sumber

6

Ini ternyata lebih lambat daripada df.count () == 0 dalam kasus saya

arsitektonis

2

Bukankah mengonversi ke rdd merupakan tugas yang berat?

Alok

1

Tidak juga. RDD masih menjadi pendukung dari sebagian besar Spark.

Justin Pihony

28

Jangan ubah df ke RDD. Ini memperlambat proses. Jika Anda mengonversinya akan mengubah seluruh DF menjadi RDD dan memeriksa apakah itu kosong. Pikirkan jika DF memiliki jutaan baris, butuh banyak waktu untuk mengubahnya menjadi RDD itu sendiri.

Nandakishore

3

.rdd memperlambat begitu banyak proses seperti banyak

Raul H

Answer 9

6

Ini ternyata lebih lambat daripada df.count () == 0 dalam kasus saya

arsitektonis

Answer 10

2

Bukankah mengonversi ke rdd merupakan tugas yang berat?

Alok

Answer 11

1

Tidak juga. RDD masih menjadi pendukung dari sebagian besar Spark.

Justin Pihony

Answer 12

28

Jangan ubah df ke RDD. Ini memperlambat proses. Jika Anda mengonversinya akan mengubah seluruh DF menjadi RDD dan memeriksa apakah itu kosong. Pikirkan jika DF memiliki jutaan baris, butuh banyak waktu untuk mengubahnya menjadi RDD itu sendiri.

Nandakishore

Answer 13

3

.rdd memperlambat begitu banyak proses seperti banyak

Raul H

Answer 14

14

Anda dapat memanfaatkan fungsi head()(atau first()) untuk melihat apakah DataFramememiliki satu baris. Jika demikian, itu tidak kosong.

Rohan Aletty
sumber

10

jika dataframe kosong maka "java.util.NoSuchElementException: next on empty iterator"; [Spark 1.3.1]

FelixHo

Answer 15

10

jika dataframe kosong maka "java.util.NoSuchElementException: next on empty iterator"; [Spark 1.3.1]

FelixHo

Answer 16

6

Jika Anda melakukannya df.count > 0. Dibutuhkan jumlah semua partisi di semua pelaksana dan menambahkannya di Driver. Ini membutuhkan waktu lama ketika Anda berurusan dengan jutaan baris.

Cara terbaik untuk melakukannya adalah dengan melakukan df.take(1)dan memeriksa apakah nilainya null. Ini akan kembali java.util.NoSuchElementExceptionjadi lebih baik untuk mencobanya df.take(1).

Dataframe mengembalikan kesalahan saat take(1)selesai, bukan baris kosong. Saya telah menyoroti baris kode tertentu di mana ia melempar kesalahan.

Nandakishore
sumber

1

jika Anda menjalankan ini pada kerangka data besar dengan jutaan catatan, countmetode itu akan memakan waktu.

TheM00s3

2

Saya mengatakan hal yang sama, saya tidak yakin mengapa Anda memberi jempol ke bawah.

Nandakishore

hak Anda, Anda mengatakan hal yang sama, sayangnya, saya tidak meremehkan Anda.

TheM00s3

Ohhh oke. Saya minta maaf TheMoos3, tetapi siapa pun yang melakukannya, harap perhatikan jawabannya dan pahami konsepnya.

Nandakishore

menggunakan df.take (1) ketika df kosong menghasilkan kembali ROW kosong yang tidak dapat dibandingkan dengan null

LetsPlayYahtzee

Answer 17

1

jika Anda menjalankan ini pada kerangka data besar dengan jutaan catatan, countmetode itu akan memakan waktu.

TheM00s3

Answer 18

2

Saya mengatakan hal yang sama, saya tidak yakin mengapa Anda memberi jempol ke bawah.

Nandakishore

Answer 19

hak Anda, Anda mengatakan hal yang sama, sayangnya, saya tidak meremehkan Anda.

TheM00s3

Answer 20

Ohhh oke. Saya minta maaf TheMoos3, tetapi siapa pun yang melakukannya, harap perhatikan jawabannya dan pahami konsepnya.

Nandakishore

Answer 21

menggunakan df.take (1) ketika df kosong menghasilkan kembali ROW kosong yang tidak dapat dibandingkan dengan null

LetsPlayYahtzee

Answer 22

6

Sejak Spark 2.4.0 ada Dataset.isEmpty.

Itu implementasi adalah:

def isEmpty: Boolean = 
  withAction("isEmpty", limit(1).groupBy().count().queryExecution) { plan =>
    plan.executeCollect().head.getLong(0) == 0
}

Perhatikan bahwa a DataFramebukan lagi kelas di Scala, itu hanya alias tipe (mungkin diubah dengan Spark 2.0):

type DataFrame = Dataset[Row]

Berilium
sumber

1

isEmpty lebih lambat dari df.head (1) .isEmpty

Sandeep540

@ Sandeep540 Benarkah? Tolok ukur? Proposal Anda membuat contoh setidaknya satu baris. Implementasi Spark hanya mengirimkan nomor. head () menggunakan limit () juga, groupBy () tidak benar-benar melakukan apa pun, itu diperlukan untuk mendapatkan RelationalGroupedDataset yang pada gilirannya menyediakan count (). Sehingga seharusnya tidak lebih lambat secara signifikan. Ini mungkin lebih cepat dalam kasus kumpulan data yang berisi banyak kolom (mungkin mendenormalisasi data bersarang). Lagi pula Anda harus mengetik lebih sedikit :-)

Berilium

Answer 23

1

isEmpty lebih lambat dari df.head (1) .isEmpty

Sandeep540

Answer 24

@ Sandeep540 Benarkah? Tolok ukur? Proposal Anda membuat contoh setidaknya satu baris. Implementasi Spark hanya mengirimkan nomor. head () menggunakan limit () juga, groupBy () tidak benar-benar melakukan apa pun, itu diperlukan untuk mendapatkan RelationalGroupedDataset yang pada gilirannya menyediakan count (). Sehingga seharusnya tidak lebih lambat secara signifikan. Ini mungkin lebih cepat dalam kasus kumpulan data yang berisi banyak kolom (mungkin mendenormalisasi data bersarang). Lagi pula Anda harus mengetik lebih sedikit :-)

Berilium

Answer 25

Untuk pengguna Java, Anda dapat menggunakan ini di set data:

public boolean isDatasetEmpty(Dataset<Row> ds) {
        boolean isEmpty;
        try {
            isEmpty = ((Row[]) ds.head(1)).length == 0;
        } catch (Exception e) {
            return true;
        }
        return isEmpty;
}

Ini memeriksa semua kemungkinan skenario (kosong, null).

Answer 26

Di Scala, Anda dapat menggunakan implik untuk menambahkan metode isEmpty()dan nonEmpty()ke DataFrame API, yang akan membuat kode sedikit lebih bagus untuk dibaca.

object DataFrameExtensions {
  implicit def extendedDataFrame(dataFrame: DataFrame): ExtendedDataFrame = 
    new ExtendedDataFrame(dataFrame: DataFrame)

  class ExtendedDataFrame(dataFrame: DataFrame) {
    def isEmpty(): Boolean = dataFrame.head(1).isEmpty // Any implementation can be used
    def nonEmpty(): Boolean = !isEmpty
  }
}

Di sini, metode lain juga dapat ditambahkan. Untuk menggunakan konversi implisit, gunakan import DataFrameExtensions._file yang ingin Anda gunakan dengan fungsionalitas yang diperluas. Setelah itu, metode dapat digunakan secara langsung sebagai berikut:

val df: DataFrame = ...
if (df.isEmpty) {
  // Do something
}

Answer 27

2

Saya memiliki pertanyaan yang sama, dan saya menguji 3 solusi utama:

df! = null df.count> 0
df.head (1) .isEmpty () seperti yang disarankan @ hulin003
df.rdd.isEmpty sebagai saran @Justin Pihony

dan tentu saja 3 berfungsi, namun dalam hal kinerja, inilah yang saya temukan, ketika menjalankan metode ini pada DF yang sama di mesin saya, dalam hal waktu eksekusi:

dibutuhkan ~ 9366ms
dibutuhkan ~ 5607ms
dibutuhkan ~ 1921ms

oleh karena itu saya pikir solusi terbaik adalah df.rdd.isEmpty seperti yang disarankan @Justin Pihony

sebuah nama
sumber

1

opsi 3 membutuhkan lebih sedikit waktu, mengapa yang kedua?

pemikir

Ups, Anda benar, saya menggunakan yang ketiga, saya memperbarui tanggapan

aName

karena penasaran ... dengan ukuran apa DataFrames ini diuji?

aiguofer

Answer 28

1

opsi 3 membutuhkan lebih sedikit waktu, mengapa yang kedua?

pemikir

Answer 29

Ups, Anda benar, saya menggunakan yang ketiga, saya memperbarui tanggapan

aName

Answer 30

karena penasaran ... dengan ukuran apa DataFrames ini diuji?

aiguofer

Answer 31

Saya menemukan itu pada beberapa kasus:

>>>print(type(df))
<class 'pyspark.sql.dataframe.DataFrame'>

>>>df.take(1).isEmpty
'list' object has no attribute 'isEmpty'

ini sama untuk "length" atau ganti take () dengan head ()

[Solusi] untuk masalah yang bisa kita gunakan.

>>>df.limit(2).count() > 1
False

Answer 32

1

Jika Anda menggunakan Pypsark, Anda juga dapat melakukan:

len(df.head(1)) > 0

Adelholzener
sumber

Answer 33

1

Pada PySpark, Anda juga dapat menggunakan ini bool(df.head(1))untuk mendapatkan Truedari Falsenilai

Ia kembali Falsejika dataframe tidak berisi baris

Bose
sumber

Answer 34

0

df1.take(1).length>0

The takeMetode mengembalikan array baris, jadi jika ukuran array sama dengan nol, tidak ada catatan di df.

Gopi A
sumber

Answer 35

-1

dataframe.limit(1).count > 0

Ini juga memicu pekerjaan tetapi karena kami memilih satu catatan, bahkan dalam kasus catatan skala miliar konsumsi waktu bisa jauh lebih rendah.

Dari: https://medium.com/checking-emptiness-in-distributed-objects/count-vs-isempty-surprised-to-see-the-impact-fa70c0246ee0

Jordan Morris
sumber

Semua ini adalah opsi buruk yang memakan waktu hampir sama

Pushpendra Jaiswal

@PushpendraJaiswal ya, dan di dunia dengan opsi yang buruk, kita harus memilih opsi terbaik yang buruk

Jordan Morris

Answer 36

Semua ini adalah opsi buruk yang memakan waktu hampir sama

Pushpendra Jaiswal

Answer 37

@PushpendraJaiswal ya, dan di dunia dengan opsi yang buruk, kita harus memilih opsi terbaik yang buruk

Jordan Morris

Answer 38

-2

Anda bisa melakukannya seperti:

val df = sqlContext.emptyDataFrame
if( df.eq(sqlContext.emptyDataFrame) )
    println("empty df ")
else 
    println("normal df")

sYer Wang
sumber

1

bukankah itu membutuhkan schemadua dataframe ( sqlContext.emptyDataFrame& df) untuk sama agar bisa kembali true?

y2k-shubham

1

Ini tidak akan berhasil. eqdiwarisi dari AnyRefdan menguji apakah argumen (itu) adalah referensi ke objek penerima (ini).

Alper t. Turker

Answer 39

1

bukankah itu membutuhkan schemadua dataframe ( sqlContext.emptyDataFrame& df) untuk sama agar bisa kembali true?

y2k-shubham

Answer 40

1

Ini tidak akan berhasil. eqdiwarisi dari AnyRefdan menguji apakah argumen (itu) adalah referensi ke objek penerima (ini).

Alper t. Turker

Bagaimana cara memeriksa apakah spark dataframe kosong?

Jawaban: