pandasUDF dan pyarrow 0.15.0

Saya baru-baru ini mulai mendapatkan banyak kesalahan pada sejumlah pysparkpekerjaan yang berjalan pada cluster ESDM. Para erro adalah

java.lang.IllegalArgumentException
    at java.nio.ByteBuffer.allocate(ByteBuffer.java:334)
    at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543)
    at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58)
    at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132)
    at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181)
    at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172)
    at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65)
    at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162)
    at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122)
    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406)
    at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
    at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98)
    at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96)
    at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)...

Semua itu tampaknya terjadi dalam applyfungsi seri panda. Satu-satunya perubahan yang saya temukan adalah yang pyarrowtelah diperbarui pada Sabtu (5/10/2019). Tes tampaknya berhasil dengan 0.14.1

Jadi pertanyaan saya adalah apakah ada yang tahu jika ini adalah bug di pyarrow yang baru diperbarui atau adakah perubahan signifikan yang akan membuat pandasUDF sulit digunakan di masa depan?

pandas apache-spark pyspark pyarrow ilijaluve
sumber

pandasUDF dan pyarrow 0.15.0

Jawaban: