Bagaimana cara mendekati kompetisi numer.ai dengan prediktor numerik berskala anonim?

9

Numer.ai telah ada untuk sementara waktu sekarang dan tampaknya hanya ada beberapa posting atau diskusi lainnya di web.

Sistem telah berubah dari waktu ke waktu dan pengaturan hari ini adalah sebagai berikut:

  1. melatih (N = 96K) dan menguji (N = 33K) data dengan 21 fitur dengan nilai kontinu dalam [0,1] dan target biner.
  2. Data bersih (tidak ada nilai yang hilang) dan diperbarui setiap 2 minggu. Anda dapat mengunggah prediksi Anda (pada set tes) dan melihat kehilangan log. Bagian dari data uji adalah bahkan data langsung dan Anda dibayar untuk prediksi yang baik.

Apa yang ingin saya diskusikan:

Karena fitur-fiturnya benar-benar anonim, saya pikir tidak ada banyak rekayasa fitur yang bisa kami lakukan. Jadi pendekatan saya sangat mekanis:

  1. terinspirasi oleh ini saya menggunakan algoritma klasifikasi untuk menyaring data pelatihan yang paling sesuai dengan data pengujian saya.
  2. Cari tahu beberapa preprocessing yang bagus
  3. melatih algoritma klasifikasi yang bagus
  4. membangun ansambelnya (susun, ..).

Pertanyaan konkret:

Mengenai langkah 1: Apakah Anda memiliki pengalaman dengan pendekatan seperti itu? Katakanlah saya memesan probabilitas sampel kereta untuk diuji (biasanya di bawah 0,5) dan kemudian saya mengambil probabilitas K terbesar. Bagaimana Anda memilih K? Saya mencoba dengan 15K .. tetapi terutama untuk memiliki set data pelatihan kecil untuk mempercepat pelatihan di langkah 3.

Mengenai langkah 2: Data sudah pada skala 0,1. Jika saya menerapkan transformasi linear (seperti PCA) maka saya akan mematahkan skala ini. Apa yang akan Anda coba dalam preprocessing jika Anda memiliki data numerik dan tidak tahu bahwa ini sebenarnya.

PS: Saya tahu karena numer.ai membayar orang yang mendiskusikan ini bisa membantu saya menghasilkan uang. Tapi karena ini bersifat publik, ini akan membantu siapa pun di luar sana ...

PPS: Papan peringkat hari ini memiliki pola yang menarik: Dua teratas dengan logloss 0.64xx, lalu nomor 3 dengan 0.66xx dan kemudian sebagian besar prediktor mencapai 0.6888x.

Jadi sepertinya ada bidang teratas yang sangat kecil dan banyak orang yang cukup sukses (termasuk saya).

Richard
sumber

Jawaban:

2

Saya telah melihat pendekatan dan saya akan memilih K dengan mencoba rentang, yaitu 5k, 10k, 15k dll dan kemudian menjelajahi kisaran di mana hasil terbaik jatuh, katakan yang terbaik adalah 15k maka saya mungkin melakukan 13, 14, 15, 16, 17 dan seterusnya.

Sejauh ini saya belum menemukan pra-pemrosesan yang efektif.

Menjawab komentar:

Saya sudah mencoba menggunakan LogisticRegression, SVM, Neural Networks, RandomForests, NB Multinomial, Extra Trees. Semua kecuali Neural Networks menggunakan implementasi di sklearn. PyBrain untuk NN.

John
sumber
Mungkin Anda bisa menambahkan lebih banyak detail? Ya, kami mencoba data pelatihan berbagai ukuran. Preprocessing mana yang sudah Anda coba? pengklasifikasi mana? Terima kasih!
Richard