Dari apa yang saya pahami, kita hanya bisa membangun fungsi regresi yang terletak di dalam interval data pelatihan.
Misalnya (hanya satu panel yang diperlukan):
Bagaimana saya memprediksi ke masa depan menggunakan regresor KNN? Sekali lagi, tampaknya hanya memperkirakan fungsi yang berada dalam interval data pelatihan.
Pertanyaan saya: Apa keuntungan menggunakan regresor KNN? Saya mengerti bahwa ini adalah alat yang sangat kuat untuk klasifikasi, tetapi tampaknya akan berkinerja buruk dalam skenario regresi.
regression
machine-learning
k-nearest-neighbour
gung - Reinstate Monica
sumber
sumber
Jawaban:
Metode lokal seperti K-NN masuk akal dalam beberapa situasi.
Salah satu contoh yang saya lakukan di pekerjaan sekolah harus dilakukan dengan memprediksi kekuatan tekan berbagai campuran bahan semen. Semua bahan ini relatif tidak mudah menguap sehubungan dengan respons atau satu sama lain dan KNN membuat prediksi yang dapat diandalkan. Dengan kata lain tidak ada variabel independen yang memiliki varians yang tidak proporsional besar untuk diberikan kepada model baik secara individu atau mungkin dengan interaksi timbal balik.
Ambil ini dengan sebutir garam karena saya tidak tahu teknik investigasi data yang secara meyakinkan menunjukkan hal ini tetapi secara intuitif tampaknya masuk akal bahwa jika fitur Anda memiliki beberapa varian tingkat yang proporsional, saya tidak tahu proporsi apa, Anda mungkin memiliki Calon KNN. Saya tentu ingin tahu apakah ada beberapa penelitian dan teknik yang dihasilkan dikembangkan untuk efek ini.
Jika Anda memikirkannya dari perspektif domain umum ada kelas luas aplikasi di mana 'resep' yang sama menghasilkan hasil yang serupa. Ini tentu saja menggambarkan situasi memprediksi hasil pencampuran semen. Saya akan mengatakan jika Anda memiliki data yang berperilaku sesuai dengan deskripsi ini dan sebagai tambahan ukuran jarak Anda juga alami untuk domain yang ada dan terakhir bahwa Anda memiliki data yang cukup, saya akan membayangkan bahwa Anda harus mendapatkan hasil yang bermanfaat dari KNN atau metode lokal lain .
Anda juga mendapatkan manfaat dari bias yang sangat rendah ketika Anda menggunakan metode lokal. Terkadang general aditif model (GAM) menyeimbangkan bias dan varians dengan menyesuaikan setiap variabel individu menggunakan KNN sedemikian rupa sehingga:
Bagian aditif (simbol plus) melindungi terhadap varian tinggi sementara penggunaan KNN sebagai ganti melindungi terhadap bias tinggi.fn( xn)
Saya tidak akan menghapus KNN begitu cepat. Itu memiliki tempatnya.
sumber
Saya tidak suka mengatakannya tetapi sebenarnya jawaban singkatnya adalah, bahwa "memprediksi ke masa depan" tidak mungkin dilakukan dengan knn atau dengan pengklasifikasi atau regressor yang ada saat ini.
Tentu Anda dapat memperkirakan garis regresi linier atau bidang hiper SVM tetapi pada akhirnya Anda tidak tahu apa yang akan terjadi di masa depan, untuk semua yang kita tahu, garis mungkin hanya sebagian kecil dari kenyataan melengkung. Ini menjadi jelas ketika Anda melihat metode Bayesian seperti proses Gaussian misalnya, Anda akan melihat ketidakpastian besar segera setelah Anda meninggalkan "domain input yang dikenal".
Tentu saja Anda dapat mencoba untuk menggeneralisasi dari apa yang terjadi hari ini ke apa yang mungkin terjadi besok, yang dapat dengan mudah dilakukan dengan seorang ahli perunding (misalnya nomor pelanggan tahun lalu selama waktu Natal dapat memberi Anda petunjuk yang baik tentang angka tahun ini). Tentu metode lain dapat menggabungkan tren dan sebagainya, tetapi pada akhirnya Anda dapat melihat seberapa baik itu bekerja ketika datang ke pasar saham atau prediksi cuaca jangka panjang.
sumber
Pertama contoh untuk "Bagaimana saya memprediksi ke masa depan menggunakan regressor KNN?".
Tune the weight, lihat misalnya invers-distance-weighted-idw-interpolasi-with-python ,
dan metrik jarak untuk "Tetangga terdekat" di 7d.
"Apa keuntungan menggunakan regresor KNN?"
Untuk komentar baik orang lain, saya akan menambahkan kode dan pemahaman yang mudah, dan meningkatkannya menjadi data besar.
Kekurangan: sensitif terhadap data dan penyetelan, tidak banyak pemahaman .
Jadi baris pertama Anda "kami hanya dapat membangun fungsi regresi yang terletak di dalam interval data pelatihan" tampaknya tentang kata "regresi" yang membingungkan.)
sumber
Dari Pengantar Pembelajaran Statistik , bagian 3.5:
Tetapi ada kendala (bukan dari buku teks, hanya apa yang saya simpulkan):
sumber