Saya membaca artikel Wikipedia tentang model statistik di sini , dan saya agak bingung dengan arti "model statistik non-parametrik", khususnya:
Model statistik adalah nonparametrik jika set parameter adalah dimensi tak terbatas. Model statistik adalah semiparametrik jika memiliki parameter dimensi hingga dan dimensi tak terbatas. Secara formal, jika adalah dimensi dan adalah jumlah sampel, model semiparametrik dan nonparametrik memiliki sebagai . Jika sebagai , maka modelnya adalah semiparametrik; jika tidak, modelnya adalah nonparametrik.
Saya mendapatkan bahwa jika dimensi , (saya menganggap secara harfiah, jumlah parameter) dari suatu model adalah terbatas, maka ini adalah model parametrik.
Yang tidak masuk akal bagi saya, adalah bagaimana kita dapat memiliki model statistik yang memiliki jumlah parameter tak terbatas , sehingga kita dapat menyebutnya "non-parametrik". Lebih jauh lagi, bahkan jika itu masalahnya, mengapa "non-", jika sebenarnya ada dimensi yang tak terbatas? Terakhir, karena saya datang dengan ini dari latar belakang pembelajaran mesin, apakah ada perbedaan antara "model statistik non-parametrik" ini dan mengatakan, "model pembelajaran mesin non-parametrik"? Akhirnya, seperti apa beberapa contoh konkret dari "model dimensi tak terbatas non-parametrik" itu?
sumber
Jawaban:
Seperti yang dijawab Johnnyboycurtis, metode non-parametrik adalah metode yang tidak membuat asumsi pada distribusi populasi atau ukuran sampel untuk menghasilkan model.
Model k-NN adalah contoh model non-parametrik karena tidak mempertimbangkan asumsi untuk mengembangkan model. Naive Bayes atau K-means adalah contoh parametrik karena mengasumsikan distribusi untuk membuat model.
Sebagai contoh, K-means mengasumsikan yang berikut untuk mengembangkan model. Semua kluster berbentuk bulat (iid Gaussian). Semua sumbu memiliki distribusi yang sama dan dengan demikian varian. Semua cluster berukuran sama.
Sedangkan untuk k-NN, ia menggunakan set pelatihan lengkap untuk prediksi. Ini menghitung tetangga terdekat dari titik uji untuk prediksi. Ini mengasumsikan tidak ada distribusi untuk membuat model.
Untuk info lebih lanjut:
sumber
Jadi, saya pikir Anda kehilangan beberapa poin. Pertama, dan yang paling penting,
Berikut ini adalah tutorial (diterapkan) sederhana pada beberapa model nonparmetrik: http://www.r-tutor.com/elementary-statistics/non-parametric-methods
Seorang peneliti dapat memutuskan untuk menggunakan model nonparemtric vs model parametrik, katakanlah, regresi nonparamtric vs regresi linier, adalah karena data melanggar asumsi yang dipegang oleh model parametrik. Karena Anda berasal dari latar belakang ML, saya hanya akan menganggap Anda tidak pernah mempelajari asumsi model regresi linier yang khas. Berikut ini adalah referensi: https://statistics.laerd.com/spss-tutorials/linear-regress-using-spss-statistics.php
Melanggar asumsi dapat membelokkan perkiraan parameter Anda, dan pada akhirnya meningkatkan risiko kesimpulan yang tidak valid. Model nonparametrik lebih kuat untuk pencilan, hubungan nonlinier, dan tidak bergantung pada banyak asumsi distribusi populasi, oleh karena itu, dapat memberikan kepercayaan hasil yang lebih layak ketika mencoba membuat kesimpulan atau prediksi.
Untuk tutorial singkat tentang regresi nonparametrik, saya sarankan slide ini: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf
sumber
Saat ini saya mengambil kursus tentang Machine learning, di mana kami menggunakan definisi model nonparametrik berikut: "Model nonparametrik tumbuh dalam kompleksitas dengan ukuran data".
Model parametrik
Untuk melihat apa artinya, mari kita lihat regresi linier, model parametrik: Di sana kami mencoba memprediksi fungsi yang dipisah-pisahkan dalam : Dimensi w tidak tergantung pada angka pengamatan, atau ukuran data Anda.w∈Rd
Model nonparametrik
Alih-alih regresi kernel mencoba memprediksi fungsi berikut: mana kita memiliki titik data, adalah bobot dan adalah fungsi kernel. Berikut jumlah parameter adalah tergantung pada jumlah titik data .
Hal yang sama berlaku untuk perceptron kernel:
Mari kita kembali ke definisi Anda dan katakan d adalah jumlah . Jika kita membiarkan maka . Itulah yang diminta definisi wikipedia.αi n→∞ d→∞
Saya mengambil fungsi regresi kernel dari slide kuliah saya dan fungsi perceptron kernel dari wikipedia: https://en.wikipedia.org/wiki/Kernel_method
sumber