Apa contoh nyata dari “model statistik non-parametrik”?

12

Saya membaca artikel Wikipedia tentang model statistik di sini , dan saya agak bingung dengan arti "model statistik non-parametrik", khususnya:

Model statistik adalah nonparametrik jika set parameter adalah dimensi tak terbatas. Model statistik adalah semiparametrik jika memiliki parameter dimensi hingga dan dimensi tak terbatas. Secara formal, jika adalah dimensi dan adalah jumlah sampel, model semiparametrik dan nonparametrik memiliki sebagai . Jika sebagai , maka modelnya adalah semiparametrik; jika tidak, modelnya adalah nonparametrik.ΘdΘndnd/n0n

Saya mendapatkan bahwa jika dimensi , (saya menganggap secara harfiah, jumlah parameter) dari suatu model adalah terbatas, maka ini adalah model parametrik.

Yang tidak masuk akal bagi saya, adalah bagaimana kita dapat memiliki model statistik yang memiliki jumlah parameter tak terbatas , sehingga kita dapat menyebutnya "non-parametrik". Lebih jauh lagi, bahkan jika itu masalahnya, mengapa "non-", jika sebenarnya ada dimensi yang tak terbatas? Terakhir, karena saya datang dengan ini dari latar belakang pembelajaran mesin, apakah ada perbedaan antara "model statistik non-parametrik" ini dan mengatakan, "model pembelajaran mesin non-parametrik"? Akhirnya, seperti apa beberapa contoh konkret dari "model dimensi tak terbatas non-parametrik" itu?

Creatron
sumber
3
Menggunakan halaman Wiki lain ( en.wikipedia.org/wiki/… ): 'Model non-parametrik berbeda dari model parametrik karena struktur model tidak ditentukan secara apriori melainkan ditentukan dari data. Istilah non-parametrik tidak dimaksudkan untuk menyiratkan bahwa model seperti itu benar-benar kekurangan parameter tetapi bahwa jumlah dan sifat parameter itu fleksibel dan tidak diperbaiki terlebih dahulu. ' jadi non-parametrik tidak memiliki jumlah parameter yang tak terbatas tetapi sejumlah parameter yang tidak diketahui.
Riff
Saya ragu. Dalam model Non-parametrik, kami mendefinisikan struktur model apriori. Misalnya, dalam Pohon Keputusan (yang merupakan model Non-parametrik) kami mendefinisikan max_depth. Lalu bagaimana Anda bisa mengatakan bahwa parameter ini memang dipelajari / ditentukan dari data itu sendiri dan tidak ditentukan sebelumnya oleh kami?
Amarpreet Singh

Jawaban:

5

Seperti yang dijawab Johnnyboycurtis, metode non-parametrik adalah metode yang tidak membuat asumsi pada distribusi populasi atau ukuran sampel untuk menghasilkan model.

Model k-NN adalah contoh model non-parametrik karena tidak mempertimbangkan asumsi untuk mengembangkan model. Naive Bayes atau K-means adalah contoh parametrik karena mengasumsikan distribusi untuk membuat model.

Sebagai contoh, K-means mengasumsikan yang berikut untuk mengembangkan model. Semua kluster berbentuk bulat (iid Gaussian). Semua sumbu memiliki distribusi yang sama dan dengan demikian varian. Semua cluster berukuran sama.

Sedangkan untuk k-NN, ia menggunakan set pelatihan lengkap untuk prediksi. Ini menghitung tetangga terdekat dari titik uji untuk prediksi. Ini mengasumsikan tidak ada distribusi untuk membuat model.

Untuk info lebih lanjut:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. /stats//a/133841/86202
  3. /stats//a/133694/86202
prashanth
sumber
Bisakah Anda memperluas ini? Mengapa KNN adalah contoh non-parametrik, dan mengapa K-means mungkin? Ini adalah rincian yang saya cari, terutama contoh metode non-parametrik, dan mengapa / bagaimana mereka tidak memiliki asumsi pada distribusi populasi. Terima kasih!
Creatron
@Creatron Saya telah mengubah jawaban untuk penjelasan lebih lanjut.
prashanth
3

Jadi, saya pikir Anda kehilangan beberapa poin. Pertama, dan yang paling penting,

Metode statistik disebut non-parametrik jika tidak membuat asumsi pada distribusi populasi atau ukuran sampel.

Berikut ini adalah tutorial (diterapkan) sederhana pada beberapa model nonparmetrik: http://www.r-tutor.com/elementary-statistics/non-parametric-methods

Seorang peneliti dapat memutuskan untuk menggunakan model nonparemtric vs model parametrik, katakanlah, regresi nonparamtric vs regresi linier, adalah karena data melanggar asumsi yang dipegang oleh model parametrik. Karena Anda berasal dari latar belakang ML, saya hanya akan menganggap Anda tidak pernah mempelajari asumsi model regresi linier yang khas. Berikut ini adalah referensi: https://statistics.laerd.com/spss-tutorials/linear-regress-using-spss-statistics.php

Melanggar asumsi dapat membelokkan perkiraan parameter Anda, dan pada akhirnya meningkatkan risiko kesimpulan yang tidak valid. Model nonparametrik lebih kuat untuk pencilan, hubungan nonlinier, dan tidak bergantung pada banyak asumsi distribusi populasi, oleh karena itu, dapat memberikan kepercayaan hasil yang lebih layak ketika mencoba membuat kesimpulan atau prediksi.

Untuk tutorial singkat tentang regresi nonparametrik, saya sarankan slide ini: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf

Jon
sumber
Terima kasih atas tautannya, saya akan membahasnya. Namun satu hal, adalah bagaimana kita bisa mengawinkan ini dengan "jumlah parameter tak terbatas" yang membentuk model "non-parametrik"? Terima kasih
Creatron
Tidak ada kutipan untuk "jumlah parameter tak terbatas" itu sehingga saya tidak bisa berkomentar. Saya belum pernah melihat referensi seperti itu ke topik model statistik nonparametrik, jadi saya perlu melihat referensi sebelum saya bisa memberikan jawaban / interpretasi. Untuk saat ini, saya akan khawatir tentang asumsi model tertentu vs seluruh bidang.
Jon
Artikel wikipedia yang dikutip dalam pertanyaan saya mengacu pada dimensi tak terbatas. Secara harfiah: "Model statistik adalah non-parametrik jika set parameter berdimensi tak terbatas." Apa artinya ini? Inilah yang saya maksudkan.
Creatron
Aku tahu. Tetapi Wikipedia tidak memberikan kutipan untuk pernyataan itu. Tidak dapat mempercayai sesuatu tanpa referensi.
Jon
3

Saat ini saya mengambil kursus tentang Machine learning, di mana kami menggunakan definisi model nonparametrik berikut: "Model nonparametrik tumbuh dalam kompleksitas dengan ukuran data".

Model parametrik

Untuk melihat apa artinya, mari kita lihat regresi linier, model parametrik: Di sana kami mencoba memprediksi fungsi yang dipisah-pisahkan dalam : Dimensi w tidak tergantung pada angka pengamatan, atau ukuran data Anda.wd

f(x)=wTx

Model nonparametrik

Alih-alih regresi kernel mencoba memprediksi fungsi berikut: mana kita memiliki titik data, adalah bobot dan adalah fungsi kernel. Berikut jumlah parameter adalah tergantung pada jumlah titik data .

f(x)=i=1nαik(xi,x)
nαik(xi,x)αin

Hal yang sama berlaku untuk perceptron kernel:

f(x)=sign(i=1nαiyik(xi,x)))

Mari kita kembali ke definisi Anda dan katakan d adalah jumlah . Jika kita membiarkan maka . Itulah yang diminta definisi wikipedia.αind

Saya mengambil fungsi regresi kernel dari slide kuliah saya dan fungsi perceptron kernel dari wikipedia: https://en.wikipedia.org/wiki/Kernel_method

sop_se
sumber