Saya baru saja menerima pertanyaan berikut melalui email. Saya akan mengirim jawaban di bawah, tetapi saya tertarik untuk mendengar apa yang dipikirkan orang lain.
Apakah Anda menyebut regresi logistik sebagai tes non-parametrik? Pemahaman saya adalah bahwa hanya memberi label tes non-parametrik karena datanya tidak terdistribusi normal, tidak cukup. Ini lebih berkaitan dengan kurangnya asumsi. regresi logistik memang memiliki asumsi.
hypothesis-testing
logistic
nonparametric
Jeromy Anglim
sumber
sumber
Jawaban:
Larry Wasserman mendefinisikan model parametrik sebagai satu set distribusi "yang dapat diparameterisasi dengan sejumlah parameter terbatas." (hal.87) Sebaliknya, model nonparametrik adalah sekumpulan distribusi yang tidak dapat dibatasi oleh sejumlah parameter yang terbatas.
Jadi, dengan definisi itu, regresi logistik standar adalah model parametrik. Model regresi logistik adalah parametrik karena memiliki seperangkat parameter yang terbatas. Secara khusus, parameternya adalah koefisien regresi. Ini biasanya sesuai dengan satu untuk setiap prediksi ditambah konstanta. Regresi logistik adalah bentuk khusus dari model linier umum. Secara khusus ini melibatkan penggunaan fungsi tautan logit untuk memodelkan data yang didistribusikan secara biner.
Menariknya, adalah mungkin untuk melakukan regresi logistik nonparametrik (misalnya, Hastie, 1983). Ini mungkin melibatkan penggunaan splines atau beberapa bentuk smoothing non-parametrik untuk memodelkan efek prediktor.
Referensi
sumber
Saya akan mengatakan regresi logistik bukanlah tes sama sekali; Namun, regresi logistik kemudian dapat menyebabkan tidak ada tes atau beberapa tes.
Anda cukup benar bahwa memberi label sesuatu nonparametrik karena tidak normal tidak cukup. Saya akan memanggil keluarga eksponensial secara eksplisit parametrik, jadi saya biasanya menganggap regresi logistik (dan regresi Poisson dan regresi Gamma dan ...) sebagai parametrik, meskipun mungkin ada keadaan di mana saya mungkin menerima argumen yang dapat dilakukan regresi logistik tertentu. dianggap sebagai nonparametrik (atau setidaknya dalam arti bergelombang tangan, hanya quasi- "parametrik").
Waspadalah setiap kebingungan atas dua pengertian di mana regresi dapat disebut nonparametric.
Kedua indera digunakan, tetapi ketika datang ke regresi, jenis kedua sebenarnya lebih sering digunakan.
Mungkin juga untuk menjadi nonparametrik, tetapi lebih sulit (dengan data yang cukup, saya bisa, misalnya, cocok dengan regresi linier berbobot lokal Theil).
Dalam kasus GLM, bentuk kedua dari regresi berganda nonparametrik meliputi GAM; bentuk kedua itu adalah arti di mana Hastie umumnya beroperasi (dan di mana ia beroperasi dalam kutipan itu).
sumber
Satu perbedaan yang bermanfaat yang mungkin menambah sedikit jawaban di atas: Andrew Ng memberi heuristik untuk apa artinya menjadi model non-parametrik dalam Kuliah 1 dari materi kursus untuk kursus CS-229 Stanford tentang pembelajaran mesin.
There Ng mengatakan (hal. 14-15):
Saya pikir ini adalah cara kontras yang berguna untuk memikirkannya karena ia menanamkan gagasan kompleksitas secara langsung. Model non-parametrik secara inheren tidak kurang kompleks, karena mereka mungkin memerlukan lebih banyak data pelatihan di sekitar. Ini hanya berarti bahwa Anda tidak mengurangi penggunaan data pelatihan dengan mengompresnya ke dalam penghitungan parameter yang halus. Untuk efisiensi atau ketidakberpihakan atau sejumlah properti lainnya, Anda mungkin ingin membuat parameter. Tetapi mungkin ada keuntungan kinerja jika Anda mampu melupakan parameterisasi dan menyimpan banyak data di sekitar.
sumber
Saya pikir regresi logistik adalah teknik parametrik.
Ini mungkin membantu, dari Wolfowitz (1942) [Fungsi Partisi Aditif dan Kelas Hipotesis Statistik The Annals of Mathematical Statistics, 1942, 13, 247-279]:
Juga, setelah mendengar ini banyak dibahas, saya menemukan ini lucu oleh Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistician, 1984, 38, 173-178]:
sumber
Hastie dan Tibshirani mendefinisikan bahwa regresi linier adalah pendekatan parametrik karena mengasumsikan bentuk fungsional linier dari f (X). Metode non-parametrik tidak secara eksplisit mengasumsikan bentuk untuk f (X). Ini berarti bahwa metode non-parametrik akan sesuai dengan model berdasarkan pada estimasi f, dihitung dari model. Regresi logistik menetapkan bahwa p (x) = Pr (Y = 1 | X = x) di mana probabilitas dihitung oleh fungsi logistik tetapi batas logistik yang memisahkan kelas-kelas tersebut tidak diasumsikan, yang menegaskan bahwa LR juga non-parametrik
sumber