Apakah regresi logistik merupakan tes non-parametrik?

15

Saya baru saja menerima pertanyaan berikut melalui email. Saya akan mengirim jawaban di bawah, tetapi saya tertarik untuk mendengar apa yang dipikirkan orang lain.

Apakah Anda menyebut regresi logistik sebagai tes non-parametrik? Pemahaman saya adalah bahwa hanya memberi label tes non-parametrik karena datanya tidak terdistribusi normal, tidak cukup. Ini lebih berkaitan dengan kurangnya asumsi. regresi logistik memang memiliki asumsi.

Jeromy Anglim
sumber
7
(+1) Sebagai catatan - dan sebagai tandingan terhadap pernyataan dalam pertanyaan - saya tahu tidak ada referensi yang dapat diandalkan yang mendefinisikan (atau bahkan mengkarakterisasi) metode non-parametrik sebagai "kurang asumsi." Semua prosedur statistik membuat asumsi. Sebagian besar prosedur non-parametrik benar-benar membuat asumsi kuantitatif terbatas tentang distribusi probabilitas yang mendasarinya, tetapi asumsi tersebut tidak mempersempit keadaan yang mungkin terjadi pada suatu set yang memiliki struktur manifold nyata dimensi terbatas.
whuber
catatan(P(Ysaya=1|Xsaya=x)P(Ysaya=0|Xsaya=x))=f(x)
x
Saya mengajukan pertanyaan terkait di sini . Saya mulai memahami bahwa beberapa kasus GLM (misalnya model logistik) menyediakan tes non-parametrik. Saya akan melihat ke buku Wasserman, meskipun (kecuali saya salah ingat) ada beberapa ketidaksepakatan tentang beberapa prinsip dan temuan karyanya.
AdamO

Jawaban:

19

Larry Wasserman mendefinisikan model parametrik sebagai satu set distribusi "yang dapat diparameterisasi dengan sejumlah parameter terbatas." (hal.87) Sebaliknya, model nonparametrik adalah sekumpulan distribusi yang tidak dapat dibatasi oleh sejumlah parameter yang terbatas.

Jadi, dengan definisi itu, regresi logistik standar adalah model parametrik. Model regresi logistik adalah parametrik karena memiliki seperangkat parameter yang terbatas. Secara khusus, parameternya adalah koefisien regresi. Ini biasanya sesuai dengan satu untuk setiap prediksi ditambah konstanta. Regresi logistik adalah bentuk khusus dari model linier umum. Secara khusus ini melibatkan penggunaan fungsi tautan logit untuk memodelkan data yang didistribusikan secara biner.

Menariknya, adalah mungkin untuk melakukan regresi logistik nonparametrik (misalnya, Hastie, 1983). Ini mungkin melibatkan penggunaan splines atau beberapa bentuk smoothing non-parametrik untuk memodelkan efek prediktor.

Referensi

  • Wasserman, L. (2004). Semua statistik: kursus singkat dalam inferensi statistik. Springer Verlag.
  • Hastie, T. (1983). Regresi logistik non-parametrik. SLAC PUB-3160, Juni. PDF
Jeromy Anglim
sumber
Model adalah seperangkat distribusi? Sesuatu yang esensial hilang di sana.
rolando2
Apakah biasa mengajukan pertanyaan dan menjawabnya sendiri?
1
@ FPC didorong. blog.stackoverflow.com/2011/07/...
Jeromy Anglim
Ok maaf, saya tidak tahu
Jangan khawatir. Bagi saya poin utama situs ini adalah menciptakan sumber daya yang ditemukan orang lain ketika mencari jawaban di masa depan. Menyumbangkan jawaban Anda sendiri membantu dengan semua itu.
Jeromy Anglim
16

Saya akan mengatakan regresi logistik bukanlah tes sama sekali; Namun, regresi logistik kemudian dapat menyebabkan tidak ada tes atau beberapa tes.

Anda cukup benar bahwa memberi label sesuatu nonparametrik karena tidak normal tidak cukup. Saya akan memanggil keluarga eksponensial secara eksplisit parametrik, jadi saya biasanya menganggap regresi logistik (dan regresi Poisson dan regresi Gamma dan ...) sebagai parametrik, meskipun mungkin ada keadaan di mana saya mungkin menerima argumen yang dapat dilakukan regresi logistik tertentu. dianggap sebagai nonparametrik (atau setidaknya dalam arti bergelombang tangan, hanya quasi- "parametrik").

Waspadalah setiap kebingungan atas dua pengertian di mana regresi dapat disebut nonparametric.

xyx

yx

Kedua indera digunakan, tetapi ketika datang ke regresi, jenis kedua sebenarnya lebih sering digunakan.

Mungkin juga untuk menjadi nonparametrik, tetapi lebih sulit (dengan data yang cukup, saya bisa, misalnya, cocok dengan regresi linier berbobot lokal Theil).

Dalam kasus GLM, bentuk kedua dari regresi berganda nonparametrik meliputi GAM; bentuk kedua itu adalah arti di mana Hastie umumnya beroperasi (dan di mana ia beroperasi dalam kutipan itu).

Glen_b -Reinstate Monica
sumber
3

Satu perbedaan yang bermanfaat yang mungkin menambah sedikit jawaban di atas: Andrew Ng memberi heuristik untuk apa artinya menjadi model non-parametrik dalam Kuliah 1 dari materi kursus untuk kursus CS-229 Stanford tentang pembelajaran mesin.

There Ng mengatakan (hal. 14-15):

θsayaθsayah

Saya pikir ini adalah cara kontras yang berguna untuk memikirkannya karena ia menanamkan gagasan kompleksitas secara langsung. Model non-parametrik secara inheren tidak kurang kompleks, karena mereka mungkin memerlukan lebih banyak data pelatihan di sekitar. Ini hanya berarti bahwa Anda tidak mengurangi penggunaan data pelatihan dengan mengompresnya ke dalam penghitungan parameter yang halus. Untuk efisiensi atau ketidakberpihakan atau sejumlah properti lainnya, Anda mungkin ingin membuat parameter. Tetapi mungkin ada keuntungan kinerja jika Anda mampu melupakan parameterisasi dan menyimpan banyak data di sekitar.

Ely
sumber
0

Saya pikir regresi logistik adalah teknik parametrik.

Ini mungkin membantu, dari Wolfowitz (1942) [Fungsi Partisi Aditif dan Kelas Hipotesis Statistik The Annals of Mathematical Statistics, 1942, 13, 247-279]:

"Fungsi distribusi [catatan: jamak !!!] dari berbagai variabel stokastik yang masuk ke masalah mereka diasumsikan dari bentuk fungsional yang diketahui, dan teori estimasi dan pengujian hipotesis adalah teori estimasi dan pengujian hipotesis tentang , satu atau lebih parameter, dalam jumlah terbatas, pengetahuan yang akan sepenuhnya menentukan berbagai fungsi distribusi yang terlibat. Kami akan merujuk pada situasi ini untuk singkatnya sebagai kasus parametrik, dan menunjukkan situasi yang berlawanan, di mana bentuk fungsional dari distribusi tidak diketahui ', sebagai kasus non-parametrik.

Juga, setelah mendengar ini banyak dibahas, saya menemukan ini lucu oleh Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistician, 1984, 38, 173-178]:

"Istilah nonparametrik mungkin memiliki beberapa makna dan makna historis bagi ahli statistik teoritis, tetapi hanya berfungsi untuk membingungkan ahli statistik terapan."

AndyF
sumber
0

Hastie dan Tibshirani mendefinisikan bahwa regresi linier adalah pendekatan parametrik karena mengasumsikan bentuk fungsional linier dari f (X). Metode non-parametrik tidak secara eksplisit mengasumsikan bentuk untuk f (X). Ini berarti bahwa metode non-parametrik akan sesuai dengan model berdasarkan pada estimasi f, dihitung dari model. Regresi logistik menetapkan bahwa p (x) = Pr (Y = 1 | X = x) di mana probabilitas dihitung oleh fungsi logistik tetapi batas logistik yang memisahkan kelas-kelas tersebut tidak diasumsikan, yang menegaskan bahwa LR juga non-parametrik

Juan Zamora
sumber