OLS vs regresi logistik untuk analisis eksplorasi dengan hasil biner

8

Dalam model logistik ideal, kami memperoleh kurva berbentuk S yang menghubungkan setiap IV kontinu ke DV. Tetapi dalam praktiknya bentuk-S ini jarang terjadi, membuat pendekatan logistik tampak sedikit kurang unggul untuk tipe data seperti itu. Tentu saja probabilitas yang diprediksi bahwa setiap pengamatan akan "1" pada DV dapat digunakan dalam logistik dan tidak dalam regresi OLS, karena dalam yang terakhir probabilitas ini dapat melebihi batas [0,1]. Tetapi, untuk tujuan eksplorasi, dan jika kita tidak membutuhkan probabilitas yang diprediksi, seberapa sehat menggunakan OLS untuk melihat IV mana yang memiliki hubungan kuat vs sedang vs lemah dengan DV? Bukankah ini sama dengan versi multivariat dari korelasi titik-biserial? (Koefisien regresi terstandarisasi, belum lagi statistik collinearity dan plot parsial,

rolando2
sumber

Jawaban:

7

Jika variabel penjelas memiliki nilai di seluruh garis nyata, tidak masuk akal untuk menyatakan harapan yang proporsional [0,1]sebagai fungsi linier dari variabel yang didefinisikan pada seluruh garis nyata. Jika bentuk sigmoid dari transformasi logit tidak menggambarkan bentuk maka mungkin yang terbaik adalah mencari transformasi berbeda yang dipetakan[0,1] ke (-,).

Michael R. Chernick
sumber
4
+1. Untuk menambah hal terakhir yang dikatakan Michael, log probit dan log gratis adalah dua fungsi lain yang dipetakan(0,1) untuk (-,)yang diimplementasikan dalam banyak paket perangkat lunak.
Makro
3
Perhatikan juga, bahwa hampir semua fungsi yang sesuai dengan CDF untuk beberapa variabel acak nilai riil adalah kandidat. Logistik, Probit, dan C-log-log adalah tiga fungsi tersebut (variabel sekan hiperbolik, normal dan nilai ekstrim). Jadi Anda juga bisa "pada prinsipnya" menggunakan fungsi tautan condong-normal, atau eksponensial ganda, atau t, dll. Distribusi T berguna ketika derajat kebebasan diperlakukan sebagai tidak diketahui, karena Anda dapat menyeimbangkan antara kemungkinan tautan logit fungsi.
probabilityislogic
@probabilityislogic, Anda telah membuat poin penting tetapi nitpick: Saya pikir fungsi logistik adalah (kebalikan) CDF dari distribusi logistik, bukan distribusi sekan hiperbolik.
Makro
Terima kasih untuk semuanya. Apakah itu mengikuti jawaban Anda bahwa Anda praktis tidak akan pernah menggunakan korelasi point-biserial?
rolando2
Terjadi pada hal berikut: "Regresi OLS. Ketika digunakan dengan variabel respon biner, model ini dikenal sebagai model probabilitas linier dan dapat digunakan sebagai cara untuk menggambarkan probabilitas bersyarat. [...] Untuk diskusi lebih lanjut tentang [ ...] masalah dengan model probabilitas linier, lihat Long (1997, p. 38-40). Long, J. Scott (1997). Model Regresi untuk Variabel Ketergantungan dan Kategori Terbatas. Thousand Oaks, CA: Sage Publications. " ats.ucla.edu/stat/stata/dae/logit.htm
rolando2