Adakah yang bisa menjelaskan kepada saya perbedaan nyata antara analisis regresi dan pemasangan kurva (linear dan nonlinier), dengan contoh jika mungkin?
Tampaknya keduanya mencoba untuk menemukan hubungan antara dua variabel (dependen vs independen) dan kemudian menentukan parameter (atau koefisien) yang terkait dengan model yang diusulkan. Misalnya, jika saya memiliki satu set data seperti:
Y = [1.000 1.000 1.000 0.961 0.884 0.000]
X = [1.000 0.063 0.031 0.012 0.005 0.000]
Adakah yang bisa menyarankan formula korelasi antara kedua variabel ini? Saya mengalami kesulitan memahami perbedaan antara kedua pendekatan ini. Jika Anda lebih suka mendukung jawaban Anda dengan set data lain, tidak apa-apa karena itu sepertinya sulit untuk dimasukkan (mungkin hanya untuk saya).
Kumpulan data di atas menunjukkan sumbu dan dari kurva karakteristik operasi penerima (ROC), di mana adalah tingkat positif sejati (TPR) dan adalah tingkat positif palsu (FPR).
Saya mencoba menyesuaikan kurva, atau melakukan analisis regresi sesuai pertanyaan awal saya, belum yakin, di antara poin-poin ini untuk memperkirakan TPR untuk FPR tertentu (atau sebaliknya).
Pertama, apakah secara ilmiah dapat diterima untuk menemukan fungsi pemasangan kurva antara dua variabel independen (TPR dan FPR)?
Kedua, apakah secara ilmiah dapat diterima untuk menemukan fungsi seperti itu jika saya tahu bahwa distribusi dari kasus negatif aktual dan positif sebenarnya tidak normal?
sumber
Jawaban:
Saya ragu bahwa ada perbedaan yang jelas dan konsisten di antara sains dan bidang yang berpikiran statistik antara regresi dan penyesuaian kurva .
Regresi tanpa kualifikasi menyiratkan regresi linier dan estimasi kuadrat-terkecil. Itu tidak mengesampingkan pengertian lain atau lebih luas: memang begitu Anda mengizinkan logit, Poisson, regresi binomial negatif, dll., Dll. Semakin sulit untuk melihat pemodelan apa yang bukan regresi dalam beberapa hal.
Pemasangan kurva benar-benar menunjukkan kurva yang dapat digambar di pesawat atau setidaknya dalam ruang dimensi rendah. Regresi tidak dibatasi dan dapat memprediksi permukaan dalam ruang beberapa dimensi.
Pemasangan kurva mungkin atau mungkin tidak menggunakan regresi linier dan / atau kuadrat terkecil. Ini mungkin merujuk pada pemasangan polinomial (rangkaian daya) atau seperangkat istilah sinus dan kosinus atau dalam beberapa cara lain benar-benar memenuhi syarat sebagai regresi linier dalam arti kunci pas bentuk fungsional linear dalam parameter. Memang kurva pas ketika regresi nonlinier adalah regresi juga.
Istilah pas kurva dapat digunakan dalam arti yang meremehkan, merendahkan, mencela atau meremehkan ("itu hanya pemasangan kurva!") Atau (hampir kebalikan lengkap) itu mungkin merujuk pada pemasangan kurva khusus yang dipilih dengan cermat dengan fisik tertentu (biologis, alasan ekonomi, apa pun) atau dirancang agar sesuai dengan jenis perilaku awal atau terbatas tertentu (misalnya selalu positif, dibatasi dalam satu atau kedua arah, monoton, dengan infleksion, dengan satu titik balik, osilasi, dll.).
Salah satu dari beberapa masalah fuzzy di sini adalah bahwa bentuk fungsional yang sama dapat paling empiris dalam beberapa keadaan dan teori yang sangat baik dalam keadaan lain. Newton mengajarkan bahwa lintasan proyektil dapat bersifat parabola, dan secara alami dilengkapi oleh kuadratik, sedangkan kuadratik yang disesuaikan dengan usia yang tergantung pada ilmu sosial sering kali hanya kebohongan yang cocok dengan beberapa kelengkungan dalam data. Peluruhan eksponensial adalah perkiraan yang sangat baik untuk isotop radioaktif dan kadang-kadang tebakan yang tidak terlalu gila untuk penurunan nilai lahan dengan jarak dari pusat.
Contoh Anda tidak mendapatkan tebakan eksplisit dari saya. Sebagian besar poin di sini adalah bahwa dengan kumpulan data yang sangat kecil dan tepatnya tidak ada informasi tentang variabel apa atau bagaimana mereka diharapkan untuk berperilaku itu bisa menjadi tidak bertanggung jawab atau bodoh untuk menyarankan bentuk model. Mungkin data harus naik tajam dari (0, 0) dan kemudian mendekati (1, 1), atau mungkin sesuatu yang lain. Anda beritahu kami!
Catatan. Baik regresi maupun penyesuaian kurva tidak terbatas pada prediktor tunggal atau parameter tunggal (koefisien).
sumber
Selain jawaban luar biasa @ NickCox (+1), saya ingin berbagi kesan subjektif saya tentang topik terminologi yang agak kabur ini . Saya berpikir bahwa perbedaan yang agak halus antara kedua istilah tersebut terletak pada yang berikut ini. Di satu sisi, regresi sering, jika tidak selalu, menyiratkan solusi analitis (referensi ke regressor menyiratkan penentuan parameter mereka , maka argumen saya tentang solusi analitis). Di sisi lain, pemasangan kurva tidak selalu menyiratkan menghasilkan solusi analitis dan IMHO sering mungkin dan digunakan sebagai pendekatan eksplorasi .
sumber