Perbedaan antara analisis regresi dan pemasangan kurva

17

Adakah yang bisa menjelaskan kepada saya perbedaan nyata antara analisis regresi dan pemasangan kurva (linear dan nonlinier), dengan contoh jika mungkin?

Tampaknya keduanya mencoba untuk menemukan hubungan antara dua variabel (dependen vs independen) dan kemudian menentukan parameter (atau koefisien) yang terkait dengan model yang diusulkan. Misalnya, jika saya memiliki satu set data seperti:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

Adakah yang bisa menyarankan formula korelasi antara kedua variabel ini? Saya mengalami kesulitan memahami perbedaan antara kedua pendekatan ini. Jika Anda lebih suka mendukung jawaban Anda dengan set data lain, tidak apa-apa karena itu sepertinya sulit untuk dimasukkan (mungkin hanya untuk saya).

Kumpulan data di atas menunjukkan sumbu dan dari kurva karakteristik operasi penerima (ROC), di mana adalah tingkat positif sejati (TPR) dan adalah tingkat positif palsu (FPR).xyyx

Saya mencoba menyesuaikan kurva, atau melakukan analisis regresi sesuai pertanyaan awal saya, belum yakin, di antara poin-poin ini untuk memperkirakan TPR untuk FPR tertentu (atau sebaliknya).

Pertama, apakah secara ilmiah dapat diterima untuk menemukan fungsi pemasangan kurva antara dua variabel independen (TPR dan FPR)?

Kedua, apakah secara ilmiah dapat diterima untuk menemukan fungsi seperti itu jika saya tahu bahwa distribusi dari kasus negatif aktual dan positif sebenarnya tidak normal?

Ali Sultan
sumber
1
Istilah (sayangnya) digunakan secara berbeda oleh orang yang berbeda & dalam konteks yang berbeda. Bisakah Anda menautkan / memberikan contoh di mana orang membedakan di antara mereka?
gung - Reinstate Monica
Itulah yang saya coba cari tahu, bagaimana mereka berbeda dan bagaimana saya bisa membedakan mereka.
Ali Sultan
1
Cukup adil, tetapi adakah yang memberi tahu Anda bahwa mereka seharusnya berbeda?
gung - Reinstate Monica
2
Di situs ini beberapa orang telah menggunakan "fitting curve" dalam pengertian yang tidak dapat dianggap regresi. Misalnya, beberapa dari mereka memandang mengestimasi kepadatan sebagai bentuk "fitting kurva" ke histogram.
whuber

Jawaban:

22

Saya ragu bahwa ada perbedaan yang jelas dan konsisten di antara sains dan bidang yang berpikiran statistik antara regresi dan penyesuaian kurva .

Regresi tanpa kualifikasi menyiratkan regresi linier dan estimasi kuadrat-terkecil. Itu tidak mengesampingkan pengertian lain atau lebih luas: memang begitu Anda mengizinkan logit, Poisson, regresi binomial negatif, dll., Dll. Semakin sulit untuk melihat pemodelan apa yang bukan regresi dalam beberapa hal.

Pemasangan kurva benar-benar menunjukkan kurva yang dapat digambar di pesawat atau setidaknya dalam ruang dimensi rendah. Regresi tidak dibatasi dan dapat memprediksi permukaan dalam ruang beberapa dimensi.

Pemasangan kurva mungkin atau mungkin tidak menggunakan regresi linier dan / atau kuadrat terkecil. Ini mungkin merujuk pada pemasangan polinomial (rangkaian daya) atau seperangkat istilah sinus dan kosinus atau dalam beberapa cara lain benar-benar memenuhi syarat sebagai regresi linier dalam arti kunci pas bentuk fungsional linear dalam parameter. Memang kurva pas ketika regresi nonlinier adalah regresi juga.

Istilah pas kurva dapat digunakan dalam arti yang meremehkan, merendahkan, mencela atau meremehkan ("itu hanya pemasangan kurva!") Atau (hampir kebalikan lengkap) itu mungkin merujuk pada pemasangan kurva khusus yang dipilih dengan cermat dengan fisik tertentu (biologis, alasan ekonomi, apa pun) atau dirancang agar sesuai dengan jenis perilaku awal atau terbatas tertentu (misalnya selalu positif, dibatasi dalam satu atau kedua arah, monoton, dengan infleksion, dengan satu titik balik, osilasi, dll.).

Salah satu dari beberapa masalah fuzzy di sini adalah bahwa bentuk fungsional yang sama dapat paling empiris dalam beberapa keadaan dan teori yang sangat baik dalam keadaan lain. Newton mengajarkan bahwa lintasan proyektil dapat bersifat parabola, dan secara alami dilengkapi oleh kuadratik, sedangkan kuadratik yang disesuaikan dengan usia yang tergantung pada ilmu sosial sering kali hanya kebohongan yang cocok dengan beberapa kelengkungan dalam data. Peluruhan eksponensial adalah perkiraan yang sangat baik untuk isotop radioaktif dan kadang-kadang tebakan yang tidak terlalu gila untuk penurunan nilai lahan dengan jarak dari pusat.

Contoh Anda tidak mendapatkan tebakan eksplisit dari saya. Sebagian besar poin di sini adalah bahwa dengan kumpulan data yang sangat kecil dan tepatnya tidak ada informasi tentang variabel apa atau bagaimana mereka diharapkan untuk berperilaku itu bisa menjadi tidak bertanggung jawab atau bodoh untuk menyarankan bentuk model. Mungkin data harus naik tajam dari (0, 0) dan kemudian mendekati (1, 1), atau mungkin sesuatu yang lain. Anda beritahu kami!

Catatan. Baik regresi maupun penyesuaian kurva tidak terbatas pada prediktor tunggal atau parameter tunggal (koefisien).

Nick Cox
sumber
2
"Curve-fitting" berkonotasi dengan sesuatu yang teoretis (misalnya, lowess) kepada saya. Ekonom kadang-kadang mencemooh fungsi teoretis yang cocok sebagai 'bagan', yang terdengar mirip dengan beberapa penggunaan kurva-pas. Saya pikir itu (misalnya lowess) memiliki pro & kontra, ketika dipahami dengan benar. Sulit untuk mengetahui bagaimana seseorang memaksudkan istilah-istilah yang jelas tanpa konteks.
gung - Reinstate Monica
1
@ung saya pikir ada bagian-jocular, bagian-serius penggunaan serupa di beberapa ilmu alam (dan tidak alami). Salah satu masalah adalah parameter yang diberikan cukup, Anda tentu memiliki banyak ruang gerak. Saya teringat model deret waktu yang memungkinkan tidak hanya ARIMA tetapi juga istilah dan langkah sinusoidal, landai dan lonjakan di mana pun data menyarankan.
Nick Cox
Saya kedua @ung, pas kurva memiliki konotasi yang lebih nonparametrik, setidaknya bagi saya.
Christoph Hanck
1
@ChristophHanck Tolong jangan bawa "nonparametric" ke dalam ini! Diskusi sudah cukup berlumpur!
Nick Cox
1
@ung: Berpikir tentang smoothing splines dan metode RKHS secara umum sebagai tulang punggung "kurva-pas" misalnya saya merasa "kurva pas" jauh lebih teoretis daripada "regresi". (+1 ke NickCox untuk jawaban ini)
usεr11852 mengatakan Reinstate Monic
8

Selain jawaban luar biasa @ NickCox (+1), saya ingin berbagi kesan subjektif saya tentang topik terminologi yang agak kabur ini . Saya berpikir bahwa perbedaan yang agak halus antara kedua istilah tersebut terletak pada yang berikut ini. Di satu sisi, regresi sering, jika tidak selalu, menyiratkan solusi analitis (referensi ke regressor menyiratkan penentuan parameter mereka , maka argumen saya tentang solusi analitis). Di sisi lain, pemasangan kurva tidak selalu menyiratkan menghasilkan solusi analitis dan IMHO sering mungkin dan digunakan sebagai pendekatan eksplorasi .

Aleksandr Blekh
sumber
2
Tidak bisakah sesuatu dengan solusi analitik digunakan untuk alasan eksplorasi juga? Saya tidak berpikir saya mendapatkan oposisi yang Anda buat.
Amoeba berkata Reinstate Monica
@amoeba: Solusi analitis tentu dapat digunakan untuk penelitian eksplorasi juga. Namun, poin yang saya sampaikan adalah tentang esensi tersirat yang paling populer dari istilah yang dimaksud.
Aleksandr Blekh