Petunjuk bahwa suatu masalah cocok untuk regresi linier

12

Saya belajar regresi linier menggunakan Pengantar Analisis Regresi Linier oleh Montgomery, Peck, dan Vining . Saya ingin memilih proyek analisis data.

Saya memiliki pemikiran naif bahwa regresi linier hanya cocok ketika seseorang menduga ada hubungan fungsional linier antara variabel penjelas dan variabel respons. Tetapi tidak banyak aplikasi dunia nyata yang tampaknya memenuhi kriteria ini. Namun regresi linier sangat lazim.

Apa aspek proyek yang akan dipikirkan oleh ahli statistik berpengalaman jika mereka berada di posisi saya, mencari pertanyaan + data yang cocok untuk regresi linier.

cwackers
sumber
3
Saya menghargai bahwa Anda sedang mempelajari teknik dan ingin tahu di mana itu akan berhasil. Tetapi untuk ahli statistik berpengalaman (dan ilmuwan yang berpikiran statistik) situasinya sepenuhnya sebaliknya: ada masalah dan data dan kemudian pertanyaannya adalah model dan metode seperti apa yang merupakan pilihan terbaik. Anda akan melihat bahwa regresi linier seperti yang pertama kali ditemukan hanya satu rasa; dengan pengalaman orang-orang senang melompat ke regresi Poisson, regresi logit, dll. dan bahkan linearitas dalam parameter dapat dengan mudah dikombinasikan dengan struktur yang lebih umum.
Nick Cox
dan tentu saja seri waktu mdels ketika pengamatan berpotensi autokorelasi
IrishStat
3
Pada kenyataannya model linier digunakan kiri dan kanan bahkan ketika kita tahu bahwa hubungannya adalah nonlinier. Pikirkan model linier sebagai pendekatan orde pertama, semacam ekspansi multivarian Taylor.
Aksakal

Jawaban:

12

Saya memiliki pemikiran naif bahwa regresi linier hanya cocok ketika seseorang menduga ada hubungan fungsional linier antara variabel penjelas dan variabel respons. Tetapi tidak banyak aplikasi dunia nyata yang tampaknya memenuhi kriteria ini.

Ini bukan pemahaman yang benar tentang apa yang "linear" dalam "regresi linier".

Bukan hubungan antara dan x yang diasumsikan berbentuk linear (meskipun semua contoh dasar cenderung menyesatkan Anda).yx

"Linier" mengacu pada model yang linier dalam parameter, dan hubungan non-linear antara dan beberapa x dapat dimodelkan seperti itu.yx

Ada contoh dengan prediktor tunggal di sini , tetapi model kurvilinear lebih sering dipasang sebagai regresi berganda, di mana beberapa fungsi prediktor (variabel x, variabel independen) dapat terjadi dalam regresi, dan ini memungkinkan banyak fleksibilitas. Ini termasuk regresi polinomial, misalnya. Lihat beberapa diskusi dan contoh di sini .

Namun, jika kita membiarkan fakta bahwa prediktor dapat ditransformasikan agar sesuai dengan hubungan melengkung, linearitas dalam parameter juga sesuai dengan linearitas dalam prediktor yang ditransformasikan.

Selain itu, banyak masalah yang mendekati linier (setidaknya pada kisaran nilai yang dipertimbangkan), atau sangat bising sehingga kelengkungan ringan tidak dapat dilihat, dan berbagai model sederhana untuk peningkatan atau penurunan hubungan mungkin dilakukan - dan dalam hal ini pilihan linier mungkin memadai dan paling sederhana untuk disesuaikan dan dipahami.

Apa aspek proyek yang akan dipikirkan oleh ahli statistik berpengalaman jika mereka berada di posisi saya, mencari pertanyaan + data yang cocok untuk regresi linier.

Satu-satunya waktu saya mungkin mencari masalah untuk menerapkan regresi adalah ketika saya mencoba untuk menemukan contoh yang baik untuk mengajar. Ketika sebenarnya dalam posisi melakukan pekerjaan statistik (daripada menjelaskan atau mengajarnya), saya memilih metodologi yang sesuai dengan pertanyaan yang menarik (dan karakteristik data), daripada memilih data yang sesuai dengan metode tersebut.

Bayangkan tukang kayu, misalnya. Tukang kayu tidak mengambil spokeshave dan berkata "apa yang bisa saya gunakan ini ?". Sebaliknya, tukang kayu memiliki masalah untuk dipecahkan, dan dalam mempertimbangkan karakteristik masalah ("apa yang saya coba buat?" Dan "jenis kayu apa yang saya gunakan?" Dan seterusnya ...) alat tertentu mungkin lebih relevan daripada yang lain. Terkadang alat yang tersedia dapat membatasi atau memandu pilihan (jika Anda tidak memiliki spokeshave, Anda mungkin harus puas dengan sesuatu yang lain ... atau Anda mungkin harus membeli spokeshave).

Namun, mari kita asumsikan bahwa Anda memiliki ahli statistik saku yang membantu Anda dan Anda sedang mencari masalah yang cocok untuk regresi linier. Kemudian mereka mungkin menyarankan Anda mempertimbangkan berbagai asumsi regresi dan kapan itu penting. Saya akan menyebutkan beberapa hal.

E(y|g(x))g(x)gx=xE(y|x)=a+bx

Jika Anda dapat menggunakan regresi berganda bahkan itu bukan masalah utama, karena orang dapat menggunakan (misalnya) splines regresi kubik agar sesuai dengan hubungan yang cukup umum.

Saya sarankan Anda menghindari data dari waktu ke waktu kecuali jika Anda memahami masalah dengan regresi palsu; tetap dengan masalah cross-sectional.

xx

x

Jika Anda tertarik pada pengujian hipotesis, interval kepercayaan atau interval prediksi, maka lebih dari asumsi regresi biasa mungkin penting (tetapi ada alternatif yang tidak membuat asumsi tersebut, dan dalam beberapa kasus, setidaknya beberapa asumsi mungkin tidak menjadi sangat penting).

Jadi satu hal yang setidaknya harus diperhatikan adalah asumsi apa yang dibuat untuk menurunkan prosedur inferensial yang Anda gunakan dan seberapa penting mereka dalam masalah khusus Anda (sebagai contoh, ketika melakukan tes hipotesis biasa, normalitas adalah asumsi, tetapi dalam sampel besar asumsi itu mungkin tidak penting; di sisi lain, asumsi varians konstan mungkin lebih menjadi masalah).

Ada sejumlah posting yang membahas asumsi regresi, dan beberapa posting yang membahas kapan mereka perlu dibuat sama sekali, dan seberapa banyak mereka mungkin penting, dan bahkan urutan untuk mempertimbangkannya.

Glen_b -Reinstate Monica
sumber
Jawaban yang bagus, tapi saya pikir itu tidak menjawab pertanyaan sepenuhnya. Apa aspek proyek yang akan dipikirkan oleh ahli statistik berpengalaman jika mereka berada di posisi saya, mencari pertanyaan + data yang cocok untuk regresi linier. tetap tidak dijawab.
Dawny33
@ Dawny33 Saya pasti ingin menambahkan lebih banyak untuk ini nanti - beberapa hal muncul saat saya mengetik apa yang mencegah saya menulis jawaban lengkap yang saya maksudkan semula; Saya hanya punya waktu untuk menyelesaikan kalimat yang saya pakai, dan sekarang mungkin tidak kembali ke sana selama satu atau dua hari. Memang saya bahkan tidak punya waktu untuk memperbaiki semua kesalahan ketik di dalamnya. (Sementara itu Anda tidak perlu ragu untuk mengirim jawaban.) Di sisi lain, menunjukkan bahwa premis dari pertanyaan tersebut cacat dapat menyebabkan OP ingin menanyakan hal-hal yang berbeda dari yang semula dimaksudkan (sering terjadi ketika premis sentral gagal)
Glen_b -Reinstate Monica
Misalnya, saya mengantisipasi satu pertanyaan baru yang bisa muncul adalah "apakah Anda punya contoh?".
Glen_b -Reinstate Monica
@Glen_b terima kasih. "Linier" mengacu pada model yang linier dalam parameter . Maaf jika saya salah menulis, saya tidak bermaksud mengatakan sebaliknya. Kata kunci itu fungsional .
cwackers
@ Glen_b mereka mungkin menyarankan Anda mempertimbangkan berbagai asumsi regresi . Setuju lagi. Saya tidak eksplisit tentang ini, tapi Q saya lebih banyak tentang pengetahuan domain. Saya bertanya-tanya apa yang akan dicari oleh ahli statistik berpengalaman dalam sistem yang sedang dipertimbangkan untuk analisis LR, karena itu proposal saya yang naif tentang adanya regresor yang secara linier dan fungsional terkait dengan respons, dan yang hubungan simultannya dengan respons bersifat aditif.
cwackers
4

YYYYYX) baik. Selama bertahun-tahun pengalaman Anda akan melihat bahwa variabel-variabel tertentu seperti tekanan darah cenderung berperilaku baik dalam model linier dan lainnya (misalnya, pengukuran kimia darah) tidak.

YY

Frank Harrell
sumber
Terima kasih telah menunjukkan aspek berperilaku baik. Saya sudah memikirkan transformasi dari regressor, tetapi tidak pada variabel respon. Namun, saya melihat sekarang bagaimana nanti dapat digunakan untuk membentuk kembali distribusi residu. Terima kasih telah mengisi beberapa gambar. Posting yang sangat membantu.
cwackers
3

@ Glen_b memberikan jawaban yang sangat bagus tetapi, seperti disebutkan, tidak bisa menyelesaikannya.

Jadi, untuk pertanyaan terakhir Anda:

Seorang ahli statistik yang berpengalaman, saya pikir, tidak akan menanyakan pertanyaan ini. Seperti yang dicatat Glen, masalahnya menentukan alat untuk digunakan, bukan sebaliknya.

Jika saya mencoba mempelajari teknik seperti regresi linier, saya akan menggunakan contoh-contoh yang sudah bekerja - tetapi yang memiliki data nyata, bukan data yang dirancang untuk membuat segalanya menjadi mudah. Sebuah buku seperti Regresi Modeling by Example dapat memberikan panduan.

Namun, salah satu langkah pertama dalam melihat masalah regresi adalah memutuskan apakah regresi linier, pada kenyataannya, cocok.

Peter Flom - Pasang kembali Monica
sumber
Seorang ahli statistik yang berpengalaman, saya pikir, tidak akan menanyakan pertanyaan ini. ya, itu sebabnya saya memenuhi syarat Q saya dengan "in my shoes". Terima kasih banyak atas rekomendasi buku ini. Saya akan melacak salinan. Sejumlah contoh akan membantu setidaknya setengah dari cerita, dengan contoh berlawanan menjadi separuh lainnya.
cwackers
Ahhh, sebuah kutipan! dari halaman 2 edisi ke-4: Kami mengundang pembaca untuk memikirkan pertanyaan (dalam bidang pekerjaan, penelitian, atau minat mereka sendiri) yang dapat diatasi dengan menggunakan analisis regresi.
cwackers
0

Banyak tanggapan menyentuh pada asumsi yang perlu dipenuhi: linearitas dalam residu, homogenitas varians di seluruh rentang prediktor, tidak ada nilai ekstrim yang dapat memengaruhi garis regresi, dan pengamatan independen. Plot residual cukup mudah dibuat dengan sebagian besar program regresi dan beberapa paket menyediakan beberapa secara otomatis (SAS).

Satu orang berbicara tentang mentransformasikan y. Ini adalah praktik umum di beberapa bidang, tetapi ini adalah praktik yang mengarah pada hasil yang bias dan mungkin tidak dapat ditafsirkan. Bias muncul ketika Anda mencoba untuk kembali mengubah hasilnya menjadi metrik asli. Lebih baik beralih ke jenis regresi lain yang memiliki pola residual yang cocok dengan asumsi distribusi residual. Lihat bab 3 dalam Pengantar Agresti untuk Analisis Data Kategorikal di mana ia memperkenalkan konsep tautan. Sejumlah buku teks regresi juga memperkenalkan model linear umum.

Leslie
sumber
Saya tidak berbagi pesimisme tentang transformasi. Bagaimanapun transformasi asli cukup sewenang-wenang. Jika Anda mentransformasikan dan mendapatkan residu dengan distribusi simetris, transformasi balik dari nilai yang diprediksi adalah median yang diprediksi pada skala asli. Median yang diprediksi cukup berguna. Jika Anda ingin mendapatkan prediksi cara pada skala asli, Anda dapat menggunakan estimator smearing.
Frank Harrell