Saya belajar regresi linier menggunakan Pengantar Analisis Regresi Linier oleh Montgomery, Peck, dan Vining . Saya ingin memilih proyek analisis data.
Saya memiliki pemikiran naif bahwa regresi linier hanya cocok ketika seseorang menduga ada hubungan fungsional linier antara variabel penjelas dan variabel respons. Tetapi tidak banyak aplikasi dunia nyata yang tampaknya memenuhi kriteria ini. Namun regresi linier sangat lazim.
Apa aspek proyek yang akan dipikirkan oleh ahli statistik berpengalaman jika mereka berada di posisi saya, mencari pertanyaan + data yang cocok untuk regresi linier.
Jawaban:
Ini bukan pemahaman yang benar tentang apa yang "linear" dalam "regresi linier".
Bukan hubungan antara dan x yang diasumsikan berbentuk linear (meskipun semua contoh dasar cenderung menyesatkan Anda).y x
"Linier" mengacu pada model yang linier dalam parameter, dan hubungan non-linear antara dan beberapa x dapat dimodelkan seperti itu.y x
Ada contoh dengan prediktor tunggal di sini , tetapi model kurvilinear lebih sering dipasang sebagai regresi berganda, di mana beberapa fungsi prediktor (variabel x, variabel independen) dapat terjadi dalam regresi, dan ini memungkinkan banyak fleksibilitas. Ini termasuk regresi polinomial, misalnya. Lihat beberapa diskusi dan contoh di sini .
Namun, jika kita membiarkan fakta bahwa prediktor dapat ditransformasikan agar sesuai dengan hubungan melengkung, linearitas dalam parameter juga sesuai dengan linearitas dalam prediktor yang ditransformasikan.
Selain itu, banyak masalah yang mendekati linier (setidaknya pada kisaran nilai yang dipertimbangkan), atau sangat bising sehingga kelengkungan ringan tidak dapat dilihat, dan berbagai model sederhana untuk peningkatan atau penurunan hubungan mungkin dilakukan - dan dalam hal ini pilihan linier mungkin memadai dan paling sederhana untuk disesuaikan dan dipahami.
Satu-satunya waktu saya mungkin mencari masalah untuk menerapkan regresi adalah ketika saya mencoba untuk menemukan contoh yang baik untuk mengajar. Ketika sebenarnya dalam posisi melakukan pekerjaan statistik (daripada menjelaskan atau mengajarnya), saya memilih metodologi yang sesuai dengan pertanyaan yang menarik (dan karakteristik data), daripada memilih data yang sesuai dengan metode tersebut.
Bayangkan tukang kayu, misalnya. Tukang kayu tidak mengambil spokeshave dan berkata "apa yang bisa saya gunakan ini ?". Sebaliknya, tukang kayu memiliki masalah untuk dipecahkan, dan dalam mempertimbangkan karakteristik masalah ("apa yang saya coba buat?" Dan "jenis kayu apa yang saya gunakan?" Dan seterusnya ...) alat tertentu mungkin lebih relevan daripada yang lain. Terkadang alat yang tersedia dapat membatasi atau memandu pilihan (jika Anda tidak memiliki spokeshave, Anda mungkin harus puas dengan sesuatu yang lain ... atau Anda mungkin harus membeli spokeshave).
Namun, mari kita asumsikan bahwa Anda memiliki ahli statistik saku yang membantu Anda dan Anda sedang mencari masalah yang cocok untuk regresi linier. Kemudian mereka mungkin menyarankan Anda mempertimbangkan berbagai asumsi regresi dan kapan itu penting. Saya akan menyebutkan beberapa hal.
Jika Anda dapat menggunakan regresi berganda bahkan itu bukan masalah utama, karena orang dapat menggunakan (misalnya) splines regresi kubik agar sesuai dengan hubungan yang cukup umum.
Saya sarankan Anda menghindari data dari waktu ke waktu kecuali jika Anda memahami masalah dengan regresi palsu; tetap dengan masalah cross-sectional.
Jika Anda tertarik pada pengujian hipotesis, interval kepercayaan atau interval prediksi, maka lebih dari asumsi regresi biasa mungkin penting (tetapi ada alternatif yang tidak membuat asumsi tersebut, dan dalam beberapa kasus, setidaknya beberapa asumsi mungkin tidak menjadi sangat penting).
Jadi satu hal yang setidaknya harus diperhatikan adalah asumsi apa yang dibuat untuk menurunkan prosedur inferensial yang Anda gunakan dan seberapa penting mereka dalam masalah khusus Anda (sebagai contoh, ketika melakukan tes hipotesis biasa, normalitas adalah asumsi, tetapi dalam sampel besar asumsi itu mungkin tidak penting; di sisi lain, asumsi varians konstan mungkin lebih menjadi masalah).
Ada sejumlah posting yang membahas asumsi regresi, dan beberapa posting yang membahas kapan mereka perlu dibuat sama sekali, dan seberapa banyak mereka mungkin penting, dan bahkan urutan untuk mempertimbangkannya.
sumber
sumber
@ Glen_b memberikan jawaban yang sangat bagus tetapi, seperti disebutkan, tidak bisa menyelesaikannya.
Jadi, untuk pertanyaan terakhir Anda:
Seorang ahli statistik yang berpengalaman, saya pikir, tidak akan menanyakan pertanyaan ini. Seperti yang dicatat Glen, masalahnya menentukan alat untuk digunakan, bukan sebaliknya.
Jika saya mencoba mempelajari teknik seperti regresi linier, saya akan menggunakan contoh-contoh yang sudah bekerja - tetapi yang memiliki data nyata, bukan data yang dirancang untuk membuat segalanya menjadi mudah. Sebuah buku seperti Regresi Modeling by Example dapat memberikan panduan.
Namun, salah satu langkah pertama dalam melihat masalah regresi adalah memutuskan apakah regresi linier, pada kenyataannya, cocok.
sumber
Banyak tanggapan menyentuh pada asumsi yang perlu dipenuhi: linearitas dalam residu, homogenitas varians di seluruh rentang prediktor, tidak ada nilai ekstrim yang dapat memengaruhi garis regresi, dan pengamatan independen. Plot residual cukup mudah dibuat dengan sebagian besar program regresi dan beberapa paket menyediakan beberapa secara otomatis (SAS).
Satu orang berbicara tentang mentransformasikan y. Ini adalah praktik umum di beberapa bidang, tetapi ini adalah praktik yang mengarah pada hasil yang bias dan mungkin tidak dapat ditafsirkan. Bias muncul ketika Anda mencoba untuk kembali mengubah hasilnya menjadi metrik asli. Lebih baik beralih ke jenis regresi lain yang memiliki pola residual yang cocok dengan asumsi distribusi residual. Lihat bab 3 dalam Pengantar Agresti untuk Analisis Data Kategorikal di mana ia memperkenalkan konsep tautan. Sejumlah buku teks regresi juga memperkenalkan model linear umum.
sumber