Howler disebabkan oleh penggunaan regresi bertahap

20

Saya menyadari masalah pemilihan stepwise / forward / backward dalam model regresi. Ada banyak kasus para peneliti yang mengecam metode ini dan menunjukkan alternatif yang lebih baik. Saya penasaran apakah ada cerita yang ada tempat analisis statistiknya:

  • telah menggunakan regresi bertahap;
  • membuat beberapa kesimpulan penting berdasarkan model akhir
  • kesimpulannya salah, menghasilkan konsekuensi negatif bagi individu, penelitian, atau organisasi mereka

Pemikiran saya tentang ini jika metode bertahap buruk, maka harus ada konsekuensi di "dunia nyata" untuk menggunakannya.

probabilityislogic
sumber
2
Jika Anda tidak menemukan cerita seperti itu, mungkin karena regresi bertahap sebagian besar digunakan dalam penelitian dasar (atau jadi saya anggap). Peneliti dasar biasanya tidak mendapat masalah karena kesalahan, asalkan mereka tidak memalsukan data atau sesuatu.
Kodiologist
3
Ini banyak digunakan di industri dan di ruang kelas. Dalam penelitian penulis mungkin tidak akan mengungkapkan bahwa mereka menggunakannya. Dalam industri dua alasan utama adalah bahwa a) mereka yang melakukannya tidak dilatih dalam penelitian, misalnya memiliki gelar sarjana atau b) lulus beberapa dekade yang lalu.
Aksakal
@Aksakal Tidak belajar untuk memulai tetapi mendapatkan kulit domba adalah masalahnya, bukan waktu yang berlalu. Contoh gratis , saya. Saya mengikuti kursus statistik sekitar tahun 1971, dan pertama kali menggunakan statistik dalam publikasi tahun 2006.
Carl

Jawaban:

1

Ada lebih dari satu pertanyaan yang diajukan. Yang paling sempit adalah menanyakan contoh kapan regresi bertahap menyebabkan kerugian karena dilakukan bertahap. Hal ini tentu saja benar, tetapi hanya dapat ditetapkan secara tegas ketika data yang digunakan untuk regresi bertahap juga dipublikasikan, dan seseorang menganalisis ulang dan menerbitkan koreksi yang ditinjau oleh sejawat dengan pencabutan penulis utama yang diterbitkan. Untuk membuat tuduhan dalam konteks lain berisiko tindakan hukum, dan, jika kami menggunakan kumpulan data yang berbeda, kami dapat menduga bahwa kesalahan telah dibuat, tetapi "statistik tidak pernah membuktikan apa pun" dan kami tidak akan dapat menetapkan bahwa kesalahan itu terbuat; "Di luar keraguan yang masuk akal".

Sebagai fakta, orang sering mendapatkan hasil yang berbeda tergantung pada apakah orang melakukan penghapusan bertahap atau penumpukan bertahap dari persamaan regresi, yang menunjukkan kepada kita bahwa tidak ada pendekatan yang cukup benar untuk merekomendasikan penggunaannya. Jelas, sesuatu yang lain sedang terjadi, dan itu membawa kita ke pertanyaan yang lebih luas, juga ditanyakan di atas, tetapi dalam bentuk peluru, sebesar "Apa masalah dengan regresi bertahap, bagaimanapun? Itu adalah pertanyaan yang lebih berguna untuk dijawab dan memiliki menambahkan manfaat bahwa saya tidak akan mengajukan gugatan terhadap saya karena menjawabnya.

Melakukannya dengan benar untuk MLR bertahap, berarti menggunakan 1) unit yang benar secara fisik (lihat di bawah), dan 2) transformasi variabel yang sesuai untuk korelasi terbaik dan tipe distribusi kesalahan (untuk homoseksualitas dan fisik), dan 3) menggunakan semua permutasi kombinasi variabel, tidak langkah-bijaksana, semuanya , dan 4) jika seseorang melakukan diagnostik regresi lengkap maka seseorang menghindari hilangnya kombinasi variabel VIF (collinearity) tinggi yang jika tidak akan menyesatkan, maka hadiahnya adalah regresi yang lebih baik.

Seperti yang dijanjikan untuk # 1 di atas, kita selanjutnya mengeksplorasi unit yang benar untuk sistem fisik. Karena hasil yang baik dari regresi bergantung pada perlakuan variabel yang benar, kita perlu memperhatikan dimensi unit fisik yang biasa dan menyeimbangkan persamaan kita dengan tepat. Juga, untuk aplikasi biologis, diperlukan kesadaran dan perhitungan untuk dimensi penskalaan alometrik .

Silakan baca contoh penyelidikan fisik sistem biologis ini untuk cara memperluas penyeimbangan unit ke biologi. Dalam makalah itu, langkah 1) hingga 4) di atas diikuti dan formula terbaik ditemukan menggunakan analisis regresi yang luas yaitu, , di mana adalah laju filtrasi glomerulus , penanda katabolisme, di mana unit dipahami menggunakan geometri fraktal sehingga , berat adalah konstruksi geometri fraktal empat dimensi , dan V, volume, disebut Euclidean, atau variabel tiga dimensi. Kemudian G F R W 1 = 1GFR=kW1/4V2/3GFRW GFR1=1443+23. Sehingga formulanya konsisten secara dimensi dengan metabolisme. Itu bukan pernyataan yang mudah dipahami. Pertimbangkan bahwa 1) Secara umum tidak dihargai (tidak diketahui) bahwa adalah penanda metabolisme. 2) Geometri fraktal hanya jarang diajarkan dan interpretasi fisik dari rumus yang disajikan sulit dipahami bahkan untuk seseorang yang memiliki pelatihan matematika.GFR

Carl
sumber
2
Ini tampaknya menggambarkan masalah dengan regresi secara umum, bukan regresi bertahap secara khusus.
Ahli Statistik Terkadang
2
Ya, ini adalah aspek regresi yang perlu dipertimbangkan secara umum. Namun, jika saya mengerti benar dari mana pertanyaan itu berasal, itu dimotivasi oleh regresi bertahap yang sering dikecam karena menggunakan orang-orang seperti LASSO, yang tidak akan menjawab masalah yang Anda berikan di sini.
Ahli Statistik Terkadang
4
Saya menghargai kejujuran Anda dan niat baik Anda dalam hal ini, Carl. Saya tidak akan menyangkal bahwa pemungutan suara memiliki masalah. Satu-satunya cara efektif yang saya tahu untuk mengubah pemungutan suara pada sebuah posting adalah dengan mengubah jawaban - baik untuk memperbaikinya secara teknis, mengembangkannya, atau untuk mengkomunikasikan ide-ide secara berbeda - dan bahkan kemudian tidak ada jaminan itu akan mendapatkan respons yang diinginkan (atau bahkan tanggapan sama sekali!). Terkadang, upaya penuh hormat yang dilakukan untuk memahami para downvoters akan memperoleh informasi yang membantu semua orang menghargai (dan meningkatkan) upaya-upaya semacam itu dalam memperbaiki sebuah pos.
Whuber
3
@Carl Saya berpikir bahwa jika Anda mendapatkan downvotes teratur, hal pertama yang harus dilakukan adalah mempertimbangkan bagaimana Anda dapat meningkatkan posting Anda (dan sering Anda memiliki komentar di bawah mereka yang menyarankan perbaikan). Berbicara sendiri, bahkan ketika saya tidak setuju dengan komentator, ternyata mereka sering mengangkat masalah yang mengarah pada jawaban yang lebih baik. Saya akan mengatakan bahwa saya secara teratur memperhatikan masalah dengan jawaban Anda yang hampir akan menggerakkan saya untuk menurunkannya sendiri. Di mana saya punya waktu untuk melakukannya, saya mencoba memberikan komentar.
Glen_b -Reinstate Monica
3
Perhatikan bahwa banyak masalah regresi bertahap - seperti masalah dengan estimasi yang bias jauh dari 0, kesalahan standar bias ke 0, tingkat kesalahan tipe I nominal jauh lebih rendah daripada yang sebenarnya dan berbagai masalah lain masih ada pada semua subset - - memang, ini merupakan masalah dengan hampir semua bentuk optimisasi (bab 4 dari strategi pemodelan Regresi Frank Harrell adalah referensi yang berguna). Penyusutan / regularisasi dapat memitigasi beberapa masalah ini (terutama kecenderungan seleksi untuk memperkirakan bias ke luar) dan penilaian out-of-sample adalah alat yang penting bagi banyak dari mereka.
Glen_b -Reinstate Monica