Jumlah minimal poin untuk regresi linier

16

Berapa jumlah observasi minimal yang "masuk akal" untuk mencari tren dari waktu ke waktu dengan regresi linier? bagaimana dengan pemasangan model kuadratik?

Saya bekerja dengan indeks gabungan dari ketidaksetaraan dalam kesehatan (SII, RII), dan hanya memiliki 4 gelombang survei, jadi 4 poin (1997.2001.2004.2008).

Saya bukan ahli statistik, tetapi saya memiliki kesan intuitif 4 poin tidak cukup. Apakah Anda punya jawaban, dan / atau referensi?

Terima kasih banyak,

Françoise

Francoise
sumber
4
Aturan praktis yang biasa adalah 10 poin untuk setiap variabel independen.
Peter Flom - Reinstate Monica
1
Bagaimana indeks Anda diukur? Jika mereka memasukkan perkiraan variabilitas, maka dua bisa cukup (menggunakan uji-t atau analognya). Prinsip statistik dasar yang berlaku di sini adalah bahwa ketika variasi acak adalah penjelasan yang tidak mungkin dari apa yang Anda amati, maka Anda memiliki hak untuk menghubungkan setiap tren yang tampak dengan penyebab non-acak. Ketika tren kuat, sangat sedikit nilai data yang mungkin diperlukan untuk sampai pada kesimpulan seperti itu, meskipun semua "aturan praktis" generik.
Whuber

Jawaban:

12

Aturan praktis Peters sebesar 10 per kovariat adalah aturan yang masuk akal. Garis lurus bisa pas dengan dua titik terlepas dari jumlah kebisingan dalam nilai respons dan kuadrat bisa cocok dengan hanya dengan 3 poin. Jadi jelas dalam hampir semua keadaan, adalah tepat untuk mengatakan bahwa 4 poin tidak cukup. Namun, seperti kebanyakan aturan praktis, itu tidak mencakup setiap situasi. Kasus-kasus di mana istilah kebisingan dalam model memiliki varians besar akan memerlukan lebih banyak sampel daripada kasus serupa di mana varians kesalahan kecil.

Jumlah titik sampel yang diperlukan tergantung pada objek. Jika Anda melakukan analisis eksplorasi hanya untuk melihat apakah satu model (katakanlah linier dalam kovariat) terlihat lebih baik daripada yang lain (katakanlah fungsi kuadrat kovariat) kurang dari 10 poin mungkin cukup. Tetapi jika Anda menginginkan estimasi yang sangat akurat dari koefisien korelasi dan regresi untuk kovariat, Anda bisa membutuhkan lebih dari 10 per kovariat. Keakuratan kriteria prediksi dapat membutuhkan sampel lebih banyak daripada perkiraan parameter yang akurat. Perhatikan bahwa varian estimasi dan prediksi semua melibatkan varian istilah error model.

Michael R. Chernick
sumber
Poin bagus, Michael; Saya berusaha membuatnya tetap sederhana. :-). Mengingat subjek pertanyaan aslinya, saya akan sangat terkejut jika kurang dari 10 poin yang memadai. Ukuran ketidaksetaraan dalam kesehatan tampaknya memiliki banyak kesalahan, dan hubungan dengan waktu tampaknya tidak linier. Apakah Anda tahu ada artikel tentang ini? Ini adalah topik menarik yang banyak muncul.
Peter Flom - Pasang kembali Monica
@PeterFlom saya tidak. Saya akan melihat buku van Belle'a tentang aturan statistik praktis untuk melihat apakah dia menggunakan aturan seperti yang Anda sebutkan. Yang menyenangkan tentang bukunya adalah ia menjelaskan alasan di balik setiap aturan. Saya setuju dengan Anda bahwa aturan mengatakan mengambil setidaknya 10 per kovariat cukup bagus dan menggunakan lebih sedikit akan jarang aman kecuali dalam beberapa kasus eksplorasi. Dalam ilmu kesehatan tempat saya bekerja, istilah kebisingan tampaknya selalu besar tetapi mungkin beberapa fisika atau eksperimen rekayasa yang dikontrol dengan ketat dapat memiliki pengukuran yang sangat tepat dan karenanya kesalahan acak kecil.
Michael R. Chernick
Saya hanya mencoba menunjukkan kemungkinan kebisingan kecil yang mengarah ke kebutuhan kurang dari 10 poin meskipun kemungkinan itu mungkin jauh.
Michael R. Chernick
ya saya setuju. Dan itu bisa jadi kasus dalam fisika, katakanlah, atau area mana saja yang sangat tinggiR2diharapkan dan teori kuat dan kesalahan kecil.
Peter Flom - Reinstate Monica
+1, info bagus, tetapi perlu juga disebutkan bahwa jika estimator Anda tidak bias, Anda dapat memiliki model jenuh & masih memiliki estimasi parameter, jika hanya itu yang Anda butuhkan. Anda tidak akan memiliki perkiraan variabilitas atau dapat melakukan inferensi. Namun, dalam beberapa kasus di mana ada banyak efek untuk memperkirakan & data cukup sulit didapat, model jenuh kadang-kadang digunakan. Jadi misalnya, dalam hal ini, Anda bisa mendapatkan estimasi fungsi dengan kuadrat w / 3 poin. Saya tidak bermaksud bahwa itu adalah hal yang baik, tetapi itu adalah batas bawah yang sebenarnya & alasan mengapa.
gung - Reinstate Monica