Aturan praktis untuk ukuran sampel minimum untuk regresi berganda

72

Dalam konteks proposal penelitian dalam ilmu sosial, saya ditanya pertanyaan berikut:

Saya selalu pergi dengan 100 + m (di mana m adalah jumlah prediktor) ketika menentukan ukuran sampel minimum untuk regresi berganda. Apakah ini tepat?

Saya sering mendapat pertanyaan serupa, seringkali dengan aturan praktis yang berbeda. Saya juga membaca aturan praktis seperti itu cukup banyak di berbagai buku pelajaran. Saya kadang bertanya-tanya apakah popularitas aturan dalam hal kutipan didasarkan pada seberapa rendah standar yang ditetapkan. Namun, saya juga menyadari nilai heuristik yang baik dalam menyederhanakan pengambilan keputusan.

Pertanyaan:

  • Apa kegunaan aturan sederhana untuk ukuran sampel minimum dalam konteks peneliti terapan yang merancang studi penelitian?
  • Apakah Anda menyarankan aturan praktis alternatif untuk ukuran sampel minimum untuk regresi berganda?
  • Atau, strategi alternatif apa yang akan Anda sarankan untuk menentukan ukuran sampel minimum untuk regresi berganda? Secara khusus, akan lebih baik jika nilai diberikan ke tingkat di mana strategi apa pun dapat segera diterapkan oleh non-ahli statistik.
Jeromy Anglim
sumber

Jawaban:

36

Saya bukan penggemar formula sederhana untuk menghasilkan ukuran sampel minimum. Paling tidak, formula apa pun harus mempertimbangkan ukuran efek dan pertanyaan yang menarik. Dan perbedaan antara kedua sisi cut-off minimal.

Ukuran sampel sebagai masalah pengoptimalan

  • Sampel yang lebih besar lebih baik.
  • Ukuran sampel sering ditentukan oleh pertimbangan pragmatis.
  • Ukuran sampel harus dilihat sebagai salah satu pertimbangan dalam masalah optimisasi di mana biaya dalam waktu, uang, usaha, dan sebagainya untuk mendapatkan peserta tambahan ditimbang dengan manfaat memiliki peserta tambahan.

Aturan Jempol yang Kasar

Dalam hal aturan praktis yang sangat kasar dalam konteks khas studi psikologis observasional yang melibatkan hal-hal seperti tes kemampuan, skala sikap, ukuran kepribadian, dan sebagainya, kadang-kadang saya memikirkan:

  • n = 100 memadai
  • n = 200 sebagai baik
  • n = 400 + lebih bagus

Aturan praktis ini didasarkan pada interval kepercayaan 95% yang terkait dengan korelasi pada tingkat masing-masing dan tingkat presisi yang saya ingin secara teoritis memahami hubungan yang menarik. Namun, itu hanya heuristik.

G Power 3

Regresi Berganda menguji berbagai hipotesis

  • Setiap pertanyaan analisis daya memerlukan pertimbangan ukuran efek.
  • Analisis daya untuk regresi berganda dibuat lebih rumit oleh fakta bahwa ada beberapa efek termasuk r-kuadrat keseluruhan dan satu untuk setiap koefisien individu. Selain itu, sebagian besar penelitian mencakup lebih dari satu regresi berganda. Bagi saya, ini adalah alasan lebih lanjut untuk lebih mengandalkan heuristik umum, dan memikirkan ukuran efek minimal yang ingin Anda deteksi.

  • Sehubungan dengan regresi berganda, saya akan sering berpikir lebih dalam hal tingkat presisi dalam memperkirakan matriks korelasi yang mendasarinya.

Akurasi dalam Estimasi Parameter

Saya juga suka diskusi Ken Kelley dan kolega tentang Akurasi dalam Estimasi Parameter.

  • Lihat situs web Ken Kelley untuk publikasi
  • Seperti yang disebutkan oleh @Dmitrij, Kelley dan Maxwell (2003) PDF GRATIS memiliki artikel yang bermanfaat.
  • Ken Kelley mengembangkan MBESSpaket dalam R untuk melakukan analisis terkait ukuran sampel dengan presisi dalam estimasi parameter.
Jeromy Anglim
sumber
17

nR2R2Radj2R21(1R2)n1np1R2

pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

masukkan deskripsi gambar di siniR2R2Radj2

Jika ada yang melihat ini sudah dicetak, beri tahu saya.

Frank Harrell
sumber
1
R^2R2Radj2NNR^2R2
@ Frankharrell: lihat di sini penulis tampaknya menggunakan plot 260-263 dengan cara yang sama seperti yang ada di posting Anda di atas.
user603
5
Radj2R2
12

(+1) untuk pertanyaan yang menurut saya krusial.

4m4

Sebagian besar ukuran sampel terkait dengan kekuatan tes untuk hipotesis yang akan Anda uji setelah Anda cocok dengan model regresi berganda.

Ada kalkulator bagus yang bisa berguna untuk model regresi berganda dan beberapa rumus di balik layar. Saya pikir kalkulator seperti itu dapat dengan mudah diterapkan oleh non-ahli statistik.

Mungkin artikel K.Kelley dan SEMaxwell mungkin berguna untuk menjawab pertanyaan-pertanyaan lain, tetapi saya perlu lebih banyak waktu pertama untuk mempelajari masalahnya.

Dmitrij Celov
sumber
11

mm=500500600

mm+1nm1m+1nO(m+1n)n=k(m+1)kO(1k)kk1020301,2,,26,27,28,29,

probabilityislogic
sumber
Anda mengatakan 10 hingga 20 baik, tetapi apakah ini juga tergantung pada ukuran varians kesalahan (mungkin relatif terhadap hal-hal lain)? Sebagai contoh, anggaplah hanya ada satu variabel prediktor. Jika diketahui bahwa varians kesalahan benar-benar kecil, maka tampaknya 3 atau 4 titik data mungkin cukup untuk memperkirakan kemiringan dan penyadapan secara andal. Di sisi lain, jika diketahui bahwa varians kesalahan sangat besar, maka bahkan 50 titik data mungkin tidak memadai. Apakah saya salah memahami sesuatu?
mark999
Bisakah Anda memberikan referensi untuk persamaan yang Anda sarankan n=k(m+1)?
Sosi
6

Dalam Psikologi:

N>50+8mN>104+m

Aturan lain yang bisa digunakan adalah ...

50

1030

adria
sumber
1
'Aturan' pertama Anda tidak memiliki m di dalamnya.
Dason
Aturan praktis pertamanya ditulis sebagai N = 50 + 8 m, meskipun dipertanyakan apakah istilah 50 memang diperlukan
Sosi
Saya telah menambahkan aturan praktis yang baru dan lebih kompleks yang memperhitungkan ukuran efek sampel. Ini juga disajikan oleh Green (1991).
Sosi
2
Apa kutipan lengkap untuk referensi Green (1991) dan Harris (1985)?
Hatshepsut
2

Saya setuju bahwa kalkulator daya berguna, terutama untuk melihat pengaruh berbagai faktor terhadap daya. Dalam hal itu, kalkulator yang memasukkan lebih banyak informasi input jauh lebih baik. Untuk regresi linier, saya suka kalkulator regresi di sini yang mencakup faktor-faktor seperti kesalahan dalam Xs, korelasi antara Xs, dan banyak lagi.

Galit Shmueli
sumber
0

R2

( pdf )

Tentu saja, seperti juga diakui oleh makalah, (relatif) tidak memihak tidak berarti memiliki kekuatan statistik yang cukup. Namun, perhitungan daya dan ukuran sampel biasanya dilakukan dengan menentukan efek yang diharapkan; dalam kasus regresi berganda, ini menyiratkan hipotesis tentang nilai koefisien regresi atau pada matriks korelasi antara regressor dan hasilnya harus dibuat. Dalam praktiknya, itu tergantung pada kekuatan korelasi para regressor dengan hasil dan di antara mereka (jelas, semakin kuat semakin baik untuk korelasi dengan hasilnya, sementara keadaan menjadi lebih buruk dengan multikolinieritas). Sebagai contoh, dalam kasus ekstrim dari dua variabel collinear sempurna, Anda tidak dapat melakukan regresi terlepas dari jumlah pengamatan, dan bahkan dengan hanya 2 kovariat.

Federico Tedeschi
sumber