Saya mencoba untuk lebih memahami signifikansi statistik, ukuran efek dan sejenisnya.
Saya memiliki persepsi (mungkin itu salah) bahwa bahkan regresi yang tidak relevan sering menjadi signifikan secara statistik dalam sampel besar . Dengan tidak relevan saya berarti bahwa tidak ada penjelasan pokok permasalahan mengapa regressor harus berhubungan dengan variabel dependen. Jadi tidak relevan dalam posting ini adalah konsep materi pelajaran murni dan bukan konsep statistik.
Saya tahu bahwa seorang regressor akan signifikan secara statistik dengan memberikan sampel yang cukup besar kecuali jika efek populasi benar-benar nol (seperti yang dibahas di sini ). Oleh karena itu, regressor yang tidak relevan yang tampak signifikan secara statistik dalam sampel besar memiliki ukuran efek yang tidak nol pada populasi.
Pertanyaan:
- Kenapa seorang regressor yang tidak relevan ternyata signifikan secara statistik?
- Haruskah saya mencari penjelasan pokok permasalahan (yaitu mencoba menyangkal tidak relevan) atau ini fenomena statistik?
Ini adalah kelanjutan dari pos di mana saya mencoba menjelaskan bagaimana cara menyembuhkan efek ini. Sementara itu, di sini saya bertanya mengapa hal itu terjadi.
sumber
Jawaban:
Pertanyaan:
Saya pikir akan sangat membantu untuk memikirkan apa yang terjadi ketika ukuran sampel Anda mendekati populasi itu sendiri. Pengujian signifikansi dimaksudkan untuk memberi Anda gambaran tentang apakah tidak ada efek pada populasi. Ini adalah alasan mengapa ketika bekerja dengan data sensus (yang mensurvei populasi), pengujian signifikansi tidak ada artinya (karena, apa yang ingin Anda generalisasi?).
Dengan mengingat hal itu, apa yang dimaksud "pengaruh dalam populasi"? Ini berarti hubungan apa pun antara variabel dalam populasi, terlepas dari seberapa kecil (baik perbedaan 1 poin atau 1 orang), bahkan jika hubungan itu disebabkan oleh kebetulan dan keacakan di alam semesta.
Dengan demikian, ketika sampel Anda mendekati ukuran populasi, uji signifikansi menjadi kurang dan kurang bermakna karena perbedaan apa pun akan "signifikan secara statistik". Apa yang Anda akan lebih tertarik pada itu adalah ukuran efek - yang analog dengan "praktis signifikan".
Ini sebuah fenomena - Anda harus melihat ukuran efek.
sumber
Bahkan jika ukuran sampel Anda tidak mendekati populasi Anda, efek kecil menjadi signifikan dalam sampel besar. Ini adalah konsekuensi dari arti signifikansi statistik:
Jika pertanyaan Anda adalah sesuatu tentang semua orang di Bumi, maka jika Anda mengambil sampel 1.000.000 (tidak mendekati 7.000.000.000) bahkan efek yang sangat kecil akan signifikan, karena sangat tidak mungkin untuk menemukan statistik uji seperti itu dalam sampel besar ketika nol benar .
Ada banyak masalah dengan pengujian signifikansi, dibahas di banyak tempat. Ini salah satunya. "Penyembuhan" adalah melihat ukuran efek dan interval kepercayaan.
sumber
Saya telah meminjam beberapa wawasan dari @QxV untuk memberikan penjelasan tentang keberadaan efek populasi bahkan jika pengetahuan subjek menunjukkan tidak ada efek seperti itu.
Misalkan ada proses penghasil populasi (PGP) yang menghasilkan populasi dengan fitur dan . Rumus PGP sedemikian rupa sehingga dan independen hingga istilah kesalahan acak. Justru karena istilah kesalahan acak ini, setiap realisasi terbatas dan memiliki nol probabilitas tepat, yaitu . Jika demikian, dengan probabilitas satu ada efek populasi. Itulah bagaimana efek muncul dalam populasi.y x y x yr e a l i ze d xrealized P(yrealized⊥xrealized)=0
Setelah efek populasi ada, itu masalah ukuran sampel ketika kita akan mendeteksinya dalam sampel dan kapan itu akan menjadi signifikan secara statistik.
sumber
Selain jawaban bagus yang sudah diposting, saya akan mencoba dari sudut pandang lain. Semua model adalah perkiraan, dalam arti tertentu ... Lihatlah beberapa model regresi, dan beberapa variabel yang tidak relevan adalah signifikan. Apa yang bisa menjelaskannya?
Mungkin itu tidak relevan, bahwa konsensus ilmiah saat ini mengenai hal itu adalah salah . Selain itu:
Itu bisa menjadi stand-in atau proxy untuk beberapa variabel yang dihilangkan yang relevan, dan yang berkorelasi dengan variabel yang tidak relevan.
Beberapa variabel yang relevan, termasuk linier dalam model, dapat bertindak non-linear, dan variabel yang tidak relevan Anda dapat menjadi bagian dari variabel terkait.
Beberapa interaksi antara dua variabel yang relevan adalah penting, tetapi tidak termasuk dalam model. Variabel Anda yang tidak relevan dapat menjadi pendukung interaksi yang dihilangkan.
Variabel yang tidak relevan hanya bisa sangat berkorelasi dengan beberapa variabel penting, yang mengarah ke koefisien berkorelasi negatif. Ini bisa menjadi penting terutama jika ada kesalahan pengukuran dalam variabel ini.
Mungkin ada beberapa pengamatan dengan leverage yang sangat tinggi, yang mengarah ke perkiraan aneh.
Tentunya yang lain ... satu poin penting adalah bahwa model regresi linier bisa menjadi pendekatan yang sangat baik dengan sampel kecil, hanya efek besar yang akan signifikan. Tetapi sampel yang lebih besar akan menyebabkan varians yang lebih rendah, tetapi tidak dapat mengurangi bias karena perkiraan . Jadi dengan sampel yang lebih besar ketidakcukupan model menjadi nyata, dan akhirnya akan mendominasi lebih dari varian.
sumber
Tidak. Regressor yang tidak relevan tidak menjadi signifikan secara statistik karena ukuran sampel meningkat. Coba kode berikut dalam R.
y <- rnorm (10000000)
x <- rnorm (10000000)
ringkasan (lm (y ~ x))
sumber