Apa yang dimaksud dengan "pengamatan independen"?

28

Saya mencoba memahami apa arti asumsi pengamatan independen . Beberapa definisi adalah:

  1. "Dua peristiwa bersifat independen jika dan hanya jika ." ( Kamus Istilah Statistik )P(ab)=P(a)P(b)
  2. "terjadinya satu peristiwa tidak mengubah probabilitas untuk yang lain" ( Wikipedia ).
  3. "Pengambilan sampel satu pengamatan tidak mempengaruhi pilihan pengamatan kedua" ( David M. Lane ).

Contoh pengamatan dependen yang sering diberikan adalah siswa bersarang di dalam guru seperti di bawah ini. Mari kita asumsikan bahwa guru mempengaruhi siswa tetapi siswa tidak saling mempengaruhi

Jadi bagaimana definisi ini dilanggar untuk data ini? Pengambilan sampel [nilai = 7] untuk [siswa = 1] tidak mempengaruhi distribusi probabilitas untuk nilai yang akan diambil sampelnya berikutnya. (Atau apakah itu? Dan jika demikian, lalu apa yang diprediksi pengamatan 1 mengenai pengamatan berikutnya?)

Mengapa pengamatan itu independen jika saya mengukur gender bukan teacher_id? Tidakkah mereka memengaruhi pengamatan dengan cara yang sama?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9
RubenGeert
sumber
4
Orang mungkin berpendapat bahwa distribusi nilai untuk guru 1 memiliki nilai "rata-rata" yang lebih rendah daripada guru 2 dan karenanya siswa guru 1 cenderung memiliki nilai lebih rendah, rata-rata, daripada siswa guru 2. Dengan kata lain , distribusi siswa / kelas untuk dua guru bisa jadi distribusi yang berbeda. Itu akan cukup untuk membuat pengamatan tergantung.
Reinstate Monica - G. Simpson
1
@ GavinSimpson: Saya sudah memikirkan garis penalaran yang tepat ini. Namun, bagaimana jika saya ganti teacherdengan gender? Gender hadir di sebagian besar data ilmu sosial dan berkorelasi dengan hampir semua hal sampai batas tertentu.
RubenGeert
1
Itu pasti tergantung pada respon. Jika kita melihat nilai siswa dalam sains di Inggris, mungkin akan ada efek dengan distribusi pencapaian yang berbeda untuk kedua jenis kelamin, rata-rata terhadap populasi yang Anda pelajari. Bagaimanapun, semua ini hanya penting (dalam model statistik) untuk residu, atau menempatkan berbeda untuk respon tergantung pada model yang sesuai. Dengan kata lain, jika pengamatan tidak independen, tidak masalah selama model menjelaskan hal ini sehingga residu independen.
Reinstate Monica - G. Simpson
4
Anda tidak dapat menggunakan (1) atau (2) sebagai definisi independensi (statistik), karena independensi dapat didefinisikan tanpa merujuk pada kausalitas. Ketiga kutipan hanyalah upaya untuk memberikan contoh informal dan intuitif . ((3) mungkin dapat diambil sebagai definisi asalkan Anda memiliki akses ke definisi jumlah informasi yang kuantitatif dan ketat.) Oleh karena itu, sebaiknya merujuk ke definisi aktual seperti yang muncul di bawah judul "Definisi". dalam artikel Wikipedia yang Anda referensi.
whuber
1
Tidak, Anda dapat membuat residu independen (atau setidaknya mengurangi ketergantungan sedemikian rupa sehingga residu tampak independen). Ini berasal dari asumsi model linier; mana adalah matriks korelasi. Asumsi yang biasa adalah adalah matriks identitas, maka off-diagonal adalah nol dan karenanya asumsi independensi ada pada residual. Dengan kata lain, ini adalah pernyataan tentang tergantung pada model yang pas. Λ Λ yεN(0,σ2Λ)ΛΛy
Reinstate Monica - G. Simpson

Jawaban:

11

Dalam teori probabilitas, independensi statistik (yang tidak sama dengan independensi kausal) didefinisikan sebagai properti Anda (3), tetapi (1) mengikuti sebagai konsekuensi . Peristiwa dan dikatakan independen secara statistik jika dan hanya jika:A BSEBUAHB

P(SEBUAHB)=P(SEBUAH)P(B).

Jika maka jika berikut itu:P(B)>0

P(SEBUAH|B)=P(SEBUAHB)P(B)=P(SEBUAH)P(B)P(B)=P(SEBUAH).

Ini berarti bahwa independensi statistik menyiratkan bahwa kejadian satu peristiwa tidak mempengaruhi probabilitas yang lain. Cara lain untuk mengatakan ini adalah bahwa terjadinya satu peristiwa tidak boleh mengubah keyakinan Anda tentang yang lain. Konsep kemandirian statistik umumnya diperluas dari peristiwa ke variabel acak dengan cara yang memungkinkan pernyataan analog dibuat untuk variabel acak, termasuk variabel acak kontinu (yang memiliki probabilitas nol dari hasil tertentu). Perlakuan independensi untuk variabel acak pada dasarnya melibatkan definisi yang sama diterapkan pada fungsi distribusi.


Sangat penting untuk memahami bahwa kemerdekaan adalah properti yang sangat kuat - jika peristiwa secara statistik independen maka (menurut definisi) kita tidak dapat belajar tentang satu dari mengamati yang lain. Untuk alasan ini, model statistik umumnya melibatkan asumsi independensi kondisional , mengingat beberapa distribusi atau parameter yang mendasarinya. Kerangka konseptual yang tepat tergantung pada apakah seseorang menggunakan metode Bayesian atau metode klasik. Yang pertama melibatkan ketergantungan eksplisit antara nilai-nilai yang dapat diobservasi, sedangkan yang kedua melibatkan bentuk ketergantungan tersirat (rumit dan halus). Memahami masalah ini secara tepat membutuhkan sedikit pemahaman tentang statistik klasik versus Bayesian.

Model statistik akan sering mengatakan mereka menggunakan asumsi bahwa urutan variabel acak adalah "independen dan terdistribusi secara identik (IID)". Misalnya, Anda mungkin memiliki urutan yang dapat diamati , yang berarti bahwa setiap variabel acak yang dapat diamati didistribusikan secara normal dengan mean dan standar deviasiX i μ σX1,X2,X3,...IID N(μ,σ2)Xsayaμσ. Masing-masing variabel acak dalam urutan adalah "independen" dari yang lain dalam arti bahwa hasilnya tidak mengubah distribusi yang dinyatakan dari nilai-nilai lain. Dalam model semacam ini kami menggunakan nilai-nilai yang diamati dari urutan untuk memperkirakan parameter dalam model, dan kami kemudian dapat memprediksi nilai-nilai urutan yang tidak teramati. Ini perlu melibatkan penggunaan beberapa nilai yang diamati untuk belajar tentang orang lain.

Statistik Bayesian: Semuanya secara konsep sederhana. Asumsikan bahwa secara IID diberikan parameter dan , dan perlakukan parameter yang tidak diketahui itu sebagai variabel acak. Mengingat distribusi sebelumnya yang tidak berdegenerasi untuk parameter-parameter ini, nilai-nilai dalam urutan yang dapat diamati adalah (tanpa syarat) tergantung, umumnya dengan korelasi positif. Oleh karena itu, sangat masuk akal bahwa kita menggunakan hasil yang diamati untuk memprediksi hasil yang tidak diamati kemudian - mereka independen secara kondisional, tetapi tergantung tanpa syarat.μ σX1,X2,X3,...μσ

Statistik klasik: Ini cukup rumit dan halus. Asumsikan adalah IID diberi parameter dan , tetapi perlakukan parameter tersebut sebagai "konstanta tidak diketahui". Karena parameter diperlakukan sebagai konstanta, tidak ada perbedaan yang jelas antara independensi bersyarat dan tanpa syarat dalam kasus ini. Namun demikian, kami masih menggunakan nilai yang diamati untuk memperkirakan parameter dan membuat prediksi dari nilai yang tidak teramati. Oleh karena itu, kami menggunakan hasil yang diamati untuk memprediksi hasil yang tidak teramati kemudian meskipun mereka secara "independen" satu sama lain. Ketidaksesuaian nyata ini dibahas secara rinci dalam O'Neill, B. (2009) Pertukaran, Korelasi dan Efek Bayes. μ σX1,X2,X3,...μσTinjauan Statistik Internasional 77 (2) , hlm. 241 - 250 .


Menerapkan ini data nilai siswa Anda, Anda akan mungkin sesuatu model seperti ini dengan mengasumsikan bahwa gradeadalah bersyarat independen keterberian teacher_id. Anda akan menggunakan data untuk membuat kesimpulan tentang distribusi penilaian untuk setiap guru (yang tidak akan dianggap sama) dan ini akan memungkinkan Anda untuk membuat prediksi tentang yang tidak diketahui gradedari siswa lain. Karena gradevariabel digunakan dalam inferensi, itu akan mempengaruhi prediksi Anda tentang gradevariabel yang tidak diketahui untuk siswa lain. Mengganti teacher_iddengan gendertidak mengubah ini; dalam kedua kasus Anda memiliki variabel yang dapat Anda gunakan sebagai prediktor grade.

Jika Anda menggunakan metode Bayesian, Anda akan memiliki asumsi eksplisit tentang independensi bersyarat dan distribusi sebelumnya untuk distribusi nilai guru, dan ini mengarah pada ketergantungan nilai tanpa syarat (prediktif) , memungkinkan Anda untuk menggunakan satu nilai secara rasional dalam prediksi Anda terhadap nilai lainnya. Jika Anda menggunakan statistik klasik, Anda akan memiliki asumsi independensi (berdasarkan parameter yang merupakan "konstanta tidak diketahui") dan Anda akan menggunakan metode prediksi statistik klasik yang memungkinkan Anda untuk menggunakan satu kelas untuk memprediksi yang lain.


Ada beberapa presentasi mendasar dari teori probabilitas yang mendefinisikan independensi melalui pernyataan probabilitas bersyarat dan kemudian memberikan pernyataan probabilitas bersama sebagai konsekuensinya. Ini kurang umum.

Pasang kembali Monica
sumber
6
Kemandirian statistik adalah apa yang Anda gambarkan pada bagian pertama dari jawaban Anda. Tapi kalimat Anda "... jika peristiwa secara statistik independen maka (menurut definisi) kami tidak dapat belajar tentang satu dari mengamati yang lain." secara terang - terangan salah. Dunia ini penuh dengan peristiwa yang independen secara statistik tetapi serupa dan variabel acak.
Alecos Papadopoulos
1
Tidakkah "belajar" berarti mengubah keyakinan kita tentang sesuatu berdasarkan pengamatan orang lain? Jika demikian, bukankah kemerdekaan (secara definitif) menghalangi hal ini?
Pasang kembali Monica
6
Saya akan membuat komentar serupa dengan @Alecos. Kesan keseluruhan yang didapat adalah bahwa Anda menyatakan bahwa mengamati satu realisasi dari variabel acak tidak memberi tahu kami tentang distribusinya , sehingga Anda tidak dapat memprediksi apa pun tentang realisasi independen kedua. Jika ini masalahnya, sebagian besar teori pengambilan sampel dan estimasi tidak mungkin dikembangkan. Tetapi Anda benar dalam arti bahwa jika kita mengetahui dan mengamati satu realisasi, itu tidak memberi kita informasi tambahan tentang realisasi independen lainnya . FFF
whuber
4
Saya pikir masalah di sini adalah bahwa model IID standar dengan distribusi secara implisit menggunakan asumsi bersyarat kemerdekaan diberikan pengetahuan tentang F . Bersyarat pada pengetahuan tentang F , pengamatannya independen, tetapi tanpa syarat Anda memiliki situasi di mana setiap pengamatan memberikan informasi tentang F , yang kemudian memengaruhi keyakinan Anda tentang pengamatan lain. FFFF
Pasang kembali Monica
2
Kesulitan dalam masalah ini adalah bahwa statistik klasik memperlakukan distribusi dan parameter yang mendasarinya sebagai "konstanta yang tidak diketahui" dan oleh karena itu tidak membuat perbedaan eksplisit antara independensi bersyarat atau tanpa syarat, dalam kasus ini. Dalam statistik Bayesian, semuanya sangat sederhana.
Pasang kembali Monica
4

Biarkan oleh k - vektor acak dimensi, yaitu koleksi posisi tetap variabel acak (fungsi nyata terukur).x=(X1,...,Xj,...,Xk)k-

Mempertimbangkan banyak vektor seperti, mengatakan , dan indeks vektor ini dengan i = 1 , . . . , n , jadi, katakannsaya=1,...,n

dan menganggap mereka sebagai koleksi yang disebut "sampel",S=( x 1 ,..., x i ,..., x n ). Lalu kami memanggil masing-masingk-

xsaya=(X1saya,...,Xjsaya,...,Xksaya)
S=(x1,...,xsaya,...,xn)k- vektor dimensi merupakan "pengamatan" (meskipun itu benar-benar menjadi satu hanya setelah kita mengukur dan mencatat realisasi dari variabel acak yang terlibat).

Pertama mari kita perlakukan kasus di mana salah satu fungsi massa probabilitas (PMF) atau fungsi kepadatan probabilitas (PDF) ada, dan juga, menggabungkan fungsi-fungsi tersebut. Ditunjukkan oleh PMF bersama atau PDF gabungan dari setiap vektor acak, dan PMF bersama atau PDF bersama dari semua vektor ini bersama-sama. f ( x 1 , . . . , X i , . . . , X n )fsaya(xsaya),saya=1,...,nf(x1,...,xsaya,...,xn)

Kemudian, sampel disebut "sampel independen", jika persamaan matematis berikut berlaku:S

f(x1,...,xsaya,...,xn)=saya=1nfsaya(xsaya),(x1,...,xsaya,...,xn)DS

di mana adalah domain gabungan yang dibuat oleh vektor / pengamatan acak. nDSn

Ini berarti bahwa "pengamatan" adalah "independen bersama", (dalam arti statistik, atau "independen dalam probabilitas" seperti pepatah lama yang masih terlihat sampai sekarang kadang-kadang). Kebiasaannya adalah dengan menyebutnya "pengamatan independen".

Perhatikan bahwa properti independensi statistik di sini melebihi indeks , yaitu antara pengamatan. Ini tidak terkait dengan apa hubungan probabilistik / statistik antara variabel acak dalam setiap pengamatan (dalam kasus umum kami memperlakukan di sini di mana setiap pengamatan adalah multidimensi).saya

Perhatikan juga bahwa dalam kasus di mana kita memiliki variabel acak kontinu tanpa kepadatan, hal di atas dapat dinyatakan dalam fungsi distribusi.

Inilah yang "pengamatan independen" berarti . Ini adalah properti yang didefinisikan secara tepat yang dinyatakan dalam istilah matematika. Mari kita lihat beberapa implikasinya .

BEBERAPA KONSEKUENSI MEMILIKI PENGAMATAN INDEPENDEN

A. Jika dua pengamatan adalah bagian dari kelompok pengamatan independen bersama, maka mereka juga "independen pasangan-bijaksana" (secara statistik),

f(xsaya,xm)=fsaya(xsaya)fm(xm)sayam,saya,m=1,...,n

Ini pada gilirannya menyiratkan bahwa PMF bersyarat / PDF sama dengan yang "marginal"

f(xsayaxm)=fsaya(xsaya)sayam,saya,m=1,...,n

Ini digeneralisasikan ke banyak argumen, dikondisikan atau dikondisikan, katakan

f(xsaya,xxm)=f(xsaya,x),f(xsayaxm,x)=fsaya(xsaya)

dll, selama indeks ke kiri berbeda dengan indeks di sebelah kanan garis vertikal.

Ini menyiratkan bahwa jika kita benar-benar mengamati satu pengamatan, probabilitas yang menjadi ciri pengamatan lain dari sampel tidak berubah. Jadi mengenai prediksi , sampel independen bukanlah teman terbaik kami. Kami lebih suka memiliki ketergantungan sehingga setiap pengamatan dapat membantu kami mengatakan sesuatu tentang pengamatan lain.

B. Di sisi lain, sampel independen memiliki konten informasi maksimum. Setiap pengamatan, independen, membawa informasi yang tidak dapat disimpulkan, seluruhnya atau sebagian, oleh pengamatan lain dalam sampel. Jadi jumlah totalnya maksimum, dibandingkan dengan sampel mana pun yang sebanding di mana terdapat beberapa ketergantungan statistik antara beberapa pengamatan. Tetapi apa gunanya informasi ini, jika tidak dapat membantu kami meningkatkan prediksi kami?

Nah, ini adalah informasi tidak langsung tentang probabilitas yang menjadi ciri variabel acak dalam sampel. Semakin banyak pengamatan ini memiliki karakteristik umum (distribusi probabilitas umum dalam kasus kami), semakin kami berada dalam posisi yang lebih baik untuk mengungkapnya, jika sampel kami independen.

Dengan kata lain jika sampel independen dan "terdistribusi secara identik", artinya

fsaya(xsaya)=fm(xm)=f(x),sayam

itu adalah sampel terbaik untuk mendapatkan informasi tentang tidak hanya distribusi probabilitas gabungan umum , tetapi juga untuk distribusi marginal dari variabel acak yang terdiri dari setiap pengamatan, katakanlah . f(x)fj(xjsaya)

Jadi walaupun , jadi nol daya prediksi tambahan sehubungan dengan realisasi aktual dari , dengan sampel independen dan terdistribusi secara identik, kami berada di yang terbaik posisi untuk mengungkap fungsi (atau beberapa propertinya), yaitu distribusi marginal.f(xsayaxm)=fsaya(xsaya)xsaya fsaya

Oleh karena itu, dalam hal estimasi (yang kadang-kadang digunakan sebagai istilah tangkap semua, tapi di sini ia harus tetap berbeda dari konsep prediksi ), sampel independen adalah "sahabat kami", jika dikombinasikan dengan "terdistribusi secara identik" "properti.

C. Ini juga berarti bahwa sampel pengamatan independen di mana masing-masing dicirikan oleh distribusi probabilitas yang sama sekali berbeda, tanpa karakteristik umum apa pun, adalah kumpulan informasi yang tidak berharga seperti yang dapat diperoleh (tentu saja setiap informasi itu sendiri adalah layak, masalahnya di sini adalah bahwa secara bersama-sama ini tidak dapat digabungkan untuk menawarkan sesuatu yang bermanfaat). Bayangkan sampel yang mengandung tiga pengamatan: satu berisi (karakteristik kuantitatif) buah-buahan dari Amerika Selatan, yang lain mengandung pegunungan Eropa, dan yang ketiga berisi pakaian dari Asia. Sepotong informasi yang cukup menarik, ketiganya -tetapi sebagai sampel tidak dapat melakukan apa pun yang berguna secara statistik bagi kita.

Dengan kata lain, kondisi yang diperlukan dan cukup untuk sampel independen menjadi berguna, adalah bahwa pengamatan memiliki beberapa karakteristik statistik yang sama. Inilah sebabnya, dalam Statistik, kata "sampel" tidak identik dengan "pengumpulan informasi" secara umum, tetapi untuk "pengumpulan informasi tentang entitas yang memiliki beberapa karakteristik umum".

APLIKASI UNTUK CONTOH DATA OP'S

Menanggapi permintaan dari pengguna @gung, mari kita periksa contoh OP dalam terang di atas. Kami beranggapan bahwa kami berada di sekolah dengan lebih dari dua guru dan lebih dari enam siswa. Jadi a) kami mengambil sampel murid dan guru, dan b) kami memasukkan data kami mengatur nilai yang sesuai dengan masing-masing kombinasi guru-murid.

Yaitu, nilai tidak "sampel", mereka adalah konsekuensi dari pengambilan sampel yang kami lakukan pada guru dan murid. Oleh karena itu masuk akal untuk memperlakukan variabel acak (= kelas) sebagai "variabel dependen", sedangkan murid ( ) dan guru adalah "variabel penjelas" (tidak semua variabel penjelas yang mungkin, hanya beberapa ). Sampel kami terdiri dari enam pengamatan yang kami tulis secara eksplisit, sebagaiGPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

Di bawah asumsi yang dinyatakan "murid tidak saling mempengaruhi", kita dapat mempertimbangkan variabel sebagai didistribusikan secara independen. Di bawah asumsi yang tidak dinyatakan bahwa "semua faktor lain" yang dapat memengaruhi Grade saling independen, kita juga dapat menganggap variabel saling independen satu sama lain. Akhirnya dengan asumsi yang tidak dinyatakan bahwa guru tidak saling mempengaruhi, kita dapat mempertimbangkan variabel sebagai independen secara statistik di antara mereka.PsayaGsaya
T1,T2

Tetapi terlepas dari apa asumsi kausal / struktural yang akan kita buat mengenai hubungan antara guru dan murid , kenyataannya tetap bahwa pengamatan berisi variabel acak yang sama ( ), sedangkan pengamatan juga berisi variabel acak yang sama ( ). s1,s2,s3T1s4,s5,s6T2

Perhatikan dengan cermat perbedaan antara "variabel acak yang sama" dan "dua variabel acak berbeda yang memiliki distribusi identik".

Jadi, bahkan jika kita berasumsi bahwa "guru TIDAK mempengaruhi murid", maka sampel kita seperti yang didefinisikan di atas bukanlah sampel independen, karena secara statistik tergantung melalui , sementara secara statistik tergantung melalui . s1,s2,s3T1s4,s5,s6T2

Asumsikan sekarang bahwa kita mengecualikan variabel acak "guru" dari sampel kami. Apakah sampel (Murid, Kelas) dari enam pengamatan, merupakan sampel independen? Di sini, asumsi yang akan kita buat mengenai apa hubungan struktural antara guru, murid, dan kelas itu penting.

Pertama, apakah guru secara langsung memengaruhi variabel acak "Kelas", melalui mungkin, "sikap / gaya penilaian" yang berbeda? Misalnya mungkin merupakan "kelas tegar" sedangkan mungkin tidak. Dalam kasus seperti itu "tidak melihat" variabel "Guru" tidak membuat sampel independen, karena sekarang yang tergantung, karena sumber pengaruh yang umum, (dan analog dengan tiga lainnya ). T1T2G1,G2,G3T1

Tetapi katakan bahwa guru identik dalam hal itu. Kemudian di bawah asumsi yang dinyatakan "guru mempengaruhi siswa" kami memiliki lagi bahwa tiga pengamatan pertama saling tergantung satu sama lain, karena guru mempengaruhi siswa yang mempengaruhi nilai, dan kami tiba pada hasil yang sama, meskipun secara tidak langsung dalam kasus ini (dan juga untuk tiga lainnya). Jadi sekali lagi, sampelnya tidak independen.

KASUS GENDER

Sekarang, mari kita buat sampel pengamatan enam (Murid, Tingkat) "independen secara kondisional terhadap guru" (lihat jawaban lain) dengan mengasumsikan bahwa semua enam murid pada kenyataannya memiliki guru yang sama. Tetapi sebagai tambahan mari kita sertakan dalam sampel variabel acak " = Gender" yang secara tradisional mengambil dua nilai ( ), sementara baru-baru ini mulai mengambil lebih banyak. Sampel pengamatan tiga dimensi kami yang tiga kali lagi adalah sekarangGeM.,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

Perhatikan baik-baik bahwa apa yang kami sertakan dalam deskripsi sampel mengenai Gender, bukan nilai aktual yang diperlukan untuk setiap murid, tetapi variabel acak "Gender" . Lihat kembali pada jawaban yang sangat panjang ini: Sampel tidak didefinisikan sebagai kumpulan angka (atau angka tetap atau tidak nilai secara umum), tetapi sebagai kumpulan variabel acak (mis. Fungsi).

Sekarang, apakah jenis kelamin dari satu murid mempengaruhi (secara struktural atau statistik) jenis kelamin dari murid yang lain? Kita bisa beralasan bahwa itu tidak benar. Jadi dari variabel independen. Apakah jenis kelamin murid , , memengaruhi secara langsung beberapa murid lainnya ( )? Hmm, ada pertarungan teori-teori pendidikan jika saya ingat tentang masalah ini. Jadi, jika kita berasumsi bahwa itu tidak , maka pergi sumber lain yang mungkin dari ketergantungan antara pengamatan. Akhirnya, apakah jenis kelamin murid mempengaruhi secara langsung nilai murid lain? jika kami berpendapat tidak, kami mendapatkan sampel independenGesaya1Ge1P2,P3,... (tergantung pada semua murid yang memiliki guru yang sama).

Alecos Papadopoulos
sumber
Saya tidak setuju dengan poin Anda B. Untuk beberapa tujuan, seperti memperkirakan rata-rata, korelasi negatif lebih baik daripada independensi.
kjetil b halvorsen
@ kjetil Lebih baik dalam arti apa?
Alecos Papadopoulos
Ini akan membantu jika Anda dapat menghubungkan ini secara konkret dengan pertanyaan OP dalam teks. Mengingat hal ini, bagaimana kita memahami bahwa pengamatan yang terdaftar tidak independen? & Bagaimana perbedaan meninggalkan guru dengan meninggalkan seks?
gung - Reinstate Monica
@ung, saya memasukkan beberapa elaborasi sepanjang garis yang Anda sarankan.
Alecos Papadopoulos
Lebih baik dalam arti mengurangi varians
kjetil b halvorsen
2

Definisi independensi statistik yang Anda berikan di pos Anda pada dasarnya semua benar, tetapi mereka tidak sampai pada inti asumsi independensi dalam model statistik . Untuk memahami apa yang kami maksudkan dengan asumsi pengamatan independen dalam model statistik, akan sangat membantu untuk meninjau kembali apa model statistik pada tingkat konseptual.

Model statistik sebagai perkiraan "dadu alam"

Mari kita gunakan contoh yang familier: kami mengumpulkan sampel acak dari manusia dewasa (dari populasi yang terdefinisi dengan baik - katakanlah, semua manusia dewasa di bumi) dan kami mengukur ketinggiannya. Kami ingin memperkirakan tinggi populasi rata-rata manusia dewasa. Untuk melakukan ini, kami membangun model statistik sederhana dengan mengasumsikan bahwa ketinggian orang muncul dari distribusi normal.

Model kami akan menjadi model yang bagus jika distribusi normal memberikan perkiraan yang baik tentang bagaimana sifat "memetik" ketinggian bagi manusia. Yaitu, jika kita mensimulasikan data di bawah model normal kita, apakah dataset yang dihasilkan sangat mirip (dalam arti statistik) apa yang kita amati di alam? Dalam konteks model kami, apakah generator angka acak kami menyediakan simulasi yang baik dari proses stokastik rumit yang digunakan alam untuk menentukan ketinggian orang dewasa manusia yang dipilih secara acak ("dadu alam")?

Asumsi independensi dalam konteks pemodelan sederhana

Ketika kami berasumsi bahwa kami dapat memperkirakan "dadu alam" dengan menggambar angka acak dari distribusi normal, kami tidak bermaksud bahwa kami akan menarik satu angka dari distribusi normal, dan kemudian menetapkan tinggi itu untuk semua orang. Kami bermaksud bahwa kami akan secara mandiri menggambar angka untuk semua orang dari distribusi normal yang sama. Ini adalah asumsi kemerdekaan kami.

Bayangkan sekarang bahwa sampel orang dewasa kami bukan sampel acak, melainkan berasal dari segelintir keluarga. Tinggi di beberapa keluarga, dan pendek di keluarga lain. Kami sudah mengatakan bahwa kami bersedia mengasumsikan bahwa ketinggian semua orang dewasa berasal dari satu distribusi normal. Tetapi pengambilan sampel dari distribusi normal tidak akan memberikan dataset yang mirip sampel kami (sampel kami akan menunjukkan "rumpun" poin, beberapa pendek, lainnya tinggi - setiap rumpun adalah keluarga). Ketinggian orang dalam sampel kami bukan merupakan penarikan independen dari distribusi normal keseluruhan.

Asumsi independensi dalam konteks pemodelan yang lebih rumit

Tapi tidak semua hilang! Kami mungkin dapat menuliskan model yang lebih baik untuk sampel kami - model yang menjaga independensi ketinggian. Sebagai contoh, kita dapat menuliskan model linier di mana ketinggian muncul dari distribusi normal dengan rata-rata yang tergantung pada keluarga yang menjadi subjek. Dalam konteks ini, distribusi normal menggambarkan variasi residu , SETELAH kami memperhitungkan pengaruh keluarga. Dan sampel independen dari distribusi normal mungkin menjadi model yang baik untuk variasi residu ini.

Secara keseluruhan di sini, apa yang telah kami lakukan adalah menuliskan model yang lebih canggih tentang bagaimana kami mengharapkan dadu alam berperilaku dalam konteks penelitian kami. Dengan menuliskan model yang baik, kita mungkin masih dapat dibenarkan dengan mengasumsikan bahwa bagian acak dari model (yaitu variasi acak di sekitar keluarga berarti) secara mandiri diambil sampelnya untuk setiap anggota populasi.

Asumsi independensi (bersyarat) dalam konteks pemodelan umum

Secara umum, model statistik bekerja dengan mengasumsikan bahwa data muncul dari beberapa distribusi probabilitas. Parameter distribusi itu (seperti rata-rata distribusi normal pada contoh di atas) mungkin tergantung pada kovariat (seperti keluarga pada contoh di atas). Tapi tentu saja variasi yang tak ada habisnya mungkin. Distribusi mungkin tidak normal, parameter yang tergantung pada kovariat mungkin tidak menjadi rata-rata, bentuk ketergantungan mungkin tidak linier, dll. SEMUA model ini bergantung pada asumsi bahwa mereka memberikan perkiraan yang cukup baik tentang bagaimana dadu alam berperilaku (sekali lagi, bahwa data yang disimulasikan dalam model akan terlihat secara statistik mirip dengan data aktual yang diperoleh secara alami).

Ketika kami mensimulasikan data di bawah model, langkah terakhir akan selalu menggambar angka acak sesuai dengan beberapa distribusi probabilitas yang dimodelkan. Ini adalah undian yang kami anggap independen satu sama lain. Data aktual yang kami peroleh mungkin tidak terlihat independen, karena kovariat atau fitur lain dari model mungkin memberi tahu kami untuk menggunakan distribusi probabilitas yang berbeda untuk undian yang berbeda (atau set undian). Tetapi semua informasi ini harus dibangun ke dalam model itu sendiri. Kami tidak diizinkan untuk membiarkan pengundian angka akhir acak tergantung pada nilai apa yang kami buat untuk poin data lainnya. Dengan demikian, peristiwa yang perlu independen adalah gulungan "dadu alam" dalam konteks model kami.

Berguna untuk merujuk pada situasi ini sebagai independensi bersyarat , yang berarti bahwa titik-titik data tidak tergantung satu sama lain yang diberikan (yaitu dikondisikan pada) kovariat. Dalam contoh tinggi badan kami, kami menganggap tinggi badan saya dan tinggi badan saudara saya yang dikondisikan pada keluarga saya tidak tergantung satu sama lain, dan juga tidak tergantung pada tinggi badan Anda dan tinggi badan saudari Anda tergantung pada keluarga Anda. Begitu kita mengenal keluarga seseorang, kita tahu distribusi normal untuk menggambar untuk mensimulasikan tinggi badan mereka, dan undian untuk individu yang berbeda independen terlepas dari keluarga mereka (meskipun pilihan kita tentang distribusi normal untuk apa bergantung pada keluarga). Mungkin juga bahwa bahkan setelah berurusan dengan struktur keluarga dari data kami, kami masih belum mencapai independensi kondisional yang baik (mungkin juga penting untuk memodelkan gender, misalnya).

Pada akhirnya, apakah masuk akal untuk mengasumsikan independensi pengamatan bersyarat adalah keputusan yang harus dilakukan dalam konteks model tertentu. Inilah sebabnya, misalnya, dalam regresi linier, kami tidak memeriksa apakah data berasal dari distribusi normal, tetapi kami memeriksa bahwa RESIDUAL berasal dari distribusi normal (dan dari distribusi normal SAMA di seluruh jajaran data). Regresi linier mengasumsikan bahwa, setelah memperhitungkan pengaruh kovariat (garis regresi), data disampel secara independen dari distribusi normal, sesuai dengan definisi independensi yang ketat pada pos asli.

Dalam konteks contoh Anda

"Guru" dalam data Anda mungkin seperti "keluarga" dalam contoh ketinggian.

Putaran terakhir

Banyak model yang akrab berasumsi bahwa residu muncul dari distribusi normal. Bayangkan saya memberi Anda beberapa data yang sangat jelas TIDAK normal. Mungkin mereka sangat condong, atau mungkin mereka bimodal. Dan saya bilang "data ini berasal dari distribusi normal."

"Tidak mungkin," katamu, "Jelas bahwa itu tidak normal!"

"Siapa yang mengatakan sesuatu tentang data itu normal?" Saya katakan. "Aku hanya mengatakan bahwa mereka berasal dari distribusi normal."

"Satu yang sama!" kamu bilang. "Kita tahu bahwa histogram sampel yang cukup besar dari distribusi normal akan cenderung terlihat normal!"

"Tapi," kataku, "aku tidak pernah mengatakan data sampel secara independen dari distribusi normal. DO datang dari distribusi normal, tetapi mereka tidak menarik secara independen."

Asumsi independensi (bersyarat) dalam pemodelan statistik ada di sana untuk mencegah smart-alecks seperti saya dari mengabaikan distribusi residu dan salah menerapkan model.

Dua catatan akhir

1) Istilah "dadu alam" pada mulanya bukan milik saya, tetapi meskipun telah berkonsultasi dengan beberapa referensi, saya tidak dapat mengetahui dari mana saya mendapatkannya dalam konteks ini.

2) Beberapa model statistik (misalnya model autoregresif) tidak memerlukan independensi pengamatan dengan cara seperti ini. Secara khusus, mereka memungkinkan distribusi sampling untuk pengamatan yang diberikan tidak hanya bergantung pada kovariat tetap, tetapi juga pada data yang datang sebelumnya.

Yakub Socolar
sumber
Terima kasih untuk ini. Saya suka itu diletakkan dengan cara yang sangat mudah diakses. Anda membahas masalah bagaimana ini berlaku untuk guru, dapatkah Anda memperluas diskusi untuk juga membahas gagasan seks sebagai kovariat?
gung - Reinstate Monica