Mengapa statistik-T membutuhkan data untuk mengikuti distribusi normal

11

Saya sedang melihat notebook ini , dan saya bingung dengan pernyataan ini:

Ketika kita berbicara tentang normalitas yang kita maksud adalah bahwa data harus terlihat seperti distribusi normal. Ini penting karena beberapa uji statistik mengandalkan ini (misalnya t-statistik).

Saya tidak mengerti mengapa statistik-T membutuhkan data untuk mengikuti distribusi normal.

Memang, Wikipedia mengatakan hal yang sama:

Distribusi-t siswa (atau hanya distribusi-t) adalah setiap anggota keluarga dari distribusi probabilitas berkesinambungan yang muncul ketika memperkirakan rata-rata populasi yang berdistribusi normal

Namun, saya tidak mengerti mengapa asumsi ini diperlukan.

Tidak ada dari rumusnya yang menunjukkan kepada saya bahwa data harus mengikuti distribusi normal:

masukkan deskripsi gambar di sini

Saya melihat sedikit definisi, tetapi saya tidak mengerti mengapa kondisi ini diperlukan.

oktavian
sumber

Jawaban:

17

Informasi yang Anda butuhkan ada di bagian "Karakterisasi" pada halaman Wiki . Sebuah -Distribusi dengan derajat kebebasan dapat didefinisikan sebagai distribusi variabel random sehingga mana adalah distribusi normal standar variabel acak dan adalah variabel acak dengan derajat kebebasan . Selain itu, dan harus independen. Jadi mengingat dan yang mengikuti definisi di atas, Anda kemudian dapat sampai pada variabel acak yang memiliki atνT

T=ZV/ν,
ZVχ2νZVZVt distribusi.

Sekarang, misalkan didistribusikan menurut distribusi . Biarkan memiliki rata-rata dan varians . Biarkan menjadi mean sampel dan menjadi varians sampel. Kami kemudian akan melihat formula:X1,X2,,XnFFμσ2X¯S2

X¯μS/n=X¯μσ/n(n1)S2(n1)σ2.

Jika, menunjukkan distribusi normal, maka , dan dengan demikian . Selain itu, oleh Teorema Cochran . Akhirnya, dengan aplikasi teorema Basu , dan bersifat independen. Ini kemudian menyiratkan bahwa statistik yang dihasilkan memiliki distribusi- dengan derajat kebebasan.FX¯N(μ,σ2/n)X¯μσ/nN(0,1)(n1)S2σ2χn12X¯S2tn1

Jika distribusi data asli tidak normal, maka, distribusi yang tepat dari pembilang dan penyebut masing-masing tidak akan menjadi standar normal dan , dan dengan demikian statistik yang dihasilkan tidak akan memiliki distribusi- .Fχ2t

Greenparker
sumber
3
Saya selalu menemukan cukup menarik berapa banyak teknologi matematika masuk ke hasil mendasar ini dalam statistik matematika.
Matthew Drury
3
Pos yang bagus. Namun, kita tidak perlu menggunakan teorema-teorema besar itu untuk membuktikan independensi antara dan , serta . Lihat jawaban pertama dari posting ini. X¯Sχ2
Zhanxiong
2

Saya pikir mungkin ada beberapa kebingungan antara statistik dan formulanya, versus distribusi dan formulanya. Anda dapat menerapkan rumus statistik-t untuk dataset apa pun dan mendapatkan "statistik-t", tetapi statistik ini tidak akan didistribusikan menurut distribusi siswa-t kecuali jika data berasal dari distribusi normal (atau setidaknya, tidak akan menjadi dijamin menjadi; tebakan saya adalah bahwa distribusi tidak normal tidak akan menghasilkan distribusi siswa-t ketika rumus statistik t diterapkan, tetapi saya tidak yakin akan hal itu). Alasannya adalah karena distribusi t-statistik dihitung dari distribusi data yang menghasilkannya, jadi jika Anda memiliki distribusi dasar yang berbeda, maka Anda tidak dijamin memiliki distribusi yang sama untuk statistik yang diturunkan.

Akumulasi
sumber