Saya sedang melihat notebook ini , dan saya bingung dengan pernyataan ini:
Ketika kita berbicara tentang normalitas yang kita maksud adalah bahwa data harus terlihat seperti distribusi normal. Ini penting karena beberapa uji statistik mengandalkan ini (misalnya t-statistik).
Saya tidak mengerti mengapa statistik-T membutuhkan data untuk mengikuti distribusi normal.
Memang, Wikipedia mengatakan hal yang sama:
Distribusi-t siswa (atau hanya distribusi-t) adalah setiap anggota keluarga dari distribusi probabilitas berkesinambungan yang muncul ketika memperkirakan rata-rata populasi yang berdistribusi normal
Namun, saya tidak mengerti mengapa asumsi ini diperlukan.
Tidak ada dari rumusnya yang menunjukkan kepada saya bahwa data harus mengikuti distribusi normal:
Saya melihat sedikit definisi, tetapi saya tidak mengerti mengapa kondisi ini diperlukan.
Saya pikir mungkin ada beberapa kebingungan antara statistik dan formulanya, versus distribusi dan formulanya. Anda dapat menerapkan rumus statistik-t untuk dataset apa pun dan mendapatkan "statistik-t", tetapi statistik ini tidak akan didistribusikan menurut distribusi siswa-t kecuali jika data berasal dari distribusi normal (atau setidaknya, tidak akan menjadi dijamin menjadi; tebakan saya adalah bahwa distribusi tidak normal tidak akan menghasilkan distribusi siswa-t ketika rumus statistik t diterapkan, tetapi saya tidak yakin akan hal itu). Alasannya adalah karena distribusi t-statistik dihitung dari distribusi data yang menghasilkannya, jadi jika Anda memiliki distribusi dasar yang berbeda, maka Anda tidak dijamin memiliki distribusi yang sama untuk statistik yang diturunkan.
sumber