Ini adalah definisi untuk statistik di wikipedia
Secara lebih formal, teori statistik mendefinisikan statistik sebagai fungsi sampel di mana fungsi itu sendiri tidak tergantung pada distribusi sampel; artinya, fungsi dapat dinyatakan sebelum realisasi data. Istilah statistik digunakan untuk fungsi dan nilai fungsi pada sampel yang diberikan.
Saya pikir saya mengerti sebagian besar definisi ini, namun bagian - di mana fungsi independen dari distribusi sampel saya belum bisa memilah.
Pemahaman saya tentang statistik sejauh ini
Sebuah sampel adalah seperangkat realisasi beberapa jumlah independen, identik didistribusikan (iid) variabel random dengan distribusi F (10 realisasi dari gulungan dadu yang adil 20-sided, 100 realisasi dari 5 gulungan dadu yang adil 6-sided, menarik secara acak 100 orang dari suatu populasi).
Suatu fungsi, yang domainnya merupakan himpunan itu, dan rentangnya adalah bilangan real (atau mungkin dapat menghasilkan hal-hal lain, seperti vektor atau objek matematika lainnya ...) akan dianggap sebagai statistik .
Ketika saya memikirkan contoh, mean, median, varians semuanya masuk akal dalam konteks ini. Mereka adalah fungsi pada set realisasi (pengukuran tekanan darah dari sampel acak). Saya juga dapat melihat bagaimana model regresi linier dapat dianggap sebagai statistik - apakah ini bukan hanya fungsi pada set realisasi?
Di mana saya bingung
Dengan anggapan bahwa pemahaman saya dari atas adalah benar, saya belum dapat memahami di mana suatu fungsi mungkin tidak independen dari distribusi sampel. Saya sudah mencoba memikirkan contoh untuk membuatnya masuk akal, tetapi tidak berhasil. Wawasan apa pun akan sangat dihargai!
sumber
I interpret that as saying that you should decide before you see the data what statistic you are going to calculate. So, for instance, if you're going to take out outliers, you should decide before you see the data what constitutes an "outlier". If you decide after you see the data, then your function is dependent on the data.
sumber