Misalkan saya memiliki minimum, rata-rata, dan maksimum dari beberapa kumpulan data, katakanlah, 10, 20, dan 25. Apakah ada cara untuk:
buat distribusi dari data ini, dan
ketahuilah berapa persentase populasi yang kemungkinan berada di atas atau di bawah rata-rata
Edit:
Sesuai saran Glen, anggaplah kita memiliki ukuran sampel 200.
distributions
standard-deviation
mean
maximum
minimum
pengguna132053
sumber
sumber
Jawaban:
Ada jumlah tak terbatas dari distribusi yang mungkin yang akan konsisten dengan jumlah sampel tersebut.
Dengan tidak adanya beberapa asumsi yang mungkin tidak dapat dibenarkan, tidak secara umum - setidaknya tidak dengan banyak pengertian bahwa itu akan bermakna. Hasil akan sangat tergantung pada asumsi Anda (tidak ada banyak informasi dalam nilai sendiri, meskipun beberapa pengaturan tertentu memberikan beberapa informasi yang berguna - lihat di bawah).
Tidak sulit menemukan situasi di mana jawaban atas pertanyaan proporsi mungkin sangat berbeda. Ketika ada jawaban yang sangat berbeda, konsisten dengan informasi, bagaimana Anda tahu di mana Anda berada?
Lebih detail mungkin memberikan petunjuk yang bermanfaat tetapi seperti yang ada (bahkan tanpa ukuran sampel, meskipun mungkin setidaknya 2, atau 3 jika rata-rata tidak berada di antara titik akhir *), Anda tidak akan mendapatkan banyak nilai pada pertanyaan itu . Anda dapat mencoba untuk mendapatkan batasan, tetapi dalam banyak kasus mereka tidak akan mempersempit banyak hal.
sumber
Seperti yang sudah dicatat oleh Glen_b , ada banyak kemungkinan tanpa batas. Lihatlah plot berikut, mereka menunjukkan delapan distribusi berbeda yang memiliki min, maks, dan rata-rata yang sama.
Perhatikan bahwa mereka sangat berbeda satu sama lain. Pertama adalah seragam, sebagainya adalah campuran bimodal dari distribusi segitiga, ketujuh memiliki massa probabilitas paling terkonsentrasi di sekitar pusat, tetapi masih min dan maks dimungkinkan dengan probabilitas sangat kecil, delapan diskrit dan hanya memiliki dua nilai pada min dan pada maks, dll .
Karena semuanya memenuhi kriteria Anda, Anda dapat menggunakannya untuk simulasi. Namun pilihan subjektif Anda akan memiliki hasil yang sangat mendalam pada hasil simulasi. Yang ingin saya katakan adalah jika min, max dan mean adalah satu - satunya hal yang Anda ketahui tentang distribusi, maka Anda tidak memiliki informasi yang cukup untuk melakukan simulasi jika Anda ingin benar-benar meniru distribusi nyata (tidak diketahui).
Jadi, Anda perlu bertanya pada diri sendiri apa yang Anda ketahui tentang distribusinya? Apakah diskrit atau kontinu? Simetris atau miring? Unimodal atau bimodal? Ada banyak hal yang perlu dipertimbangkan. Jika kontinu, tidak seragam, dan unimodal, dan Anda hanya tahu min, maks dan rata-rata, maka salah satu pilihan yang mungkin adalah distribusi segitiga - sangat tidak mungkin bahwa apa pun dalam kehidupan nyata memiliki distribusi seperti itu, tetapi setidaknya Anda menggunakan sesuatu yang sederhana dan tidak memaksakan terlalu banyak asumsi tentang bentuknya.
sumber
Aturan berbasis rentang untuk menghitung standar deviasi dikutip secara luas dalam literatur statistik (di sini adalah satu referensi ... http://statistics.about.com/od/Description-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Pada dasarnya, ini adalah (maks-min) / 4. Ini dikenal sebagai perkiraan yang sangat kasar.
Mengingat bahwa informasi dan kemauan untuk mengasumsikan data berdistribusi normal, penyimpangan normal dapat dihasilkan dari dua angka, mean dan deviasi std berbasis rentang. Yang mengatakan, setiap distribusi satu atau dua parameter dapat dihasilkan dari dua informasi ini, selama distribusi itu di-root pada momen pertama atau kedua.
Koefisien variasi kasar juga dapat dihasilkan dengan mengambil rasio SD / Mean. Ini akan memberikan proksi untuk variabilitas unitless dalam data.
Kesalahan lebih tepat mengacu pada distribusi sampling populasi dan membutuhkan pernyataan ukuran sampel, n , untuk estimasi. Deskripsi Anda tidak memberikan detail ini.
sumber