Menghitung distribusi dari min, mean, dan maks

Misalkan saya memiliki minimum, rata-rata, dan maksimum dari beberapa kumpulan data, katakanlah, 10, 20, dan 25. Apakah ada cara untuk:

buat distribusi dari data ini, dan
ketahuilah berapa persentase populasi yang kemungkinan berada di atas atau di bawah rata-rata

Edit:

Sesuai saran Glen, anggaplah kita memiliki ukuran sampel 200.

distributions standard-deviation mean maximum minimum pengguna132053
sumber

(1) mudah, karena ada banyak solusi. (2) paling baik dilakukan dalam konteks beberapa asumsi tentang bentuk distribusi, karena jika tidak semua yang dapat Anda peroleh adalah batas matematika.

Whuber

Anda benar-benar dibawa ke sini dalam komentar dan jawaban sejauh ini, tetapi peringatan yang diperlukan (diam-diam, saya pikir, dalam pernyataan @ whuber) adalah bahwa ada begitu banyak distribusi yang kompatibel dengan informasi sedemikian sehingga Anda tidak boleh menyimpulkan bahwa Anda memiliki cukup informasi untuk melakukan ini sama sekali dengan baik atau andal. Khususnya, jika Anda bahkan tidak tahu ukuran sampel, Anda bahkan tidak bisa berbuat banyak untuk memikirkan ketidakpastian.

Nick Cox

Ketika Anda bertanya tentang proporsi populasi yang "terletak di atas atau di bawah rata-rata" ... apakah Anda bertanya relatif terhadap sampel rata-rata atau populasi berarti di sana? Apakah kita berbicara tentang variabel kontinu atau diskrit? Apakah kita tahu ukuran sampel?

Glen_b -Reinstate Monica

Jawaban:

Saya memiliki minimum, rata-rata, dan maksimum dari beberapa kumpulan data, katakanlah, 10, 20, dan 25. Apakah ada cara untuk:

buat distribusi dari data ini, dan

Ada jumlah tak terbatas dari distribusi yang mungkin yang akan konsisten dengan jumlah sampel tersebut.

ketahuilah berapa persentase populasi yang kemungkinan berada di atas atau di bawah rata-rata

Dengan tidak adanya beberapa asumsi yang mungkin tidak dapat dibenarkan, tidak secara umum - setidaknya tidak dengan banyak pengertian bahwa itu akan bermakna. Hasil akan sangat tergantung pada asumsi Anda (tidak ada banyak informasi dalam nilai sendiri, meskipun beberapa pengaturan tertentu memberikan beberapa informasi yang berguna - lihat di bawah).

Tidak sulit menemukan situasi di mana jawaban atas pertanyaan proporsi mungkin sangat berbeda. Ketika ada jawaban yang sangat berbeda, konsisten dengan informasi, bagaimana Anda tahu di mana Anda berada?

Lebih detail mungkin memberikan petunjuk yang bermanfaat tetapi seperti yang ada (bahkan tanpa ukuran sampel, meskipun mungkin setidaknya 2, atau 3 jika rata-rata tidak berada di antara titik akhir *), Anda tidak akan mendapatkan banyak nilai pada pertanyaan itu . Anda dapat mencoba untuk mendapatkan batasan, tetapi dalam banyak kasus mereka tidak akan mempersempit banyak hal.

$n$

Glen_b -Reinstate Monica
sumber

@ Johnson Saya tidak berpikir itu hiperbolik - itu benar-benar benar (meskipun kemampuan kita untuk benar-benar daftar mereka mungkin gagal setelah beberapa ribu dan kemampuan kita untuk peduli untuk melanjutkan daftar mereka mungkin gagal setelah beberapa lusin, itu tidak berarti tidak ada set asumsi lain yang dapat kami operasikan di bawah). Tidak ada maksud merendahkan dalam ungkapan saya - itu sengaja dipilih untuk benar-benar menunjukkan luasnya serangkaian asumsi yang mungkin. Apa yang Anda ingin saya tulis?

Glen_b -Reinstate Monica

1. Apa alasan untuk membatasi kemungkinan dua parameter paling banyak? Bagaimana jika data diambil dari lognormal tiga parameter, misalnya? Dalam banyak kasus, kita tidak dapat memperkirakan semua parameter dari data, tetapi itu adalah bagian dari masalah yang saya coba untuk memotivasi di sana (itu berkaitan dengan diskusi tentang asumsi. 2. Johnson dan Kotz adalah subset dari apa yang distribusi orang telah bernama Saya bekerja dengan, tidak terikat pada asumsi apa yang mungkin terjadi . Saya telah menemukan banyak distribusi yang tidak ada di Johnson dan Kotz, dan ...

ctd

ctd ... Saya cukup yakin bahwa mereka tidak semua dikesampingkan di sini. Bahkan tanpa parameter yang tidak ditentukan, terdapat tak terhingga kemungkinan cdf, subset yang tidak terbatas yang tidak akan dikesampingkan oleh informasi yang ditentukan.

Glen_b -Reinstate Monica

@Djohnson Apa pun pertentangan yang tersisa, saya menghargai komentar Anda yang bermanfaat. Saya akan mempertimbangkan apakah paling tidak lebih jelas menunjukkan apa yang sebenarnya saya katakan (klaim saya yang sebenarnya mampu membuktikan, apakah itu diperlukan, tetapi mungkin saya setidaknya bisa menyatakannya dengan jelas), dan apakah itu harus diutarakan secara berbeda di sana.

Glen_b -Reinstate Monica

@DJohnson Ambil dua distribusi berbeda yang memenuhi syarat: campuran apa pun dari keduanya akan tetap memenuhi kondisi tersebut. Itu benar-benar tak terhingga: tak terbilang.

Elvis

Seperti yang sudah dicatat oleh Glen_b , ada banyak kemungkinan tanpa batas. Lihatlah plot berikut, mereka menunjukkan delapan distribusi berbeda yang memiliki min, maks, dan rata-rata yang sama.

Perhatikan bahwa mereka sangat berbeda satu sama lain. Pertama adalah seragam, sebagainya adalah campuran bimodal dari distribusi segitiga, ketujuh memiliki massa probabilitas paling terkonsentrasi di sekitar pusat, tetapi masih min dan maks dimungkinkan dengan probabilitas sangat kecil, delapan diskrit dan hanya memiliki dua nilai pada min dan pada maks, dll .

Karena semuanya memenuhi kriteria Anda, Anda dapat menggunakannya untuk simulasi. Namun pilihan subjektif Anda akan memiliki hasil yang sangat mendalam pada hasil simulasi. Yang ingin saya katakan adalah jika min, max dan mean adalah satu - satunya hal yang Anda ketahui tentang distribusi, maka Anda tidak memiliki informasi yang cukup untuk melakukan simulasi jika Anda ingin benar-benar meniru distribusi nyata (tidak diketahui).

Jadi, Anda perlu bertanya pada diri sendiri apa yang Anda ketahui tentang distribusinya? Apakah diskrit atau kontinu? Simetris atau miring? Unimodal atau bimodal? Ada banyak hal yang perlu dipertimbangkan. Jika kontinu, tidak seragam, dan unimodal, dan Anda hanya tahu min, maks dan rata-rata, maka salah satu pilihan yang mungkin adalah distribusi segitiga - sangat tidak mungkin bahwa apa pun dalam kehidupan nyata memiliki distribusi seperti itu, tetapi setidaknya Anda menggunakan sesuatu yang sederhana dan tidak memaksakan terlalu banyak asumsi tentang bentuknya.

Tim
sumber

Jadi jika saya mengasumsikan distribusi segitiga saya bisa menghitung mode juga dengan informasi saya saat ini. Apakah itu membantu?

user132053

@ user132053 Anda hanya perlu minimal, maks, dan rata-rata. Rumus untuk rata-rata distribusi segitiga adalah (a + b + c) / 3 Anda dapat menyelesaikannya untuk mode menggunakan aritmatika sederhana.

Tim

Aturan berbasis rentang untuk menghitung standar deviasi dikutip secara luas dalam literatur statistik (di sini adalah satu referensi ... http://statistics.about.com/od/Description-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Pada dasarnya, ini adalah (maks-min) / 4. Ini dikenal sebagai perkiraan yang sangat kasar.

Mengingat bahwa informasi dan kemauan untuk mengasumsikan data berdistribusi normal, penyimpangan normal dapat dihasilkan dari dua angka, mean dan deviasi std berbasis rentang. Yang mengatakan, setiap distribusi satu atau dua parameter dapat dihasilkan dari dua informasi ini, selama distribusi itu di-root pada momen pertama atau kedua.

Koefisien variasi kasar juga dapat dihasilkan dengan mengambil rasio SD / Mean. Ini akan memberikan proksi untuk variabilitas unitless dalam data.

Kesalahan lebih tepat mengacu pada distribusi sampling populasi dan membutuhkan pernyataan ukuran sampel, n , untuk estimasi. Deskripsi Anda tidak memberikan detail ini.

Mike Hunter
sumber

Beberapa hal yang perlu diperhatikan: (1) Mean berpotensi memberikan lebih banyak informasi yang harus mengesampingkan aturan (maks-min) / 4. (2) Karena tiga informasi diberikan, hanya menggunakan keluarga dua parameter yang meninggalkan tingkat fleksibilitas secara umum.

Whuber

@whuber Anda telah membuat dua komentar sindiran di utas ini. Apa yang akan hebat adalah jika Anda menguraikannya dan menentukan respons.

Mike Hunter