Perkirakan massa buah dalam kantong hanya dari total terkait?

9

Seorang instruktur di universitas saya mengajukan pertanyaan seperti ini (bukan untuk pekerjaan rumah karena kelas sudah selesai dan saya tidak ada di dalamnya). Saya tidak tahu bagaimana cara mendekatinya.

Pertanyaannya menyangkut 2 kantong masing-masing berisi bermacam-macam buah yang berbeda:

Kantong pertama berisi buah yang dipilih secara acak berikut:

+ ------------- + -------- + --------- +
| diameter cm | massa g | busuk? |
+ ------------- + -------- + --------- +
| 17.28 | 139.08 | 0 |
| 6.57 | 91.48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6,99 | 123.43 | 0 |
| 6.63 | 104,93 | 1 |
| 6,75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83.29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117.72 | 0 |
| 7.19 | 128.63 | 0 |
+ ------------- + -------- + --------- +

Kantung kedua berisi 6 buah yang dipilih secara acak dari toko yang sama dengan kantong pertama. Jumlah diameternya adalah 64,2 cm dan 4 busuk.

Berikan perkiraan untuk massa kantung kedua.

Saya dapat melihat bahwa ada dua jenis buah yang berbeda dengan diameter dan massa yang terdistribusi normal, tetapi saya bingung bagaimana melanjutkannya.

rutilusk
sumber
6
Pertanyaan menarik - tetapi data aneh: gravitasi spesifik berkisar dari 0,78 hingga 0,05. Mungkin seseorang mengira dekorasi styrofoam sebagai buah asli? :-)
whuber
Pertanyaannya tidak mengatakan terbuat dari buah apa. Saya kira Anda dapat berasumsi bahwa tas itu sendiri juga tidak berbobot. Bagaimana saya mengatasi masalah?
rutilusk
3
Daya dorong komentar saya adalah ketika menganalisis sejumlah kecil data yang berantakan, kami mengandalkan pengetahuan tentang apa artinya data itu. Karena angka-angka ini jelas tidak menggambarkan jenis "buah" apa pun yang diketahui, kami tidak dapat menarik pengetahuan domain tersebut. (Misalnya, kami tidak memiliki dasar apa pun untuk menganggap bahwa bagian mana pun dari data ini harus "didistribusikan secara normal.") Itu menyulitkan atau tidak mungkin untuk mengembangkan jawaban yang masuk akal dan dapat menimbulkan kontroversi, karena membatasi cara di mana kinerja pendekatan apa pun dapat dinilai.
whuber
Tetapi buah styrofoam tidak bisa busuk. Mungkin buahnya adalah spheroids, dengan "diameter" diukur di sepanjang sumbu panjang. Tampaknya ada setidaknya dua jenis buah: jadi, dengan anggapan gravitasi spesifik mendekati satu, buah yang lebih kecil adalah tentang ukuran dan bentuk lemon; semakin besar sekitar setengah kaki & di bawah 2 inci. Kesulitan dengan ide ini adalah bahwa lebih alami untuk menggambarkan sumbu yang lebih pendek sebagai "diameter".
Scortchi

Jawaban:

1

Mari kita mulai dengan memplot data dan melihatnya. Ini adalah jumlah data yang sangat terbatas, jadi ini akan menjadi ad hoc dengan banyak asumsi.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Jadi ini datanya, titik merah mewakili buah busuk:

buah diplot

Anda benar dalam mengasumsikan bahwa ada dua jenis buah. Asumsi yang saya buat adalah sebagai berikut:

  • Diameternya membagi buah menjadi dua kelompok
  • Buah-buahan dengan diameter lebih besar dari 10 berada dalam satu kelompok, yang lain dalam kelompok yang lebih kecil.
  • Hanya ada satu buah busuk di kelompok buah besar. Mari kita asumsikan bahwa jika buah dalam kelompok besar, maka busuk tidak mempengaruhi beratnya. Ini penting, karena kami hanya memiliki satu titik data di grup itu.
  • Jika buahnya adalah buah kecil, maka busuk mempengaruhi massa.
  • Mari kita asumsikan bahwa variabel diam dan massa terdistribusi normal.

Karena diberikan bahwa jumlah diameter adalah 64,2 cm, maka kemungkinan besar dua buah besar dan empat kecil. Sekarang ada 3 kasing untuk berat. Ada 2, 3 atau 4 buah kecil busuk, ( buah besar yang busuk tidak mempengaruhi massa dengan asumsi ). Jadi sekarang Anda bisa mendapatkan batasan pada massa Anda dengan menghitung nilai-nilai ini.

Kami secara empiris dapat memperkirakan probabilitas jumlah buah kecil yang busuk. Kami menggunakan probabilitas untuk menimbang estimasi massa kami, tergantung pada jumlah buah busuk:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Memberi kami perkiraan final 691.5183g . Saya pikir Anda harus membuat sebagian besar asumsi yang saya buat untuk mencapai kesimpulan, tetapi saya pikir mungkin untuk melakukan ini dengan cara yang lebih cerdas. Saya juga mencicipi secara empiris untuk mendapatkan kemungkinan jumlah buah kecil busuk, itu hanya kemalasan dan dapat dilakukan "secara analitik".

Gumeo
sumber
Terima kasih atas kontribusi anda. Tampaknya bagi saya bahwa sebagian besar pernyataan yang Anda sebut "asumsi" benar-benar kesimpulan berdasarkan analisis eksplorasi Anda. Akan sangat berharga untuk menganalisis bagaimana hasil Anda bergantung pada keakuratan kesimpulan tersebut. Terlepas dari itu, jelas bahwa dataset sekecil itu tidak mungkin mendukung hasil dengan tujuh angka penting! Akan sangat berguna untuk menyediakan beberapa penilaian tentang kemungkinan kesalahannya. Ini akan menjadi relatif besar, yang penting untuk diketahui.
whuber
@whuber terima kasih atas komentarnya, saya mungkin menambahkan sesuatu untuk memperkirakan variasi nanti malam. Hal paling sederhana untuk dilakukan adalah mendapatkan perkiraan kesalahan untuk massa tiga kelompok yang saya gunakan untuk perhitungan akhir, dan menghitung interval prediksi berdasarkan itu. Tetapi saya melihat bahwa OP telah tidak aktif selama setahun, jadi saya tidak mengharapkan jawaban ini diterima. Saya masih berpikir bahwa contoh ini adalah masalah "mainan" yang bagus untuk melihat bagaimana Anda bisa dapatkan dengan data yang sangat sedikit.
Gumeo
Saya mencoba menyarankan agar Anda benar-benar mendapatkan informasi yang jauh lebih sedikit daripada yang disarankan oleh jawaban Anda, karena itu tergantung pada banyak kesimpulan yang berasal dari data bahwa mereka sendiri sangat tidak pasti.
whuber
@whuber Ya itu sepenuhnya benar. Tetapi mencoba memperkirakan kesalahan yang disebarkan oleh semua asumsi / kesimpulan yang saya buat tidak terlalu sederhana. Saya juga sangat dipengaruhi oleh fakta bahwa jumlah diameter buah-buahan di kantong kedua adalah 64,2 cm dan OP menyebutkan bahwa mungkin ada dua kelompok buah.
Gumeo
1
@whuber aku akan memikirkan ini dan menganggap ini sebagai tantangan. Saya akan meninjau kembali pertanyaan ini nanti!
Gumeo
0

Saya akan mengusulkan pendekatan berikut:

  1. Hasilkan semua 6-tupel yang memenuhi kondisi pada 4 busuk. Yaitu .(64)(72)
  2. Pilih dari tupel yang dihasilkan hanya yang memenuhi kondisi pada diameter.
  3. Hitung berat rata-rata tupel yang dipilih (rata-rata aritmatika biasa).

Semua ini dapat dikelola dengan skrip sederhana.

Karel Macek
sumber
5
Mengapa pendekatan ini bekerja? Asumsi apa yang dihasilkannya? Sudahkah Anda mencoba untuk melihat apakah itu bahkan dapat menghasilkan jawaban sama sekali?
whuber
0

Berbagai pendekatan termasuk, dari yang paling sederhana sampai yang kompleks,

  1. 6 (massa rata-rata)
  2. 6 (volume rata-rata) (kepadatan rata-rata)
  3. 4 (rata-rata massa busuk) + 2 (rata-rata massa tidak busuk)
  4. 4 ((volume busuk rata-rata) + 2 (volume rata-rata tidak busuk)) (densitas rata-rata)
  5. 4 (volume busuk rata-rata) (densitas busuk rata-rata) + 2 (volume rata-rata tidak busuk) (densitas rata-rata busuk)

. . .

metode kombinatorik

Pendekatan-pendekatan tersebut disusun berdasarkan kesederhanaan perhitungan, bukan agar pendekatan apa pun menjadi lebih baik, atau tidak ada gunanya sama sekali. Pemilihan pendekatan mana yang akan digunakan tergantung pada karakteristik populasi yang diketahui atau diasumsikan. Misalnya, jika massa buah-buahan dalam populasi toko terdistribusi normal dan tidak tergantung pada diameter dan status busuk, orang dapat menggunakan pendekatan pertama yang paling sederhana tanpa keuntungan apa pun (atau bahkan kerugian kesalahan pengambilan sampel dari banyak variabel) menggunakan pendekatan yang lebih kompleks . Jika tidak independen variabel terdistribusi identik identik, maka pilihan yang lebih kompleks tergantung pada informasi yang diketahui atau diasumsikan tentang populasi mungkin lebih baik.

Hax
sumber
3
Mengapa semua ini ada gunanya? Asumsi apa yang mereka buat? Bagaimana satu memilih satu dari yang lainnya? (Apakah mereka juga dalam rangka naik kebaikan dalam arti?)
whuber