Bagaimana cara menentukan pemenang untuk adil sains regional?

9

Saya perlu bantuan mencari cara yang benar untuk menghitung pemenang di sains adil kami. Saya tidak ingin ketidaktahuan saya tentang statistik & matematika menghalangi peluang seorang anak untuk menang. (banyak beasiswa & manfaat kemajuan dipertaruhkan). Terima kasih sebelumnya atas bantuan Anda.

Pertama, sedikit latar belakang bagaimana kita mengatur sesuatu:

Pameran kami biasanya memiliki sekitar 600 proyek siswa. Proyek-proyek ini selesai dan disajikan oleh siswa secara individu atau tim siswa. Satu tim dapat terdiri dari 2 atau 3 anak.

Para siswa dibagi menjadi dua divisi: Sekolah Dasar (kelas 6-8) dan Sekolah Menengah (kelas 9-12). Setiap divisi memiliki kategori berbeda: 9 kategori untuk proyek Dasar dan 17 kategori untuk proyek divisi Sekunder.

Penghargaan diberikan untuk tempat pertama, kedua dan ketiga untuk setiap kategori di setiap divisi. Penghargaan menyebutkan terhormat juga diberikan untuk penempatan di luar tempat ketiga.

Untuk setiap proyek, kami menugaskan antara 4 hingga 6 juri. Kami membuat penugasan kami berdasarkan kualifikasi juri, preferensi kategori mereka, dan pengalaman penjurian sebelumnya. (Lebih berpengalaman ditugaskan untuk proyek divisi senior).

Bagaimana juri menilai suatu proyek:

Untuk setiap proyek ada 5 kriteria yang ditugaskan poin. Setiap kriteria dapat diberikan antara 1 dan 20 poin. Kriteria umum adalah:

  • Tujuan keseluruhan + hipotesis + penggunaan sumber daya ( 1..20 )
  • Desain + prosedur ( 1..20 )
  • Pengumpulan + hasil ( 1.20 )
  • Diskusi + kesimpulan ( 1..20 )
  • Wawancara ( 1..20 )

Untuk proyek tim, kriteria keenam dinilai disebut "pengurangan tim", di mana seorang hakim dapat mengurangi poin ( hingga 15 ) untuk rekan tim yang tidak berpartisipasi atau tidak muncul.

  • Pengurangan tim ( 0 ..- 15 )

Jadi seorang juri dapat menilai setiap proyek antara 5 dan 100 poin. Jika proyek tersebut merupakan proyek tim, skor dapat dikurangi 15 poin.

Data mentah:

Selama beberapa jam kami mengumpulkan hingga 3.600 skor dari para hakim. Skor ini dimasukkan ke dalam database di mana saya bisa melakukan semua jenis penyortiran, rata-rata, perhitungan standar deviasi, dll. Saya hanya tidak tahu persis apa yang harus saya lakukan dengan skor mentah ini. Saat ini, saya sedang melakukan rata-rata sederhana untuk setiap proyek, tetapi saya khawatir bahwa saya tidak menyesuaikan diri dengan bias penilaian, pengurangan tim, atau sejumlah hal lain yang tidak saya pertimbangkan.

Hasil yang diinginkan:

Pada akhirnya, saya ingin memproses skor sehingga saya dapat memberikan penghargaan proyek tempat pertama, kedua dan ketiga untuk setiap kategori, dan kemudian menyebutkan penghargaan terhormat untuk tempat berikutnya. Saya ingin yakin bahwa posisi dihitung dengan benar dan anak-anak yang menang pantas mendapatkan pengakuan (dan hadiah).

Terima kasih banyak untuk membaca pertanyaan panjang saya dan atas bantuan Anda mencari tahu ini. Saya akan dengan senang hati menjawab pertanyaan lanjutan yang mungkin Anda miliki.

Mike Davie
sumber
1
Pertanyaan yang menarik dan sulit dan Anda telah menyentuh beberapa masalah utama. Berapa banyak juri secara total, jadi berapa banyak proyek yang akan dinilai juri? (beberapa gagasan tentang kisaran serta rata-rata akan baik). Juga, apakah 26 kategori tersebut saling eksklusif? Saya punya firasat jawaban terbaik mungkin hanya untuk melakukan rata-rata untuk setiap proyek, tetapi mungkin dapat disesuaikan untuk hakim. Saya akan membaca jawabannya dengan penuh minat!
Peter Ellis
Terima kasih atas minat awal Anda. Saya telah menambahkan info lebih lanjut ke jawaban di bawah ini. Jika Anda memiliki wawasan, saya menghargai bantuan Anda.
Mike Davie

Jawaban:

2

Saya pikir "jawaban" mungkin merupakan label yang terlalu murah hati untuk pikiran saya di sini. Saya suka analisis data eksplorasi, dan saya penggemar boxplot besar, sehingga akan tercermin dalam komentar saya ..

Hai, itu banyak skor. :) Kedengarannya seperti Anda memiliki setidaknya 78 proyek dari 600 masuk 3 ( [9+17]x3) ditambah menyebutkan terhormat. Biasanya saya akan mengatakan untuk mengambil sampel dari atas dan tengah setiap kategori untuk melakukan audit penilaian, tetapi itu akan sangat memberatkan dalam kasus Anda karena jumlah yang Anda miliki - dan hanya Anda yang menyelesaikan penilaian. :)

Saya berharap Anda mungkin memiliki paket statistik yang tersedia untuk Anda, karena saya punya beberapa saran yang dapat Anda gunakan di bawah.

Sudahkah Anda melihat penyebaran skor dalam setiap kategori? Apakah 3 proyek teratas, atau 5, atau 8 sangat dekat dengan skor? Itu akan menunjukkan bahwa kualitas proyek sangat mirip dan tidak peduli apa yang Anda lakukan, mungkin akan ada setidaknya persepsi kesewenang-wenangan di sekitar skor akhir.

Saya tidak yakin berapa banyak proyek yang dinilai setiap juri. Anggap mereka mencetak angka yang masuk akal (katakanlah> 10, meskipun semakin tinggi semakin baik di sini), untuk setiap hakim Anda dapat menghitung rentang median dan interkuartil untuk total skor yang diberikan untuk setiap proyek yang mereka nilai (Anda memiliki banyak atribut, mungkin tidak layak melihat masing-masing secara individual). Apakah ada hakim yang tampaknya memberikan skor sangat tinggi, atau skor sangat rendah? Apakah ada hakim yang nampaknya membuat skor secara konsisten di tengah sehingga mereka mungkin memberikan angka 10, ini dapat ditunjukkan oleh rentang interkuartil yang relatif kecil dan median skor total di sekitar tengah kisaran nilai yang mungkin.

Untuk proyek tim, Anda dapat membandingkan penempatan mereka berdasarkan skor total, dengan penempatan mereka setelah pengurangan tim telah diterapkan. Apakah pengurangan tim mempengaruhi tim yang seharusnya berada di 3 besar?

Ini hanya saran untuk membantu Anda memulai. Saya pikir memvisualisasikan data di sepanjang garis ini akan memberi Anda beberapa indikator yang baik tentang apakah penempatan tampak adil.

Pembaruan: ini adalah masalah yang sangat sulit yang Anda miliki. Sepertinya setiap hakim individu tidak menilai proyek yang cukup bagi kami untuk dapat menghasilkan faktor bobot untuk masing-masing hakim (untuk memperhitungkan bias hakim), karena kami tidak memiliki cukup data untuk dapat mengukur antar -Ketepatan reliabilitas antar juri, tidak ada cukup tumpang tindih untuk menilai para juri pada proyek yang sama untuk melakukan itu. Apakah Anda melihat kisaran skor untuk beberapa proyek teratas - apakah ada perbedaan yang jelas antara mereka dan proyek dengan skor lebih rendah (batas alami?), Seberapa dekat skor dalam proyek teratas?

Karena penasaran, adalah para hakim diberikan kriteria penilaian, sehingga mereka memiliki sedikit fleksibilitas dalam cara memberikan skor pada setiap kriteria (misalnya memberikan 1 poin untuk memberikan hipotesis nol, memberikan 1 poin untuk memberikan satu atau lebih hipotesis alternatif ...) atau Apakah mereka hanya tahu jumlah poin yang bisa mereka berikan dan sisanya diserahkan kepada mereka? Jika mereka memiliki panduan penilaian, saya akan lebih yakin bahwa skornya cukup akurat.

Michelle
sumber
1
Saya juga akan penasaran dengan penyebaran skor - apakah ada beberapa "skor teratas", atau ada rumpun dan siapa yang keluar di atasnya sedikit ... buram dalam hal proses. Seperti proses penerimaan mahasiswa, anak-anak ini akan mengalaminya nanti :)
Fomite
Terima kasih Michelle atas pemikiran Anda. Saya sangat menghargai Anda meluangkan waktu. Untuk menjawab pertanyaan Anda, juri hanya menilai sejumlah kecil proyek. Kami memiliki minimum untuk setiap divisi: 4 kali untuk Sekolah Dasar dan 5 atau 6 kali untuk Sekolah Menengah (5 kali untuk siswa SMP dan 6 kali untuk Lanjut Usia).
Mike Davie
Saya perlu mengklarifikasi hal di atas. Skor minimum per proyek, bukan berapa kali juri akan menilai proyek selama pameran. Seorang hakim biasa akan menilai di mana saja antara 8 dan 15 proyek selama pameran. Angka itu tergantung pada ketersediaan juri, kualifikasi mereka, kemauan untuk membantu, dll.
Mike Davie
2
Jawaban yang bagus, Michelle. Beberapa ide dari saya: 1) Pasti memberi para hakim semacam rubrik untuk mencoba mendorong standar bersama; 2) mencoba untuk memiliki jumlah juri yang sama per proyek jika memungkinkan (karena jika tidak, proyek dengan juri yang lebih sedikit akan memiliki varian yang lebih tinggi dan karenanya lebih banyak kesempatan untuk mencapai puncak - atau ke bawah) dan 3) Saya pikir Anda harus gunakan saja rata-rata, tetapi jika Anda memiliki keahlian dan perangkat lunak, Anda dapat memasukkan model efek campuran dengan menilai sebagai efek acak dan melihat apakah ini mengubah hasilnya. Bagaimana jika ya? Mungkin masih menggunakan rata-rata ....
Peter Ellis
Sekali lagi terima kasih atas masukan semua orang. Setelah membiarkan ketukan di kepala saya untuk sementara waktu, saya memutuskan untuk melihat bagaimana proyek dinilai di tingkat internasional (satu langkah kompetisi di atas pameran kami). Pekan raya internasional disebut ISEF. Kami mengirim 5 siswa terbaik kami ke ISEF setiap tahun.
Mike Davie