Beberapa penulis (misalnya Pallant, 2007, hal. 225; lihat gambar di bawah) menyarankan untuk menghitung ukuran efek untuk uji peringkat bertanda Wilcoxon dengan membagi statistik uji dengan akar kuadrat dari jumlah pengamatan:
Z
adalah statistik uji keluaran oleh SPSS (lihat gambar di bawah) dan juga wilcoxsign_test
di R. (Lihat juga pertanyaan saya yang terkait: teststatistic vs linearstatistic di wilcoxsign_test )
Lainnya menyarankan Bravais-Pearson ( koefisien korelasi s d ( X ) × s d ( Y ) ) atau Spearman (rS) (tergantung pada tipe data).
Ketika Anda menghitungnya, keduanya r
bahkan tidak sama. Misalnya, untuk data saya saat ini:
r = 0,23 (untuk )
r = 0,43 (Pearson)
Ini akan menyiratkan ukuran efek yang sangat berbeda.
Jadi, mana ukuran efek yang benar untuk digunakan, dan bagaimana keduanya r
berhubungan satu sama lain?
Halaman 224 (bagian bawah) dan 225 dari Pallant, J. (2007). Manual Kelangsungan Hidup SPSS:
sumber
n
Jawaban:
Namun, ada kerutan lainnya. Meskipun Anda menginginkan perkiraan ukuran efek keseluruhan, orang biasanya menggunakan tes peringkat bertanda Wilcoxon dengan data yang hanya bersifat ordinal. Yaitu, di mana mereka tidak percaya bahwa data dapat dengan andal mengindikasikan besarnya pergeseran dalam diri seorang siswa, tetapi hanya bahwa pergeseran itu terjadi. Itu membawa saya ke proporsi yang ditingkatkan dibahas di atas.
Di sisi lain, jika Anda benar-benar percaya bahwa nilai-nilai itu secara intrinsik bermakna (misalnya, Anda hanya menggunakan tes peringkat yang ditandatangani karena kekokohannya terhadap normalitas dan pencilan), Anda bisa menggunakan perbedaan rata-rata atau median, atau perbedaan rata-rata standar sebagai ukuran efek.
sumber
Tanpa mengetahui data apa yang dinilai, sangat sulit untuk memberikan saran yang bagus di sini. Dan sungguh, hanya itu yang bisa Anda dapatkan. Hanya tidak ada ukuran ukuran efek terbaik untuk pertanyaan seperti ini ... mungkin pernah.
Ukuran efek yang disebutkan dalam pertanyaan adalah semua ukuran efek standar. Tetapi sepenuhnya mungkin bahwa cara atau median dari tindakan asli baik-baik saja. Misalnya, jika Anda mengukur berapa lama untuk menyelesaikan proses pembuatan maka perbedaan waktu seharusnya merupakan ukuran efek yang masuk akal. Setiap perubahan dalam proses, pengukuran di masa depan, pengukuran lintas sistem, dan pengukuran lintas pabrik, semuanya akan dilakukan tepat waktu. Mungkin Anda menginginkan mean atau mungkin Anda menginginkan median, atau bahkan mode, tetapi hal pertama yang perlu Anda lakukan adalah melihat skala pengukuran aktual dan melihat apakah ukuran efek di sana masuk akal untuk ditafsirkan dan sangat terkait dengan pengukuran.
Untuk membantu dalam berpikir tentang itu, efek yang harus distandarisasi adalah hal-hal yang diukur secara tidak langsung dan dalam banyak cara. Sebagai contoh, skala psikologis dapat bervariasi dari waktu ke waktu dan dalam banyak cara dan upaya untuk mendapatkan variabel mendasar yang tidak langsung dinilai. Dalam kasus tersebut, Anda menginginkan ukuran efek standar.
Dengan ukuran efek terstandardisasi, masalah kritis bukan hanya yang digunakan tetapi apa artinya. Ketika Anda menyiratkan dalam pertanyaan Anda, Anda juga tidak tahu apa artinya dan itulah yang kritis. Jika Anda tidak tahu apa efek standar itu maka Anda tidak dapat melaporkannya dengan benar, menafsirkannya dengan benar, atau menggunakannya dengan benar. Lebih lanjut, jika ada berbagai cara Anda ingin mendiskusikan data, sama sekali tidak ada yang menghentikan Anda untuk melaporkan lebih dari satu ukuran efek. Anda dapat mendiskusikan data Anda dalam hal hubungan linear, seperti dengan korelasi momen produk, atau dalam hal hubungan antara peringkat dengan Spearman
r
dan perbedaan di antara mereka atau hanya memberikan semua info di tabel. Tidak ada yang salah dengan itu sama sekali. Tetapi lebih dari apa pun Anda harus memutuskan apa yang Anda inginkan hasil Anda maksud. Itu adalah sesuatu yang tidak dapat dijawab dari informasi yang diberikan dan mungkin memerlukan jauh lebih banyak info dan pengetahuan khusus domain daripada yang wajar untuk pertanyaan di forum semacam ini.Dan selalu pikirkan meta-analitik tentang bagaimana Anda melaporkan efek. Apakah orang-orang di masa depan akan dapat mengambil hasil yang saya laporkan dan mengintegrasikannya dengan orang lain? Mungkin ada standar di bidang Anda untuk hal-hal ini. Mungkin Anda memilih tes non-parametrik terutama karena Anda tidak percaya dengan kesimpulan yang dibuat orang lain tentang distribusi yang mendasarinya dan Anda ingin menjadi lebih konservatif dalam asumsi Anda dalam bidang yang terutama menggunakan tes parametrik. Dalam hal itu tidak ada yang salah dengan tambahan memberikan ukuran efek yang biasanya digunakan dengan tes parametrik. Ini dan banyak masalah lain perlu dipertimbangkan ketika memikirkan bagaimana Anda menempatkan temuan Anda dalam literatur yang lebih besar dari penelitian serupa. Statistik deskriptif yang baik biasanya memecahkan masalah ini.
Jadi itu saran utama. Saya punya beberapa komentar tambahan. Jika Anda ingin ukuran efek Anda sangat terkait dengan tes yang Anda lakukan maka
Z
rekomendasi berdasarkan jelas yang terbaik. Ukuran efek standar Anda akan berarti hal yang sama dengan tes. Tapi begitu Anda tidak melakukan itu, maka tidak ada yang salah dengan menggunakan sebagian besar hal lain, bahkan sesuatu seperti skor Cohen . Bahkan, ada asumsi yang lebih lemah daripada koefisien korelasi yang direkomendasikan. Dan selalu melaporkan langkah-langkah deskriptif yang baik. Sekali lagi, langkah-langkah deskriptif tidak memiliki asumsi Anda akan dilanggar tetapi perlu diingat makna substantifnya. Anda melaporkan statistik deskriptif yang mengatakan sesuatu tentang data yang ingin Anda katakan dan artinya, dan median mengatakan hal yang berbeda.d
yang terkait dengan tes parametrik. Tidak ada asumsi normalitas untuk menghitung cara, standar deviasi, ataud
Jika Anda ingin membahas tindakan berulang versus ukuran efek desain independen maka itu benar-benar pertanyaan yang sama sekali baru.
sumber