Untuk beberapa pengukuran, hasil analisis disajikan dengan tepat pada skala transformasi. Namun, dalam sebagian besar kasus, diinginkan untuk menyajikan hasil pada skala pengukuran asli (jika tidak, pekerjaan Anda kurang lebih tidak berharga).
Sebagai contoh, dalam kasus data yang ditransformasi log, masalah dengan interpretasi pada skala asli muncul karena rata-rata nilai yang dicatat bukan log dari rata-rata. Mengambil antilogaritma estimasi rata-rata pada skala log tidak memberikan estimasi rata-rata pada skala asli.
Namun, jika data yang diubah log memiliki distribusi simetris, hubungan berikut ini berlaku (karena log mempertahankan pemesanan):
(Antilogaritma nilai rata-rata log adalah median pada skala pengukuran asli).
Jadi saya hanya bisa membuat kesimpulan tentang perbedaan (atau rasio) median pada skala pengukuran asli.
Uji-t dua sampel dan interval kepercayaan paling dapat diandalkan jika populasi kira-kira normal dengan kira-kira standar deviasi, jadi kita mungkin tergoda untuk menggunakan Box-Cox
transformasi untuk asumsi normalitas untuk bertahan (saya juga berpikir bahwa itu juga merupakan varian yang menstabilkan transformasi juga ).
Namun, jika kita menerapkan t-tools untuk Box-Cox
mentransformasikan data, kita akan mendapatkan kesimpulan tentang perbedaan cara dari data yang ditransformasikan. Bagaimana kita bisa menafsirkannya pada skala pengukuran asli? (Rata-rata dari nilai-nilai yang ditransformasikan bukan rata-rata yang ditransformasikan). Dengan kata lain, mengambil transformasi kebalikan dari estimasi rata-rata, pada skala yang ditransformasikan, tidak memberikan estimasi rata-rata pada skala asli.
Bisakah saya membuat kesimpulan hanya tentang median dalam kasus ini? Apakah ada transformasi yang akan memungkinkan saya untuk kembali ke cara (pada skala asli)?
Pertanyaan ini awalnya diposting sebagai komentar di sini
sumber
Jika transformasi Box-Cox menghasilkan distribusi simetris, maka rata-rata data yang diubah kembali ditransformasikan ke median pada skala asli. Ini berlaku untuk setiap transformasi monotonik, termasuk transformasi Box-Cox, transformasi IHS, dll. Jadi kesimpulan tentang cara-cara pada data yang diubah sesuai dengan kesimpulan tentang median pada skala asli.
Karena data asli miring (atau Anda tidak akan menggunakan transformasi Box-Cox di tempat pertama), mengapa Anda ingin kesimpulan tentang sarana? Saya akan berpikir bekerja dengan median akan lebih masuk akal dalam situasi ini. Saya tidak mengerti mengapa ini dilihat sebagai "masalah dengan interpretasi pada skala asli".
sumber
Jika Anda ingin melakukan inferensi tentang cara pada skala asli, Anda dapat mempertimbangkan menggunakan inferensi yang tidak menggunakan asumsi normalitas.
Namun berhati-hatilah. Cukup menyambungkan melalui perbandingan langsung cara melalui katakan kembali (baik tes permutasi atau bootstrap) ketika dua sampel memiliki varians yang berbeda mungkin menjadi masalah jika analisis Anda mengasumsikan variansnya sama (dan varians yang sama pada skala yang diubah akan menjadi varians perbedaan) pada skala asli jika artinya berbeda). Teknik seperti itu tidak menghindari keharusan untuk memikirkan apa yang Anda lakukan.
Pendekatan lain untuk dipertimbangkan jika Anda lebih tertarik pada estimasi atau prediksi daripada pengujian adalah dengan menggunakan ekspansi Taylor dari variabel yang diubah untuk menghitung perkiraan rata-rata dan varians setelah mengubah kembali - di mana dalam ekspansi Taylor biasa Anda akan menulisf( x + h ) , kamu sekarang menulis t [ μ + ( Y- μ ) ] dimana Y adalah variabel acak dengan mean μ dan varians σ2 , yang akan Anda ubah menggunakan kembali t ( ) .
Jika Anda mengambil harapan, istilah kedua keluar, dan orang biasanya hanya mengambil istilah pertama dan ketiga (di mana yang ketiga mewakili perkiraan untuk bias dalam hanya mengubah rata-rata); lebih lanjut jika Anda mengambil varian ekspansi ke term kedua, term pertama dan term kovarian pertama putus - karenat ( μ ) adalah konstanta - membuat Anda memiliki perkiraan satu periode untuk varians.
-
Kasus termudah adalah ketika Anda memiliki normal pada skala log, dan karenanya lognormal pada skala asli. Jika varians Anda diketahui (yang paling jarang terjadi), Anda dapat membuat CI dan PI normal lognormal pada skala asli, dan Anda bisa memberikan prediksi dari rata-rata distribusi kuantitas yang relevan.
Jika Anda memperkirakan mean dan varians pada skala log, Anda dapat membuat logt interval (interval prediksi untuk pengamatan, katakanlah), tetapi log skala asli Andat tidak punya momen . Jadi rata-rata prediksi tidak ada.
Anda perlu berpikir dengan sangat hati-hati tentang pertanyaan apa yang ingin Anda jawab.
sumber