Dalam Statistik Penemuan Andy Field Menggunakan SPSS ia menyatakan bahwa semua variabel harus diubah.
Namun dalam publikasi: "Memeriksa hubungan spasial yang bervariasi antara penggunaan lahan dan kualitas air menggunakan regresi tertimbang secara geografis I: Desain model dan evaluasi" mereka secara khusus menyatakan bahwa hanya variabel non-normal yang ditransformasikan.
Apakah analisis ini spesifik? Sebagai contoh, dalam perbandingan cara, membandingkan log dengan data mentah jelas akan menghasilkan perbedaan yang signifikan, sedangkan ketika menggunakan sesuatu seperti regresi untuk menyelidiki hubungan antara variabel itu menjadi kurang penting.
Sunting: Ini adalah halaman teks lengkap di bagian "Transformasi Data":
Dan di sini adalah tautan ke makalah: http://www.sciencedirect.com/science/article/pii/S0048969708009121
sumber
Jawaban:
Anda mengutip beberapa saran, yang kesemuanya dimaksudkan untuk membantu, tetapi sulit untuk menemukan banyak manfaat di dalamnya.
Dalam setiap kasus, saya mengandalkan sepenuhnya pada apa yang Anda kutip sebagai ringkasan. Dalam pembelaan penulis, saya ingin mempercayai bahwa mereka menambah kualifikasi yang sesuai di sekitar atau materi lainnya. (Referensi bibliografi lengkap dalam nama biasa, tanggal, judul, (penerbit, tempat) atau (judul jurnal, volume, halaman) format akan meningkatkan pertanyaan.)
Bidang
Nasihat ini dimaksudkan untuk membantu, tetapi paling tidak terlalu disederhanakan. Saran Field tampaknya dimaksudkan secara umum; misalnya, referensi untuk uji Levene menyiratkan beberapa fokus sementara pada analisis varian.
Lebih umum, adalah umum - dalam banyak bidang situasi yang biasa - bahwa beberapa prediktor harus diubah dan sisanya dibiarkan apa adanya.
Memang benar bahwa dalam makalah atau disertasi, campuran transformasi diterapkan secara berbeda pada para prediktor yang berbeda (termasuk sebagai kasus khusus, transformasi identitas, atau pergi apa adanya) sering menjadi masalah bagi pembaca. Apakah campuran itu serangkaian pilihan yang dipikirkan dengan matang, atau apakah itu sewenang-wenang dan berubah-ubah?
Lebih jauh, dalam serangkaian penelitian, konsistensi pendekatan (selalu menerapkan logaritma pada respons, atau tidak pernah melakukannya) sangat membantu dalam membandingkan hasil, dan pendekatan yang berbeda menjadikannya lebih sulit.
Tapi itu tidak berarti tidak akan pernah ada alasan untuk campuran transformasi.
Saya tidak melihat bahwa sebagian besar bagian yang Anda kutip memiliki banyak pengaruh pada saran utama yang Anda soroti dengan warna kuning. Ini sendiri merupakan masalah yang memprihatinkan: ini adalah bisnis yang aneh untuk mengumumkan aturan absolut dan kemudian tidak benar-benar menjelaskannya. Sebaliknya, perintah "Ingat" menunjukkan bahwa alasan Field disediakan sebelumnya dalam buku ini.
Kertas anonim
Konteksnya di sini adalah model regresi. Seperti sering, berbicara tentang OLS anehnya menekankan metode estimasi daripada model, tetapi kita dapat memahami apa yang dimaksudkan. GWR I menafsirkan sebagai regresi tertimbang secara geografis.
Argumen di sini adalah bahwa Anda harus mengubah prediktor non-normal dan membiarkan yang lain apa adanya. Sekali lagi, ini menimbulkan pertanyaan tentang apa yang dapat dan harus Anda lakukan dengan variabel indikator, yang tidak dapat didistribusikan secara normal (yang seperti di atas dapat dijawab dengan menunjukkan bahwa non-normalitas dalam kasus itu bukan masalah). Tetapi perintah itu mundur dalam menyiratkan bahwa itu adalah kenormalan prediktor yang menjadi masalah. Tidak begitu; itu bukan bagian dari pemodelan regresi untuk mengasumsikan apa pun tentang distribusi marginal dari para prediktor.
Ada begitu banyak nasihat luar biasa tentang transformasi di forum ini sehingga saya fokus membahas apa yang Anda kutip.
PS Anda menambahkan pernyataan mulai "Misalnya, dalam perbandingan cara, membandingkan log dengan data mentah jelas akan menghasilkan perbedaan yang signifikan." Saya tidak jelas apa yang ada dalam pikiran Anda, tetapi membandingkan nilai untuk satu kelompok dengan logaritma nilai untuk kelompok lain hanya akan menjadi tidak masuk akal. Saya sama sekali tidak mengerti pernyataan Anda.
sumber
Pertama-tama, kedua kutipan tersebut menyesatkan sejauh transformasi apa pun yang diterapkan pada data yang dimaksudkan untuk digunakan dalam model regresi tidak dilakukan untuk membuat variabel PDF lebih terdistribusi secara normal, ini dilakukan untuk membuat model residu lebih simetris karena satu asumsi dalam regresi klasik adalah bahwa kesalahannya adalah Gaussian. Ini menyiratkan tingkat kekakuan dan kekakuan yang lebih dalam daripada sekadar menyinkronkan PDF.
Terlebih lagi kedua kutipan tersebut lemah karena tidak ada yang menggali motivasi untuk resep mereka (setidaknya berdasarkan informasi yang diberikan). Ketika itu terjadi, saya tidak setuju dengan keduanya.
Dalam bagian yang telah Anda soroti, buku SPSS mengklaim bahwa campuran transformasi (misalnya, log natural untuk satu variabel, root sq untuk yang lain) tidak diizinkan. Kenapa ini ilegal? Campuran transformasi tidak melanggar asumsi regresi yang saya sadari. Periksa teks regresi apa pun tentang asumsi regresi untuk mengonfirmasi bahwa ini masalahnya. Campuran transformasi mungkin menghadirkan masalah deskriptif substantif dalam hal interpretasinya, tetapi itu bukan pertanyaan apakah campuran itu ilegal atau tidak. Orang SPSS salah.
Sejauh teks kedua berjalan, sekali lagi, transformasi benar-benar masalah pilihan analis - apakah seseorang melakukan semuanya, mengubah semua input atau beberapa variabel dan bukan yang lain. Semua ini tidak melanggar asumsi apa pun.
Di mana saya pikir kutipan kedua berbunyi di atas rel adalah dalam pernyataan bahwa, "... untuk menghindari potensi multikolinieritas ... hanya satu indikator penggunaan lahan (digunakan) ..." Ini adalah saran yang sangat buruk dan terdengar seperti semacam itu beberapa analis akan lakukan sebagai teknik reduksi dimensi di mana mereka akan faktor menganalisis sekelompok variabel dan memilih variabel pemuatan tertinggi pada setiap faktor. Heuristik ini telah ada selama bertahun-tahun dan bukan yang saya gunakan atau rekomendasikan. Sekali lagi, ini masalah preferensi dan pelatihan analis. Tetapi poin ini tidak ditargetkan untuk menjawab pertanyaan spesifik Anda.
Pada akhirnya, kedua kutipan tersebut muncul sebagai penegasan pendapat penulis tanpa adanya bukti pendukung, berdasarkan informasi yang diberikan.
sumber