Mengubah Data: Semua variabel atau hanya yang tidak normal?

14

Dalam Statistik Penemuan Andy Field Menggunakan SPSS ia menyatakan bahwa semua variabel harus diubah.

Namun dalam publikasi: "Memeriksa hubungan spasial yang bervariasi antara penggunaan lahan dan kualitas air menggunakan regresi tertimbang secara geografis I: Desain model dan evaluasi" mereka secara khusus menyatakan bahwa hanya variabel non-normal yang ditransformasikan.

Apakah analisis ini spesifik? Sebagai contoh, dalam perbandingan cara, membandingkan log dengan data mentah jelas akan menghasilkan perbedaan yang signifikan, sedangkan ketika menggunakan sesuatu seperti regresi untuk menyelidiki hubungan antara variabel itu menjadi kurang penting.

Sunting: Ini adalah halaman teks lengkap di bagian "Transformasi Data":

Dan di sini adalah tautan ke makalah: http://www.sciencedirect.com/science/article/pii/S0048969708009121

I Heart Beats
sumber
16
Berdasarkan gambar baru yang Anda poskan, penulis tampaknya membingungkan "variabel" dengan "observasi." Di atas hal. Ia dengan tepat menekankan bahwa ketika Anda mengubah suatu variabel, Anda harus mengubah semua nilainya (pengamatan) dengan cara yang sama, karena jika tidak maka tidak mungkin untuk membandingkan apa pun. (Mengatakan ini "tidak akan mengubah hubungan antara variabel" membutuhkan interpretasi yang sangat murah hati untuk menjadi benar, meskipun.) Bagian bawah hal. Jelas sekali salah, kalimat demi kalimat (bahkan dalam catatan kaki), bahkan tidak ada waktu untuk menyebutkan semua masalah dengannya.
whuber

Jawaban:

17

Anda mengutip beberapa saran, yang kesemuanya dimaksudkan untuk membantu, tetapi sulit untuk menemukan banyak manfaat di dalamnya.

Dalam setiap kasus, saya mengandalkan sepenuhnya pada apa yang Anda kutip sebagai ringkasan. Dalam pembelaan penulis, saya ingin mempercayai bahwa mereka menambah kualifikasi yang sesuai di sekitar atau materi lainnya. (Referensi bibliografi lengkap dalam nama biasa, tanggal, judul, (penerbit, tempat) atau (judul jurnal, volume, halaman) format akan meningkatkan pertanyaan.)

Bidang

Nasihat ini dimaksudkan untuk membantu, tetapi paling tidak terlalu disederhanakan. Saran Field tampaknya dimaksudkan secara umum; misalnya, referensi untuk uji Levene menyiratkan beberapa fokus sementara pada analisis varian.

(1,0)

Lebih umum, adalah umum - dalam banyak bidang situasi yang biasa - bahwa beberapa prediktor harus diubah dan sisanya dibiarkan apa adanya.

Memang benar bahwa dalam makalah atau disertasi, campuran transformasi diterapkan secara berbeda pada para prediktor yang berbeda (termasuk sebagai kasus khusus, transformasi identitas, atau pergi apa adanya) sering menjadi masalah bagi pembaca. Apakah campuran itu serangkaian pilihan yang dipikirkan dengan matang, atau apakah itu sewenang-wenang dan berubah-ubah?

Lebih jauh, dalam serangkaian penelitian, konsistensi pendekatan (selalu menerapkan logaritma pada respons, atau tidak pernah melakukannya) sangat membantu dalam membandingkan hasil, dan pendekatan yang berbeda menjadikannya lebih sulit.

Tapi itu tidak berarti tidak akan pernah ada alasan untuk campuran transformasi.

Saya tidak melihat bahwa sebagian besar bagian yang Anda kutip memiliki banyak pengaruh pada saran utama yang Anda soroti dengan warna kuning. Ini sendiri merupakan masalah yang memprihatinkan: ini adalah bisnis yang aneh untuk mengumumkan aturan absolut dan kemudian tidak benar-benar menjelaskannya. Sebaliknya, perintah "Ingat" menunjukkan bahwa alasan Field disediakan sebelumnya dalam buku ini.

Kertas anonim

Konteksnya di sini adalah model regresi. Seperti sering, berbicara tentang OLS anehnya menekankan metode estimasi daripada model, tetapi kita dapat memahami apa yang dimaksudkan. GWR I menafsirkan sebagai regresi tertimbang secara geografis.

Argumen di sini adalah bahwa Anda harus mengubah prediktor non-normal dan membiarkan yang lain apa adanya. Sekali lagi, ini menimbulkan pertanyaan tentang apa yang dapat dan harus Anda lakukan dengan variabel indikator, yang tidak dapat didistribusikan secara normal (yang seperti di atas dapat dijawab dengan menunjukkan bahwa non-normalitas dalam kasus itu bukan masalah). Tetapi perintah itu mundur dalam menyiratkan bahwa itu adalah kenormalan prediktor yang menjadi masalah. Tidak begitu; itu bukan bagian dari pemodelan regresi untuk mengasumsikan apa pun tentang distribusi marginal dari para prediktor.

Xβ

Ada begitu banyak nasihat luar biasa tentang transformasi di forum ini sehingga saya fokus membahas apa yang Anda kutip.

PS Anda menambahkan pernyataan mulai "Misalnya, dalam perbandingan cara, membandingkan log dengan data mentah jelas akan menghasilkan perbedaan yang signifikan." Saya tidak jelas apa yang ada dalam pikiran Anda, tetapi membandingkan nilai untuk satu kelompok dengan logaritma nilai untuk kelompok lain hanya akan menjadi tidak masuk akal. Saya sama sekali tidak mengerti pernyataan Anda.

Nick Cox
sumber
Nick, saya ingin menyampaikan maksud saya dengan cepat dan ringkas, yang saya rasa saya lakukan. Di dunia Google, saya telah memberikan informasi yang cukup untuk dengan mudah mengakses dokumen asli, jika diperlukan. Terima kasih telah menjawab, meskipun dalam putaran tentang cara, Anda memberi saya informasi yang saya cari: Harus mengubah semua variabel, seperti saran Field, di Bagian Transformasi Data adalah pendekatan yang salah untuk transformasi data.
I Heart Beats
14
+1. Saya kagum dengan betapa bijaksananya Anda berhasil menangani materi yang sangat salah. Membolak-balik halaman di sana-sini dalam buku SPSS memberikan wawasan tentang beberapa pertanyaan yang benar-benar membingungkan yang kita dapatkan di situs ini: Saya pikir mereka harus berasal dari pembaca buku itu. Penuh dengan kesalahan, kesalahan informasi, dan perundingan langsung.
whuber
@I Heart Beats Senang Anda menemukan jawabannya membantu, tetapi permintaan saya untuk referensi yang tepat berdiri. Anda mungkin juga mengatakan bahwa referensi yang tidak lengkap selalu dapat dipertahankan karena orang yang tertarik selalu dapat Google. Sebaliknya, keilmuan dan sains yang baik dibantu oleh praktik bibliografi yang baik, memberikan perincian lengkap dan tidak membuat (banyak) pembaca melakukan pekerjaan yang tidak perlu.
Nick Cox
@Nick lihat suntingan di pertanyaan saya. Saya percaya bahwa artikel adalah open source, dan saya menambahkan satu halaman penuh teks untuk konteks.
I Heart Beats
8
Terima kasih telah meningkatkan referensi. Anda telah mengutip lebih banyak dari Field. Ada bagian tambahan yang terlihat termasuk pernyataan bahwa "mengubah data tidak akan mengubah hubungan antar variabel". Entah itu berporos pada makna istimewa "hubungan", atau (lebih mungkin, saya khawatir) itu tidak membantu, memang sangat salah. Saya menyesal (dalam satu hal) setuju dengan @whuber tentang buku yang dipertanyakan tentang bukti di depan kami . (Pembaruan: whuber pada dasarnya membuat titik yang sama secara bersamaan: lihat komentarnya pada pertanyaan.)
Nick Cox
10

Pertama-tama, kedua kutipan tersebut menyesatkan sejauh transformasi apa pun yang diterapkan pada data yang dimaksudkan untuk digunakan dalam model regresi tidak dilakukan untuk membuat variabel PDF lebih terdistribusi secara normal, ini dilakukan untuk membuat model residu lebih simetris karena satu asumsi dalam regresi klasik adalah bahwa kesalahannya adalah Gaussian. Ini menyiratkan tingkat kekakuan dan kekakuan yang lebih dalam daripada sekadar menyinkronkan PDF.

Terlebih lagi kedua kutipan tersebut lemah karena tidak ada yang menggali motivasi untuk resep mereka (setidaknya berdasarkan informasi yang diberikan). Ketika itu terjadi, saya tidak setuju dengan keduanya.

Dalam bagian yang telah Anda soroti, buku SPSS mengklaim bahwa campuran transformasi (misalnya, log natural untuk satu variabel, root sq untuk yang lain) tidak diizinkan. Kenapa ini ilegal? Campuran transformasi tidak melanggar asumsi regresi yang saya sadari. Periksa teks regresi apa pun tentang asumsi regresi untuk mengonfirmasi bahwa ini masalahnya. Campuran transformasi mungkin menghadirkan masalah deskriptif substantif dalam hal interpretasinya, tetapi itu bukan pertanyaan apakah campuran itu ilegal atau tidak. Orang SPSS salah.

Sejauh teks kedua berjalan, sekali lagi, transformasi benar-benar masalah pilihan analis - apakah seseorang melakukan semuanya, mengubah semua input atau beberapa variabel dan bukan yang lain. Semua ini tidak melanggar asumsi apa pun.

Di mana saya pikir kutipan kedua berbunyi di atas rel adalah dalam pernyataan bahwa, "... untuk menghindari potensi multikolinieritas ... hanya satu indikator penggunaan lahan (digunakan) ..." Ini adalah saran yang sangat buruk dan terdengar seperti semacam itu beberapa analis akan lakukan sebagai teknik reduksi dimensi di mana mereka akan faktor menganalisis sekelompok variabel dan memilih variabel pemuatan tertinggi pada setiap faktor. Heuristik ini telah ada selama bertahun-tahun dan bukan yang saya gunakan atau rekomendasikan. Sekali lagi, ini masalah preferensi dan pelatihan analis. Tetapi poin ini tidak ditargetkan untuk menjawab pertanyaan spesifik Anda.

Pada akhirnya, kedua kutipan tersebut muncul sebagai penegasan pendapat penulis tanpa adanya bukti pendukung, berdasarkan informasi yang diberikan.

Mike Hunter
sumber
8
Kami membuat poin yang sama secara luas, tetapi saya ingin menambahkan bahwa teks yang baik menjelaskan bahwa kesalahan Gaussian adalah asumsi paling tidak penting dalam pemodelan regresi dan tidak diperlukan untuk banyak tujuan.
Nick Cox
4
Teks yang baik: stat.columbia.edu/~gelman/arm :)
Matius Drury