Haruskah jenis data (nominal / ordinal / interval / rasio) benar-benar dianggap sebagai jenis variabel?

Jadi misalnya di sini adalah definisi yang saya dapatkan dari buku teks standar

Variabel - karakteristik populasi atau sampel. ex. Harga suatu saham atau nilai pada suatu tes

Data - nilai aktual yang diamati

Jadi untuk laporan dua kolom [Nama | Penghasilan] nama kolom akan menjadi variabel dan nilai yang diamati sebenarnya {dave | 100K}, {jim | 200K} akan menjadi data

Jadi jika saya mengatakan bahwa kolom [Nama] adalah data nominal dan [penghasilan] adalah data rasio, tidakkah saya akan lebih akurat menggambarkannya sebagai jenis variabel daripada jenis data seperti kebanyakan buku teks? Saya mengerti bahwa ini mungkin semantik, dan tidak apa-apa hanya itu yang ada. Tetapi saya khawatir bahwa saya akan kehilangan sesuatu di sini.

dataset ordinal-data categorical-data ratio Pengguna 42
sumber

Tidak menganggap saya sebagai perbedaan yang berarti; Saya akan menganggap ungkapan itu bisa diterima, secara pribadi. Definisi "variabel" tampaknya agak aneh.

Nick Stauner

@Nick Saya percaya bahwa jika kita menerjemahkan "karakteristik" bahasa sehari-hari ke "fungsi bernilai riil," kita mendapatkan bagian dari definisi variabel acak. (Bagian yang hilang, tentu saja, dapat diukur sehubungan dengan bidang sigma pada populasi.) Namun, biasanya, kami akan menerjemahkan "karakteristik sampel" ke dalam statistik istilah teknis : mungkin itulah yang Anda maksudkan sebagai "sedikit libur." Dengan terjemahan ini, variabel tidak memiliki "tipe" sama sekali dalam arti Stevens (kami hanya dapat membedakan diskrit dari distribusi kontinu ) - tetapi beberapa data dapat.

whuber

Tipologi skala Stevens tidak selalu merupakan karakteristik inheren dari variabel, atau bahkan data itu sendiri, tetapi tentang bagaimana kita memperlakukan informasi - dari apa yang kita gunakan artinya .

Dalam beberapa keadaan, nilai yang persis sama dapat dianggap sebagai rasio, interval, ordinal atau nominal, tergantung pada apa yang kita lakukan dengannya - ini masalah makna apa yang kita berikan nilai-nilai, yang dapat berubah dari satu analisis ke analisis berikutnya. Tipologi Stevens memiliki beberapa nilai, tetapi tidak perlu terlalu preskriptif tentang hal itu.

Masalah pentingnya skala ini sebagai makna setidaknya berasal dari Lord (1953), yang memberikan contoh di mana ada interpretasi nominal dan interval dari himpunan angka yang sama.

Poin ini bahkan lebih jelas dibuat oleh Velleman dan Wilkinson (1993), yang menawarkan contoh orang yang menerima tiket bernomor berturut-turut saat masuk ke resepsi dengan hadiah yang diberikan kepada salah satu tiket; tergantung pada penggunaan nomor di tiket, mereka memiliki interpretasi pada keempat skala.

Jadi, misalnya 'apakah saya menang?' apakah pertanyaan memperlakukan nomor sebagai nominal, sementara 'apakah saya datang terlalu dini untuk mendapatkan tiket yang menang?' adalah pertanyaan yang memperlakukannya sebagai ordinal; di sisi lain (dan saya tidak berpikir yang ini ada di koran) menggunakan 5 nomor tiket acak untuk memperkirakan jumlah orang di ruangan itu akan memperlakukan mereka sebagai rasio (misalnya jika ada 4 nomor yang diambil secara acak yang mendapat hadiah hiburan, Anda akan memiliki 5 nomor acak sekaligus untuk memperkirakan kehadiran total).

Mereka berpendapat bahwa "analisis data yang baik tidak mengasumsikan tipe data", "kategori Stevens tidak menggambarkan atribut data tetap", "kategori Stevens tidak cukup untuk menggambarkan skala data" dan "Prosedur statistik tidak dapat diklasifikasikan sesuai dengan kriteria Stevens" (memang setiap pernyataan juga merupakan judul bagian).

Kritik juga ditawarkan di beberapa tempat oleh Tukey (mis. Dalam bab 5 buku Analisis dan regresi data 1977 Tukey dan Tukey ); Mosteller dan Tukey menawarkan tipologi - nama , nilai (label yang dipesan), peringkat (mulai dari 1, yang mungkin mewakili terbesar atau terkecil), fraksi yang dihitung (dibatasi oleh nol dan satu, ini termasuk persentase), jumlah (non-negatif) bilangan bulat), jumlah (bilangan real non-negatif), saldo (tidak terikat, nilai positif atau negatif).

Dalam pekerjaan saya sendiri, saya telah melihat situasi di mana masalah parah dengan analisis disebabkan oleh orang-orang yang gagal menghargai perbedaan besar antara variabel yang berkaitan dengan level (kadang-kadang disebut variabel 'stok') dan aliran - contoh sederhana dari jenis ini adalah perbedaannya. dalam jenis analisis yang sesuai untuk jumlah air sebenarnya dalam tangki penyimpanan di setiap urutan periode, dan jumlah air yang mengalir ke dalamnya. Ini akan (dalam beberapa kasus) keduanya menjadi sub-kategori dari tipe ' jumlah ' Mosteller dan Tukey (dan dalam kasus-kasus yang sama, kedua variabel rasio dalam skema Stevens), menunjukkan bahwa masalah tipologi mungkin cukup halus, tetapi masih dapat berdampak kritis terhadap analisis yang sesuai.

PFVelleman dan L.Wilkinson (1993),
" Tipologi Nominal, Ordinal, Interval, dan Ratio Menyesatkan,"
The American Statistician , vol. 47 no.1 hal.65-72

(versi yang berfungsi tampaknya tersedia di halaman web penulis ke-2 di sini )

Lord, F. (1953),
"Tentang perawatan statistik angka-angka sepakbola,"
American Psychologist , 8 , pp.750-751

(Tahun makalah ini diberikan secara salah dalam referensi versi kertas Velleman dan Wilkinson yang saya tautkan, tetapi dirujuk dengan benar di badan makalah ini)

Glen_b -Reinstate Monica
sumber

Terima kasih. Jawaban yang sangat teliti. Saya berpikir seperti itu tetapi ketika meneliti hal ini berkali-kali mereka membuatnya seolah-olah itu konkret dan konsensus telah tercapai. Itu sebabnya saya berakhir di sini.

Pengguna 42

Tipologi Stevens telah diperdebatkan dan diperdebatkan sejak pertama kali diterbitkan. Ini adalah kerangka yang kadang-kadang bermanfaat, bukan teorema.

Glen_b -Reinstate Monica

Apakah ada "favorit baru" selain Stevens dan Mosteller? Dalam contoh level / aliran, jika saya mengerti Anda dengan benar, keduanya memiliki tipe yang sama, namun perlu diperlakukan berbeda? Bisakah Anda menjelaskan perbedaan ini? Dan bagaimana misalkan transformasi log dari suatu nilai cocok dengan tipologi ini? Terima kasih.

Erich Schubert

1. Saya tidak mengetahui adanya upaya baru-baru ini untuk membuat satu - dan saya pikir mereka tidak selalu berguna karena mereka cenderung menyepelekan orang ke dalam analisis yang kurang tepat (lihat kertas Lord untuk contoh mainan tetapi konsekuensi untuk analisis adalah sangat nyata - daftar-daftar analisis berdasarkan jenis tidak akan menghasilkan akhir dari analisis statistik yang mengerikan, sementara memotong statistik yang luas dari kemungkinan pertimbangan dalam situasi yang sesuai). ..

ctd

ctd ... 2. Salah satu contoh bagaimana level dan aliran sangat berbeda: Perhatikan bahwa jika Anda melihat level setiap hari, level hari ini akan menjadi level sebelumnya ditambah aliran masuk atau keluar yang mengintervensi (atau jumlah keduanya , jika keduanya mungkin). Jadi pengukuran level tentu tergantung, seringkali sangat. Tidak masuk akal untuk memperlakukan mereka seolah-olah mereka mandiri - namun saya melihat orang melakukannya sepanjang waktu. 3. Saya tidak yakin apa yang Anda minta dengan log itu. Bisakah Anda lebih eksplisit tentang itu? Tipologi mana (perhatikan bahwa saya menyebutkan lebih dari satu)?

Glen_b -Reinstate Monica

Haruskah jenis data (nominal / ordinal / interval / rasio) benar-benar dianggap sebagai jenis variabel?

Jawaban: