Jadi misalnya di sini adalah definisi yang saya dapatkan dari buku teks standar
Variabel - karakteristik populasi atau sampel. ex. Harga suatu saham atau nilai pada suatu tes
Data - nilai aktual yang diamati
Jadi untuk laporan dua kolom [Nama | Penghasilan] nama kolom akan menjadi variabel dan nilai yang diamati sebenarnya {dave | 100K}, {jim | 200K} akan menjadi data
Jadi jika saya mengatakan bahwa kolom [Nama] adalah data nominal dan [penghasilan] adalah data rasio, tidakkah saya akan lebih akurat menggambarkannya sebagai jenis variabel daripada jenis data seperti kebanyakan buku teks? Saya mengerti bahwa ini mungkin semantik, dan tidak apa-apa hanya itu yang ada. Tetapi saya khawatir bahwa saya akan kehilangan sesuatu di sini.
dataset
ordinal-data
categorical-data
ratio
Pengguna 42
sumber
sumber
Jawaban:
Tipologi skala Stevens tidak selalu merupakan karakteristik inheren dari variabel, atau bahkan data itu sendiri, tetapi tentang bagaimana kita memperlakukan informasi - dari apa yang kita gunakan artinya .
Dalam beberapa keadaan, nilai yang persis sama dapat dianggap sebagai rasio, interval, ordinal atau nominal, tergantung pada apa yang kita lakukan dengannya - ini masalah makna apa yang kita berikan nilai-nilai, yang dapat berubah dari satu analisis ke analisis berikutnya. Tipologi Stevens memiliki beberapa nilai, tetapi tidak perlu terlalu preskriptif tentang hal itu.
Masalah pentingnya skala ini sebagai makna setidaknya berasal dari Lord (1953), yang memberikan contoh di mana ada interpretasi nominal dan interval dari himpunan angka yang sama.
Poin ini bahkan lebih jelas dibuat oleh Velleman dan Wilkinson (1993), yang menawarkan contoh orang yang menerima tiket bernomor berturut-turut saat masuk ke resepsi dengan hadiah yang diberikan kepada salah satu tiket; tergantung pada penggunaan nomor di tiket, mereka memiliki interpretasi pada keempat skala.
Jadi, misalnya 'apakah saya menang?' apakah pertanyaan memperlakukan nomor sebagai nominal, sementara 'apakah saya datang terlalu dini untuk mendapatkan tiket yang menang?' adalah pertanyaan yang memperlakukannya sebagai ordinal; di sisi lain (dan saya tidak berpikir yang ini ada di koran) menggunakan 5 nomor tiket acak untuk memperkirakan jumlah orang di ruangan itu akan memperlakukan mereka sebagai rasio (misalnya jika ada 4 nomor yang diambil secara acak yang mendapat hadiah hiburan, Anda akan memiliki 5 nomor acak sekaligus untuk memperkirakan kehadiran total).
Mereka berpendapat bahwa "analisis data yang baik tidak mengasumsikan tipe data", "kategori Stevens tidak menggambarkan atribut data tetap", "kategori Stevens tidak cukup untuk menggambarkan skala data" dan "Prosedur statistik tidak dapat diklasifikasikan sesuai dengan kriteria Stevens" (memang setiap pernyataan juga merupakan judul bagian).
Kritik juga ditawarkan di beberapa tempat oleh Tukey (mis. Dalam bab 5 buku Analisis dan regresi data 1977 Tukey dan Tukey ); Mosteller dan Tukey menawarkan tipologi - nama , nilai (label yang dipesan), peringkat (mulai dari 1, yang mungkin mewakili terbesar atau terkecil), fraksi yang dihitung (dibatasi oleh nol dan satu, ini termasuk persentase), jumlah (non-negatif) bilangan bulat), jumlah (bilangan real non-negatif), saldo (tidak terikat, nilai positif atau negatif).
Dalam pekerjaan saya sendiri, saya telah melihat situasi di mana masalah parah dengan analisis disebabkan oleh orang-orang yang gagal menghargai perbedaan besar antara variabel yang berkaitan dengan level (kadang-kadang disebut variabel 'stok') dan aliran - contoh sederhana dari jenis ini adalah perbedaannya. dalam jenis analisis yang sesuai untuk jumlah air sebenarnya dalam tangki penyimpanan di setiap urutan periode, dan jumlah air yang mengalir ke dalamnya. Ini akan (dalam beberapa kasus) keduanya menjadi sub-kategori dari tipe ' jumlah ' Mosteller dan Tukey (dan dalam kasus-kasus yang sama, kedua variabel rasio dalam skema Stevens), menunjukkan bahwa masalah tipologi mungkin cukup halus, tetapi masih dapat berdampak kritis terhadap analisis yang sesuai.
PFVelleman dan L.Wilkinson (1993),
" Tipologi Nominal, Ordinal, Interval, dan Ratio Menyesatkan,"
The American Statistician , vol. 47 no.1 hal.65-72
(versi yang berfungsi tampaknya tersedia di halaman web penulis ke-2 di sini )
Lord, F. (1953),
"Tentang perawatan statistik angka-angka sepakbola,"
American Psychologist , 8 , pp.750-751
(Tahun makalah ini diberikan secara salah dalam referensi versi kertas Velleman dan Wilkinson yang saya tautkan, tetapi dirujuk dengan benar di badan makalah ini)
sumber
Jenis data terkait tetapi tidak identik dengan jenis variabel. Sebagian besar kasus, mereka sama tetapi tidak harus demikian.
Misalnya, jika Anda mengumpulkan sampel N dari distribusi normal. Anda akan berpikir itu adalah data numerik (rasio atau skala). Tapi saya juga bisa mengatakan itu adalah variabel kategori dengan N kategori berbeda, dengan frekuensi 1 untuk setiap kategori. Itu terlihat bodoh tetapi juga variabel yang valid.
sumber