Saya menggunakan alat libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) untuk mendukung klasifikasi vektor. Namun, saya bingung tentang format data input.
Dari README:
Format file data pelatihan dan pengujian adalah:
<label> <index1>:<value1> <index2>:<value2> ... . . .
Setiap baris berisi instance dan diakhiri dengan karakter '\ n'. Untuk klasifikasi,
<label>
adalah bilangan bulat yang menunjukkan label kelas (multi-kelas didukung). Untuk regresi,<label>
adalah nilai target yang bisa berupa bilangan real. Untuk SVM satu kelas, ini tidak digunakan sehingga dapat berupa angka berapa pun. Pasangan ini<index>:<value>
memberikan nilai fitur (atribut):<index>
adalah bilangan bulat mulai dari 1 dan<value>
merupakan bilangan real. Satu-satunya pengecualian adalah kernel yang dikomputasi, di mana<index>
dimulai dari 0; lihat bagian kernel yang sudah dikomputasi. Indeks harus dalam urutan ASCENDING. Label dalam file pengujian hanya digunakan untuk menghitung akurasi atau kesalahan. Jika tidak diketahui, cukup isi kolom pertama dengan angka apa saja.
Saya punya pertanyaan berikut:
- Apa gunanya
<index>
? Apa tujuannya? - Apakah ada korespondensi antara nilai indeks yang sama dari berbagai contoh data?
- Bagaimana jika saya melewatkan / melewatkan indeks di antaranya?
Saya bertanya karena datafile * heart_scale * yang termasuk dalam paket untuk libsvm, pada baris 12, indeks dimulai dari 2. Apakah <value>
indeks 1 diambil sebagai tidak diketahui / hilang? Catatan: alat / alat checkdata.py yang disediakan dengan paket mengatakan bahwa file * heart_scale * sudah benar.