Skema kompresi gambar / video yang sangat intensif secara komputasi yang menawarkan kompresi yang lebih baik daripada JPEG / H.264 standar industri

8

Saya mencoba mencari skema kompresi gambar / video yang menawarkan kinerja kompresi superior (mempertahankan kualitas gambar sebagai konstan) bila dibandingkan dengan standar industri yang banyak diadopsi (yaitu JPEG / H.264), tetapi untuk alasan mereka terlalu komputasional atau sumber daya intensif, menerapkannya pada workstation berbasis CPU tidak mungkin dan karenanya tidak diadopsi dalam standar umum.

Saya hanya bisa memikirkan kompresi fraktal sebagai contoh yang baik. Apakah masyarakat tahu tentang contoh-contoh semacam itu?

Ang Zhi Ping
sumber
2
Sejauh gambar pergi, ada algoritma yang lebih canggih daripada JPEG, seperti JPEG2000. JPEG2000 memberikan peningkatan rasio kompresi, tetapi saya tidak yakin bahwa kurangnya adopsi disebabkan oleh kompleksitas komputasi. Lebih dari itu, JPEG dianggap "cukup baik" untuk sebagian besar aplikasi, jadi tidak ada motivasi nyata untuk menggunakan sesuatu yang lebih baik (terutama karena penyimpanan disk sangat banyak dalam sistem modern). Mereka yang peduli dengan kualitas gambar terbaik, seperti fotografer profesional, sering menghindari kompresi sama sekali, dengan mengandalkan tangkapan mentah dari output sensor gambar.
Jason R
Saya pikir kualitas JPEG lebih tergantung pada berapa banyak data yang Anda buang daripada pada berapa banyak waktu yang Anda habiskan untuk menghitungnya.
endolit
1
Analisis Komponen Utama / Transformasi KLT / Hotelling dapat melakukan pekerjaan yang jauh lebih baik daripada DCT dalam merepresentasikan sinyal dengan sejumlah kecil fungsi dasar, tetapi cukup mahal secara komputasi. Saya tidak yakin apakah ada yang benar-benar menyelesaikan skema kompresi dengan mereka.
eglaser
@eglaser: Ingin menguraikan PCA / KLT / Hotelling? Akan lebih baik jika Anda bisa memposting balasan Anda sebagai jawaban.
Ang Zhi Ping
1
@eglaser KLT lebih baik daripada DCT dalam hal kekompakan energi. Namun, itu tidak selalu berarti itu adalah codec yang lebih baik; ini karena KLT untuk setiap bagian gambar / video itu unik dan karenanya, Anda tidak hanya harus mengirim koefisien yang dihasilkan, Anda juga harus mengirim kernel juga.
Dipan Mehta

Jawaban:

8

Ada berbagai aspek kompresi - apakah Anda mengacu pada gambar atau video. (Mungkin audio sama sekali berbeda sehingga saya tidak merujuk ini di sini).

Jika Anda benar-benar melihat sejarah standar kompresi, ketika pertama kali dibentuk - MPEG1 penyandi waktu nyata jarang. CPU pada waktu itu sendiri tidak cukup untuk membuatnya menjadi waktu nyata; Namun, bukan kompleksitas pemrosesan (sendiri) yang menghentikan lebih banyak kompleksitas algoritma untuk digunakan di bawah codec. (Mungkin faktor utama yang bertanggung jawab untuk penyertaan / pengecualian algoritma tertentu adalah a. Paten, b. Kelayakan implementasi).

Namun, saya ingin mengutarakan kembali pertanyaan itu sedikit lebih sederhana:

Apa penelitian lain dalam kompresi tersedia yang masih datang ke pasar (atau tidak datang sama sekali tetapi mungkin layak untuk beberapa aplikasi)?

Berikut adalah beberapa hal untuk dilihat:

1. Transformasi yang lebih baik?

DCT sejauh ini telah menjadi transformasi universal di semua codec. Namun, ada banyak makalah penelitian yang menunjukkan bahwa wavelet bisa lebih baik. Memang satu-satunya JPEG2000 termasuk wavelet - tetapi standar itu sendiri bukan hit besar. Mungkin itu adalah lebih baik daripada DCT dalam beberapa cara; khusus ada klaim bahwa Wavelets mengungguli DCT [Lihat: Ref 1]

Saya pikir wavelet secara komputasi lebih mahal daripada DCT (sebagian karena implementasi DCT 8x8 sangat dioptimalkan). Tapi saya kira saya tidak benar-benar terbang sebanyak itu karena dari sudut pandang pasar karena DCT pada saat itu jauh lebih luas dan perbedaan dalam peningkatan tidak begitu besar bagi orang untuk beralih.

2. Kompensasi gerak multi hipotesis
Sementara MPEG 2 cukup senangBgambar, penelitian ekstensif dari Bern Girod [Lihat Ref 2] membuktikan bahwa - konsepnya dapat diperluas lebih dari ini. Memang H.264 sebenarnya telah membuat generalisasi besar pada kompensasi gerak berbasis beberapa target - pada dasarnya orang dapat menyimpan lebih dari 16 gambar (dibandingkan dengan 2 di MPEG2) dan memang prediksi bisa sangat tinggi.

Sementara, ini sudah menjadi bagian dari standar dalam H.264 - ini masih belum sepenuhnya dieksploitasi. Ada kebutuhan untuk melakukan estimasi gerak yang luas seperti itu secara praktis. Sebagian besar encoder H.264 masih baru dalam memanfaatkan potensi penuh ini.

3. Kompresi Gambar / Video yang Dapat
diskalakan Kompresi gambar dan video yang dapat diukur sekali lagi merupakan cara paling penting untuk melakukan beberapa pengkodean deskripsi untuk gambar dan video. Pada dasarnya gambar atau video yang sama dapat dikodekan pada beberapa Resolusi, kuantisasi (kualitas), atau kecepatan bingkai. Ini menghasilkan lapisan kualitas yang berbeda vs kecepatan bit tepat dalam aliran yang sama - dan server streaming sebenarnya dapat menyesuaikan bitrate dan kualitas secara dinamis agar paling sesuai dengan video dalam kualitas. Lihat [Ref 3], [Ref 4], [Ref 5]

Dari jumlah ini, hanya kesuksesan nyata adalah JPEG progresif yang praktis berguna untuk situs web dan memang bermanfaat. Sekali lagi sementara janji untuk mengadaptasi bit stream secara dinamis itu hebat, tetapi itu hanya bekerja jika ada sistem praktis di mana memperkirakan laju bit seperti itu dimungkinkan dan jenis adaptasi dapat melayani beberapa tujuan nyata. Namun, dalam domain video, terlepas dari dukungan ini dalam standar (MPEG2, MPEG4 dan H.264) - hampir tidak ada penggunaan ini.

4. Video Obyek
Ini mungkin grail suci utama dari Kompresi. Objek video [Ref 6] seperti yang diprakarsai oleh badan standar MPEG itu sendiri, bagaimanapun, ini juga didukung oleh penelitian yang luas.

Ide dasarnya adalah untuk membagi video dalam bentuk objek yang berbeda dan nantinya setiap objek tersebut dapat diperlakukan sebagai bidang yang terpisah. setiap objek dan diterapkan dengan bit rate yang berbeda, kuantisasi, frame rate dan prediksi yang jauh lebih efisien dapat terjadi. Juga, orang dapat memanipulasi objek seperti itu seperti cara Anda dapat melakukan hal-hal di photoshop / gimp.

Namun, ternyata segmentasi gambar dan video dunia nyata dengan objek yang relevan dengan persepsi - merupakan masalah yang sulit! Jadi, bahkan jika saya punya encoder / decoder - saya perlu robus dan sistem segmentasi waktu nyata untuk membuat hal-hal menjadi mungkin. Sejauh ini, ini adalah masalah yang sangat terbuka tentang bagaimana Anda menerapkan video dalam bentuk video berlapis untuk membuatnya berfungsi.

5. Lebih banyak dimensi
Selain ini - ada codec untuk video stereo (alias multiview) dan video 3D (konsep yang hampir serupa) yang juga mencoba mengurangi redundansi pada dimensi tambahan. Sementara ini masih penelitian yang sedang berlangsung di sini, H.264 memang memiliki profil untuk ini sekarang. Hal yang sama berlaku untuk pengkodean Cinema.

Ada banyak proyek penelitian yang masih dalam bidang ini - namun, kompresi video sudah menjadi pasar komoditas saat ini. Dan penelitian yang secara substansial tidak menghasilkan aplikasi baru atau jika ada masalah kelayakan dalam implementasi tidak akan bertahan secara praktis meskipun kecerdikannya.

Semoga ini membantu.

Referensi:

  1. Studi Banding Pengodean Gambar Berbasis DCT dan Wavelet oleh Zixiang Xiong, et. Al. TRANSAKSI IEEE TENTANG RANGKAIAN DAN SISTEM UNTUK TEKNOLOGI VIDEO, VOL. 9, TIDAK. 5, AGUSTUS 1999 hlm. 692

  2. Analisis Efisiensi Prediksi Kompensasi Gerakan Multihypothesis untuk Pengkodean Video Bernd Girod, TRANSAKSI IEEE PADA PENGOLAHAN CITRA, VOL. 9, TIDAK. 2, FEBRUARI 2000 173

  3. Pengkodean video scalable resolusi spasial-domain oleh Barry G. Haskell, Hsueh-Ming Hang. Proc SPIE 2094, Komunikasi Visual dan Pemrosesan Gambar November 718 (1993);

  4. Metode Coding Video Scalable MPEG-4 berbutir halus untuk Streaming Multimedia Melalui IP oleh Hayder M. Radha, et. Al. TRANSAKSI IEEE PADA MULTIMEDIA, VOL. 3, TIDAK. 1, MARET 2001 53

  5. Kemajuan dalam Pengkodean Video yang Skalabel oleh Ohm, J.-R .; Prosiding IEEE Januari 2005 Volume: 93 Masalah: 1 hal. 42 - 56

  6. Coding Tekstur Berbasis Objek dari Pindah Video di MPEG-4, oleh Andr ́ Kaup, TRANSAKSI IEEE PADA RANGKAIAN DAN SISTEM UNTUK TEKNOLOGI VIDEO, VOL. 9, TIDAK. 1, FEBRUARI 1999 hlm. 5

Dipan Mehta
sumber