Generative Adversarial Networks for Extreme Learned Image Compression
Citation
@INPROCEEDINGS{9010721, author={E. {Agustsson} and M. {Tschannen} and F. {Mentzer} and R. {Timofte} and L. {Van Gool}}, booktitle={2019 IEEE/CVF International Conference on Computer Vision (ICCV)}, title={Generative Adversarial Networks for Extreme Learned Image Compression}, year={2019}, volume={}, number={}, pages={221-231},}
どんなもの?
非可逆画像圧縮、 GAN を使ってみました。インスタンス/セマンティックセグメンテーションとも組み合わせられる。
先行研究と比べてどこがすごい?
- GAN を使った完全な画像圧縮システムは初だと主張
- 視覚的な品質に全振り(尺度が平均二乗誤差ではない)
技術や手法のキモはどこ?
- GAN の損失関数に、出力画像の品質(VGG perceptual loss?)と平均ビット数の項を追加
- Discriminator にセグメンテーション結果を与えることで、より強くなる (GC D+)
- セグメンテーションの結果も含めて圧縮させると、物体がきれいに残る (SC)
どうやって有効だと検証した?
- 既存の指標は視覚的なきれいさには使えん!と言って人の目で比較
- 比較対象は HEVC のアルゴリズムを使う BPG と、オートエンコーダを使った AEDC → ビットレートが低いとき、人の目にはきれいに見える
議論はある?
- 比較画像(Figure 10)を見ると、色が違ったりして、大丈夫か?という気持ちになる
- うまくビットの割り当てをコントロールしたいらしい
次に読むべき論文は?
- ひとつ前の state-of-the-art: Conditional Probability Models for Deep Image Compression
- ネットワーク圧縮と画像圧縮についての考察: Soft-to-Hard Vector Quantization for End-to-End Learning Compressible Representations