今だからこそVGGNetを学ぶ理由|古典的CNNが今も重要なわけ

カテゴリ: AI・機械学習

最新の画像分類AIは、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)系と、ViT(Vision Transformer)系に大きく分けて考えられます。CNN系ではEfficientNetV2やConvNeXt、ViT系ではVision Transformer(ViT)をはじめとしたモデル群が広く知られており、どちらも高い性能を示しています。

しかし、本記事ではあえて最新モデルの比較そのものではなく、CNNと一次視覚野の関係、そして古典的なCNNモデルであるVGGNetに注目します。理由は、シンプルなCNNの構造を理解すると、画像認識の基本だけでなく、Style TransferやPerceptual Lossのような応用まで見通しやすくなるからです。VGGNetは古いモデルでありながら、今でも画像生成や知覚的な類似度評価の文脈で重要な役割を持っています。

1. CNNと視覚野のニューロンについて

CNNの畳み込み層は、人間や動物の視覚処理と完全に同じではありませんが、局所的なパターンを段階的に捉えるという点で、視覚野の研究としばしば関連づけて説明されます。特に有名なのが、Hubel と Wiesel による1959年の研究です。この研究では、猫の一次視覚野の単一ニューロンを記録し、特定の向きの線や細長い刺激に強く反応する細胞があることが示されました。これは、視覚野に向き選択性を持つ受容野が存在することを示した古典的な成果です。

Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat’s striate cortex. Journal of Physiology, 148, 574–591

この考え方は、CNNを理解するうえでも直感的です。CNNでは、画像全体をいきなり理解するのではなく、まずは小さな領域のエッジ、向き、色の変化のような特徴を拾い、その後の層でより複雑な形状へと組み合わせていきます。初心者の方は、CNNを「画像の中から、線や模様の特徴を少しずつ見つけていく仕組み」と考えると分かりやすいと思います。

CNNでも、初期層はこのような役割を持つことが知られています。たとえばAlexNetの論文では、学習後の初期畳み込みカーネルが、特定方向の線や色の変化に反応するフィルタのように振る舞うことが確認できます。AlexNet自体は大きめの11×11畳み込みを使ったモデルとして有名ですが、その初期層がエッジや色の特徴抽出に近い働きをする点は、CNNの基本を理解するうえで非常に重要です。

Alex Krizhevsky, Ilya Sutskever and Geoffrey E. Hinton (2012), ImageNet Classification with Deep Convolutional Neural Networks, Communications of the ACM, 60

2. VGGNetの特徴

VGGNetは、ILSVRC 2014で高い成績を収めた代表的な画像分類モデルです。最大の特徴は、3×3の小さな畳み込みを何層も積み重ねるという、非常にシンプルな設計にあります。複雑な特殊機構を前面に出すのではなく、基本的な畳み込みを深く重ねることで性能を高めた点が、VGGNetの大きな魅力です。

このシンプルさは、初心者にとっても大きな利点です。VGGNetは「画像分類モデルの基本形」を学ぶのに向いており、畳み込み、活性化関数、プーリング、全結合層といった主要部品がどのように連携するのかを理解しやすいからです。また、後年の研究では、この素直な構造が画像の特徴表現にも独特の扱いやすさをもたらしていることが分かってきました。 

Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. In International Conference on Learning Representations (ICLR 2015)

.

3. VGGの特徴空間はStyleとContentを扱いやすい

VGGNetが特に有名なのは、画像分類性能だけではありません。GatysらのNeural Style Transferでは、VGGの中間層の特徴をcontent(形や配置などの内容)の表現として用い、特徴マップ同士の相関をまとめたGram行列style(質感や模様、色調などの作風)の表現として用いることで、両者をある程度分けて扱えることが示されました。

Gatys, L. A., Ecker, A. S., & Bethge, M. (2015). A Neural Algorithm of Artistic Style. arXiv:1508.06576.

このcontentとstyleを分離する能力は、より新しいCNN系分類器が優れるわけではなく、むしろ標準的な VGG のほうが安定して高品質であることがわかっています。下図はVGGとResNetで、学習前(r-)と学習後(p-)でNeural Style Transferを行った研究です。VGG Netは学習前(r-VGG)でもある程度スタイル転移を行えており、VGGのアーキテクチャ自体がcontentとstyleを分離する機能を有していることがわかっています。

Wang, P., Li, Y., & Vasconcelos, N. (2021). Rethinking and Improving the Robustness of Image Style Transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2021).

ここで重要なのは、「VGGが画像を単に分類するだけでなく、人が見たときの見た目に近い特徴をうまく表現しやすい」という点です。もちろん、contentとstyleが完全に独立しているわけではありませんが、VGGの特徴空間はこの2つを比較的扱いやすく、Neural Style Transferの成功を支えました。初心者向けに言い換えると、VGGは「何が描かれているか」と「どんな質感や雰囲気か」を分けて考える土台として使いやすいモデルだと言えます。

4. Perceptual Lossとして今も活躍している

こうした背景から、VGGNetは**「人間の見た目に近い差」を測る特徴抽出器として今もよく使われます。Justin Johnsonらは、VGGの特徴空間上で画像同士の差を測るPerceptual Loss**を用いて、リアルタイムのStyle Transferや超解像を実現しました。ピクセル単位の誤差だけでは表現しにくい「見た目の自然さ」を、特徴空間の距離で補う発想です。

Johnson, J., Alahi, A., & Fei-Fei, L. (2016). Perceptual Losses for Real-Time Style Transfer and Super-Resolution. In European Conference on Computer Vision (ECCV 2016)

. arXiv:1603.08155.

この考え方は、Style Transferだけにとどまりません。画像生成や画像復元の分野では、ぼやけた出力を減らし、より自然で高精細に見える結果を得るために、Perceptual Lossが広く利用されています。VAE(Variational Autoencoder、変分オートエンコーダ)や超解像、画像再構成などで、単純な画素誤差に加えて知覚的な損失を入れる設計は今でも重要です。

Hou, X., Shen, L., Sun, K., & Qiu, G. (2016). Deep Feature Consistent Variational Autoencoder. arXiv preprint arXiv:1610.00291.

まとめ

VGGNetは、最新の画像分類モデルと比べると古典的なCNNモデルです。しかし、3×3畳み込みを積み重ねるシンプルな構造ゆえに理解しやすく、さらに画像の特徴表現が扱いやすいという強みがあります。

また、CNNの初期層がエッジや向きのような局所特徴を捉えるという考え方は、Hubel と Wiesel の古典的研究とも重ねて理解しやすく、CNNの本質を学ぶうえで非常に有用です。VGGNetはその延長線上で、Neural Style TransferやPerceptual Lossといった応用に今も活用されています。

つまり、VGGNetは単なる昔の画像分類モデルではありません。画像のcontentとstyleを考える基盤として、そして人間の見た目に近い差を扱うための特徴抽出器として、今なお学ぶ価値の高いモデルだと言えるでしょう。