董豪(Hao Dong)様のsrganのコードを元に、私が書いた “SRNet-R” という超解像AIについて。
“GitHub” の “SRNet-R” のリポジトリー: https://github.com/ImpactCrater/SRNet-R



私がAWS (Amazon Web Services)のEC2 (Amazon Elastic Compute Cloud)の “p2.xlarge” GPU インスタンスとローカル PCで学習させたSRNet-Rによる4倍超解像と従来のBicubic補間法による4倍拡大とを比較した画像です。
この画像はSRNet-Rには学習させていない未学習の画像です。
加えて、人間の全身像については全く学習していないモデルでの超解像の結果です。
元の画像はiStockより使用ライセンスを購入致しました。
[GitHub リポジトリー]
この “SRNet-R” はTensorFlowとTensorLayerによる実装となっています。
以下に私のSRNet-RのGitHub リポジトリーへのリンクを載せます。
“GitHub” の “SRNet-R” のリポジトリー: https://github.com/ImpactCrater/SRNet-R
[学習済みモデル データ]
私がAWSのEC2のp2.xlarge GPU インスタンスを用いて1日弱ほど学習させ、28 epoch目の段階の学習済みモデル データを公開致します。
(残念ながら、Yahoo!ボックスのサーヴィスは終了してしまいました。)
“Yahoo!ボックス” サーヴィスからZIP ファイルをダウンロードして解凍し、 “./SRNet-R/checkpoint/” ディレクトリーに “ae.npz, g.npz” の2つのファイルを入れます。
学習用の大量のPNG画像を “./SRNet-R/HRImage_Training” ディレクトリーに用意し、端末で
python ./SRNet-R/main.py
として続きから再学習させる事が可能です。
[前書き]
画像を綺麗に拡大する、解像度を向上させる取り組みは昔から沢山研究されて来ました。
Bicubic補間法、Lanczos補間法など、内挿により “Nyquist–Shannon sampling theorem” (ナイキスト-シャノンの標本化定理)の制限内で綺麗に補間する事から始まりました。
ナイキスト-シャノンの標本化定理では、サンプリング周波数の1/2の周波数をナイキスト周波数と言い、これ以上の情報は折り返しノイズになる為、正確には復元出来ません。
これを超えた高解像度化の手法を、 “超解像” (Super-Resolution)と言います。
例えば、フラクタルの性質を利用した超解像があります。
フラクタルとは自己相似性の事であり、スケールを変えて見た時に前と同様の構造が見つかる図形を言います。
自然画像にはフラクタルな部分が多く含まれている事を利用して拡大後の画像を推定します。
他に、サブピクセル レヴェルでのブロック マッチングと最小二乗誤差法で同一画像内もしくは連続撮影された複数画像(マルチフレーム)内からある注目領域に相同な部分を見つけ出して画素の隙間に当て嵌めて行く事で超解像を行う仕組みも登場しました。
人間が予め多数の、一辺が数画素程度の小さな画像断片を沢山用意して置き、これを用いて画像を再構成する再構成型超解像もあります。
補間法で拡大した画像にConvolution フィルターを掛け合わせて行く事で画像の暈けを取り除く手法を一般的にDeconvolutionと言います。
また、畳み込みのフィルターの値を人間が指定するのではなく、人工ニューラル ネットワークによって機械学習(ML)させる手法が研究されて来ました。
Convolutional Neural Network (CNN)です。
画像認識分野などで層数が多く深いネットワークが研究され、Deep CNN (DCNN)となりました。
“深層学習” (Deep Learning)は広く成果を上げ、大いに流行しました。
超解像分野ではSRCNNとして研究され、残差ネットワーク(Residual Network)を取り入れてSRResNetとなり、知覚的損失と敵対的生成ネットワーク(Generative Adversarial Network / GAN)を取り入れ “SRGAN” となり、ESRGAN、Wasserstein SRGANと派生型が幾つも生み出されました。
かつて流行した ” Waifu2x ” はSRCNNの一種であるようです。
私も当時Waifu2xを学習させてみたりしてその性能に驚かされました。
後にSRGANを試し、更なる視覚品質の向上にまた驚きました。
その後、SRGANを改造して実験を繰り返しました。
例えば、GANの損失関数の指標をJensen-Shannon divergenceからWasserstein distanceに変えてみましたが、Lipschitz連続な関数であるという拘束条件あり、これを守る為にweight clippingやweight decay、gradient clippingを試しましたが勾配爆発や勾配消失などを防ぐのが難しく、断念しました。
因みにgradient penaltyはとても有効であるとの事です。
また、”Relativistic GAN” という、GeneratorとDiscriminatorの関係を相対的にしたものも試しました。
こちらは学習が安定していました。
Least Square GAN (LSGAN)を取り入れた “Relativistic LSGAN” はとても安定的に学習が出来て良かったです。
元のSRGANでは学習は2段階で行われます。
第1段階ではGenerator(生成器)のみをMSE Lossを用いて学習させます。
MSEはMean Square Error(誤差二乗平均)です。
その後、第2段階でDiscriminator(識別器)と競わせるようにしていました。
第2段階ではDiscriminatorによるGAN Loss、MSE Loss、それとVGG Lossが用いられました。
VGG Lossは昔のVGG16またはVGG19のネットワークの学習済みモデルを特徴抽出器として利用して算出した、特徴空間でのlossであり、知覚的損失(perceptual loss)と呼ばれます。
MSE Loss及びVGG Lossは学習の収束を速くするのに貢献します。
[SRNet-Rの特徴]
[1: Residual of Residual Network]
SRGANと同じく、多段のResidual Unitを用いた残差学習を行います。
只のDCNNでは、学習が進むと入出力に於ける変換精度向上により、入力層から出力層へ向かって情報が伝播する際に出力側の層は入力と出力の差が小さくなって行きます。
その上、小さな値が層毎に繰り返し乗算され、指数関数的に小さな値となる為、微分が困難になり、勾配消失が起こります。
Residual Networkでは入力画像から出力画像への写像を学習させるのではなく、入力と求める出力との残差を学習させます。
すると、各Residual Unitの出力に入力を足し合わせればよい事になり、値が小さくなってしまう事を防ぐ事が出来ます。
このResidual構造を入れ子状にしたのがResidual of Residual Networkで、32段から64段以上の深いネットワークでもかなり速く学習が進みます。
SRNet-RではこのResidual of Residual Network構造を採用しております。
[2: Autoencoderの利用]
私はこの度、GANによる学習ではなく、 “Convolutional Autoencoder” のencoder出力のMAE (Mean Absolute Error / 誤差絶対平均)を特徴空間のlossとして評価させる事に致しました。
Convolutional Autoencoderはencoder部で入力画像にconvolutionを施しつつ画像サイズやチャンネル数を削減して行き、decoder部では逆に徐々に元に戻して行き、入力画像と同等のものを復元させるもの(恒等写像)です。
これは途中の層で情報を絞らせる(次元削減という)事で、巧く特徴を抽出するように学習させるのです。
Autoencoderはノイズ除去に使用されたりする他、特徴抽出器として使用されます。
これを超解像用のResidual Networkと同時に独立に学習させ、そのencoder出力を利用して特徴空間上の品質を高める事を考えました。
結果としては上出来で、学習はとても速く、メモリーの使用量は極少なく、高品質な結果となりました。
[3: Swish活性化関数]
活性化関数にはReLU (Rectified Linear Unit | ramp function)ではなく、Swish関数を用いております。
ReLU(x) = max(0, x)
Swish(x) = x * Sigmoid(a * x)
Sigmoid(x) = 1 / (1 + e^(-a * x))
TensorFlowでは tf.nn.swish(x) が使えます。
Swish関数及びその導関数は、ReLUと異なり、原点に於いて連続で、非単調性の関数です。
また、Swish関数はReLUと異なり、負の値も出力されます。
Sigmoid関数はLogistic関数の特殊な場合です。
他の方の実験結果を見ると、LeakyReLUやELUなどと比べ、Swish関数の方が平均的に良い結果をもたらしているように見受けられます。
Swishは連続な関数ですので、関数の近似結果が滑らかになります。
ReLUでは負の値が無駄になってしまうところ、Swishでは負の値が有効に次の層に伝わります。
Swishは負の絶対値が大きな領域は0に漸近しますので発散し難く、かつ勾配消失し難いです。
[4: Group Normalization]
SRGANではBatch Normalization層が使われていましたが、Batch Normalizationはミニバッチ単位で平均と標準偏差を取るので、ミニバッチ サイズが32未満など小さい場合には正規化が巧く作用しないという弱点があります。
結果として、出力画像に白色の靄のようなアーティファクトが出現してしまうという問題がありました。
これを避ける為、Group Normalization層を使用致しました。
Group Normalizationでは、ミニバッチ単位ではなく、チャンネルを幾つかのグループに分割し、チャンネルのグループ毎に正規化します。
これにより、ミニバッチ数が少なくても正規化が効きます。
また、各チャンネル間の関連性も保たれます。
因みに全チャンネルに跨って正規化するLayer Normalizationの場合は、余り役立たないにも関わらず大きな値を示すチャンネルがあった際に、他の全てのチャンネルの値を圧縮されてしまいます。
性能としては、ミニバッチ サイズが大きい場合のBNには敵いませんが、ミニバッチ サイズが小さい場合には優れているようです。
参照:
“ニューラルネットの新しい正規化手法 Group Normalization の高速な実装と学習実験” | “ALBERT Official Blog”: https://blog.albert2005.co.jp/2018/09/05/group_normalization/
[5: 画像の読み込み]
学習させる画像群について、指定したディレクトリー以下にあるサブディレクトリーまで再帰的に検索して読み込むようにしました。
画像はepoch毎にランダムにシャッフルされ、ランダムな位置でクロップされます。
全画像ファイル数がミニバッチの数で割り切れない場合には、不足分は既存の学習用画像の中からランダムに再度読み込まれます。
また、学習中にも画像を次々に追加出来るようにしました。
指定したディレクトリー以下に、画像ファイルもしくは画像ファイルが入ったフォルダーを放り込むだけで、次のepoch開始時に読み込まれます。
[更なる画質向上について]
JPEGなどの圧縮ノイズ低減の学習は行わせていません。
もし圧縮ノイズなどの画質劣化を除去させたい場合は、OpenCVを追加し、 “main.py” を編集して、学習用画像を縮小する際にランダムにJPEG圧縮させるコードを追加してみて下さい。
以下はJPEG圧縮するコードの例です。
encode_parameters = [int(cv2.IMWRITE_JPEG_QUALITY), quality]
result, encoded_image = cv2.imencode('.jpg', image, encode_parameters)
“quality” には圧縮の品質を1から100で入力します。数値が高いほど低圧縮、高品質、数値が低いほど高圧縮、低品質です。
“result” は成功の真偽値です。
これにより圧縮前後の対応関係を学習出来るようになる筈です。
加えて、ガウス暈しもランダムで加えると、シャープネスを上げる事も出来るでしょう。
[プログラムの実行について]
このプログラムで学習を実行するには6GB以上のメモリーが必要です。
CPUまたはNVIDIAのGPUによるCUDAで実行出来ます。
低性能なCPUで実行する場合、充分な学習には1週間以上の時間が掛かります。
私は途中までローカル PCのCPU処理を行って実験していましたが、それでは時間が掛り過ぎたので、AWSのEC2の ” p2.xlarge ” GPU インスタンスを利用させて頂きました。
p2.xlargeは1つのNVIDIA K80 GPU、4つのvCPU、61GiBのメモリーです。
画像枚数が8,000枚ほどの場合、このGPU インスタンスで処理を始めてから24時間以内に学習が収束しました。
約20倍高速であり、20日間掛かる処理が1日で終わりました。
初めての際は設定などで手間取りましたが、利用料金は数千円程度です。
因みに私のローカル PCの環境ではヴィデオ カードのVRAMの容量が足りないのでCPUだけで学習させます。
TensorFlowのバイナリーはSSE4.1, SSE4.2, AVXが利用できないので、TensorFlowをCPU拡張命令のSSE4.1, SSE4.2, AVXを使用するオプション付きでビルドしました。
“-march=native” の “–config=opt” なので自動的に拡張命令対応となります。
私のローカル PCの実行環境は、以下の通りです。
・CPU: Intel Core i7-3770T
・Memory: DDR3 SDRAM 8GB * 4 = 32[GB]
・Video Card: Palit GeForce GTX 750 KalmX (Fanless)
・HDD: 3[TB], 7200[rpm], Cache 64[MB]
・OS: Ubuntu 16.04 LTS
・CUDA 9.0.176
・Python 3.5
・OpenJDK 1.8.0_191
・Bazel 0.18.0
・TensorFlow 1.12.0-rc0 (build from source)
・TensorLayer 1.11.1
・easydict
・tkinter
コメント