機械学習の一種である強化学習の実験を行う上での個人的に重要なキーワードを覚え書きとして列挙してみる。
・マルコフ決定過程 (Markov Decision Process / MDP)
・部分観測マルコフ決定過程 (Partially Observable Markov Decision Process / POMDP)
・RNN (Recurrent Neural Network)
・シナプス可塑性
・Hebbian theory (ヘッブ則)
・ヒステリシス
・E-LTP (Early Long Term Potentiation / 初期長期増強)
・L-LTP (Late Long Term Potentiation / 後期長期増強)
・LTD (Long Term Depression / 長期抑制)
・刈り込み
・遅延報酬
・割引報酬和
・報酬予測
・外部報酬
・内部報酬
・ドーパミン
・TD学習 (Temporal Difference Learning / 時間的差分学習)
・Actor-Critic法
・好奇心
・EMA (Exponential Moving Average / 指数移動平均)
・ランダム ノイズ
・パラメーター ノイズ
・信号強度
・信号頻度
・サンプリング
・集団コーディング
・位置コーディング
・位相コーディング
・発火
・パルス密度
・パターン学習
・フィードバック ループ
・軸索
・樹状突起
・スパイン
・ミエリン鞘
・位相
・同期
・発振
・神経振動
・脳波
・心臓の鼓動
・脈拍
・呼吸
・自己組織化
・ベイズ最適化
・周辺抑制
・重み行列
・スパース モデリング
・勾配蓄積
・誤差逆伝播法 (Backpropagation / BP)
・BPTT (Backpropagation Through Time / 時間経過誤差逆伝播法)
・計算グラフ
・勾配爆発
・勾配蓄積
・残差接続
・LSTM
・GRU
・Transformer
・創発
しかし強化学習の為の、真に優れた統一的かつ簡潔な仕組み作りは本当に難しいですね。
特定の課題に対してそれらしく振る舞う擬似的な仕組みならどうにか作れますが。
私の場合、ANN(Artificial Neural Network)の内、FC構造のRNNを誤差逆伝播法を用いずに、外部報酬と内部報酬、それに各ノード間を伝播する信号強度とその頻度に基づいて、ヒステリシス特性によってシナプス可塑性を再現してLTPとLTDによりノード間結合重みを強化または減弱し、しかも都度調整されるノイズの付加によって探索を促しながらネットワークのパラメーターを適切にアップデートしたいのです。
しかし実世界のような複雑な環境中で複雑な課題を処理する為には、時間的な順序構造を学習、理解した上で報酬系がそれを報酬予測とその誤差のフィードバックの為に活用する必要が有り、その為には周期的かつ短期から長期までの内部信号と内部状態を巧く統合してパターンとして記憶、処理する仕組みが必要となりそうですが、これはまだ成功していません。
ドーパミンは脳内で部位に応じて局所的に作用させられるので、探索と活用のジレンマのような反対の目的を持つ回路をそれぞれ調整する事も出来そうです。
これを模倣するならば、内部報酬系回路とそれ以外の回路は別々に更新するべきかもしれませんね。
コメント