私はAIの機械学習が好きなので、仕事でも趣味でも色々と試行錯誤をしている訳ですが、2024年5月26日日曜、前日の晩からChatGPT with GPT-4oと対話しながら新たな人工知能の機械学習の仕組みを創ろうと試みていたところ、遂に、従来の誤差逆伝播法に依らない仕組みで「倒立振り子」を学習させる事に成功しました。
この仕組みであれば、人間の脳のように現実世界に放り込むだけで、人間のように柔軟な能力を持つ人工知能を創り上げる事が出来るかもしれません。
もしそうなれば、大量のデータセットは不要です。
細かい仕組み作りも複雑なネットワーク アーキテクチャの設計も不要です。
全ては「創発」されます。
報酬信号を与えるだけで様々な機能が自発的に生まれて来るのです。
2024年5月28日午前2時頃に画面キャプチャーした2倍速の動画を載せました。
初めから斑模様のヒートマップはネットワークの或る全結合層のニューロンのリアルタイムの重みを表しています。
対になっている方のヒートマップは秘密です。
ニューロン(神経細胞)のシナプスが活発に蠢いていますね。
倒立を学習するまでに要する時間は毎回異なりますが、多くの場合で振り子の倒立の学習に成功するようになりました。
2024年5月28日夜に追加した動画です。
「報酬値の入力に反応してフィードバック出力しているだけなのではないか」という疑問が湧いたので、充分に倒立振り子のバランスを取れるようになった後で、報酬値によるシナプス結合重みパラメーターの更新を停止させてみました。
すると、どうやらバランスの取り方をしっかりと学習出来ていたようで、その後も振り子の倒立を続ける事が出来ました。
詰まり、私が実験した独自の強化学習手法は報酬値と状態値のみから正しく目的の応答を学習する事が出来ると証明されたのです。
尚、これは画期的な技術である可能性も有るので、詳しい仕組みは秘密です。
もし更に巧く行ったら有名なAI系企業にでもコンタクトを取ろうかな。
実際には既知の技術だったという可能性も有りますが。
コメント