LLMSに人間のように学び、覚えていることを教える記憶力のある強化学習フレームワーク。エピソードメモリ、ワーキングメモリ、6つのRLアルゴリズムを備えた、スマートな言語モデルをトレーニングするためのスイスアーミーナイフです。