WebSocketを使用するAI音声チャットインフラストラクチャ。統一された音声コーデックなしでは、300ms(GPT-4Oが行うこと)という低い音声から声へのレイテンシを実現できます。すべてが単一のハイエンド消費者GPUで実行されます。