Omniparser V2
任意のLLMをコンピューター使用エージェントに変えます
注目
315 投票
トレンド
130 ビュー


説明
Omniparserは、LLMSが解釈できるスクリーンショットのピクセルスペースからUIスクリーンショットを「トークン化」します。これにより、LLMSは、解析された相互作用可能な要素のセットを考慮して、次のアクション予測に基づいて検索することができます。
Omniparserは、LLMSが解釈できるスクリーンショットのピクセルスペースからUIスクリーンショットを「トークン化」します。これにより、LLMSは、解析された相互作用可能な要素のセットを考慮して、次のアクション予測に基づいて検索することができます。