Omniparser v2
Transformez n'importe quel LLM en un agent d'utilisation d'ordinateur
En vedette
315 Votes


Description
Les captures d'écran de l'interface utilisateur «tokenize» omniparser des espaces de pixels dans des éléments structurés dans la capture d'écran qui sont interprétables par LLMS.Cela permet aux LLM de faire la prédiction d'action suivante basée sur la récupération étant donné un ensemble d'éléments interactables analysés.