Furet
Se référer et fonder n'importe quoi n'importe où à n'importe quelle granularité
En vedette
145 Votes



Description
Un nouveau type de modèle multimodal de grand langage (MLLM) d'Apple qui excelle à la fois dans la compréhension de l'image et le traitement du langage, démontrant en particulier les avantages significatifs dans la compréhension des références spatiales.