WebMarker
Vision言語モデルで使用するWebページをマークします
特集
8 投票




説明
WebMarkerは、Webページ上の要素にラベルを備えた視覚マーキングを追加します。これは、GPT-4o、Claude 3.5、Google Gemini 1.5などの視覚言語モデルの視覚的な接地能力を向上させるため、マークのセットプロンプトに使用できます。
WebMarkerは、Webページ上の要素にラベルを備えた視覚マーキングを追加します。これは、GPT-4o、Claude 3.5、Google Gemini 1.5などの視覚言語モデルの視覚的な接地能力を向上させるため、マークのセットプロンプトに使用できます。