Omniparser v2
LLM을 컴퓨터 사용 에이전트로 전환하십시오
추천
315 투표
트렌딩
126 조회수


설명
Omniparser는 LLM에 의해 해석 될 수있는 스크린 샷의 픽셀 공간에서 스크린 샷을 '토큰 화'UI 스크린 샷을 구조화 된 요소로 구조화합니다.이를 통해 LLMS는 구문 분석 가능한 상호 작용 가능한 요소 세트가 주어진 차세대 조치 예측을 기반으로 검색 할 수 있습니다.
Omniparser는 LLM에 의해 해석 될 수있는 스크린 샷의 픽셀 공간에서 스크린 샷을 '토큰 화'UI 스크린 샷을 구조화 된 요소로 구조화합니다.이를 통해 LLMS는 구문 분석 가능한 상호 작용 가능한 요소 세트가 주어진 차세대 조치 예측을 기반으로 검색 할 수 있습니다.