Omniparser v2
Biến bất kỳ LLM nào thành một tác nhân sử dụng máy tính
Nổi Bật
315 Bình Chọn
Thịnh Hành
130 Lượt Xem


Mô Tả
Omniparser ‘token hóa ảnh chụp màn hình UI từ các không gian pixel thành các phần tử có cấu trúc trong ảnh chụp màn hình có thể diễn giải bởi các LLM.Điều này cho phép các LLM thực hiện dự đoán hành động tiếp theo dựa trên truy xuất được đưa ra một tập hợp các yếu tố tương tác phân tích cú pháp.