Omniparser v2
Biến bất kỳ LLM nào thành một tác nhân sử dụng máy tính
Đặc trưng
315 Phiếu bầu


Sự miêu tả
Omniparser ‘token hóa ảnh chụp màn hình UI từ các không gian pixel thành các phần tử có cấu trúc trong ảnh chụp màn hình có thể diễn giải bởi các LLM.Điều này cho phép các LLM thực hiện dự đoán hành động tiếp theo dựa trên truy xuất được đưa ra một tập hợp các yếu tố tương tác phân tích cú pháp.