Chia sẻ bởi Nate Herk
Trong thời đại công nghệ phát triển như hiện nay, việc tự động hóa các tác vụ trên web không còn là điều xa vời. Tôi đã từng mất hàng giờ để tìm kiếm thông tin, thu thập dữ liệu hay thực hiện các thao tác lặp đi lặp lại trên trình duyệt. Nhưng giờ đây, với sự kết hợp giữa n8n và Airtop, tôi đã xây dựng được một AI agent có khả năng điều khiển trình duyệt tự động, thực hiện các tác vụ như một con người thực thụ chỉ bằng ngôn ngữ tự nhiên. Trong bài viết này, tôi sẽ chia sẻ kinh nghiệm của mình về cách tạo ra một công cụ mạnh mẽ như vậy mà không cần viết code, cùng với những mẹo thực tế dựa trên chính workflow này để bạn có thể áp dụng ngay.
Tại sao nên sử dụng AI agent cho tự động hóa trình duyệt?
Thay vì phải tự tay thực hiện các thao tác như tìm kiếm thông tin, kiểm tra giá sản phẩm hay thu thập dữ liệu từ các trang web, một AI agent có thể làm tất cả những việc đó một cách nhanh chóng và chính xác. Điều đặc biệt là với Airtop, agent có thể hoạt động như một người dùng thực sự: di chuyển, nhấp chuột và nhập liệu.
Hơn nữa, khi kết hợp với n8n – một nền tảng tự động hóa mạnh mẽ – bạn có thể dễ dàng thiết kế các luồng công việc (workflow) để agent thực hiện các nhiệm vụ phức tạp mà không cần phải là một lập trình viên. Workflow "Ultimate Browser Agent" chính là giải pháp mà tôi đã xây dựng và đạt được kết quả đáng kinh ngạc.
Bắt đầu với Ultimate Browser Agent: Hướng dẫn cài đặt
Để xây dựng một AI agent điều khiển trình duyệt tự động dựa trên workflow này, bạn cần chuẩn bị một số công cụ và tài nguyên. Dưới đây là các bước cài đặt chi tiết được tích hợp ngay trong workflow.
- Airtop Setup: Truy cập Airtop để tạo API key và kết nối với các node Airtop trong n8n. Nếu bạn cần tự động hóa các trang web yêu cầu thông tin xác thực, hãy thiết lập một profile trong Airtop. Đặc biệt, bạn có thể sử dụng mã
NateHalfOff
để được giảm giá 50% trong 3 tháng. - OpenRouter API Key: Workflow này sử dụng mô hình ngôn ngữ
anthropic/claude-3.5-sonnet
. Bạn cần truy cập OpenRouter, tạo API key và dán nó vào node 3.5 Sonnet (Chat Model) trong n8n. - Start Browser Tool Setup: Công cụ Start Browser trong workflow này thực chất là một sub-workflow khác. Bạn cần liên kết nó bằng cách sử dụng ID của workflow khởi động trình duyệt.
- (Tùy chọn) Live Agent Browser View: Bạn có thể kết nối với các dịch vụ như Slack, Telegram, hoặc Gmail. Workflow đã được thiết lập sẵn để gửi một link xem trực tiếp phiên trình duyệt của agent qua Slack, giúp bạn dễ dàng theo dõi quá trình tự động hóa.
Xây dựng AI agent điều khiển trình duyệt: Phân tích Workflow
Sau khi chuẩn bị xong các công cụ, hãy cùng phân tích sâu hơn về cách agent này được xây dựng trong n8n.
Có thể download workflow ở đây: https://romhub.io/n8n/Ultimate_Browser_Agent
1. Thiết lập "Bộ não" của Agent trong n8n
Trọng tâm của workflow là node Browser Agent, được thiết lập với một system prompt rất rõ ràng để định nghĩa vai trò và quy tắc hoạt động của nó: “Bạn là một agent web thông minh, có khả năng điều khiển trình duyệt từ xa để thực hiện các yêu cầu của người dùng.”
Agent được cung cấp một loạt các công cụ chuyên dụng để tương tác với trình duyệt:
- Start_Browser: Luôn là công cụ đầu tiên được sử dụng để khởi động một phiên trình duyệt mới. Nó trả về
sessionId
vàwindowId
bắt buộc cho tất cả các công cụ khác. - Load URL: Mở một trang web cụ thể trong trình duyệt.
- Type: Nhập văn bản vào các trường như ô tìm kiếm và tự động nhấn Enter sau khi nhập.
- Click: Nhấp vào các phần tử như nút hoặc liên kết trên trang.
- Query: Vì agent không "nhìn" thấy màn hình, nó sử dụng công cụ này để quét nội dung trang web và lấy thông tin cần thiết để quyết định bước tiếp theo.
- Think: Một công cụ quan trọng để agent "suy nghĩ" từng bước, phân tích tình hình và lên kế hoạch hành động tiếp theo.
- End Session: Một quy tắc bắt buộc: agent phải luôn sử dụng công cụ này để kết thúc phiên trình duyệt sau khi hoàn thành nhiệm vụ và trước khi phản hồi lại cho người dùng.
2. Kết nối với Airtop và các công cụ khác
Các công cụ của agent (ngoại trừ Think và Start Browser) đều được kết nối với Airtop để thực hiện các hành động trên trình duyệt từ xa. Một điểm đáng chú ý là công cụ Click trong workflow này không sử dụng node Airtop mặc định mà dùng một node HTTP Request Tool. Cách tiếp cận này giúp tăng tính ổn định và tránh các lỗi timeout thường gặp khi trang web tải chậm.
Một điểm quan trọng được nêu rõ trong system prompt là: "Bạn sẽ KHÔNG BAO GIỜ cần đăng nhập". Điều này có nghĩa là agent được thiết kế để hoạt động trên các trang web công khai và không xử lý các quy trình đăng nhập phức tạp.
3. Thử nghiệm agent với các tác vụ thực tế
Để kiểm tra khả năng của agent, tôi đã giao cho nó một số nhiệm vụ cụ thể. Dưới đây là một vài ví dụ về cách agent hoạt động dựa trên thiết kế của workflow:
- Tìm ưu đãi laptop trên Best Buy: Tôi yêu cầu agent tìm các ưu đãi laptop tốt nhất. Agent tự động khởi động trình duyệt bằng
Start_Browser
, dùngLoad URL
để truy cập trang Best Buy, sử dụngType
để nhập "laptop deals" vào ô tìm kiếm, sau đó dùngQuery
vàClick
để điều hướng qua các trang kết quả và trích xuất thông tin về sản phẩm. - Tìm sản phẩm trên Google: Với một yêu cầu đơn giản như tìm “Yeti water bottle”, agent đã mở Google, thực hiện tìm kiếm và dùng
Query
để tổng hợp kết quả về kích thước, giá cả và nơi bán.
Những thử nghiệm này cho thấy agent có thể xử lý các tác vụ công khai một cách mượt mà và hiệu quả.
Tối ưu hóa và khắc phục sự cố
Trong quá trình xây dựng và thử nghiệm, có một vài điểm quan trọng cần lưu ý để đảm bảo agent hoạt động ổn định:
1. Đảm bảo kết thúc phiên trình duyệt
Đây là một quy tắc bắt buộc. System prompt yêu cầu agent phải luôn gọi công cụ End Session trước khi trả lời người dùng. Nếu không, các phiên sẽ tích lũy và chiếm dụng tài nguyên, có thể khiến bạn hết giới hạn phiên chạy đồng thời trên Airtop.
2. Tùy chỉnh Prompt để phù hợp với nhu cầu
Mặc dù workflow này đã rất mạnh mẽ, bạn hoàn toàn có thể tùy chỉnh system prompt trong node Browser Agent để agent xử lý các tác vụ phức tạp hơn hoặc chuyên biệt hơn theo yêu cầu của bạn.
Kết luận
Việc xây dựng một AI agent điều khiển trình duyệt tự động với workflow "Ultimate Browser Agent" này đã mở ra một thế giới mới về tự động hóa. Không chỉ tiết kiệm thời gian, công cụ này còn giúp tôi xử lý các tác vụ phức tạp trên web một cách dễ dàng mà không cần viết code. Từ việc tìm kiếm thông tin, thu thập dữ liệu đến theo dõi giá cả, agent này đã trở thành một trợ lý đắc lực.
Hy vọng rằng những chia sẻ từ workflow thực tế của tôi sẽ giúp bạn bắt đầu hành trình tự động hóa của riêng mình. Hãy thử thiết lập agent này, tùy chỉnh nó theo nhu cầu của bạn và khám phá tiềm năng mà công nghệ này mang lại. Nếu bạn có bất kỳ câu hỏi hay ý tưởng nào, đừng ngần ngại trao đổi thêm!