AI agent tự động chọn model AI: Tiết kiệm chi phí gấp 10 lần với n8n & OpenRouter

Question

Bài viết được chuyển thể từ nội dung của video This AI Agent Picks Its Own Brain (10x Cheaper, n8n) của Nate Herk

Bạn đã bao giờ tự hỏi nên chọn mô hình AI (LLM) nào cho các agent tự động của mình chưa? Bạn có mệt mỏi vì lãng phí tiền bạc vào các mô hình AI đắt đỏ chỉ để xử lý những tác vụ đơn giản không? Nếu câu trả lời là có, bài viết này chính là dành cho bạn.

Hôm nay, chúng ta sẽ khám phá một hệ thống độc đáo nơi AI agent có khả năng "tự chọn bộ não" - tức là tự động lựa chọn mô hình ngôn ngữ lớn (LLM) phù hợp nhất dựa trên yêu cầu cụ thể của người dùng. Hệ thống này không chỉ giúp bạn tiết kiệm đáng kể chi phí mà còn tăng cường hiệu suất hoạt động của agent. Quan trọng hơn, bạn hoàn toàn có thể theo dõi mô hình nào được chọn cho từng loại yêu cầu và kết quả ra sao, từ đó dễ dàng tối ưu hóa quy trình theo thời gian.

Tại sao cần AI Agent tự động chọn mô hình?

Trong thế giới AI đang phát triển vũ bão, có vô số mô hình ngôn ngữ lớn với những điểm mạnh và chi phí khác nhau. Việc sử dụng một mô hình AI cực mạnh cho mọi tác vụ, từ việc trả lời câu hỏi đơn giản đến phân tích dữ liệu phức tạp, rõ ràng là không hiệu quả về mặt chi phí.

Vấn đề thường gặp:

Lãng phí chi phí: Trả tiền cho sức mạnh tính toán không cần thiết khi thực hiện các tác vụ đơn giản.
Hiệu suất không tối ưu: Một số mô hình nhẹ hơn lại nhanh hơn và đủ tốt cho các yêu cầu cơ bản.
Khó quản lý: Việc chọn thủ công mô hình cho từng loại yêu cầu trở nên phức tạp khi hệ thống mở rộng.

Giải pháp:

Xây dựng một hệ thống AI agent tự động chọn mô hình (Dynamic Model Selection Agent). Hệ thống này bao gồm ít nhất hai agent:

Agent Chọn Lọc (Model Selector Agent): Sử dụng một mô hình AI nhẹ, nhanh và rẻ (như google/gemini-2.0-flash-001 trong ví dụ workflow) để phân tích yêu cầu đầu vào và quyết định mô hình nào (trong danh sách được định sẵn) là phù hợp nhất.
Agent Thực Thi (Execution Agent/Smarty Pants/RAG Agent): Sử dụng mô hình AI đã được Agent Chọn Lọc chỉ định để thực hiện tác vụ chính (trả lời câu hỏi, thực hiện hành động, sử dụng công cụ...).

Lợi ích của giải pháp này:

Tiết kiệm chi phí đáng kể: Chỉ sử dụng các mô hình đắt tiền khi thực sự cần thiết. Video gốc đề cập đến khả năng tiết kiệm lên đến 10 lần!
Tối ưu hóa hiệu suất: Chọn mô hình nhanh hơn cho các tác vụ đơn giản và mô hình mạnh hơn cho các tác vụ phức tạp.
Linh hoạt và dễ mở rộng: Dễ dàng thêm hoặc thay đổi danh sách các mô hình AI có sẵn khi có các mô hình mới tốt hơn ra đời.
Minh bạch: Có thể theo dõi chính xác mô hình nào được sử dụng cho từng yêu cầu, giúp việc đánh giá và tối ưu trở nên dễ dàng (ví dụ: thông qua node Log Output trong workflow).

Demo thực tế: AI Agent tự động chọn mô hình hoạt động như thế nào?

Hãy xem cách hệ thống này hoạt động trong thực tế thông qua nền tảng tự động hóa n8n và giao diện chat Slack.

Kịch bản 1: Yêu cầu đơn giản

Khi bạn yêu cầu một việc đơn giản như "Kể cho tôi một câu chuyện cười", hệ thống sẽ hoạt động như sau (dựa trên logic của workflow):

Yêu cầu được gửi từ Slack đến n8n (qua Slack Trigger).
Agent Chọn Lọc (dùng google/gemini-2.0-flash-001) phân tích yêu cầu và thấy đây là tác vụ trò chuyện đơn giản. Nó quyết định chọn chính mô hình google/gemini-2.0-flash-001 vì phù hợp nhất.
Agent Thực Thi (node "Smarty Pants") nhận chỉ định sử dụng google/gemini-2.0-flash-001 (qua node "Dynamic Brain") và tạo ra câu trả lời (câu chuyện cười).
Kết quả được gửi lại Slack và ghi lại vào log (ví dụ: Google Sheets) cùng với thông tin mô hình đã chọn (google/gemini-2.0-flash-001).

Kết quả: Bạn nhận được câu trả lời nhanh chóng mà không tốn kém chi phí đáng kể.

Kịch bản 2: Tác vụ trung bình (Sử dụng công cụ)

Yêu cầu: "Tạo một sự kiện lịch vào 1 giờ chiều hôm nay cho bữa trưa."

Yêu cầu được gửi từ Slack.
Agent Chọn Lọc phân tích và nhận thấy cần khả năng hiểu ngày giờ và tương tác với lịch. Nó có thể chọn một mô hình tầm trung, hỗ trợ tốt việc gọi công cụ (ví dụ: openai/gpt-4.1-mini theo mô tả trong prompt).
Agent Thực Thi ("Smarty Pants" dùng openai/gpt-4.1-mini) hiểu yêu cầu, sử dụng công cụ Google Calendar (node "Create Event") tích hợp để tạo sự kiện.
Xác nhận được gửi lại Slack và thông tin được ghi vào log (Model: openai/gpt-4.1-mini, Tool: Create Event).

Kết quả: Công việc được hoàn thành chính xác với chi phí hợp lý.

Kịch bản 3: Tác vụ phức tạp (Nghiên cứu và Viết)

Yêu cầu: "Nghiên cứu về các AI agent giọng nói và viết một bài blog."

Yêu cầu được gửi từ Slack.
Agent Chọn Lọc nhận diện đây là một tác vụ phức tạp, đòi hỏi khả năng nghiên cứu web, tổng hợp thông tin và viết nội dung dài, chất lượng cao. Nó quyết định chọn một mô hình mạnh mẽ về viết lách (ví dụ: anthropic/claude-3.7-sonnet theo mô tả trong prompt).
Agent Thực Thi ("Smarty Pants" dùng anthropic/claude-3.7-sonnet):
- Sử dụng công cụ tìm kiếm web (node "Tavily") để thu thập thông tin.
- Tổng hợp thông tin và viết một bài blog chi tiết.
Bài blog được gửi lại Slack và log ghi nhận (Model: anthropic/claude-3.7-sonnet, Tool: Tavily).

Kết quả: Bạn nhận được một bài blog chất lượng cao, được nghiên cứu kỹ lưỡng, xứng đáng với chi phí của mô hình mạnh.

Kịch bản 4: Tác vụ suy luận

Yêu cầu: Giải một câu đố logic phức tạp.

Yêu cầu được gửi.
Agent Chọn Lọc nhận ra yêu cầu đòi hỏi khả năng suy luận logic mạnh mẽ. Nó chọn một mô hình được tối ưu cho việc suy luận (ví dụ: openai/o1 theo mô tả trong prompt).
Agent Thực Thi ("Smarty Pants" dùng openai/o1) phân tích câu đố và đưa ra lời giải chính xác.
Câu trả lời được gửi lại và log ghi nhận mô hình openai/o1 đã được sử dụng.

Kết quả: Các tác vụ đòi hỏi tư duy phức tạp được xử lý hiệu quả bởi mô hình phù hợp nhất.

Qua các ví dụ trên, bạn có thể thấy hệ thống AI agent tự động chọn mô hình hoạt động rất linh hoạt, đảm bảo sử dụng tài nguyên AI một cách thông minh và tiết kiệm nhất.

Hướng dẫn chi tiết cách xây dựng AI Agent Tự Động Chọn Mô Hình với n8n

Giờ hãy cùng đi vào chi tiết kỹ thuật để xây dựng hệ thống này bằng n8n, dựa trên workflow Dynamic_Models.json được chia sẻ trong video.

Công cụ cần thiết:

n8n: Nền tảng tự động hóa mã nguồn mở hoặc cloud.
Giao diện người dùng: Slack (được dùng trong workflow làm trigger và gửi phản hồi).
OpenRouter: Dịch vụ định tuyến AI model. Bạn cần đăng ký tài khoản và lấy API key.
(Tùy chọn) Google Sheets: Để ghi log theo dõi (được dùng trong node "Log Output").
(Tùy chọn) Công cụ AI: Tavily (tìm kiếm web), Airtable (tìm kiếm liên hệ), Google Calendar (tạo sự kiện), Gmail (tạo thư nháp) - các công cụ này đều có trong workflow.

Luồng hoạt động (Workflow) chính trong n8n (phần Slack):

Trigger (Slack Trigger): Nhận tin nhắn mới từ kênh Slack được chỉ định khi bot được đề cập (@mention).

Node 1: Model Selector Agent ("Model Selector")

Model: Sử dụng mô hình google/gemini-2.0-flash-001 qua OpenRouter (node "Gemini 2.0 Flash").
Input: Lấy nội dung tin nhắn từ Slack Trigger (={{ $json.blocks[0].elements[0].elements[1].text }}).

System Prompt: Đây là phần quan trọng nhất, hướng dẫn AI cách chọn model:

## Overview
You are an AI agent responsible for selecting the most suitable large language model to handle a given user request. Choose only one model from the list below based strictly on each model’s strengths.

## Instructions
Analyze the user’s request and return the exact model name that best fits the task. Your response must contain only the model name. No explanations, no formatting, no extra text.

## Available Models and Strengths
- `google/gemini-2.0-flash-001`: best for fast, lightweight, conversational tasks or simple general-purpose queries
- `openai/gpt-4.1-mini`: best for tool calling creating calendar events or getting contact information
- `anthropic/claude-3.7-sonnet`: best for writing high-quality content, research summaries, or tasks requiring clear, professional language
- `openai/o1`: best for deep logical reasoning and coding in a conversational way

### Output Format:
Return only one of the following strings:
- google/gemini-2.0-flash-001
- openai/gpt-4.1-mini
- anthropic/claude-3.7-sonnet
- openai/o1

Output: Node này sẽ trả về tên của model được chọn (ví dụ: anthropic/claude-3.7-sonnet).
- Lưu ý xử lý: Workflow sử dụng hàm .trimEnd() trong expression ở node "Dynamic Brain" để loại bỏ ký tự thừa có thể có ở cuối output của model selector. Ví dụ: {{ $('Model Selector').item.json.output.trimEnd() }}.

Node 2: Main Execution Agent ("Smarty Pants")
- Input: Lấy nội dung tin nhắn gốc từ Slack Trigger ({{ $('Slack Trigger').item.json.blocks[0].elements[0].elements[1].text }}).
- System Prompt: Cung cấp thông tin ngữ cảnh cơ bản.
```
Here is the current date/time: {{ $now }}
```
- Model (Dynamic Brain): Sử dụng expression để lấy output từ node "Model Selector", đã qua xử lý .trimEnd():
```
{{ $('Model Selector').item.json.output.trimEnd() }}
```
  Node này được cấp nguồn bởi node "Dynamic Brain" sử dụng API OpenRouter.
- Tools: Kết nối các tool cần thiết: "Create Draft" (Gmail), "Contacts" (Airtable), "Create Event" (Google Calendar), "Tavily" (Web Search). Agent sẽ tự động quyết định khi nào cần dùng tool.
- Output: Kết quả xử lý cuối cùng của agent.
Node 3: Log Output ("Log Output")
- Thêm một hàng mới vào Google Sheet được chỉ định.
- Các cột bao gồm Timestamp, Input, Output, và Model (lấy từ output của "Model Selector").
Node 4: Send Response (Slack Node)
- Gửi output từ node "Smarty Pants" trở lại kênh Slack gốc.

Vậy là bạn đã có một workflow n8n hoàn chỉnh cho AI agent tự động chọn mô hình dựa trên ví dụ trong Dynamic_Models.json!

OpenRouter - Trung tâm điều phối mô hình AI linh hoạt

OpenRouter đóng vai trò cực kỳ quan trọng trong hệ thống này, như đã thấy trong workflow. Nó hoạt động như một "bộ định tuyến" (router) cho các mô hình AI.

Lợi ích khi sử dụng OpenRouter:

Truy cập đa dạng: Cung cấp quyền truy cập vào nhiều mô hình AI từ các nhà cung cấp khác nhau thông qua một API key duy nhất.
Định tuyến linh hoạt: Cho phép bạn chọn chính xác mô hình muốn sử dụng cho mỗi yêu cầu API, như cách node "Dynamic Brain" nhận model ID từ node "Model Selector".
Theo dõi chi phí tập trung: Cung cấp dashboard để theo dõi chi tiết lượng token sử dụng và chi phí.
Mô hình auto: OpenRouter cũng cung cấp một tùy chọn openrouter/auto. Tuy nhiên, phương pháp tự xây dựng Agent Chọn Lọc như trong workflow cho phép kiểm soát tốt hơn và tối ưu chi phí/chất lượng hiệu quả hơn.

Mở rộng ứng dụng: AI Agent Tự Động Chọn Mô Hình cho RAG

Workflow Dynamic_Models.json cũng bao gồm một luồng RAG (Retrieval-Augmented Generation) riêng biệt sử dụng Chat Trigger, Supabase Vector Store và một cặp agent tương tự (Model-Selector và RAG Agent).

Ví dụ (dựa trên luồng RAG trong workflow): Chatbot hỗ trợ khách hàng ("RAG Agent") tại công ty Tech Haven, trả lời câu hỏi dựa trên cơ sở tri thức (chính sách, FAQ) lưu trong Supabase (truy cập qua tool "knowledgeBase").

Node "Model-Selector" (cho RAG):

Sử dụng google/gemini-2.0-flash-001 để phân tích yêu cầu chat.

System Prompt: Hướng dẫn chọn model dựa trên độ phức tạp của yêu cầu, chỉ có 2 lựa chọn trong luồng này:

## Overview
You are an AI agent responsible for selecting the most suitable large language model to handle a given user request. Choose only one model from the list below based strictly on each model’s strengths.

## Instructions
Analyze the user’s request and return the exact model name that best fits the task. Your response must contain only the model name. No explanations, no formatting, no extra text.

## Available Models and Strengths
- `openai/gpt-4.1-mini`: best for simple, factual, or lightweight queries that require minimal reasoning
- `anthropic/claude-3.5-sonnet`: best for standard or moderately complex tasks, including multi-step reasoning or basic problem solving

### Output Format:
Return only one of the following strings:
- openai/gpt-4.1-mini
- anthropic/claude-3.5-sonnet

Node "RAG Agent":
- Model: Sử dụng model được chọn bởi "Model-Selector" (qua node "Dynamic-Brain" tương ứng).
- System Prompt: Hướng dẫn agent sử dụng tool "knowledgeBase" để trả lời câu hỏi về Tech Haven.
```
## Overview
You are an AI agent that works at a company called Tech Haven, and you have access to a knowledge base that has policy and FAQ information. Your job is to respond to the user's query by using your "knowledgeBase" tool and answering their question.
```
- Tool: "knowledgeBase" (Node Vector Store Supabase được cấu hình để truy vấn).

Yêu cầu đơn giản: "Chính sách vận chuyển là gì?" -> Model-Selector chọn openai/gpt-4.1-mini. RAG Agent dùng model này gọi tool "knowledgeBase" và trả lời.
Yêu cầu phức tạp: "So sánh chính sách bảo mật và thanh toán?" -> Model-Selector chọn anthropic/claude-3.5-sonnet. RAG Agent dùng model này gọi tool "knowledgeBase" (có thể nhiều lần), tổng hợp và trả lời chi tiết.

Bằng cách áp dụng AI agent tự động chọn mô hình cho RAG, bạn vừa đảm bảo tốc độ cho các truy vấn đơn giản, vừa có được chất lượng câu trả lời tốt nhất cho các câu hỏi phức tạp, trong khi vẫn tối ưu chi phí.

Công cụ hỗ trợ và Tài nguyên tham khảo

Để đánh giá và so sánh các mô hình AI, bạn có thể tham khảo các công cụ được đề cập trong bài viết gốc (Vellum LLM Leaderboard, LMSys Chatbot Arena). Workflow cũng chứa các liên kết hữu ích trong Sticky Note "Setup Guide", bao gồm hướng dẫn kết nối Slack, OpenRouter, Google Sheets và Supabase.

Kết luận

Việc xây dựng một hệ thống AI agent tự động chọn mô hình bằng n8n và OpenRouter, như được minh họa trong workflow Dynamic_Models.json, là một cách tiếp cận thông minh để tối ưu hóa việc sử dụng LLM. Nó giúp tiết kiệm chi phí và cải thiện hiệu suất bằng cách sử dụng đúng model cho đúng tác vụ.

Sự linh hoạt này, cùng khả năng theo dõi minh bạch, giúp bạn liên tục cải tiến các agent tự động của mình. Hãy thử áp dụng kỹ thuật này vào các dự án AI agent của bạn!