Biến AI Agent bất kỳ thành trợ lý giọng nói thông minh với n8n và ElevenLabs

Viewed 8

Chia sẻ bởi Nate Herk

Bạn đã bao giờ mơ ước tạo ra một trợ lý AI có thể lắng nghe, thấu hiểu và phản hồi lại bạn bằng giọng nói một cách tự nhiên? Giờ đây, việc xây dựng một hệ thống như vậy không còn là điều xa vời. Với kinh nghiệm trực tiếp triển khai các quy trình tự động hóa, tôi sẽ hướng dẫn bạn cách kết hợp nền tảng n8n và dịch vụ giọng nói AI của ElevenLabs để tạo ra hai loại trợ lý mạnh mẽ, dựa trên chính workflow mẫu đính kèm.

Chúng ta sẽ cùng nhau khám phá từng bước để xây dựng:

  • Trợ lý giọng nói trên Telegram: Tương tác bằng cách gửi và nhận file âm thanh, biến cuộc trò chuyện văn bản thông thường trở nên sống động hơn.
  • Công cụ (Tool) cho Agent hội thoại: Xây dựng một "bộ não" nghiên cứu và tóm tắt thông tin, cho phép trợ lý giọng nói của ElevenLabs thực hiện các tác vụ phức tạp theo thời gian thực.

Nguyên tắc cốt lõi: Quy trình Nghe – Hiểu – Nói của AI trong n8n

Trước khi đi vào chi tiết, hãy nắm vững luồng hoạt động cơ bản. n8n là một nền tảng tự động hóa mã nguồn mở, cho phép bạn kết nối các ứng dụng và dịch vụ khác nhau thông qua một giao diện trực quan (node-based). Khi kết hợp với ElevenLabs, một công ty hàng đầu về AI giọng nói, chúng ta có thể tạo ra một chu trình hoàn chỉnh:

  1. Lắng nghe (Input): Workflow nhận một file âm thanh từ một nguồn đầu vào (ví dụ: tin nhắn thoại trên Telegram).
  2. Chuyển đổi thành văn bản (Speech-to-Text): File âm thanh được gửi đến ElevenLabs để chuyển đổi thành dạng văn bản.
  3. Xử lý (Processing): Văn bản này được đưa vào một AI Agent (như OpenRouter, ChatGPT) để phân tích và tạo ra câu trả lời.
  4. Chuyển đổi thành giọng nói (Text-to-Speech): Câu trả lời dạng văn bản của AI được gửi lại cho ElevenLabs để tổng hợp thành file âm thanh với giọng nói tự nhiên.
  5. Phản hồi (Output): File âm thanh cuối cùng được gửi trở lại cho người dùng.

Download workflow: https://romhub.io/n8n/Voice_Workflows


Workflow 1: Xây dựng Trợ lý AI Tương tác Qua File Âm thanh trên Telegram

Đây là quy trình giúp AI agent của bạn có thể "trò chuyện" bằng giọng nói ngay trên Telegram.

1. Kích hoạt và Nhận File Ghi Âm từ Telegram

  • Node Telegram Trigger: Workflow bắt đầu khi có một tin nhắn thoại được gửi đến bot Telegram của bạn. Node này sẽ tự động lắng nghe và kích hoạt luồng xử lý ngay khi nhận được file.
  • Node Get a file: Node này sử dụng file_id do Trigger cung cấp để tải file âm thanh mà người dùng đã gửi về môi trường n8n.

2. Chuyển đổi Giọng nói thành Văn bản với ElevenLabs

  • Node Transcribe audio or video: File âm thanh vừa tải về sẽ được chuyển đến node của ElevenLabs. Node này thực hiện tác vụ chuyển giọng nói thành văn bản (speech-to-text) và trả về nội dung người dùng đã nói.

3. Xử lý Văn bản bằng AI Agent

  • Node AI Agent & OpenRouter Chat Model: Văn bản từ bước trước được đưa vào một AI Agent. Dựa trên workflow, Agent này được cấu hình với một System Prompt đặc biệt: "You are a helpful assistant who is extremely funny." (Bạn là một trợ lý hữu ích và cực kỳ hài hước). Điều này đảm bảo các phản hồi không chỉ chính xác mà còn mang tính giải trí. Node OpenRouter cung cấp mô hình ngôn ngữ để tạo ra câu trả lời.

4. Chuyển Phản hồi của AI thành Giọng nói

  • Node Convert text to speech: Câu trả lời hài hước của AI Agent sẽ được node ElevenLabs này chuyển đổi từ văn bản trở lại thành một file âm thanh hoàn chỉnh. Bạn có thể tùy chọn giọng nói có sẵn hoặc sử dụng ID của một giọng nói cụ thể để cá nhân hóa.

5. Gửi lại File Âm thanh cho Người dùng

  • Node Send an audio file: Cuối cùng, node Telegram này sẽ gửi file âm thanh vừa tạo về lại đúng cuộc trò chuyện ban đầu bằng cách sử dụng chat.id lấy từ node Trigger.

Khi workflow được kích hoạt (Active), người dùng sẽ có một trải nghiệm tương tác liền mạch: gửi một câu hỏi bằng giọng nói và nhận lại một câu trả lời dí dỏm cũng bằng giọng nói.


Workflow 2: Tạo "Công cụ Nghiên cứu" cho Agent Hội thoại Real-time

Quy trình thứ hai không phải là một chatbot hoàn chỉnh, mà là một "công cụ" (tool) mạnh mẽ mà một Agent hội thoại của ElevenLabs có thể gọi để thực hiện tác vụ nghiên cứu và tóm tắt thông tin.

1. Bắt đầu với Webhook - Cổng Giao tiếp cho Agent

  • Node Webhook: Workflow này được kích hoạt khi nhận một yêu cầu POST từ bên ngoài. Đây chính là cách Agent hội thoại trên nền tảng ElevenLabs giao tiếp với "bộ não" n8n của chúng ta. Khi cần tra cứu thông tin, Agent sẽ gọi đến URL của webhook này.

2. Sử dụng Perplexity để Nghiên cứu Thông tin

  • Node Message a model (Perplexity): Dữ liệu được gửi đến webhook chứa một truy vấn tìm kiếm (ví dụ: searchQuery). Node Perplexity sẽ nhận truy vấn này, thực hiện tìm kiếm trên Internet và trả về những thông tin liên quan, chính xác. Đây là bước nghiên cứu cốt lõi.

3. Tóm tắt Kết quả bằng AI Agent

  • Node AI Agent1 & OpenRouter Chat Model1: Thông tin đồ sộ từ Perplexity sẽ được đưa vào một AI Agent thứ hai. Agent này có một nhiệm vụ rất cụ thể được định nghĩa trong System Prompt: "You are an expert research agent. You will be fed information, and you need to make a concise summary. It should only be about three sentences." (Bạn là một agent nghiên cứu chuyên nghiệp. Bạn sẽ nhận thông tin và cần tóm tắt nó một cách ngắn gọn trong khoảng ba câu).

4. Phản hồi Kết quả về cho ElevenLabs Agent

  • Node Respond to Webhook: Bản tóm tắt súc tích từ AI Agent sẽ được gửi ngược lại cho dịch vụ đã gọi webhook ban đầu. Bằng cách này, Agent hội thoại trên ElevenLabs nhận được câu trả lời cô đọng và có thể đọc nó cho người dùng, tạo ra một cuộc đối thoại thông minh và tự nhiên.

Lưu ý Quan trọng và Hướng Phát triển

  • Bảo mật: Luôn bảo vệ các API key (ElevenLabs, OpenRouter, Perplexity) và URL webhook của bạn. Sử dụng Credentials được mã hóa của n8n và chuyển webhook sang chế độ Production khi triển khai chính thức.
  • Tùy chỉnh: Sức mạnh thực sự nằm ở khả năng tùy biến. Hãy thử thay đổi System Prompt của các AI Agent để tạo ra những cá tính khác nhau, hoặc thay đổi mô hình ngôn ngữ để tối ưu chi phí và hiệu suất.
  • Mở rộng: Từ hai workflow nền tảng này, bạn có thể phát triển vô số ứng dụng: trợ lý chăm sóc khách hàng tự động, công cụ học ngoại ngữ, hệ thống trả lời kiến thức chuyên ngành, hoặc đơn giản là một người bạn AI để trò chuyện.

Kết luận

Việc tích hợp n8n và ElevenLabs đã dân chủ hóa khả năng tạo ra các trợ lý giọng nói AI phức tạp. Bằng cách phân tích workflow được cung cấp, chúng ta đã thấy rõ cách xây dựng hai giải pháp thực tiễn: một chatbot giọng nói trên Telegram và một công cụ nghiên cứu mạnh mẽ cho các agent hội thoại.

Bí quyết thành công nằm ở việc kết nối các node một cách logic, cấu hình chính xác các dịch vụ (ElevenLabs, Perplexity, OpenRouter) và tinh chỉnh các câu lệnh (prompts) để định hình "tính cách" và chức năng cho AI của bạn.

Hãy bắt đầu thử nghiệm với workflow này, và bạn sẽ ngạc nhiên về những gì mình có thể tạo ra. Chúc bạn thành công trên hành trình xây dựng trợ lý giọng nói AI của riêng mình!

0 Answers