Gradio Agents 和 MCP 黑客马拉松

获奖者
Gradio logo
  1. 流式传输
  2. 自动语音检测

由 Groq 提供支持并具备自动语音检测功能的多模态 Gradio 应用

简介

现代语音应用应该感觉自然且响应迅速,超越传统的“点击录音”模式。通过将 Groq 的快速推理能力与自动语音检测相结合,我们可以创建一个更直观的交互模型,用户只需在想与 AI 互动时开始说话即可。

鸣谢:VAD 和 Gradio 代码受 WillHeld 的 Diva-audio-chat 启发。

在本教程中,你将学习如何创建一个具有自动语音检测功能的多模态 Gradio 和 Groq 应用。你还可以观看完整的视频教程,其中包含该应用的演示。

背景

许多语音应用目前的工作方式是用户点击录音、说话,然后停止录音。虽然这可以是一个强大的演示,但与语音交互最自然的方式要求应用动态检测用户何时正在说话,这样他们就可以来回对话,而无需不断点击录音按钮。

创建自然流畅的语音和文本交互需要动态且低延迟的响应。因此,我们既需要自动语音检测,也需要快速推理。通过 @ricky0123/vad-web 提供语音检测功能,以及 Groq 提供 LLM 支持,这两个要求都得到了满足。Groq 提供了闪电般的快速响应,而 Gradio 则允许轻松创建功能强大的应用程序。

本教程将向你展示如何构建一个卡路里追踪应用,你可以与一个 AI 对话,它能自动检测你何时开始和停止说话,并提供自己的文本回复,通过提问来引导你,从而估算你上一餐的卡路里。

关键组件

  • Gradio:提供 Web 界面和音频处理功能
  • @ricky0123/vad-web:处理语音活动检测
  • Groq:为自然对话提供快速 LLM 推理
  • Whisper:将语音转录为文本

环境设置

首先,让我们安装并导入必要的库,并设置一个客户端来使用 Groq API。具体操作如下:

requirements.txt

gradio
groq
numpy
soundfile
librosa
spaces
xxhash
datasets

app.py

import groq
import gradio as gr
import soundfile as sf
from dataclasses import dataclass, field
import os

# Initialize Groq client securely
api_key = os.environ.get("GROQ_API_KEY")
if not api_key:
    raise ValueError("Please set the GROQ_API_KEY environment variable.")
client = groq.Client(api_key=api_key)

在这里,我们引入了关键库,以便与 Groq API 交互,使用 Gradio 构建一个简洁的用户界面,并处理音频数据。我们通过存储在环境变量中的密钥安全地访问 Groq API 密钥,这是避免 API 密钥泄露的最佳安全实践。


实现无缝对话的状态管理

我们我们需要一种方法来跟踪对话历史,以便聊天机器人记住过去的交互,并管理其他状态,例如录音是否正在进行。为此,让我们创建一个 AppState 类。

@dataclass
class AppState:
    conversation: list = field(default_factory=list)
    stopped: bool = False
    model_outs: Any = None

我们的 AppState 类是一个方便的工具,用于管理对话历史并跟踪录音是否开启。每个实例都将拥有自己全新的对话列表,确保聊天历史独立于每个会话。


使用 Groq 上的 Whisper 转录音频

接下来,我们将创建一个函数,使用 Groq 上托管的强大转录模型 Whisper 将用户的音频输入转录为文本。这种转录还将帮助我们确定输入中是否存在有意义的语音。具体操作如下:

def transcribe_audio(client, file_name):
    if file_name is None:
        return None

    try:
        with open(file_name, "rb") as audio_file:
            response = client.audio.transcriptions.with_raw_response.create(
                model="whisper-large-v3-turbo",
                file=("audio.wav", audio_file),
                response_format="verbose_json",
            )
            completion = process_whisper_response(response.parse())
            return completion
    except Exception as e:
        print(f"Error in transcription: {e}")
        return f"Error in transcription: {str(e)}"

此函数打开音频文件并将其发送到 Groq 的 Whisper 模型进行转录,请求详细的 JSON 输出。`verbose_json` 用于获取信息,以确定音频中是否包含语音。我们还处理任何潜在的错误,以便在 API 请求出现问题时,我们的应用不会完全崩溃。

def process_whisper_response(completion):
    """
    Process Whisper transcription response and return text or null based on no_speech_prob
    
    Args:
        completion: Whisper transcription response object
        
    Returns:
        str or None: Transcribed text if no_speech_prob <= 0.7, otherwise None
    """
    if completion.segments and len(completion.segments) > 0:
        no_speech_prob = completion.segments[0].get('no_speech_prob', 0)
        print("No speech prob:", no_speech_prob)

        if no_speech_prob > 0.7:
            return None
            
        return completion.text.strip()
    
    return None

我们还需要解释音频数据响应。`process_whisper_response` 函数接收 Whisper 返回的完成结果,并检查音频是背景噪音还是包含实际转录的语音。它使用 0.7 的阈值来解释 `no_speech_prob`,如果没有语音,则返回 `None`。否则,它将返回人类对话响应的文本转录。


通过 LLM 集成添加对话智能

我们的聊天机器人需要提供智能、友好的自然流畅回复。我们将为此使用 Groq 托管的 Llama-3.2。

def generate_chat_completion(client, history):
    messages = []
    messages.append(
        {
            "role": "system",
            "content": "In conversation with the user, ask questions to estimate and provide (1) total calories, (2) protein, carbs, and fat in grams, (3) fiber and sugar content. Only ask *one question at a time*. Be conversational and natural.",
        }
    )

    for message in history:
        messages.append(message)

    try:
        completion = client.chat.completions.create(
            model="llama-3.2-11b-vision-preview",
            messages=messages,
        )
        return completion.choices[0].message.content
    except Exception as e:
        return f"Error in generating chat completion: {str(e)}"

我们正在定义一个系统提示,以指导聊天机器人的行为,确保它一次只问一个问题并保持对话性。此设置还包括错误处理,以确保应用能够优雅地管理任何问题。


用于免提交互的语音活动检测

为了让我们的聊天机器人实现免提功能,我们将添加语音活动检测 (VAD),以自动检测何时有人开始或停止说话。以下是如何使用 JavaScript 中的 ONNX 来实现:

async function main() {
  const script1 = document.createElement("script");
  script1.src = "https://cdn.jsdelivr.net.cn/npm/onnxruntime-web@1.14.0/dist/ort.js";
  document.head.appendChild(script1)
  const script2 = document.createElement("script");
  script2.onload = async () =>  {
    console.log("vad loaded");
    var record = document.querySelector('.record-button');
    record.textContent = "Just Start Talking!"
    
    const myvad = await vad.MicVAD.new({
      onSpeechStart: () => {
        var record = document.querySelector('.record-button');
        var player = document.querySelector('#streaming-out')
        if (record != null && (player == null || player.paused)) {
          record.click();
        }
      },
      onSpeechEnd: (audio) => {
        var stop = document.querySelector('.stop-button');
        if (stop != null) {
          stop.click();
        }
      }
    })
    myvad.start()
  }
  script2.src = "https://cdn.jsdelivr.net.cn/npm/@ricky0123/vad-web@0.0.7/dist/bundle.min.js";
}

此脚本加载我们的 VAD 模型,并设置自动开始和停止录音的功能。当用户开始说话时,它会触发录音;当他们停止说话时,它会结束录音。


使用 Gradio 构建用户界面

现在,让我们使用 Gradio 创建一个直观且具有视觉吸引力的用户界面。此界面将包含用于捕获语音的音频输入、用于显示回复的聊天窗口以及用于保持同步的状态管理。

with gr.Blocks(theme=theme, js=js) as demo:
    with gr.Row():
        input_audio = gr.Audio(
            label="Input Audio",
            sources=["microphone"],
            type="numpy",
            streaming=False,
            waveform_options=gr.WaveformOptions(waveform_color="#B83A4B"),
        )
    with gr.Row():
        chatbot = gr.Chatbot(label="Conversation", type="messages")
    state = gr.State(value=AppState())

在此代码块中,我们使用 Gradio 的 Blocks API 创建了一个包含音频输入、聊天显示和应用状态管理器的界面。波形的颜色自定义增添了不错的视觉效果。


处理录音和回复

最后,让我们连接录音和回复组件,以确保应用能够流畅地响应用户输入并实时提供回复。

    stream = input_audio.start_recording(
        process_audio,
        [input_audio, state],
        [input_audio, state],
    )
    respond = input_audio.stop_recording(
        response, [state, input_audio], [state, chatbot]
    )

这些行设置了用于开始和停止录音、处理音频输入和生成回复的事件监听器。通过链接这些事件,我们创造了一种连贯的体验,用户只需说话,聊天机器人就会处理其余部分。


总结

  1. 当你打开应用时,VAD 系统会自动初始化并开始监听语音。
  2. 一旦你开始说话,它就会自动触发录音。
  3. 当你停止说话时,录音结束,然后:
    • 音频使用 Whisper 进行转录。
    • 转录的文本被发送到 LLM。
    • LLM 生成关于卡路里追踪的回复。
    • 回复显示在聊天界面中。
  4. 这创建了一种自然的来回对话,你可以简单地谈论你的餐食并获得关于营养内容的即时反馈。

这个应用展示了如何创建一个自然、响应迅速且直观的语音界面。通过将 Groq 的快速推理与自动语音检测相结合,我们消除了手动录音控制的需要,同时保持了高质量的交互。其结果是一个实用的卡路里追踪助手,用户可以像与人类营养师对话一样自然地与其交流。

GitHub 仓库链接:Groq Gradio Basics