Gradio 的月活跃用户突破 100 万!

阅读更多
Gradio logo
  1. 组件
  2. 音频

Gradio 新手?从这里开始: 开始入门

查看发布历史

音频

gradio.Audio(···)
import gradio as gr with gr.Blocks() as demo: gr.Audio("https://cdn.pixabay.com/download/audio/2022/03/09/audio_7e096b862f.mp3") demo.launch()

描述

创建一个音频组件,可用于上传/录制音频(作为输入)或显示音频(作为输出)。

行为

作为输入组件: 根据 type 的不同,以以下格式之一传递音频:str 文件路径,或 (采样率(Hz),音频数据(numpy 数组)) 的 tuple 元组。如果是后者,则音频数据是一个 16 位 int 数组,其值范围为 -32768 到 32767,音频数据数组的形状对于单声道音频为 (samples,),对于多声道音频为 (samples, channels)。

你的函数应接受以下类型之一
def predict(
	value: str | tuple[int, np.ndarray] | None
)
	...

作为输出组件: 期望音频数据采用以下任何格式:strpathlib.Path 文件路径或音频文件 URL,或 bytes 对象(推荐用于流式传输),或 (采样率(Hz),音频数据(numpy 数组)) 的 tuple 元组。注意:如果音频以 numpy 数组形式提供,则音频将通过其峰值归一化,以避免在生成的音频中出现失真或削波。

你的函数应返回以下类型之一
def predict(···) -> str | Path | bytes | tuple[int, np.ndarray] | None
	...	
	return value

初始化

参数
🔗
value: str | Path | tuple[int, np.ndarray] | Callable | None
default = None

Audio 组件将要采用的默认值的路径、URL 或 [sample_rate, numpy array] 元组(采样率(Hz),音频数据为浮点型或整型 numpy 数组)。如果提供了函数,则每次加载应用程序时都会调用该函数以设置此组件的初始值。

🔗
sources: list[Literal['upload', 'microphone']] | Literal['upload', 'microphone'] | None
default = None

允许音频使用的源列表。“upload”创建一个用户可以拖放音频文件的框,“microphone”创建一个麦克风输入。列表中的第一个元素将用作默认源。如果为 None,则默认为 ["upload", "microphone"],如果 `streaming` 为 True,则默认为 ["microphone"]。

🔗
type: Literal['numpy', 'filepath']
default = "numpy"

音频文件在传递到预测函数之前转换成的格式。“numpy”将音频转换为包含以下内容的元组:(int 采样率,数据 numpy.array),“filepath”传递一个 str 路径,指向包含音频的临时文件。

🔗
label: str | None
default = None

此组件的标签。显示在组件上方,如果此组件有示例表,则也用作标题。如果为 None 且在 `gr.Interface` 中使用,则标签将为此组件分配到的参数名称。

🔗
every: Timer | float | None
default = None

如果 `value` 是函数,则持续调用 `value` 以重新计算它(否则无效)。可以提供一个 Timer,其刻度重置 `value`,或提供一个浮点数,作为重置 Timer 的固定间隔。

🔗
inputs: Component | list[Component] | set[Component] | None
default = None

如果 `value` 是函数,则用作计算 `value` 的输入的组件(否则无效)。每当输入更改时,`value` 都会重新计算。

🔗
show_label: bool | None
default = None

如果为 True,将显示标签。

🔗
container: bool
default = True

如果为 True,则将组件放在容器中 - 在边框周围提供一些额外的填充。

🔗
scale: int | None
default = None

与 Row 中相邻组件相比的相对宽度。例如,如果组件 A 的 scale=2,而组件 B 的 scale=1,则 A 的宽度将是 B 的两倍。应为整数。

🔗
min_width: int
default = 160

最小像素宽度,如果屏幕空间不足以满足此值,则会换行。如果某个 scale 值导致此组件比 min_width 窄,则将首先遵守 min_width 参数。

🔗
interactive: bool | None
default = None

如果为 True,将允许用户上传和编辑音频文件。如果为 False,则只能用于播放音频。如果未提供,则根据组件是用作输入还是输出来推断。

🔗
visible: bool
default = True

如果为 False,组件将被隐藏。

🔗
streaming: bool
default = False

如果在 `live` 界面中用作输入时设置为 True,将自动流式传输网络摄像头 feed。当用作输出时,接收后端产生的音频块,并将它们组合成一个流式音频输出。

🔗
elem_id: str | None
default = None

一个可选的字符串,用作此组件在 HTML DOM 中的 id。可用于定位 CSS 样式。

🔗
elem_classes: list[str] | str | None
default = None

一个可选的字符串列表,用作此组件在 HTML DOM 中的类。可用于定位 CSS 样式。

🔗
render: bool
default = True

如果为 False,组件将不会在 Blocks 上下文中渲染。如果目的是现在分配事件侦听器,但稍后渲染组件,则应使用此选项。

🔗
key: int | str | None
default = None

如果已分配,将用于在重新渲染时假定身份。在重新渲染中具有相同 key 的组件将保留其值。

🔗
format: Literal['wav', 'mp3'] | None
default = None

用于保存音频文件的文件扩展名。“wav”或“mp3”。wav 文件是无损的,但文件往往较大。mp3 文件往往较小。此参数既适用于此组件用作输入(且 `type` 为“filepath”)以确定将用户提供的音频转换为哪种文件格式,也适用于此组件用作输出以确定返回给用户的音频格式。如果为 None,则不进行文件格式转换,音频保持原样。如果输出音频从预测函数返回为 numpy 数组且未提供 `format`,则将返回为“wav”文件。

🔗
autoplay: bool
default = False

当组件用作输出时,是否自动播放音频。注意:如果用户尚未与页面交互,浏览器将不会自动播放音频文件。

🔗
show_download_button: bool | None
default = None

如果为 True,将在组件的角落显示一个下载按钮,用于保存音频。如果为 False,则不显示图标。默认情况下,输出组件为 True,输入组件为 False。

🔗
show_share_button: bool | None
default = None

如果为 True,将在组件的角落显示一个共享图标,允许用户将输出共享到 Hugging Face Spaces Discussions。如果为 False,则不显示图标。如果设置为 None(默认行为),则如果此 Gradio 应用程序在 Spaces 上启动,则会显示该图标,否则不会显示。

🔗
editable: bool
default = True

如果为 True,则允许用户在组件可交互时操作音频文件。默认为 True。

🔗
min_length: int | None
default = None

用户可以传递到预测函数中的最小音频长度(以秒为单位)。如果为 None,则没有最小长度。

🔗
max_length: int | None
default = None

用户可以传递到预测函数中的最大音频长度(以秒为单位)。如果为 None,则没有最大长度。

🔗
waveform_options: WaveformOptions | dict | None
default = None

波形显示的可选选项字典。选项包括:waveform_color(str)、waveform_progress_color(str)、show_controls(bool)、skip_length(int)、trim_region_color(str)。默认为 None,这将使用这些选项的默认值。请参阅 `gr.WaveformOptions` 文档

🔗
loop: bool
default = False

如果为 True,音频将在到达结尾时循环,并从头开始继续播放。

🔗
recording: bool
default = False

如果为 True,如果源设置为“microphone”,音频组件将设置为从麦克风录制音频。默认为 False。

快捷方式

Interface 字符串快捷方式 初始化

gradio.Audio

"audio"

使用默认值

gradio.Microphone

"microphone"

使用 sources=["microphone"]

演示

import numpy as np
import gradio as gr

notes = ["C", "C#", "D", "D#", "E", "F", "F#", "G", "G#", "A", "A#", "B"]

def generate_tone(note, octave, duration):
    sr = 48000
    a4_freq, tones_from_a4 = 440, 12 * (octave - 4) + (note - 9)
    frequency = a4_freq * 2 ** (tones_from_a4 / 12)
    duration = int(duration)
    audio = np.linspace(0, duration, duration * sr)
    audio = (20000 * np.sin(audio * (2 * np.pi * frequency))).astype(np.int16)
    return sr, audio

demo = gr.Interface(
    generate_tone,
    [
        gr.Dropdown(notes, type="index"),
        gr.Slider(4, 6, step=1),
        gr.Textbox(value="1", label="Duration in seconds"),
    ],
    "audio",
)
if __name__ == "__main__":
    demo.launch()

		

事件侦听器

描述

事件侦听器允许你响应用户与你在 Gradio Blocks 应用程序中定义的 UI 组件的交互。当用户与元素交互时,例如更改滑块值或上传图像,将调用一个函数。

支持的事件侦听器

Audio 组件支持以下事件侦听器。每个事件侦听器都采用相同的参数,这些参数在下面的事件参数表中列出。

侦听器 描述

Audio.stream(fn, ···)

当用户流式传输音频时,将触发此侦听器。

Audio.change(fn, ···)

当音频的值更改时触发,原因是用户输入(例如,用户在文本框中键入内容)或函数更新(例如,图像从事件触发器的输出接收到一个值)。有关仅由用户输入触发的侦听器,请参阅 .input()

Audio.clear(fn, ···)

当用户使用组件的清除按钮清除音频时,将触发此侦听器。

Audio.play(fn, ···)

当用户播放音频中的媒体时,将触发此侦听器。

Audio.pause(fn, ···)

当音频中的媒体因任何原因停止时,将触发此侦听器。

Audio.stop(fn, ···)

当用户到达音频中正在播放的媒体的末尾时,将触发此侦听器。

Audio.pause(fn, ···)

当音频中的媒体因任何原因停止时,将触发此侦听器。

Audio.start_recording(fn, ···)

当用户开始使用音频录制时,将触发此侦听器。

Audio.pause_recording(fn, ···)

当用户暂停使用音频录制时,将触发此侦听器。

Audio.stop_recording(fn, ···)

当用户停止使用音频录制时,将触发此侦听器。

Audio.upload(fn, ···)

当用户将文件上传到音频中时,将触发此侦听器。

Audio.input(fn, ···)

当用户更改音频的值时,将触发此侦听器。

事件参数

参数
🔗
fn: Callable | None | Literal['decorator']
default = "decorator"

触发此事件时要调用的函数。通常是机器学习模型的预测函数。函数的每个参数对应一个输入组件,函数应返回单个值或值元组,元组中的每个元素对应一个输出组件。

🔗
inputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None
default = None

用作输入的 gradio.components 列表。如果该函数不接受任何输入,则应为空列表。

🔗
outputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None
default = None

用作输出的 gradio.components 列表。如果该函数不返回任何输出,则应为空列表。

🔗
api_name: str | None | Literal[False]
default = None

定义端点在 API 文档中的显示方式。可以是字符串、None 或 False。如果设置为字符串,则端点将在 API 文档中以给定的名称公开。如果为 None(默认值),则函数的名称将用作 API 端点。如果为 False,则端点将不会在 API 文档中公开,并且下游应用程序(包括 `gr.load` 此应用程序的应用程序)将无法使用此事件。

🔗
scroll_to_output: bool
default = False

如果为 True,完成时将滚动到输出组件

🔗
show_progress: Literal['full', 'minimal', 'hidden']
default = "minimal"

事件运行时如何显示进度动画:“full”显示一个微调器,该微调器覆盖输出组件区域以及右上角的运行时显示,“minimal”仅显示运行时显示,“hidden”不显示任何进度动画

🔗
show_progress_on: Component | list[Component] | None
default = None

要在其上显示进度动画的组件或组件列表。如果为 None,将在所有输出组件上显示进度动画。

🔗
queue: bool
default = True

如果为 True,则将请求放在队列中(如果已启用队列)。如果为 False,即使已启用队列,也不会将此事件放入队列中。如果为 None,将使用 gradio 应用程序的队列设置。

🔗
batch: bool
default = False

如果为 True,则该函数应处理一批输入,这意味着它应接受每个参数的输入值列表。列表的长度应相等(并且最大长度为 `max_batch_size`)。然后*必须*函数返回列表元组(即使只有一个输出组件),元组中的每个列表对应一个输出组件。

🔗
max_batch_size: int
default = 4

如果从队列调用此方法,则要批量处理的最大输入数(仅在 batch=True 时相关)

🔗
preprocess: bool
default = True

如果为 False,则在运行“fn”之前不会运行组件数据的预处理(例如,如果使用 `Image` 组件调用此方法,则将其保留为 base64 字符串)。

🔗
postprocess: bool
default = True

如果为 False,则在将“fn”输出返回到浏览器之前,不会运行组件数据的后处理。

🔗
cancels: dict[str, Any] | list[dict[str, Any]] | None
default = None

触发此侦听器时要取消的其他事件列表。例如,设置 cancels=[click_event] 将取消 click_event,其中 click_event 是另一个组件的 .click 方法的返回值。尚未运行的函数(或正在迭代的生成器)将被取消,但当前正在运行的函数将允许完成。

🔗
trigger_mode: Literal['once', 'multiple', 'always_last'] | None
default = None

如果为“once”(除 `.change()` 之外的所有事件的默认值),则在事件挂起期间不允许任何提交。如果设置为“multiple”,则在挂起期间允许无限次提交,而“always_last”(`.change()` 和 `.key_up()` 事件的默认值)将在挂起事件完成后允许第二次提交。

🔗
js: str | Literal[True] | None
default = None

在运行“fn”之前要运行的可选前端 js 方法。js 方法的输入参数是“inputs”和“outputs”的值,返回值应为输出组件的值列表。

🔗
concurrency_limit: int | None | Literal['default']
default = "default"

如果设置,则这是可以同时运行的此事件的最大数量。可以设置为 None,表示没有 concurrency_limit(可以同时运行此事件的任意数量)。设置为“default”以使用默认并发限制(由 `Blocks.queue()` 中的 `default_concurrency_limit` 参数定义,默认情况下为 1)。

🔗
concurrency_id: str | None
default = None

如果设置,则这是并发组的 id。具有相同 concurrency_id 的事件将受到最低设置的 concurrency_limit 的限制。

🔗
show_api: bool
default = True

是否在 Gradio 应用程序的“查看 API”页面中或在 Gradio 客户端的 “.view_api()” 方法中显示此事件。与将 api_name 设置为 False 不同,将 show_api 设置为 False 仍将允许下游应用程序以及客户端使用此事件。如果 fn 为 None,则 show_api 将自动设置为 False。

🔗
time_limit: int | None
default = None
🔗
stream_every: float
default = 0.5
🔗
like_user_message: bool
default = False

助手类

WaveformOptions

gradio.WaveformOptions(···)

描述

用于指定 Audio 组件中波形显示选项的数据类。此类的实例可以传递到 gr.Audiowaveform_options 参数中。

初始化

参数
🔗
waveform_color: str | None
default = None

表示音频幅度的完整波形的颜色(十六进制字符串或有效的 CSS 颜色)。默认为浅灰色。

🔗
waveform_progress_color: str | None
default = None

波形填充的颜色(十六进制字符串或有效的 CSS 颜色),随着音频播放而填充。默认为强调色。

🔗
trim_region_color: str | None
default = None

修剪区域的颜色(十六进制字符串或有效的 CSS 颜色)。默认为强调色。

🔗
show_recording_waveform: bool
default = True

如果为 True,则在录制音频或播放音频时显示波形。如果为 False,则使用默认浏览器音频播放器。对于流式音频,始终使用默认浏览器音频播放器。

🔗
show_controls: bool
default = False

已弃用,不起作用。请改用 `show_recording_waveform`。

🔗
skip_length: int | float
default = 5

单击快进/快退按钮时要跳过的音频百分比(介于 0 和 100 之间)。

🔗
sample_rate: int
default = 44100

编辑后音频的输出采样率(Hz)。

指南