1. 组件
  2. 音频

刚开始使用 Gradio? 从这里开始: 入门指南

查看 发布历史

音频

gradio.Audio(···)

描述

创建一个音频组件,可用于上传/录制音频(作为输入)或显示音频(作为输出)。

行为

作为输入组件: 根据 type 的不同,以这些格式之一传递音频:一个 str 文件路径,或者一个 tuple (采样率,音频数据作为 numpy 数组)。如果是后者,音频数据是一个 16 位 int 数组,其值范围从 -32768 到 32767,对于单声道音频,数组形状为 (样本数,),对于多声道音频,形状为 (样本数, 声道数)。

您的函数应接受其中一种类型
def predict(
	value: str | tuple[int, np.ndarray] | None
)
	...

作为输出组件: 期望音频数据采用以下任一格式:一个 strpathlib.Path 文件路径或音频文件的 URL,或者一个 bytes 对象(推荐用于流式传输),或者一个 tuple (采样率,音频数据作为 numpy 数组)。注意:如果音频作为 numpy 数组提供,音频将通过其峰值进行归一化,以避免在生成的音频中出现失真或削波。

您的函数应返回其中一种类型
def predict(···) -> str | Path | bytes | tuple[int, np.ndarray] | None
	...	
	return value

初始化

参数
🔗
value: str | Path | tuple[int, np.ndarray] | Callable | None
默认 = None

一个路径、URL 或 [采样率, numpy 数组] 元组(采样率(赫兹),音频数据作为 float 或 int numpy 数组),用于 Audio 组件将采用的默认值。如果提供了函数,则每次应用程序加载时都会调用该函数来设置此组件的初始值。

🔗
sources: list[Literal['upload', 'microphone']] | Literal['upload', 'microphone'] | None
默认 = None

允许的音频来源列表。"upload" 创建一个用户可以拖放音频文件的框,"microphone" 创建一个麦克风输入。列表中的第一个元素将用作默认来源。如果为 None,则默认为 ["upload", "microphone"],或者如果 `streaming` 为 True,则默认为 ["microphone"]。

🔗
type: Literal['numpy', 'filepath']
默认 = "numpy"

音频文件在传递给预测函数之前转换成的格式。"numpy" 将音频转换为一个元组,包括:(整数采样率, numpy.array 数据),"filepath" 传递一个包含音频的临时文件的字符串路径。

🔗
label: str | I18nData | None
默认 = None

此组件的标签。显示在组件上方,如果该组件有示例表格,也用作标题。如果为 None 且在 `gr.Interface` 中使用,则标签将是此组件分配到的参数名称。

🔗
every: Timer | float | None
默认 = None

持续调用 `value` 来重新计算它(如果 `value` 是一个函数,否则无效)。可以提供一个 Timer,其滴答声会重置 `value`,或者提供一个浮点数来为重置 Timer 提供常规间隔。

🔗
inputs: Component | list[Component] | set[Component] | None
默认 = None

用作计算 `value` 的输入的组件(如果 `value` 是一个函数,否则无效)。`value` 在输入更改时会重新计算。

🔗
show_label: bool | None
默认 = None

如果为 True,将显示标签。

🔗
container: bool
默认 = True

如果为 True,则会将组件放置在容器中,在边框周围提供一些额外的填充。

🔗
scale: int | None
默认 = None

相对于同一行中相邻组件的相对宽度。例如,如果组件 A 的 scale=2,组件 B 的 scale=1,则 A 的宽度将是 B 的两倍。应为整数。

🔗
min_width: int
默认 = 160

最小像素宽度,如果屏幕空间不足以满足此值,则会换行。如果某个 scale 值导致此组件比 min_width 窄,则首先遵循 min_width 参数。

🔗
interactive: bool | None
默认 = None

如果为 True,将允许用户上传和编辑音频文件。如果为 False,则只能用于播放音频。如果未提供,则根据组件是用作输入还是输出进行推断。

🔗
visible: bool | Literal['hidden']
默认 = True

如果为 False,组件将被隐藏。如果为 "hidden",组件将在视觉上隐藏,不占用布局空间,但仍存在于 DOM 中。如果为 "hidden",组件将在视觉上隐藏,不占用布局空间,但仍存在于 DOM 中。

🔗
streaming: bool
默认 = False

当在 `live` 接口中用作输入时,如果设置为 True,将自动流式传输网络摄像头馈送。当设置为输出时,它接受后端生成的音频块,并将它们组合成一个流式音频输出。

🔗
elem_id: str | None
默认 = None

一个可选字符串,用作此组件在 HTML DOM 中的 id。可用于定位 CSS 样式。

🔗
elem_classes: list[str] | str | None
默认 = None

一个可选的字符串列表,用作此组件在 HTML DOM 中的类。可用于定位 CSS 样式。

🔗
render: bool
默认 = True

如果为 False,组件将不会在 Blocks 上下文中渲染。如果目的是现在分配事件监听器,但稍后渲染组件,则应使用此选项。

🔗
key: int | str | tuple[int | str, ...] | None
默认 = None

在 `gr.render` 中,跨重渲染具有相同键的组件被视为同一个组件,而不是一个新组件。在 `preserved_by_key` 中设置的属性在重渲染时不会重置。

🔗
preserved_by_key: list[str] | str | None
默认 = "value"

此组件构造函数中的参数列表。在 `gr.render()` 函数内部,如果一个组件使用相同的键进行重渲染,则这些(也是唯一的)参数将在 UI 中被保留(如果它们已被用户或事件监听器更改),而不是根据构造函数中提供的值进行重渲染。

🔗
format: Literal['wav', 'mp3'] | None
默认 = None

用于保存音频文件的文件扩展名。可以是 'wav' 或 'mp3'。wav 文件是无损的,但文件会更大。mp3 文件通常更小。此参数既适用于此组件用作输入时(且 `type` 为 "filepath"),用于确定将用户提供的音频转换为哪种文件格式,也适用于此组件用作输出时,用于确定返回给用户的音频格式。如果为 None,则不进行文件格式转换,音频保持原样。如果输出音频是从预测函数以 numpy 数组形式返回,并且未提供 `format`,它将以 "wav" 文件形式返回。

🔗
autoplay: bool
默认 = False

当组件用作输出时,是否自动播放音频。注意:如果用户尚未与页面交互,浏览器将不会自动播放音频文件。

🔗
editable: bool
默认 = True

如果为 True,当组件具有交互性时,允许用户操作音频文件。默认为 True。

🔗
buttons: list[Literal['download', 'share'] | Button] | None
默认 = None

显示在组件右上角的按钮列表。有效选项包括 "download"、"share" 或 gr.Button() 实例。"download" 按钮允许用户将音频保存到其设备。"share" 按钮允许用户通过 Hugging Face Spaces Discussions 分享音频。自定义 gr.Button() 实例将以其配置的图标和/或标签出现在工具栏中,点击它们将触发在按钮上注册的任何 .click() 事件。默认情况下,仅显示 "download" 和 "share" 按钮。

🔗
waveform_options: WaveformOptions | dict | None
默认 = None

波形显示选项的字典。选项包括:waveform_color (str)、waveform_progress_color (str)、skip_length (int)、trim_region_color (str)。默认为 None,使用这些选项的默认值。请参阅 `gr.WaveformOptions` 文档

🔗
loop: bool
默认 = False

如果为 True,音频到达末尾时将循环播放,并从头开始继续播放。

🔗
recording: bool
默认 = False

如果为 True,当来源设置为 "microphone" 时,音频组件将设置为从麦克风录制音频。默认为 False。

🔗
subtitles: str | Path | list[dict[str, Any]] | None
默认 = None

音频的字幕文件(srt、vtt 或 json),或者格式为 [{"text": str, "timestamp": [start, end]}] 的字幕字典列表,其中时间戳以秒为单位。JSON 文件应包含一个字幕对象数组。

🔗
playback_position: float
默认 = 0

以秒为单位的起始播放位置。此值也会随着音频播放而更新,反映当前的播放位置。

快捷方式

快捷方式
gradio.Audio
Interface String Shortcut "audio"
初始化 使用默认值
gradio.Microphone
Interface String Shortcut "microphone"
Initialization Uses sources=["microphone"]

演示

事件监听器

描述

事件监听器允许您响应 Gradio Blocks 应用中定义的 UI 组件的用户交互。当用户与元素交互时(例如,更改滑块值或上传图像),会调用一个函数。

支持的事件监听器

Audio 组件支持以下事件监听器。每个事件监听器都采用相同的参数,这些参数列在下面的 事件参数 表中。

监听器
Audio.stream(fn, ···)

当用户流式传输 Audio 时触发此监听器。

Audio.change(fn, ···)

当 Audio 的值发生变化时触发,无论是由于用户输入(例如,用户在文本框中输入)还是由于函数更新(例如,图像从事件触发的输出接收到值)。有关仅由用户输入触发的监听器,请参阅 .input()

Audio.clear(fn, ···)

当用户使用组件的清除按钮清除 Audio 时触发此监听器。

Audio.play(fn, ···)

当用户在 Audio 中播放媒体时触发此监听器。

Audio.pause(fn, ···)

当 Audio 中的媒体因任何原因停止时触发此监听器。

Audio.stop(fn, ···)

当用户播放 Audio 中的媒体到达末尾时触发此监听器。

Audio.pause(fn, ···)

当 Audio 中的媒体因任何原因停止时触发此监听器。

Audio.start_recording(fn, ···)

当用户开始使用 Audio 录制时触发此监听器。

Audio.pause_recording(fn, ···)

当用户暂停使用 Audio 录制时触发此监听器。

Audio.stop_recording(fn, ···)

当用户停止使用 Audio 录制时触发此监听器。

Audio.upload(fn, ···)

当用户上传文件到 Audio 中时触发此监听器。

Audio.input(fn, ···)

当用户更改 Audio 的值时触发此监听器。

事件参数

参数
🔗
fn: Callable | None | Literal['decorator']
默认 = "decorator"

当此事件触发时调用的函数。通常是机器学习模型的预测函数。函数的每个参数对应一个输入组件,函数应返回一个单一值或一个值元组,元组中的每个元素对应一个输出组件。

🔗
inputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None
默认 = None

用作输入的 gradio.components 列表。如果函数不接受输入,则此列表应为空。

🔗
outputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None
默认 = None

用作输出的 gradio.components 列表。如果函数不返回输出,则此列表应为空。

🔗
api_name: str | None
默认 = None

定义该端点在 API 文档中如何显示。可以是字符串或 None。如果设置为字符串,则该端点将在 API 文档中以给定名称显示。如果为 None(默认),则使用函数的名称作为 API 端点。

🔗
api_description: str | None | Literal[False]
默认 = None

API 端点的描述。可以是字符串、None 或 False。如果设置为字符串,则该端点将在 API 文档中以给定描述显示。如果为 None,则使用函数的 docstring 作为 API 端点描述。如果为 False,则 API 文档中不会显示任何描述。

🔗
scroll_to_output: bool
默认 = False

完成后是否滚动到输出组件

🔗
show_progress: Literal['full', 'minimal', 'hidden']
default = "minimal"

事件运行时如何显示进度动画:“full”显示一个覆盖输出组件区域的加载指示器,并在右上角显示运行时信息,“minimal”仅显示运行时信息,“hidden”不显示任何进度动画。

🔗
show_progress_on: Component | list[Component] | None
默认 = None

用于显示进度动画的组件或组件列表。如果为 None,则进度动画将显示在所有输出组件上。

🔗
queue: bool
默认 = True

如果为 True,则会将请求放在队列中(如果队列已启用)。如果为 False,则不会将此事件放入队列,即使队列已启用。如果为 None,则将使用 Gradio 应用的队列设置。

🔗
batch: bool
默认 = False

如果为 True,则函数应处理一批输入,这意味着它应该为每个参数接受一个输入值列表。列表的长度应相同(最多为 `max_batch_size`)。然后,该函数*必须*返回一个元组的列表(即使只有一个输出组件),元组中的每个列表对应一个输出组件。

🔗
max_batch_size: int
默认 = 4

如果从队列调用(仅在 batch=True 时相关),则要批处理的最大输入数量

🔗
preprocess: bool
默认 = True

如果为 False,则在运行 'fn' 之前不会进行组件数据预处理(例如,当使用 `Image` 组件调用此方法时,将其保留为 base64 字符串)。

🔗
postprocess: bool
默认 = True

如果为 False,则在将 'fn' 输出返回到浏览器之前,不会进行组件数据后处理。

🔗
cancels: dict[str, Any] | list[dict[str, Any]] | None
默认 = None

取消其他事件的列表,当此监听器触发时。例如,设置 cancels=[click_event] 将会取消 click_event,其中 click_event 是另一个组件的 .click 方法的返回值。尚未运行的函数(或正在迭代的生成器)将被取消,但正在运行的函数将被允许完成。

🔗
trigger_mode: Literal['once', 'multiple', 'always_last'] | None
默认 = None

如果设置为 "once"(除 `.change()` 之外所有事件的默认值),则在事件挂起时不允许任何提交。如果设置为 "multiple",则在事件挂起时允许无限次提交,而 "always_last"(`.change()` 和 `.key_up()` 事件的默认值)则允许在挂起事件完成后进行第二次提交。

🔗
js: str | Literal[True] | None
默认 = None

在运行 'fn' 之前运行可选的前端 JS 方法。JS 方法的输入参数是 'inputs' 和 'outputs' 的值,返回值应为输出组件的值列表。

🔗
concurrency_limit: int | None | Literal['default']
默认 = "default"

如果设置,这是可以同时运行的此事件的最大数量。可以设置为 None,表示没有并发限制(此事件可以同时运行任意数量)。设置为 "default" 可使用 `Blocks.queue()` 中的 `default_concurrency_limit` 参数定义的默认并发限制(该参数本身默认为 1)。

🔗
concurrency_id: str | None
默认 = None

如果设置,这是并发组的 ID。具有相同 `concurrency_id` 的事件将受到最低设置的 `concurrency_limit` 的限制。

🔗
api_visibility: Literal['public', 'private', 'undocumented']
默认 = "public"

控制此端点的可见性和可访问性。可以是 "public"(在 API 文档中显示并可由客户端调用)、"private"(在 API 文档中隐藏,不可由客户端调用)或 "undocumented"(在 API 文档中隐藏,但可由客户端通过 gr.load 调用)。如果 fn 为 None,则 api_visibility 将自动设置为 "private"。

🔗
time_limit: int | None
默认 = None
🔗
stream_every: float
默认 = 0.5
🔗
key: int | str | tuple[int | str, ...] | None
默认 = None

此事件监听器的唯一键,用于 @gr.render()。如果设置,此值标识在重渲染时具有相同键的事件为相同的事件。

🔗
validator: Callable | None
默认 = None

可选的验证函数,在主函数运行之前执行。如果提供,此函数将首先使用 queue=False 执行,只有在成功完成后才会调用主函数。验证器接收与主函数相同的输入,并应为每个输入值返回一个 `gr.validate()`。

辅助类

WaveformOptions

gradio.WaveformOptions(···)

描述

一个用于指定 Audio 组件中波形显示选项的数据类。此类的实例可以传递给 gr.Audiowaveform_options 参数。

初始化

参数
🔗
waveform_color: str | None
默认 = None

表示音频振幅的完整波形颜色(作为十六进制字符串或有效的 CSS 颜色)。默认为浅灰色。

🔗
waveform_progress_color: str | None
默认 = None

波形随着音频播放而填充的颜色(作为十六进制字符串或有效的 CSS 颜色)。默认为强调色。

🔗
trim_region_color: str | None
默认 = None

修剪区域的颜色(作为十六进制字符串或有效的 CSS 颜色)。默认为强调色。

🔗
show_recording_waveform: bool
默认 = True

如果为 True,在录制或播放音频时显示波形。如果为 False,使用默认浏览器音频播放器。对于流式音频,始终使用默认浏览器音频播放器。

🔗
skip_length: int | float
default = 5

点击快进/快退按钮时跳过的音频百分比(0 到 100 之间)。

🔗
sample_rate: int
default = 44100

编辑后音频的输出采样率(赫兹)。

is_audio_correct_length

验证音频长度是否在指定的最小和最大长度(以秒为单位)内。您可以使用此项构建验证器,检查用户提供的音频是太短还是太长。

import gradio as gr
demo = gr.Interface(
    lambda x: x,
    inputs="audio",
    outputs="audio",
    validator=lambda audio: gr.validators.is_audio_correct_length(audio, min_length=1, max_length=5)
)
demo.launch()

初始化

参数
🔗
audio: tuple[int, 'np.ndarray']

一个 (采样率(赫兹), 音频数据作为 numpy 数组) 元组。

🔗
min_length: float | None

音频的最小长度(秒)。如果为 None,则不执行最小长度检查。

🔗
max_length: float | None

音频的最大长度(秒)。如果为 None,则不执行最大长度检查。

gradio