组件
Audio

Gradio 新手？从这里开始：快速入门

AnnotatedImage

BarPlot

Audio

gradio.Audio(···)

import gradio as gr with gr.Blocks() as demo: gr.Audio("https://cdn.pixabay.com/download/audio/2022/03/09/audio_7e096b862f.mp3") demo.launch()

描述

创建一个音频组件，可用于上传/录制音频（作为输入）或显示音频（作为输出）。

行为

作为输入组件: 根据 `type` 的不同，以以下格式之一传递音频：`str` 文件路径，或 (采样率（赫兹），音频数据（numpy 数组）) 的 `tuple`。如果是后者，音频数据是一个 16 位 `int` 数组，其值范围从 -32768 到 32767，音频数据数组的形状对于单声道音频是 (samples,)，对于多声道音频是 (samples, channels)。

您的函数应该接受其中一种类型

def predict(
	value: str | tuple[int, np.ndarray] | None
)
	...

作为输出组件: 期望音频数据为以下任何一种格式：`str` 或 `pathlib.Path` 文件路径或音频文件 URL，或 `bytes` 对象（推荐用于流式传输），或 (采样率（赫兹），音频数据（numpy 数组）) 的 `tuple`。注意：如果音频以 numpy 数组形式提供，音频将根据其峰值进行归一化，以避免生成音频失真或削波。

您的函数应该返回其中一种类型

def predict(···) -> str | Path | bytes | tuple[int, np.ndarray] | None
	...	
	return value

初始化

🔗

value: str | Path | tuple[int, np.ndarray] | Callable | None

默认值 = None

一个路径、URL 或 [采样率, numpy 数组] 元组（采样率（赫兹），音频数据（浮点型或整型 numpy 数组）），用于音频组件将采用的默认值。如果提供了函数，则每次应用加载时都会调用该函数以设置此组件的初始值。

🔗

sources: list[Literal['upload', 'microphone']] | Literal['upload', 'microphone'] | None

默认值 = None

允许的音频源列表。"upload" 创建一个用户可拖放音频文件的框，"microphone" 创建一个麦克风输入。列表中的第一个元素将用作默认源。如果为 None，则默认为 ["upload", "microphone"]；如果 `streaming` 为 True，则默认为 ["microphone"]。

🔗

type: Literal['numpy', 'filepath']

默认值 = "numpy"

音频文件在传递到预测函数之前转换的格式。"numpy" 将音频转换为一个元组，包含：(整型采样率，数据对应的 numpy.array)，"filepath" 传递一个指向包含音频的临时文件的字符串路径。

🔗

label: str | I18nData | None

默认值 = None

此组件的标签。显示在组件上方，如果组件有示例表格，则也用作表头。如果为 None 且在 `gr.Interface` 中使用，则标签将为此组件所赋值的参数名称。

🔗

every: Timer | float | None

默认值 = None

如果 `value` 是一个函数，则持续调用 `value` 以重新计算它（否则无效）。可以提供一个其计时器滴答会重置 `value` 的 Timer，或者一个浮点数，提供重置 Timer 的常规间隔。

🔗

inputs: Component | list[Component] | set[Component] | None

默认值 = None

如果 `value` 是一个函数，则用作计算 `value` 输入的组件（否则无效）。每当输入发生变化时，`value` 都会被重新计算。

🔗

show_label: bool | None

默认值 = None

如果为 True，将显示标签。

🔗

container: bool

默认值 = True

如果为 True，将把组件放置在一个容器中——在边框周围提供一些额外的填充。

🔗

scale: int | None

默认值 = None

相对于同行相邻组件的相对宽度。例如，如果组件 A 的 scale=2，组件 B 的 scale=1，则 A 的宽度将是 B 的两倍。应为整数。

🔗

min_width: int

默认值 = 160

最小像素宽度，如果屏幕空间不足以满足此值，则会换行。如果某个 scale 值导致此组件宽度小于 min_width，则将首先遵循 min_width 参数。

🔗

interactive: bool | None

默认值 = None

如果为 True，将允许用户上传和编辑音频文件。如果为 False，则只能用于播放音频。如果未提供，则根据组件是用作输入还是输出进行推断。

🔗

visible: bool

默认值 = True

如果为 False，组件将被隐藏。

🔗

streaming: bool

默认值 = False

如果在 `live` 接口中用作输入时设置为 True，将自动流式传输网络摄像头视频。用作输出时，会接收后端生成的音频块并将其合并为一个流式音频输出。

🔗

elem_id: str | None

默认值 = None

一个可选字符串，在 HTML DOM 中作为此组件的 id。可用于 CSS 样式定位。

🔗

elem_classes: list[str] | str | None

默认值 = None

一个可选的字符串列表，在 HTML DOM 中作为此组件的类。可用于 CSS 样式定位。

🔗

render: bool

默认值 = True

如果为 False，组件将不会在 Blocks 上下文中渲染。如果目的是现在分配事件监听器但稍后渲染组件，则应使用此参数。

🔗

key: int | str | tuple[int | str, ...] | None

默认值 = None

在 gr.render 中，跨重新渲染具有相同键的组件被视为相同组件，而不是新组件。在 'preserved_by_key' 中设置的属性不会在重新渲染时重置。

🔗

preserved_by_key: list[str] | str | None

默认值 = "value"

此组件构造函数中的参数列表。在 gr.render() 函数中，如果一个组件以相同的键重新渲染，这些（且仅这些）参数将被保留在 UI 中（如果它们已被用户或事件监听器更改），而不是根据构造函数中提供的值重新渲染。

🔗

format: Literal['wav', 'mp3'] | None

默认值 = None

保存音频文件的文件扩展名。可以是 'wav' 或 'mp3'。wav 文件是无损的，但文件往往更大。mp3 文件往往更小。此参数适用于两种情况：当此组件用作输入（且 `type` 为 "filepath"）时，用于确定将用户提供的音频转换为哪种文件格式；以及当此组件用作输出时，用于确定返回给用户的音频格式。如果为 None，则不进行文件格式转换，音频保持原样。如果预测函数返回的输出音频是 numpy 数组且未提供 `format`，则将以 "wav" 文件格式返回。

🔗

autoplay: bool

默认值 = False

当组件用作输出时是否自动播放音频。注意：如果用户尚未与页面互动，浏览器不会自动播放音频文件。

🔗

show_download_button: bool | None

默认值 = None

如果为 True，将在组件角落显示一个下载按钮以保存音频。如果为 False，则不显示图标。默认情况下，输出组件为 True，输入组件为 False。

🔗

show_share_button: bool | None

默认值 = None

如果为 True，将在组件角落显示一个分享图标，允许用户将输出分享到 Hugging Face Spaces 讨论区。如果为 False，则不显示图标。如果设置为 None（默认行为），则当此 Gradio 应用在 Spaces 上启动时显示图标，否则不显示。

🔗

editable: bool

默认值 = True

如果为 True，则在组件具有交互性时允许用户操作音频文件。默认为 True。

🔗

min_length: int | None

默认值 = None

用户可以传递到预测函数的音频的最小长度（秒）。如果为 None，则没有最小长度。

🔗

max_length: int | None

默认值 = None

用户可以传递到预测函数的音频的最大长度（秒）。如果为 None，则没有最大长度。

🔗

waveform_options: WaveformOptions | dict | None

默认值 = None

波形显示选项的字典。选项包括：waveform_color (str), waveform_progress_color (str), show_controls (bool), skip_length (int), trim_region_color (str)。默认值为 None，这意味着使用这些选项的默认值。参阅 `gr.WaveformOptions` 文档。

🔗

loop: bool

默认值 = False

如果为 True，音频将在播放结束时循环并从头开始播放。

🔗

recording: bool

默认值 = False

如果为 True，当源设置为 "microphone" 时，音频组件将被设置为从麦克风录制音频。默认为 False。

快捷方式

类	Interface 字符串快捷方式	初始化
`gradio.Audio`	"audio"	使用默认值
`gradio.Microphone`	"microphone"	使用 sources=["microphone"]

演示

import numpy as np import gradio as gr notes = ["C", "C#", "D", "D#", "E", "F", "F#", "G", "G#", "A", "A#", "B"] def generate_tone(note, octave, duration): sr = 48000 a4_freq, tones_from_a4 = 440, 12 * (octave - 4) + (note - 9) frequency = a4_freq * 2 ** (tones_from_a4 / 12) duration = int(duration) audio = np.linspace(0, duration, duration * sr) audio = (20000 * np.sin(audio * (2 * np.pi * frequency))).astype(np.int16) return sr, audio demo = gr.Interface( generate_tone, [ gr.Dropdown(notes, type="index"), gr.Slider(4, 6, step=1), gr.Textbox(value="1", label="Duration in seconds"), ], "audio", ) if __name__ == "__main__": demo.launch()

import numpy as np
import gradio as gr

notes = ["C", "C#", "D", "D#", "E", "F", "F#", "G", "G#", "A", "A#", "B"]

def generate_tone(note, octave, duration):
    sr = 48000
    a4_freq, tones_from_a4 = 440, 12 * (octave - 4) + (note - 9)
    frequency = a4_freq * 2 ** (tones_from_a4 / 12)
    duration = int(duration)
    audio = np.linspace(0, duration, duration * sr)
    audio = (20000 * np.sin(audio * (2 * np.pi * frequency))).astype(np.int16)
    return sr, audio

demo = gr.Interface(
    generate_tone,
    [
        gr.Dropdown(notes, type="index"),
        gr.Slider(4, 6, step=1),
        gr.Textbox(value="1", label="Duration in seconds"),
    ],
    "audio",
)
if __name__ == "__main__":
    demo.launch()

import numpy as np import gradio as gr def reverse_audio(audio): sr, data = audio return (sr, np.flipud(data)) input_audio = gr.Audio( sources=["microphone"], waveform_options=gr.WaveformOptions( waveform_color="#01C6FF", waveform_progress_color="#0066B4", skip_length=2, show_controls=False, ), ) demo = gr.Interface( fn=reverse_audio, inputs=input_audio, outputs="audio" ) if __name__ == "__main__": demo.launch()


import numpy as np

import gradio as gr

def reverse_audio(audio):
    sr, data = audio
    return (sr, np.flipud(data))

input_audio = gr.Audio(
    sources=["microphone"],
    waveform_options=gr.WaveformOptions(
        waveform_color="#01C6FF",
        waveform_progress_color="#0066B4",
        skip_length=2,
        show_controls=False,
    ),
)
demo = gr.Interface(
    fn=reverse_audio,
    inputs=input_audio,
    outputs="audio"
)

if __name__ == "__main__":
    demo.launch()

事件监听器

描述

事件监听器允许您响应用户与 Gradio Blocks 应用中定义的 UI 组件的交互。当用户与某个元素（例如更改滑块值或上传图像）交互时，会调用一个函数。

支持的事件监听器

Audio 组件支持以下事件监听器。每个事件监听器都接受相同的参数，这些参数在下面的事件参数表中列出。

监听器	描述
`Audio.stream(fn, ···)`	当用户流式传输音频时，此监听器被触发。
`Audio.change(fn, ···)`	当 Audio 的值因用户输入（例如用户在文本框中输入）或函数更新（例如图像从事件触发器的输出接收值）而改变时触发。有关仅由用户输入触发的监听器，请参阅 `.input()`。
`Audio.clear(fn, ···)`	当用户使用组件的清除按钮清除音频时，此监听器被触发。
`Audio.play(fn, ···)`	当用户播放 Audio 中的媒体时，此监听器被触发。
`Audio.pause(fn, ···)`	当 Audio 中的媒体因任何原因停止时，此监听器被触发。
`Audio.stop(fn, ···)`	当用户达到 Audio 中媒体的末尾时，此监听器被触发。
`Audio.pause(fn, ···)`	当 Audio 中的媒体因任何原因停止时，此监听器被触发。
`Audio.start_recording(fn, ···)`	当用户开始使用 Audio 录制时，此监听器被触发。
`Audio.pause_recording(fn, ···)`	当用户暂停使用 Audio 录制时，此监听器被触发。
`Audio.stop_recording(fn, ···)`	当用户停止使用 Audio 录制时，此监听器被触发。
`Audio.upload(fn, ···)`	当用户将文件上传到 Audio 时，此监听器被触发。
`Audio.input(fn, ···)`	当用户更改 Audio 的值时，此监听器被触发。

事件参数

🔗

fn: Callable | None | Literal['decorator']

默认值 = "decorator"

此事件触发时要调用的函数。通常是机器学习模型的预测函数。函数的每个参数对应一个输入组件，函数应返回一个单个值或一个值元组，元组中的每个元素对应一个输出组件。

🔗

inputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None

默认值 = None

用作输入的 gradio.components 列表。如果函数不接受输入，则应为空列表。

🔗

outputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None

默认值 = None

用作输出的 gradio.components 列表。如果函数不返回输出，则应为空列表。

🔗

api_name: str | None | Literal[False]

默认值 = None

定义端点在 API 文档中如何显示。可以是字符串、None 或 False。如果设置为字符串，则端点将以给定名称在 API 文档中公开。如果为 None（默认），则函数名称将用作 API 端点。如果为 False，则端点不会在 API 文档中公开，并且下游应用（包括那些 `gr.load` 此应用的应用）将无法使用此事件。

🔗

scroll_to_output: bool

默认值 = False

如果为 True，完成时将滚动到输出组件

🔗

show_progress: Literal['full', 'minimal', 'hidden']

默认值 = "minimal"

事件运行时如何显示进度动画："full" 显示一个覆盖输出组件区域和右上角运行时显示的小程序，"minimal" 仅显示运行时显示，"hidden" 不显示任何进度动画

🔗

show_progress_on: Component | list[Component] | None

默认值 = None

显示进度动画的组件或组件列表。如果为 None，将在所有输出组件上显示进度动画。

🔗

queue: bool

默认值 = True

如果为 True，如果队列已启用，将把请求放入队列。如果为 False，则不会将此事件放入队列，即使队列已启用。如果为 None，将使用 Gradio 应用的队列设置。

🔗

batch: bool

默认值 = False

如果为 True，则函数应处理一批输入，这意味着它应接受每个参数的输入值列表。这些列表应具有相同的长度（且最多为 `max_batch_size` 长度）。然后，函数*必须*返回一个列表元组（即使只有一个输出组件），元组中的每个列表对应一个输出组件。

🔗

max_batch_size: int

默认值 = 4

如果从队列调用此事件（仅当 batch=True 时相关），则批量处理的最大输入数量。

🔗

preprocess: bool

默认值 = True

如果为 False，则在运行 'fn' 之前不会对组件数据进行预处理（例如，如果使用 `Image` 组件调用此方法，则将其保留为 base64 字符串）。

🔗

postprocess: bool

默认值 = True

如果为 False，则在将 'fn' 输出返回给浏览器之前不会对组件数据进行后处理。

🔗

cancels: dict[str, Any] | list[dict[str, Any]] | None

默认值 = None

当此监听器触发时要取消的其他事件列表。例如，设置 cancels=[click_event] 将取消 click_event，其中 click_event 是另一个组件的 .click 方法的返回值。尚未运行的函数（或正在迭代的生成器）将被取消，但当前正在运行的函数将被允许完成。

🔗

trigger_mode: Literal['once', 'multiple', 'always_last'] | None

默认值 = None

如果为 "once"（除 `.change()` 之外所有事件的默认值），则在事件待处理期间不允许任何提交。如果设置为 "multiple"，则在待处理期间允许无限次提交，而 "always_last"（`.change()` 和 `.key_up()` 事件的默认值）将允许在待处理事件完成后进行第二次提交。

🔗

js: str | Literal[True] | None

默认值 = None

在运行 'fn' 之前运行的可选前端 js 方法。js 方法的输入参数是 'inputs' 和 'outputs' 的值，返回值应是输出组件的值列表。

🔗

concurrency_limit: int | None | Literal['default']

默认值 = "default"

如果设置，这是此事件可以同时运行的最大数量。可以设置为 None 表示没有 concurrency_limit（此事件的任意数量可以同时运行）。设置为 "default" 以使用默认的并发限制（由 `Blocks.queue()` 中的 `default_concurrency_limit` 参数定义，其本身默认为 1）。

🔗

concurrency_id: str | None

默认值 = None

如果设置，这是并发组的 id。具有相同 concurrency_id 的事件将受到最低设置的 concurrency_limit 的限制。

🔗

show_api: bool

默认值 = True

是否在 Gradio 应用的 "view API" 页面或 Gradio 客户端的 ".view_api()" 方法中显示此事件。与将 api_name 设置为 False 不同，将 show_api 设置为 False 仍然允许下游应用以及客户端使用此事件。如果 fn 为 None，show_api 将自动设置为 False。

🔗

time_limit: int | None

默认值 = None

🔗

stream_every: float

默认值 = 0.5

🔗

like_user_message: bool

默认值 = False

🔗

key: int | str | tuple[int | str, ...] | None

默认值 = None

此事件监听器在 @gr.render() 中使用的唯一键。如果设置，当键相同时，此值将标识跨重新渲染的事件是否相同。

辅助类

WaveformOptions

gradio.WaveformOptions(···)

描述

一个用于指定 Audio 组件中波形显示选项的数据类。此类的实例可以传递给 `gr.Audio` 的 `waveform_options` 参数。

初始化

🔗

waveform_color: str | None

默认值 = None

完整波形的颜色（十六进制字符串或有效的 CSS 颜色），表示音频的振幅。默认为浅灰色。

🔗

waveform_progress_color: str | None

默认值 = None

波形随音频播放填充的颜色（十六进制字符串或有效的 CSS 颜色）。默认为强调色。

🔗

trim_region_color: str | None

默认值 = None

修剪区域的颜色（十六进制字符串或有效的 CSS 颜色）。默认为强调色。

🔗

show_recording_waveform: bool

默认值 = True

如果为 True，在录制或播放音频时显示波形。如果为 False，则使用默认的浏览器音频播放器。对于流式音频，始终使用默认的浏览器音频播放器。

🔗

show_controls: bool

默认值 = False

已弃用且无效。请改用 `show_recording_waveform`。

🔗

skip_length: int | float

默认值 = 5

点击快进/快退按钮时跳过的音频百分比（0 到 100 之间）。

🔗

sample_rate: int

默认值 = 44100

编辑后音频的输出采样率（赫兹）。

指南

实时语音识别

←

AnnotatedImage

BarPlot

→

Audio

描述

创建一个音频组件，可用于上传/录制音频（作为输入）或显示音频（作为输出）。

行为

您的函数应该接受其中一种类型

您的函数应该返回其中一种类型

初始化

快捷方式

演示

事件监听器

描述

支持的事件监听器

事件参数

辅助类

WaveformOptions

描述

一个用于指定 Audio 组件中波形显示选项的数据类。此类的实例可以传递给 gr.Audio 的 waveform_options 参数。

初始化

指南

一个用于指定 Audio 组件中波形显示选项的数据类。此类的实例可以传递给 `gr.Audio` 的 `waveform_options` 参数。