- 组件
- 音频
音频
gradio.Audio(···)描述
创建一个音频组件,可用于上传/录制音频(作为输入)或显示音频(作为输出)。
行为
作为输入组件: 根据 type 的不同,以这些格式之一传递音频:一个 str 文件路径,或者一个 tuple (采样率,音频数据作为 numpy 数组)。如果是后者,音频数据是一个 16 位 int 数组,其值范围从 -32768 到 32767,对于单声道音频,数组形状为 (样本数,),对于多声道音频,形状为 (样本数, 声道数)。
您的函数应接受其中一种类型
def predict(
value: str | tuple[int, np.ndarray] | None
)
...作为输出组件: 期望音频数据采用以下任一格式:一个 str 或 pathlib.Path 文件路径或音频文件的 URL,或者一个 bytes 对象(推荐用于流式传输),或者一个 tuple (采样率,音频数据作为 numpy 数组)。注意:如果音频作为 numpy 数组提供,音频将通过其峰值进行归一化,以避免在生成的音频中出现失真或削波。
您的函数应返回其中一种类型
def predict(···) -> str | Path | bytes | tuple[int, np.ndarray] | None
...
return value初始化
value: str | Path | tuple[int, np.ndarray] | Callable | None
value: str | Path | tuple[int, np.ndarray] | Callable | None= None一个路径、URL 或 [采样率, numpy 数组] 元组(采样率(赫兹),音频数据作为 float 或 int numpy 数组),用于 Audio 组件将采用的默认值。如果提供了函数,则每次应用程序加载时都会调用该函数来设置此组件的初始值。
sources: list[Literal['upload', 'microphone']] | Literal['upload', 'microphone'] | None
sources: list[Literal['upload', 'microphone']] | Literal['upload', 'microphone'] | None= None允许的音频来源列表。"upload" 创建一个用户可以拖放音频文件的框,"microphone" 创建一个麦克风输入。列表中的第一个元素将用作默认来源。如果为 None,则默认为 ["upload", "microphone"],或者如果 `streaming` 为 True,则默认为 ["microphone"]。
type: Literal['numpy', 'filepath']
type: Literal['numpy', 'filepath']= "numpy"音频文件在传递给预测函数之前转换成的格式。"numpy" 将音频转换为一个元组,包括:(整数采样率, numpy.array 数据),"filepath" 传递一个包含音频的临时文件的字符串路径。
label: str | I18nData | None
label: str | I18nData | None= None此组件的标签。显示在组件上方,如果该组件有示例表格,也用作标题。如果为 None 且在 `gr.Interface` 中使用,则标签将是此组件分配到的参数名称。
every: Timer | float | None
every: Timer | float | None= None持续调用 `value` 来重新计算它(如果 `value` 是一个函数,否则无效)。可以提供一个 Timer,其滴答声会重置 `value`,或者提供一个浮点数来为重置 Timer 提供常规间隔。
inputs: Component | list[Component] | set[Component] | None
inputs: Component | list[Component] | set[Component] | None= None用作计算 `value` 的输入的组件(如果 `value` 是一个函数,否则无效)。`value` 在输入更改时会重新计算。
scale: int | None
scale: int | None= None相对于同一行中相邻组件的相对宽度。例如,如果组件 A 的 scale=2,组件 B 的 scale=1,则 A 的宽度将是 B 的两倍。应为整数。
min_width: int
min_width: int= 160最小像素宽度,如果屏幕空间不足以满足此值,则会换行。如果某个 scale 值导致此组件比 min_width 窄,则首先遵循 min_width 参数。
interactive: bool | None
interactive: bool | None= None如果为 True,将允许用户上传和编辑音频文件。如果为 False,则只能用于播放音频。如果未提供,则根据组件是用作输入还是输出进行推断。
visible: bool | Literal['hidden']
visible: bool | Literal['hidden']= True如果为 False,组件将被隐藏。如果为 "hidden",组件将在视觉上隐藏,不占用布局空间,但仍存在于 DOM 中。如果为 "hidden",组件将在视觉上隐藏,不占用布局空间,但仍存在于 DOM 中。
streaming: bool
streaming: bool= False当在 `live` 接口中用作输入时,如果设置为 True,将自动流式传输网络摄像头馈送。当设置为输出时,它接受后端生成的音频块,并将它们组合成一个流式音频输出。
key: int | str | tuple[int | str, ...] | None
key: int | str | tuple[int | str, ...] | None= None在 `gr.render` 中,跨重渲染具有相同键的组件被视为同一个组件,而不是一个新组件。在 `preserved_by_key` 中设置的属性在重渲染时不会重置。
preserved_by_key: list[str] | str | None
preserved_by_key: list[str] | str | None= "value"此组件构造函数中的参数列表。在 `gr.render()` 函数内部,如果一个组件使用相同的键进行重渲染,则这些(也是唯一的)参数将在 UI 中被保留(如果它们已被用户或事件监听器更改),而不是根据构造函数中提供的值进行重渲染。
format: Literal['wav', 'mp3'] | None
format: Literal['wav', 'mp3'] | None= None用于保存音频文件的文件扩展名。可以是 'wav' 或 'mp3'。wav 文件是无损的,但文件会更大。mp3 文件通常更小。此参数既适用于此组件用作输入时(且 `type` 为 "filepath"),用于确定将用户提供的音频转换为哪种文件格式,也适用于此组件用作输出时,用于确定返回给用户的音频格式。如果为 None,则不进行文件格式转换,音频保持原样。如果输出音频是从预测函数以 numpy 数组形式返回,并且未提供 `format`,它将以 "wav" 文件形式返回。
buttons: list[Literal['download', 'share'] | Button] | None
buttons: list[Literal['download', 'share'] | Button] | None= None显示在组件右上角的按钮列表。有效选项包括 "download"、"share" 或 gr.Button() 实例。"download" 按钮允许用户将音频保存到其设备。"share" 按钮允许用户通过 Hugging Face Spaces Discussions 分享音频。自定义 gr.Button() 实例将以其配置的图标和/或标签出现在工具栏中,点击它们将触发在按钮上注册的任何 .click() 事件。默认情况下,仅显示 "download" 和 "share" 按钮。
waveform_options: WaveformOptions | dict | None
waveform_options: WaveformOptions | dict | None= None波形显示选项的字典。选项包括:waveform_color (str)、waveform_progress_color (str)、skip_length (int)、trim_region_color (str)。默认为 None,使用这些选项的默认值。请参阅 `gr.WaveformOptions` 文档。
快捷方式
gradio.Audio
gradio.Audio"audio"gradio.Microphone
gradio.Microphone"microphone"演示
事件监听器
描述
事件监听器允许您响应 Gradio Blocks 应用中定义的 UI 组件的用户交互。当用户与元素交互时(例如,更改滑块值或上传图像),会调用一个函数。
支持的事件监听器
Audio 组件支持以下事件监听器。每个事件监听器都采用相同的参数,这些参数列在下面的 事件参数 表中。
Audio.stream(fn, ···)
Audio.stream(fn, ···)当用户流式传输 Audio 时触发此监听器。
Audio.change(fn, ···)
Audio.change(fn, ···)当 Audio 的值发生变化时触发,无论是由于用户输入(例如,用户在文本框中输入)还是由于函数更新(例如,图像从事件触发的输出接收到值)。有关仅由用户输入触发的监听器,请参阅 .input()。
Audio.clear(fn, ···)
Audio.clear(fn, ···)当用户使用组件的清除按钮清除 Audio 时触发此监听器。
Audio.play(fn, ···)
Audio.play(fn, ···)当用户在 Audio 中播放媒体时触发此监听器。
Audio.pause(fn, ···)
Audio.pause(fn, ···)当 Audio 中的媒体因任何原因停止时触发此监听器。
Audio.stop(fn, ···)
Audio.stop(fn, ···)当用户播放 Audio 中的媒体到达末尾时触发此监听器。
Audio.pause(fn, ···)
Audio.pause(fn, ···)当 Audio 中的媒体因任何原因停止时触发此监听器。
Audio.start_recording(fn, ···)
Audio.start_recording(fn, ···)当用户开始使用 Audio 录制时触发此监听器。
Audio.pause_recording(fn, ···)
Audio.pause_recording(fn, ···)当用户暂停使用 Audio 录制时触发此监听器。
Audio.stop_recording(fn, ···)
Audio.stop_recording(fn, ···)当用户停止使用 Audio 录制时触发此监听器。
Audio.upload(fn, ···)
Audio.upload(fn, ···)当用户上传文件到 Audio 中时触发此监听器。
Audio.input(fn, ···)
Audio.input(fn, ···)当用户更改 Audio 的值时触发此监听器。
事件参数
fn: Callable | None | Literal['decorator']
fn: Callable | None | Literal['decorator']= "decorator"当此事件触发时调用的函数。通常是机器学习模型的预测函数。函数的每个参数对应一个输入组件,函数应返回一个单一值或一个值元组,元组中的每个元素对应一个输出组件。
inputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None
inputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None= None用作输入的 gradio.components 列表。如果函数不接受输入,则此列表应为空。
outputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None
outputs: Component | BlockContext | list[Component | BlockContext] | Set[Component | BlockContext] | None= None用作输出的 gradio.components 列表。如果函数不返回输出,则此列表应为空。
api_name: str | None
api_name: str | None= None定义该端点在 API 文档中如何显示。可以是字符串或 None。如果设置为字符串,则该端点将在 API 文档中以给定名称显示。如果为 None(默认),则使用函数的名称作为 API 端点。
api_description: str | None | Literal[False]
api_description: str | None | Literal[False]= NoneAPI 端点的描述。可以是字符串、None 或 False。如果设置为字符串,则该端点将在 API 文档中以给定描述显示。如果为 None,则使用函数的 docstring 作为 API 端点描述。如果为 False,则 API 文档中不会显示任何描述。
show_progress: Literal['full', 'minimal', 'hidden']
show_progress: Literal['full', 'minimal', 'hidden']= "minimal"事件运行时如何显示进度动画:“full”显示一个覆盖输出组件区域的加载指示器,并在右上角显示运行时信息,“minimal”仅显示运行时信息,“hidden”不显示任何进度动画。
show_progress_on: Component | list[Component] | None
show_progress_on: Component | list[Component] | None= None用于显示进度动画的组件或组件列表。如果为 None,则进度动画将显示在所有输出组件上。
queue: bool
queue: bool= True如果为 True,则会将请求放在队列中(如果队列已启用)。如果为 False,则不会将此事件放入队列,即使队列已启用。如果为 None,则将使用 Gradio 应用的队列设置。
batch: bool
batch: bool= False如果为 True,则函数应处理一批输入,这意味着它应该为每个参数接受一个输入值列表。列表的长度应相同(最多为 `max_batch_size`)。然后,该函数*必须*返回一个元组的列表(即使只有一个输出组件),元组中的每个列表对应一个输出组件。
preprocess: bool
preprocess: bool= True如果为 False,则在运行 'fn' 之前不会进行组件数据预处理(例如,当使用 `Image` 组件调用此方法时,将其保留为 base64 字符串)。
cancels: dict[str, Any] | list[dict[str, Any]] | None
cancels: dict[str, Any] | list[dict[str, Any]] | None= None取消其他事件的列表,当此监听器触发时。例如,设置 cancels=[click_event] 将会取消 click_event,其中 click_event 是另一个组件的 .click 方法的返回值。尚未运行的函数(或正在迭代的生成器)将被取消,但正在运行的函数将被允许完成。
trigger_mode: Literal['once', 'multiple', 'always_last'] | None
trigger_mode: Literal['once', 'multiple', 'always_last'] | None= None如果设置为 "once"(除 `.change()` 之外所有事件的默认值),则在事件挂起时不允许任何提交。如果设置为 "multiple",则在事件挂起时允许无限次提交,而 "always_last"(`.change()` 和 `.key_up()` 事件的默认值)则允许在挂起事件完成后进行第二次提交。
js: str | Literal[True] | None
js: str | Literal[True] | None= None在运行 'fn' 之前运行可选的前端 JS 方法。JS 方法的输入参数是 'inputs' 和 'outputs' 的值,返回值应为输出组件的值列表。
concurrency_limit: int | None | Literal['default']
concurrency_limit: int | None | Literal['default']= "default"如果设置,这是可以同时运行的此事件的最大数量。可以设置为 None,表示没有并发限制(此事件可以同时运行任意数量)。设置为 "default" 可使用 `Blocks.queue()` 中的 `default_concurrency_limit` 参数定义的默认并发限制(该参数本身默认为 1)。
concurrency_id: str | None
concurrency_id: str | None= None如果设置,这是并发组的 ID。具有相同 `concurrency_id` 的事件将受到最低设置的 `concurrency_limit` 的限制。
api_visibility: Literal['public', 'private', 'undocumented']
api_visibility: Literal['public', 'private', 'undocumented']= "public"控制此端点的可见性和可访问性。可以是 "public"(在 API 文档中显示并可由客户端调用)、"private"(在 API 文档中隐藏,不可由客户端调用)或 "undocumented"(在 API 文档中隐藏,但可由客户端通过 gr.load 调用)。如果 fn 为 None,则 api_visibility 将自动设置为 "private"。
辅助类
WaveformOptions
gradio.WaveformOptions(···)描述
一个用于指定 Audio 组件中波形显示选项的数据类。此类的实例可以传递给 gr.Audio 的 waveform_options 参数。
初始化
is_audio_correct_length
验证音频长度是否在指定的最小和最大长度(以秒为单位)内。您可以使用此项构建验证器,检查用户提供的音频是太短还是太长。
import gradio as gr
demo = gr.Interface(
lambda x: x,
inputs="audio",
outputs="audio",
validator=lambda audio: gr.validators.is_audio_correct_length(audio, min_length=1, max_length=5)
)
demo.launch()