使用视觉 Transformer 进行图像分类

简介

图像分类是计算机视觉中的一项核心任务。构建更好的分类器来识别图片中存在的物体是一个活跃的研究领域，因为它在从面部识别到制造质量控制等领域都有应用。

最先进的图像分类器基于 Transformer 架构，该架构最初因 NLP 任务而流行。这类架构通常被称为视觉 Transformer (ViT)。这些模型非常适合与 Gradio 的 image 输入组件一起使用，因此在本教程中，我们将使用 Gradio 构建一个用于图像分类的 Web 演示。我们将能够用一行 Python 代码构建整个 Web 应用程序，并且它将看起来像页面底部的演示。

让我们开始吧！

先决条件

请确保您已经安装了 gradio Python 包。

步骤 1 — 选择一个视觉图像分类模型

首先，我们需要一个图像分类模型。在本教程中，我们将使用 Hugging Face 模型中心的一个模型。该中心包含数千个模型，涵盖数十种不同的机器学习任务。

展开左侧边栏的“任务”类别，选择“图像分类”作为我们感兴趣的任务。然后您将看到中心中所有旨在分类图像的模型。

在撰写本文时，最受欢迎的模型是 google/vit-base-patch16-224，它已在 224x224 像素分辨率的 ImageNet 图像上进行训练。我们将在我们的演示中使用此模型。

步骤 2 — 使用 Gradio 加载视觉 Transformer 模型

当使用 Hugging Face 中心上的模型时，我们无需为演示定义输入或输出组件。同样，我们无需关注预处理或后处理的细节。所有这些都将从模型标签中自动推断出来。

除了导入语句，只需一行 Python 代码即可加载并启动演示。

我们使用 gr.Interface.load() 方法，并传入模型路径，其中包括 huggingface/ 以表明它来自 Hugging Face 中心。

import gradio as gr

gr.Interface.load(
             "huggingface/google/vit-base-patch16-224",
             examples=["alligator.jpg", "laptop.jpg"]).launch()

请注意，我们添加了另一个参数 examples，它允许我们使用一些预定义的示例来预填充我们的界面。

这将生成以下界面，您可以在浏览器中直接试用。当您输入图像时，它会自动预处理并发送到 Hugging Face Hub API，在那里通过模型处理后，以人类可理解的预测形式返回。尝试上传您自己的图像！

大功告成！您只用一行代码就构建了一个图像分类器的 Web 演示。如果您想与他人分享，请在 launch() Interface 时尝试设置 share=True！